Предсказание количества лайков. Сравнение несколько регрессионных алгоритмов.

В начале апреля я узнал о суперкрутом конкурсе SNA Hackaton. К сожалению, узнал я лишь за неделю, но и для того, чтобы принять в нём участие, надо было доделать более важные дела. Суть конкурса в том, что участникам выдавался небольшой (~500 МБ) набор данных, содержащий текст поста в Одноклассниках, его время, идентификатор и идентификатор группы, а также собранные им лайки.

Надо было построить такой алгоритм, который лучше всего предскажет количество лайков, которое наберёт какой-либо другой пост. Это вполне возможно сделать, обучив алгоритм на имеющихся данных, потому что вся необходимая информация уже есть в них. Как оказалось потом, на количество лайков влияет длина поста, его содержание, наличие фотографий и другие параметры.

Честно сказать, результатом пары бессонных ночей я доволен и не доволен одновременно. С одной стороны, хочется сказать спасибо организаторам за то, что дали такую прекрасную возможность проанализировать данные и построить и проверить все эти гипотезы. Благодаря этому конкурсу я немного больше узнал про SciKit-learn и NLP (Natural Language Processing, а не то, что вы подумали). Но с другой стороны, у меня появилось желание получить модель получше, которое я пока, к сожалению, не реализовал.

Поскольку блог сжимает оригинальный html файл, посмотреть результаты исследования можно и с нормальной версткой.
… 

 

Статистическая модель для определения перспективных отраслей инвестиционного фонда

Давече я наткнулся на интересный пост в Фейсбуке, в котором просили построить модель для определения интересных отраслей для инвестирования денег. И поскольку лет через 15, когда я вырасту большим и сильным, я буду работать в венчурном фонде, а также мне очень нравится заниматься анализом данных, я решил немного подумать над тем, как эти отрасли можно определять. Но поскольку, вопреки утверждению папы дяди Фёдора, с ума всё-таки лучше сходить всем вместе, то спекулировать умом над этим вопросом я позвал двух замечательных ребят: Сашу Лиса и Стаса Фискова, которые шарят в финансах и инвестировании куда больше меня. Результатам пары вечеров в google docs стала эта модель.

…