Российское сообщество Data Science / Data Mining / Big Data

В этом посте собраны все наиболее значимые и крупные сообщества по анализу данных в рунете. Он разбит на несколько разделов в зависимости от площадок.

Continue reading “Российское сообщество Data Science / Data Mining / Big Data”

Оптимизация валютного инвестиционного портфеля

Оптимизация валютного инвестиционного портфеля

Оригинал этого поста был написан в блоге Yhat — компании, развивающей онлайн-платформу по обработке данных Ryan’ом. Этот пост посвящен тому, как оптимизировать портфель инвестиций с целью получить максимальную прибыль при желаемом уровне риска. Несмотря на то, что в прримере описывается выбор инвестиций в иностранную валюту, это можно использовать для любых других вариантов вложений денег, потому что они все рассчитываются при помощи одной математической модели.
Continue reading “Оптимизация валютного инвестиционного портфеля”

Установка Ipython, SciPy, NumPy на Mac

Оказалось, что нельзя просто так взять и поставить ipython notebook на Mac. Даже используя менеджер пакетов brew.

Собственно, в этом небольшом руководстве содержится информация о том, как поставить всё необходимое для работы над анализом данных на Mac.

Continue reading “Установка Ipython, SciPy, NumPy на Mac”

Building HMM profile for the protein detection

Abstract

Background

Proteins are generally composed of one or more functional regions, which are called domains. These regions are independent folding units and can evolve, function, and exist independently of the rest of the protein chain.

Motivation

In this paper we describe using HMM to model the Kunitz domain. This model will be later validated and compared with the automatically curated Pfam database to understand benefits of manual model building.

Results

Regarding the comparison with the Pfam database model of a relatively good quality was built with the sensitivity of 0.994, specificity of 1, 0.927 precision  and accuracy of almost 1.

Continue reading “Building HMM profile for the protein detection”

TJournal и каким его можно узнать из интернета

История TJ

TJournal – это медиа нового поколения, которое активно использует парсинг социальных сетей для того, чтобы писать актуальные статьи, в том числе и про то, что происходит в соц сетях. Они делают трансляции происходящих событий, наподобие недавнего ФИПР и закрытия олимпиады.

Мир меняется, теперь очевидцы распространяют новость быстрее, чем журналисты, потому что они уже на месте и у них есть всё что нужно для того, чтобы рассказать о событии – их смартфон. Меняется мир журналистика меняется вместе с ним. Теперь недостаточно писать хорошие статьи, надо писать быстрее всех, быть актуальным и быть первым, поэтому мы и читаем TJ, потому что знаем, что обзор свежей информации появится там быстрее. Сказанное выше справедливо и для ЦП, потому что эти два издания недавно объединились на одной платформе.

Continue reading “TJournal и каким его можно узнать из интернета”

Критерии обнаружения и корреляции аномалий

Помимо различных скучных и привычных как чистка зубов по утрам критериев для проверки среднего, дисперсии и нормальности, есть и критерии, которые позволяют творить настоящие чудеса — определять наличие аномалий в каких-то графиках и корреляции между величинами. Естественно, что корреляции можно найти между чем угодно (например, между ростом расходов США на науку и количеством самоубийств), но это только один из примеров того, что корреляция не предполагает логическую зависимость. Помимо этого есть возможность понять что что-то идёт не так. Не иметь жалкие подозрения, а действительно подтвердить свои мысли результатами проверки критериев.

Continue reading “Критерии обнаружения и корреляции аномалий”

Шпаргалка про статистические ошибки и точность алгоритмов.

Самое главное в статистике — это знать, насколько ты ошибаешься. Поэтому существует большое количество различных способов рассчитать ошибку алгоритма, чтобы понять насколько точно ты посчитал то, что ты посчитал и что же ты на самом деле находишь. В этом посте я написал про парадокс Симпсона, ошибки первого и второго рода, точность и мощность алгоритмов.

Continue reading “Шпаргалка про статистические ошибки и точность алгоритмов.”

Машинное обучение, анализ данных — это следующая индустриальная революция

Я много пишу про анализ данных или про большие данные. Но многие из моих друзей имеют весьма смутное представление о том, что это такое и почему это так круто.

Анализ данных — это то, почему вы видите похожие товары, когда покупаете что-нибудь в интернет-магазине. Это то, почему лучшие сайты оказываются на первой странице гугла. Благодаря им, авиакомпании могут делать скидки на билеты, потому что понимают, что спрос на них падает.  Благодаря машинному обучению можно предсказать, сколько человек придёт на выборы, какая команда выиграет матч или даже беременность по изменившемуся списку еженедельных покупок.

Continue reading “Машинное обучение, анализ данных — это следующая индустриальная революция”

Предсказание количества лайков. Сравнение несколько регрессионных алгоритмов.

В начале апреля я узнал о суперкрутом конкурсе SNA Hackaton. К сожалению, узнал я лишь за неделю, но и для того, чтобы принять в нём участие, надо было доделать более важные дела. Суть конкурса в том, что участникам выдавался небольшой (~500 МБ) набор данных, содержащий текст поста в Одноклассниках, его время, идентификатор и идентификатор группы, а также собранные им лайки.

Надо было построить такой алгоритм, который лучше всего предскажет количество лайков, которое наберёт какой-либо другой пост. Это вполне возможно сделать, обучив алгоритм на имеющихся данных, потому что вся необходимая информация уже есть в них. Как оказалось потом, на количество лайков влияет длина поста, его содержание, наличие фотографий и другие параметры.

Честно сказать, результатом пары бессонных ночей я доволен и не доволен одновременно. С одной стороны, хочется сказать спасибо организаторам за то, что дали такую прекрасную возможность проанализировать данные и построить и проверить все эти гипотезы. Благодаря этому конкурсу я немного больше узнал про SciKit-learn и NLP (Natural Language Processing, а не то, что вы подумали). Но с другой стороны, у меня появилось желание получить модель получше, которое я пока, к сожалению, не реализовал.

Поскольку блог сжимает оригинальный html файл, посмотреть результаты исследования можно и с нормальной версткой.
Continue reading “Предсказание количества лайков. Сравнение несколько регрессионных алгоритмов.”

Статистическая модель для определения перспективных отраслей инвестиционного фонда

Давече я наткнулся на интересный пост в Фейсбуке, в котором просили построить модель для определения интересных отраслей для инвестирования денег. И поскольку лет через 15, когда я вырасту большим и сильным, я буду работать в венчурном фонде, а также мне очень нравится заниматься анализом данных, я решил немного подумать над тем, как эти отрасли можно определять. Но поскольку, вопреки утверждению папы дяди Фёдора, с ума всё-таки лучше сходить всем вместе, то спекулировать умом над этим вопросом я позвал двух замечательных ребят: Сашу Лиса и Стаса Фискова, которые шарят в финансах и инвестировании куда больше меня. Результатам пары вечеров в google docs стала эта модель.

Continue reading “Статистическая модель для определения перспективных отраслей инвестиционного фонда”