Оптимизация валютного инвестиционного портфеля

Оптимизация валютного инвестиционного портфеля

Оригинал этого поста был написан в блоге Yhat — компании, развивающей онлайн-платформу по обработке данных Ryan’ом. Этот пост посвящен тому, как оптимизировать портфель инвестиций с целью получить максимальную прибыль при желаемом уровне риска. Несмотря на то, что в прримере описывается выбор инвестиций в иностранную валюту, это можно использовать для любых других вариантов вложений денег, потому что они все рассчитываются при помощи одной математической модели.
Continue reading “Оптимизация валютного инвестиционного портфеля”

Установка Ipython, SciPy, NumPy на Mac

Оказалось, что нельзя просто так взять и поставить ipython notebook на Mac. Даже используя менеджер пакетов brew.

Собственно, в этом небольшом руководстве содержится информация о том, как поставить всё необходимое для работы над анализом данных на Mac.

Continue reading “Установка Ipython, SciPy, NumPy на Mac”

TJournal и каким его можно узнать из интернета

История TJ

TJournal – это медиа нового поколения, которое активно использует парсинг социальных сетей для того, чтобы писать актуальные статьи, в том числе и про то, что происходит в соц сетях. Они делают трансляции происходящих событий, наподобие недавнего ФИПР и закрытия олимпиады.

Мир меняется, теперь очевидцы распространяют новость быстрее, чем журналисты, потому что они уже на месте и у них есть всё что нужно для того, чтобы рассказать о событии – их смартфон. Меняется мир журналистика меняется вместе с ним. Теперь недостаточно писать хорошие статьи, надо писать быстрее всех, быть актуальным и быть первым, поэтому мы и читаем TJ, потому что знаем, что обзор свежей информации появится там быстрее. Сказанное выше справедливо и для ЦП, потому что эти два издания недавно объединились на одной платформе.

Continue reading “TJournal и каким его можно узнать из интернета”

Критерии обнаружения и корреляции аномалий

Помимо различных скучных и привычных как чистка зубов по утрам критериев для проверки среднего, дисперсии и нормальности, есть и критерии, которые позволяют творить настоящие чудеса — определять наличие аномалий в каких-то графиках и корреляции между величинами. Естественно, что корреляции можно найти между чем угодно (например, между ростом расходов США на науку и количеством самоубийств), но это только один из примеров того, что корреляция не предполагает логическую зависимость. Помимо этого есть возможность понять что что-то идёт не так. Не иметь жалкие подозрения, а действительно подтвердить свои мысли результатами проверки критериев.

Continue reading “Критерии обнаружения и корреляции аномалий”

Машинное обучение, анализ данных — это следующая индустриальная революция

Я много пишу про анализ данных или про большие данные. Но многие из моих друзей имеют весьма смутное представление о том, что это такое и почему это так круто.

Анализ данных — это то, почему вы видите похожие товары, когда покупаете что-нибудь в интернет-магазине. Это то, почему лучшие сайты оказываются на первой странице гугла. Благодаря им, авиакомпании могут делать скидки на билеты, потому что понимают, что спрос на них падает.  Благодаря машинному обучению можно предсказать, сколько человек придёт на выборы, какая команда выиграет матч или даже беременность по изменившемуся списку еженедельных покупок.

Continue reading “Машинное обучение, анализ данных — это следующая индустриальная революция”

Предсказание количества лайков. Сравнение несколько регрессионных алгоритмов.

В начале апреля я узнал о суперкрутом конкурсе SNA Hackaton. К сожалению, узнал я лишь за неделю, но и для того, чтобы принять в нём участие, надо было доделать более важные дела. Суть конкурса в том, что участникам выдавался небольшой (~500 МБ) набор данных, содержащий текст поста в Одноклассниках, его время, идентификатор и идентификатор группы, а также собранные им лайки.

Надо было построить такой алгоритм, который лучше всего предскажет количество лайков, которое наберёт какой-либо другой пост. Это вполне возможно сделать, обучив алгоритм на имеющихся данных, потому что вся необходимая информация уже есть в них. Как оказалось потом, на количество лайков влияет длина поста, его содержание, наличие фотографий и другие параметры.

Честно сказать, результатом пары бессонных ночей я доволен и не доволен одновременно. С одной стороны, хочется сказать спасибо организаторам за то, что дали такую прекрасную возможность проанализировать данные и построить и проверить все эти гипотезы. Благодаря этому конкурсу я немного больше узнал про SciKit-learn и NLP (Natural Language Processing, а не то, что вы подумали). Но с другой стороны, у меня появилось желание получить модель получше, которое я пока, к сожалению, не реализовал.

Поскольку блог сжимает оригинальный html файл, посмотреть результаты исследования можно и с нормальной версткой.
Continue reading “Предсказание количества лайков. Сравнение несколько регрессионных алгоритмов.”

Анализ 300 лучших комментариев на TJournal.ru

Когда ты любишь то, чем ты занимаешься – это болезнь. Хорошо, если тебе нравится не коллекционировать марки, потому что мало кто способен выслушивать то, как ты можешь часами рассуждать насчёт отличий английских марок 30х от бельгийских, которые выпускались в 40х. Просто прекрасно, если тебе нравится валить боком или кататься на сноуборде, потому что тогда наверняка у тебя будет парочка историй, которые будут интересны кому-то, кроме таких же сумасшедших как ты.

А мне нравится заниматься анализом данных и статистикой. И в этом есть свои плюсы. Потому что мне нравится думать. И минусы. Потому что часов 6 крайних я провёл, пытаясь разобраться, почему же так криво строятся графики, а до этого часа два пытался понять, что же не так с кодировкой и почему нельзя нормально спарсить пару значений. Но в конце концов я довёл работу до приемлиемого результата.

Continue reading “Анализ 300 лучших комментариев на TJournal.ru”

Манипуляция и обработка данных в Python (Data wrangling and munging)

Тем временем, я продолжаю переводить статьи с примерами синтаксиса, посвящённые тому, как использовать Pandas для анализа данных. В этом переводе нет графиков, зато полностью раскрывается тема того, как можно обращаться с массивом данных, совмещать несколько в один, обращаться к столбцам, а также различным образом группировать и выбирать данные из набора.

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

Другие статьи по работе с данными в Python

Шпаргалка по статистическому анализу

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2

Анализ данных при помощи Python. Графики в pandas и matplotlib.

Continue reading “Манипуляция и обработка данных в Python (Data wrangling and munging)”

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2

В первом и втором я показал, как можно начинать исследование данных. Сегодня публикую ещё один перевод, на основе ещё одной конспекта про то, как это делается. В отличии от первых двух постов, тут будет больше синтаксиса с манипуляцией данными (data munging).

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

Continue reading “Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2”

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)

В первом посте я написал про то, какие графики можно построить при помощи matplotlib и pandas. А теперь посмотрим на то, с чего начинается любой анализ данных на самом деле. В этом переводе рассматривается как загрузить набор данных, рассмотреть с какими переменными мы имеем дело и сделать какие-то первые выводы.

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

Continue reading “Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)”