Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2

В первом и втором я показал, как можно начинать исследование данных. Сегодня публикую ещё один перевод, на основе ещё одной конспекта про то, как это делается. В отличии от первых двух постов, тут будет больше синтаксиса с манипуляцией данными (data munging).

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

… 

 

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)

В первом посте я написал про то, какие графики можно построить при помощи matplotlib и pandas. А теперь посмотрим на то, с чего начинается любой анализ данных на самом деле. В этом переводе рассматривается как загрузить набор данных, рассмотреть с какими переменными мы имеем дело и сделать какие-то первые выводы.

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

… 

 

Анализ данных при помощи Python. Графики в pandas и matplotlib.

Поскольку для Мерку мы делаем очень много с точки зрения аналитики, я буду писать небольшие посты про то, как строить графики и анализировать данные. Кстати, если вы не имеете ни малейшего понятия, как можно визиуализировать данные, можно начать смотреть на этом замечательном ресурсе.

Для анализа данных и того, чтобы понять собственно, что за эти данными скрывается было придумано очень много сложных и не очень инструментов. Нас интересуют самые основные библиотеки, которые применяются при анализа данных при помощи Пайтона: NumPySciPy, Matplotlib и Pandas. При помощи них мы познакомимся с тем, с чего начинается любое исследование – посмотрим на имеющиеся данные и попытаемся понять, с чем имеем дело. В англоязычной литературе это называется Exploratory Analysis. При написании этого поста я нашёл несколько IPython конспектов, на основе которых и оформляю этот пост. Ссылки на них приведены в конце.

Немного позже я переведу и дополню посты, которые рассматривают все манипуляции с данными, а также различные статистики, которые бывает полезно изучить, прежде чем пытаться что-то анализировать.

…