Установка Ipython, SciPy, NumPy на Mac

Оказалось, что нельзя просто так взять и поставить ipython notebook на Mac. Даже используя менеджер пакетов brew.

Собственно, в этом небольшом руководстве содержится информация о том, как поставить всё необходимое для работы над анализом данных на Mac.

Continue reading “Установка Ipython, SciPy, NumPy на Mac”

TJournal и каким его можно узнать из интернета

История TJ

TJournal – это медиа нового поколения, которое активно использует парсинг социальных сетей для того, чтобы писать актуальные статьи, в том числе и про то, что происходит в соц сетях. Они делают трансляции происходящих событий, наподобие недавнего ФИПР и закрытия олимпиады.

Мир меняется, теперь очевидцы распространяют новость быстрее, чем журналисты, потому что они уже на месте и у них есть всё что нужно для того, чтобы рассказать о событии – их смартфон. Меняется мир журналистика меняется вместе с ним. Теперь недостаточно писать хорошие статьи, надо писать быстрее всех, быть актуальным и быть первым, поэтому мы и читаем TJ, потому что знаем, что обзор свежей информации появится там быстрее. Сказанное выше справедливо и для ЦП, потому что эти два издания недавно объединились на одной платформе.

Continue reading “TJournal и каким его можно узнать из интернета”

Манипуляция и обработка данных в Python (Data wrangling and munging)

Тем временем, я продолжаю переводить статьи с примерами синтаксиса, посвящённые тому, как использовать Pandas для анализа данных. В этом переводе нет графиков, зато полностью раскрывается тема того, как можно обращаться с массивом данных, совмещать несколько в один, обращаться к столбцам, а также различным образом группировать и выбирать данные из набора.

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

Другие статьи по работе с данными в Python

Шпаргалка по статистическому анализу

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2

Анализ данных при помощи Python. Графики в pandas и matplotlib.

Continue reading “Манипуляция и обработка данных в Python (Data wrangling and munging)”

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2

В первом и втором я показал, как можно начинать исследование данных. Сегодня публикую ещё один перевод, на основе ещё одной конспекта про то, как это делается. В отличии от первых двух постов, тут будет больше синтаксиса с манипуляцией данными (data munging).

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

Continue reading “Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2”

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)

В первом посте я написал про то, какие графики можно построить при помощи matplotlib и pandas. А теперь посмотрим на то, с чего начинается любой анализ данных на самом деле. В этом переводе рассматривается как загрузить набор данных, рассмотреть с какими переменными мы имеем дело и сделать какие-то первые выводы.

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

Continue reading “Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)”

Анализ данных при помощи Python. Графики в pandas и matplotlib.

Поскольку для Мерку мы делаем очень много с точки зрения аналитики, я буду писать небольшие посты про то, как строить графики и анализировать данные. Кстати, если вы не имеете ни малейшего понятия, как можно визиуализировать данные, можно начать смотреть на этом замечательном ресурсе.

Для анализа данных и того, чтобы понять собственно, что за эти данными скрывается было придумано очень много сложных и не очень инструментов. Нас интересуют самые основные библиотеки, которые применяются при анализа данных при помощи Пайтона: NumPySciPy, Matplotlib и Pandas. При помощи них мы познакомимся с тем, с чего начинается любое исследование – посмотрим на имеющиеся данные и попытаемся понять, с чем имеем дело. В англоязычной литературе это называется Exploratory Analysis. При написании этого поста я нашёл несколько IPython конспектов, на основе которых и оформляю этот пост. Ссылки на них приведены в конце.

Немного позже я переведу и дополню посты, которые рассматривают все манипуляции с данными, а также различные статистики, которые бывает полезно изучить, прежде чем пытаться что-то анализировать.

Continue reading “Анализ данных при помощи Python. Графики в pandas и matplotlib.”