Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis) часть 2

В первом и втором я показал, как можно начинать исследование данных. Сегодня публикую ещё один перевод, на основе ещё одной конспекта про то, как это делается. В отличии от первых двух постов, тут будет больше синтаксиса с манипуляцией данными (data munging).

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

… 

 

Анализ данных при помощи Python. Основные статистики и обзор данных (Exploratory Analysis)

В первом посте я написал про то, какие графики можно построить при помощи matplotlib и pandas. А теперь посмотрим на то, с чего начинается любой анализ данных на самом деле. В этом переводе рассматривается как загрузить набор данных, рассмотреть с какими переменными мы имеем дело и сделать какие-то первые выводы.

Если что-то отображается некорректно, то можно посмотреть оригинальный html файл или сгенерировать его из ipynb исходника.

… 

 

Куда движется мир

Когда кого-то спросили, я уже и не помню кого, в отношении того, как стоит оценивать Сталина и то, что он делал, пока был Вождём СССР, этот мудрый человек сказал, что ещё слишком рано делать выводы, что их можно будет делать лет через 100, если не больше.

К чему это я? Да к тому, что я крайне рад, что уже сейчас можно замечать те вещи, которые будут ещё более значимым лет через 10.

Это — публичность и открытость. Когда люди и бренды не стесняются рассказывать о своих проблемах, становясь понятнее и ближе к народу. Можно привести в пример твиттеры Marvel и Star Wars, которые не стесняются говорить о том, что уже пора сделать паузу в работе и встретиться в кафетерии, можно вспомнить и потрясающего Фёдора Овчинникова, который пишет про выручку каждой из своих пиццерий и максимально прозрачно рассказывает о том, на каких оснваниях строится его компания, какие ценности он в неё закладывает и как разговаривает с инвесторами. Можно даже привести в пример то, что спортсмены оставляют свои личные телефоны на шлеме, для того, чтобы им писали люди.

Экономика спускается до людей вместе с AirBnb и flightcar, когда люди сдают свои квартиры, уезжая в отпуск, или машины в прокат, пока их не будет в городе. p2p-экономика будет ещё больше способствовать рациональному использованию ресурсов и продуктов.

Ещё одной важной вехой является тренд с использованием статистики. И я говорю сейчас не о требайтах данных, которые процессит гугл/ебей/амазон, для того, чтобы определять тренды, или подсказывать похожие товары. Я говорю о появлении доступных решениях, которые позволяют обычным интернет-магазинам реализовывать это в 2 клика из коробки. Я говорю о той же Додо-пицце, которая начала использовать этот подход в реальной жизни, ведь как сказал Александр Галицкий (всего лишь глава самого крупного инвестиционного фонда в России) в интервью Секрету Фирмы:

«Всем кажется, что с интернетом и ИТ все уже ясно, все на поверхности. Ничего подобного. Все только началось,— подчеркивает Галицкий.— Даже печка в пекарне будет управляться компьютером, а все, что до печки: приход муки, воды и доставка по магазинам, станет происходить через интернет. Если добавить сюда знание массивов больших данных и грамотно распорядиться имеющейся информацией, можно вырастить эффективную компанию в любой сфере».

Ведь теперь можно, имея психологический потрет человека и образцы его почерка делать исследования относительно их взаимосвязи куда быстрее и с большой точностью, используя методы анализа данных и современные алгоритмы. То, что раньше было докторской диссетрации теперь становится под силу сделать в рамках лабораторной работы 3-е курснику, учащемуся на прикладной математике.

И это будет ещё больше развиваться хотя бы в направлении биотехнологий и персональной медицины. Больше не надо скорбеть по тому поводу, что мы родились слишком поздно, чтобы исследовать землю, но слишком рано, чтобы исследовать космос, ведь так много областей, которые появляются каждый день благодаря развитию новых инструментов.

 

Анализ данных при помощи Python. Графики в pandas и matplotlib.

Поскольку для Мерку мы делаем очень много с точки зрения аналитики, я буду писать небольшие посты про то, как строить графики и анализировать данные. Кстати, если вы не имеете ни малейшего понятия, как можно визиуализировать данные, можно начать смотреть на этом замечательном ресурсе.

Для анализа данных и того, чтобы понять собственно, что за эти данными скрывается было придумано очень много сложных и не очень инструментов. Нас интересуют самые основные библиотеки, которые применяются при анализа данных при помощи Пайтона: NumPySciPy, Matplotlib и Pandas. При помощи них мы познакомимся с тем, с чего начинается любое исследование – посмотрим на имеющиеся данные и попытаемся понять, с чем имеем дело. В англоязычной литературе это называется Exploratory Analysis. При написании этого поста я нашёл несколько IPython конспектов, на основе которых и оформляю этот пост. Ссылки на них приведены в конце.

Немного позже я переведу и дополню посты, которые рассматривают все манипуляции с данными, а также различные статистики, которые бывает полезно изучить, прежде чем пытаться что-то анализировать.

… 

 

Computing threedimensional structure of a protein by homology modelling. Bioinformatics tutorial.

This is a part of our little project, we performed during the course of Laboratory of Bioinformatics.

To begin with, I want to thank all of my groupmates, who helped me with it, since I am not that good with biology, as they are. And, secondly, if you are doing homology modelling, you should really focus on following links at the uniprot and read a lot about all the ligands and residues, protein family and it’s functions, following all the articles provided, than, modelling itself, won’t make a deal. Cheers.

Abstract

Performing this project we are going to do a homology modelling of protein structure. Homology modelling is the technology used to build an atomic-resolution model of the target sequence based on the known structure of the related homologous protein. It is possible, because proteins with the more than 20% sequence identity usually have the same three-dimensional structure, which depends on the type of the residues. We are going to find homologous protein sequences, perform a structural alignment to select the common sequence parts and then we will use our template homologous protein to build a model of the target sequence using Modelleler software. After that we are going to analyze quality of the obtained model and try to interpret the results.

… 

 

Понравился текст, утащил в блог.

Поскольку нужно развивать не только привычку читать, но и писать в блог, а писать своё особо времени нет, поэтому копипаст.

С 1992 года я завел себе привычку читать в неделю по книге, при чем, большинство из них по темам, в которых я хотел развиваться. Это составило примерно 50 книг в год. Брайн Трейси утверждает, что такая привычка сделает вас экспертом мирового уровня в любой выбранной вами отрасли за 7 лет. Допустим, вы торговый агент. Если вы прочтете за этот год 50 книг по маркетингу, отразится ли это на уровне ваших продаж? Без сомнения, да!

… 

 

Уловка-22

Знаете, а на самом деле Уловка-22 потрясающе усложняет жизнь.

Мы рады принять вас на работу, но вам нужен опыт. Ну мы не знаем, как вам набраться опыта, когда везде требуют опыт.

Чтобы попасть на роль в кино, нужно уже играть в кино.

Мне кажется, нужно ввести отдельный скилл, о том, как с этим бороться

 

 

Всё, что вы думали про западную культуру, но боялись спросить

Не зря так много крутые пацаны (раз, два) писали про дороги. Мне кажется, очень многое про народ можно понять по тому, какие дороги в стране. Почти всё.

Я ездил за рулём RAV4 около Бостона, сейчас мы ездим до соседнего городка в Испании. На западе между городами весьма хороший асфальт, как правило вменяемые ограничения на скорость и куча разделителей. Проблема состоит в навигации. Да, везде есть указатели, которые позволяют тебе выбрать нужный экзит с шоссе и попасть туда, куда ты направлялся.

2013-12-04 16.17.11

Проблема в другом. Если ты выбрал не то шоссе, или заговорившись или задумавшись ты пропустил экзит, то ты не можешь развернуться и вернуться, или передумать и свернуть на перекрёстке. Ты должен ехать дальше, как правило довольно долго, ожидая пока наконец появится разрыв, или можно будет сделать U-turn. То же самое и в городах, где по всюду стоят камеры, глаза Большого Брата, который не хочет, чтобы ты нарушал правила и кому-то помешал.

Другое дело, когда ты едешь от Москвы до Новосибирска. Ты можешь свернуть в любой момент, даже через двойную сплошную, так далеко от ближайшего населённого пункта, что ты уже привык заливать полный бак на каждой заправке, потому что неизвестно, когда она следующий раз попадётся на пути. Ты можешь остановиться у любого придорожного кафе, которые стихийно разбросаны вдоль трассы, поболтать с хозяином, который разогреет тебе пельмени и скажет, где стоят менты.

2013-12-05 08.28.45

Если ты решил что-то делать на Западе, ты не можешь передумать. Тебе придётся очень долго искать разрыв, или двухуровневую развязку, чтобы повернуть. Другое дело, наши дороги. Уехав в другой город, ты можешь в любой момент передумать и остановиться, чтобы подышать воздухом на Урале, или свернуть к посёлку, в котором даже не ловит сотовая связь. Если ты хочешь покурить кальян вместо того, чтобы поработать. Пожалуйста! Там не поймут, если вместо того, чтобы придти на работу в воскресенье, ты поехал на картошку, потому что все будут ждать, что ты будешь следовать дурацким правилам, которые общество вынуждает тебя соблюдать.