How to build and install RGF (Regularized Greedy Forest) on Mac OS

Regularized Greedy Forest was introduced in this article. And now it is one of the approaches for efficient boosting training. However, building and installing it on Mac not yet (for November 2018) is as simple as pip3 install xgboost. So, this short note is about how to build and run RGF on Mac, if you have any troubles with it.

Continue reading “How to build and install RGF (Regularized Greedy Forest) on Mac OS”

Российское сообщество Data Science / Data Mining / Big Data

В этом посте собраны все наиболее значимые и крупные сообщества по анализу данных в рунете. Он разбит на несколько разделов в зависимости от площадок.

Continue reading “Российское сообщество Data Science / Data Mining / Big Data”

Data Mining Cheatsheet Mind Map

Пока что эта шпаргалка содержит информацию только по курсам Data Analysis и Statistics One, без дополнений из того, что я почерпнул в университете. Но чтобы в дальнейшем не забывать, я составил Mind Map с полезными функциями, командами, и узкими моментами, с которыми можно столкнуться при анализе данных.

Data Mining Mind Map
Data Mining Mind Map

 

 

10 вещей, которые говорят о том, что ты занимаешься анализом данных

10. Обычно ты думаешь «Как же много данных, так мало памяти».
9. Ты знаешь, что такое гетероскедастичность.
8. Ты знаешь вероятность того, что пойдёт дождь лучше синоптиков.
7. Обычно ты смотришь на свой чек в магазине, пытаясь предсказать, что ты купишь в следующий раз, основываясь на статистике.
6. Ты считаешь, что анализ данных это круто, и ты даже сформулировал теорему, чтобы это доказать.
5. После 3х часов ночи, цифры иногда отвечают на твои вопросы. Вслух.
4. Когда ты ночью считаешь овец, чтобы уснуть, ты не можешь уснуть.
3. Ты догадываешься, где спрятаны скрытые закономерности.
2. В субботней утро у тебя начинается похмелье Шапиро-Уилка.
1. Ты можешь улучшить эффективность любого процесса, просто взяв статистику за последний год и проведя 10 минут в консоли питона.

Кстати, гетероскедастичность — это когда ошибки в случайном процессе обладают разной и непостоянной дисперсией. В этом случае оценки параметров модели смещаются, становятся несостоятельными, и вообщ получается, что нельзя нормально использовать так любимый нами МНК. Поэтому перед построением какой-либо модели проявляется условие гомоскедастичности, для чего даже умные люди придумали специальные критерии.