Overcoming long Spark job runtime on small datasets

If you are dealing with relatively low datasets < 1M entries (and you just have to use Spark for some reasons), significant speedup can be achieved with tuning (lowering) number of partitions.

Basically, setting `spark.default.parallelism` param to number of cores and `spark.sql.shuffle.partitions` to something like 20 (instead of default 200), will allow you to receive significant speedup, since Spark won’t lose time on shuffling RDDs and generating large number of tasks.

Source.

Another useful link.

 

Хакатон DeepHack: опыт участия

Вот и закончился недельный хакатон DeepHack, который был организован командой МФТИ и Deep Knowledge Ventures. Он проходил на базе МФТИ в г. Долгопрудном и , как уже отмечают в сообществе, возможно, является крайне важным событием для ML / Big Data / Data Science сообщества в России. Забегая вперёд хочется сказать, что в итоге хакатон получился больше с уклоном в настоящую научную школу, а само мероприятие по уровне было вполне себе международным, учитывая наличие иностранных участников и то, что основной язык лекций был английским.

… 

 

Оптимизация валютного инвестиционного портфеля

Оригинал этого поста был написан в блоге Yhat — компании, развивающей онлайн-платформу по обработке данных Ryan’ом. Этот пост посвящен тому, как оптимизировать портфель инвестиций с целью получить максимальную прибыль при желаемом уровне риска. Несмотря на то, что в прримере описывается выбор инвестиций в иностранную валюту, это можно использовать для любых других вариантов вложений денег, потому что они все рассчитываются при помощи одной математической модели.
… 

 

13 советов аналитику

В этом небольшом списке приведены 22 совета аналитикам от доктора Грэнвилла, который опубликовал их недавно в своей статье на Data Science Central. В этом посте приведён адаптированный перевод.

… 

 

Data Mining Cheatsheet Mind Map

Пока что эта шпаргалка содержит информацию только по курсам Data Analysis и Statistics One, без дополнений из того, что я почерпнул в университете. Но чтобы в дальнейшем не забывать, я составил Mind Map с полезными функциями, командами, и узкими моментами, с которыми можно столкнуться при анализе данных.

Data Mining Mind Map

Data Mining Mind Map

 

 

 

Самые интересные, на мой взгляд лекции с ШАД Яндекса

Combinatorial Theory of OverfittingKonstantin Vorontsov (Russia)
Active learning to rankVladimir Gulin (20 min).
это очень крутая лекция от автора исходного алгоритма, факт его доклада показывает на каком уровне проходит конференция в Яндексе:
Explaining AdaBoostRobert Schapire (USA)
MatrixNet is Yandex’s implementation of Gradient Boosted Decision Tree algorithm (GBRT)Andrey Gulin (Russia)