Overcoming long Spark job runtime on small datasets

If you are dealing with relatively low datasets < 1M entries (and you just have to use Spark for some reasons), significant speedup can be achieved with tuning (lowering) number of partitions.

Basically, setting `spark.default.parallelism` param to number of cores and `spark.sql.shuffle.partitions` to something like 20 (instead of default 200), will allow you to receive significant speedup, since Spark won’t lose time on shuffling RDDs and generating large number of tasks.

Source.

Another useful link.

Хакатон DeepHack: опыт участия

Вот и закончился недельный хакатон DeepHack, который был организован командой МФТИ и Deep Knowledge Ventures. Он проходил на базе МФТИ в г. Долгопрудном и , как уже отмечают в сообществе, возможно, является крайне важным событием для ML / Big Data / Data Science сообщества в России. Забегая вперёд хочется сказать, что в итоге хакатон получился больше с уклоном в настоящую научную школу, а само мероприятие по уровне было вполне себе международным, учитывая наличие иностранных участников и то, что основной язык лекций был английским.

Continue reading “Хакатон DeepHack: опыт участия”

How to install Caffe on Mac (OS X Yosemite 10.10.4)

how to install caffe on mac

After famous Google Research group post about deep dream, they have released ipynb notebook to mess around with dream generation (available on github).

It requires

And there are a bunch of problems with installing caffe framework on Mac.

Continue reading “How to install Caffe on Mac (OS X Yosemite 10.10.4)”

Российское сообщество Data Science / Data Mining / Big Data

В этом посте собраны все наиболее значимые и крупные сообщества по анализу данных в рунете. Он разбит на несколько разделов в зависимости от площадок.

Continue reading “Российское сообщество Data Science / Data Mining / Big Data”

Оптимизация валютного инвестиционного портфеля

Оптимизация валютного инвестиционного портфеля

Оригинал этого поста был написан в блоге Yhat — компании, развивающей онлайн-платформу по обработке данных Ryan’ом. Этот пост посвящен тому, как оптимизировать портфель инвестиций с целью получить максимальную прибыль при желаемом уровне риска. Несмотря на то, что в прримере описывается выбор инвестиций в иностранную валюту, это можно использовать для любых других вариантов вложений денег, потому что они все рассчитываются при помощи одной математической модели.
Continue reading “Оптимизация валютного инвестиционного портфеля”

Data Mining Cheatsheet Mind Map

Пока что эта шпаргалка содержит информацию только по курсам Data Analysis и Statistics One, без дополнений из того, что я почерпнул в университете. Но чтобы в дальнейшем не забывать, я составил Mind Map с полезными функциями, командами, и узкими моментами, с которыми можно столкнуться при анализе данных.

Data Mining Mind Map
Data Mining Mind Map

 

 

Самые интересные, на мой взгляд лекции с ШАД Яндекса

Combinatorial Theory of OverfittingKonstantin Vorontsov (Russia)
Active learning to rankVladimir Gulin (20 min).
это очень крутая лекция от автора исходного алгоритма, факт его доклада показывает на каком уровне проходит конференция в Яндексе:
Explaining AdaBoostRobert Schapire (USA)
MatrixNet is Yandex’s implementation of Gradient Boosted Decision Tree algorithm (GBRT)Andrey Gulin (Russia)