28.03.2018 by Kirill on Technical

Overcoming long Spark job runtime on small datasets

If you are dealing with relatively low datasets < 1M entries (and you just have to use Spark for some reasons), significant speedup can be achieved with tuning (lowering) number of partitions.

Basically, setting `spark.default.parallelism` param to number of cores and `spark.sql.shuffle.partitions` to something like 20 (instead of default 200), will allow you to receive significant speedup, since Spark won’t lose time on shuffling RDDs and generating large number of tasks.

Source.

Another useful link.

28.07.2015 by Kirill on Technical

Хакатон DeepHack: опыт участия

Вот и закончился недельный хакатон DeepHack, который был организован командой МФТИ и Deep Knowledge Ventures. Он проходил на базе МФТИ в г. Долгопрудном и , как уже отмечают в сообществе, возможно, является крайне важным событием для ML / Big Data / Data Science сообщества в России. Забегая вперёд хочется сказать, что в итоге хакатон получился больше с уклоном в настоящую научную школу, а само мероприятие по уровне было вполне себе международным, учитывая наличие иностранных участников и то, что основной язык лекций был английским.

… →

04.07.2015 by Kirill on Technical

How to install Caffe on Mac (OS X Yosemite 10.10.4)

After famous Google Research group post about deep dream, they have released ipynb notebook to mess around with dream generation (available on github).

It requires

NumPy, SciPy, PIL, IPython, or a scientific python distribution such as Anaconda or Canopy.
Caffe deep learning framework (Installation instructions)

And there are a bunch of problems with installing caffe framework on Mac.

… →

29.06.2015 by Kirill on Technical

Российское сообщество Data Science / Data Mining / Big Data

В этом посте собраны все наиболее значимые и крупные сообщества по анализу данных в рунете. Он разбит на несколько разделов в зависимости от площадок.

… →

24.02.2015 by Kirill on Technical

Оптимизация валютного инвестиционного портфеля

Оригинал этого поста был написан в блоге Yhat — компании, развивающей онлайн-платформу по обработке данных Ryan’ом. Этот пост посвящен тому, как оптимизировать портфель инвестиций с целью получить максимальную прибыль при желаемом уровне риска. Несмотря на то, что в прримере описывается выбор инвестиций в иностранную валюту, это можно использовать для любых других вариантов вложений денег, потому что они все рассчитываются при помощи одной математической модели.
… →

16.11.2014 by Kirill on Technical

13 советов аналитику

В этом небольшом списке приведены 22 совета аналитикам от доктора Грэнвилла, который опубликовал их недавно в своей статье на Data Science Central. В этом посте приведён адаптированный перевод.

… →

28.03.2014 by Kirill on Technical

Big data в отраслях

Нашёл отличную инфографику про то, как статистика и анализ больших объёмов данных используется в различных отраслях

… →

24.11.2013 by Kirill on Technical

Data Mining Cheatsheet Mind Map

Пока что эта шпаргалка содержит информацию только по курсам Data Analysis и Statistics One, без дополнений из того, что я почерпнул в университете. Но чтобы в дальнейшем не забывать, я составил Mind Map с полезными функциями, командами, и узкими моментами, с которыми можно столкнуться при анализе данных.

Data Mining Mind Map

12.11.2013 by Kirill on Technical

Самые интересные, на мой взгляд лекции с ШАД Яндекса

Combinatorial Theory of Overfitting, Konstantin Vorontsov (Russia)
Active learning to rank, Vladimir Gulin (20 min).
это очень крутая лекция от автора исходного алгоритма, факт его доклада показывает на каком уровне проходит конференция в Яндексе:
Explaining AdaBoost, Robert Schapire (USA)
MatrixNet is Yandex’s implementation of Gradient Boosted Decision Tree algorithm (GBRT), Andrey Gulin (Russia)

Value generation

big data