В этом небольшом списке приведены 22 совета аналитикам от доктора Грэнвилла, который опубликовал их недавно в своей статье на Data Science Central. В этом посте приведён адаптированный перевод.
- Используйте дополнительные источники данных: твиты и сообщения в фейсбуке о конкурентах или данные различных информагенств.
- Чётко формулируйте проблему и используйте адекватные метрики, чтобы понять, насколько вы близки к её решению.
- Часто более важным оказывается решить проблему быстро, чем получить более точное решение. Все данные изначально зашумлены и далеки от идеала. Найдите компромисс между перфекционизмом и получением результатам.
- Если вы имеете дело с большими данными, то экстремумы могут быть зашумлены. Для этого случая есть пара советов пара советов.
- Большие данные != полезные данные
- Можно получить быстрый, качественный, устойчивый и масштабируемым результат с применением старой-доброй статистики.
- Обрабатывать большие данные может быть проще, чем ты думал, если использовать правильные инструменты. Вот — неплохая статья для начала.
- Корреляция может быть никак не связана с причинно-следственной связью.
- Всегда включайте в решение проблемы планирование эксперимента (experimental design) и обзорный анализ данных (exploratory analysis).
- Не сбрасывайте со счетов Excel. Ведь биг дата начинается именно там, где уже нельзя посчитать в Excel’е.
- Данные + модели + интуиция дают наилучшие результаты. Не забывайте ни один из этих ингредиентов во время анализа.
- Не забывайте использовать метод Монте-Карло, когда это необходимо.
- Всегда проверяйте корректность входящих данных.