Я много пишу про анализ данных или про большие данные. Но многие из моих друзей имеют весьма смутное представление о том, что это такое и почему это так круто.
Анализ данных — это то, почему вы видите похожие товары, когда покупаете что-нибудь в интернет-магазине. Это то, почему лучшие сайты оказываются на первой странице гугла. Благодаря им, авиакомпании могут делать скидки на билеты, потому что понимают, что спрос на них падает. Благодаря машинному обучению можно предсказать, сколько человек придёт на выборы, какая команда выиграет матч или даже беременность по изменившемуся списку еженедельных покупок.
Вот что сказал Аркадий Волож (главный в Яндексе) в интервью Форбсу:
Что такое машинное обучение?
А.В.: Машинное обучение на больших данных — это новая большая технология. Все большие новые технологии проникают везде. Когда 200 лет назад появилась паровая механика, это было слияние паровоза со всем: появились средства транспорта, новые текстильные станки, везде началась механизация, и это была революция. То же с электроникой, то же самое с интернетом: в нашей жизни появились коммуникации, они везде.
Сейчас на каждой улице стоят десятки видеокамер, мы носим в кармане по прибору с десятком датчиков, мы постоянно что-то запрашиваем в интернете и т. д. — это все куча сигналов. Когда самолет летит, у него все в датчиках, машина едет, она вся в электронике, все пронизано датчиками. Все они собирают огромные массивы данных. С ними можно делать какую-то математику, какую-то «умность». И эта «умность» везде что-нибудь оптимизирует на 5–10%. Это по сути следующая индустриальная революция. Тот, кто сумеет собрать и обработать эти данные, соединить их с машинным обучением, получит очевидные преимущества. У нас в этом смысле в стране есть хорошая школа. И если мы научим этому несколько тысяч человек — это большая индустрия для мира.
Вот это та самая несырьевая Россия.
А.В.: Да, только сейчас мы обсуждаем несырьевую Россию внутреннюю, что в России есть свой продукт в этой области. Но это в принципе еще и наш экспортный потенциал.
Как всем известно из курса истории, первая промышленная революция случилась при переходе от ремесленников к мануфактурам. Потом прорыв совершил старик-Форд, придумав конвейр и ускорив производство в разы. Что происходило потом? Пожалуй, появление персонального компьютера и интернет, который положил в наши карманы Стив Джобс.
И вот мы уже на пороге следующей революции. Революции больших данных. Именно поэтому, выбирая специальность, я пошёл на статистику. Потому что сейчас происходит её рассвет. Обработка данных позволит улучшить эффективность любых процессов, экономить больше ресурсов, продавать больше, в конце концов. Ваше поведение на любом сайте изучают аналитики для того, чтобы изменить заголовок, поставить другую фотографию кроссовок, чтобы выжать несчастные десятые доли процентов эффективности. Что будет дальше? Персональная медицина. Таблетки, которые лечат диабет и другие болезни, которые раньше было невозможно лечить. И это тоже будет возможно благодаря обработке больших массивов данных.
При этом уже есть люди, при чём даже не айтишники, которые приносят это в реальный мир, автоматизируя те вещи, которые раньше никто и не думал автоматизировать, взять ту же Додо-пиццу. А ведь они собирают статистику и могут сказать, что перенос панели с ножами на 20 сантиметров вправо позволит выпекать пиццу на 20 секунд быстрее. В результате вы точно будете знать, сколько займёт получение вашего заказа на кассе, или доставка пиццы до дома. О такой точности пять лет назад можно было только мечтать, а Фёдор Овчинников рассказывает о своей компании-киборге уже сейчас.
Будущее приходит уже сейчас, надо просто внимательно смотреть по сторонам.
P.S. Мне тут подкинули неплохую ссылку про то, что такое большие данные. Просвещайтесь. Очень интересная презентация.
Share the post "Машинное обучение, анализ данных — это следующая индустриальная революция"
Мысль на счет переноса панели с ножами на 20 см не понятна. Зачем собирать статистику, если это очевидно ( лично для меня ).
И на счет времени доставки – какая разница, если ты скажешь клиенту, что доставишь пиццу через 32 минуты, или через 40? Если доставишь раньше – хорошо. Иначе же у тебя будет запас. Все равно абсолютно все спрогнозировать невозможно ( по крайней мере сейчас ). Погода, пробки, аварии, человеческий фактор.