Давече я наткнулся на интересный пост в Фейсбуке, в котором просили построить модель для определения интересных отраслей для инвестирования денег. И поскольку лет через 15, когда я вырасту большим и сильным, я буду работать в венчурном фонде, а также мне очень нравится заниматься анализом данных, я решил немного подумать над тем, как эти отрасли можно определять. Но поскольку, вопреки утверждению папы дяди Фёдора, с ума всё-таки лучше сходить всем вместе, то спекулировать умом над этим вопросом я позвал двух замечательных ребят: Сашу Лиса и Стаса Фискова, которые шарят в финансах и инвестировании куда больше меня. Результатам пары вечеров в google docs стала эта модель.
PWNZ Investment Fund Regression Model
Описание модели имеют следующую структуру:
- Модель в целом, а также то, как планируется исследовать различные ниши с её помощью
- Потенциальные сферы
- Подробное описани используемых факторов и характеристики
- Возможные источники и способы получения данных
Введение
Поскольку фиксированной метрики качества модели не предусмотрено, мы начнём построение модели, которая позволит понять ситуацию и обнаружить, как и насыщенные сферы, так и потенциальные голубые океаны / next BuzzWord / the Next Big Thing. Искомая модель должна показать как обстоят дела в потенциальных сферах в мире и спрогнозировать их развитие.
Наша модель будет регрессионной. Это значит, что в начале мы будем рассматривать классический случай регресии для определения целевой метрики. При обучении на известных рынках (США / Европа / Азия, возможно снижение абстракции до венчурного рынка Израиля и ОАЭ), мы определим регрессионные коэффициенты для факторов, которые потом используем, чтобы спрогнозировать значение целевой метрики на российском рынке.
При этом ещё до обучения модели необходимо будет выделить кореллирующие факторы и решить задачу снижения размерности, используя PCA / LDA (факторный / дискриминантный анализ). При этом использование слабых регрессоров, которые представлены ниже должно быть оправдано, поскольку они несут в себе косвенную информацию о положении рынка и основных тенденциях.
Естественно, обычную линейную модель лучше будет заменить более сложной моделью на основе дерева принятия решения или нейронной сети, но первоначальные результаты должны быть получены с её помощь с целью экспертной интерпретации полученных коэффициентов.
Список потенциальных сфер для инвестиций
- Игры (социальные, мобильные)
- Mobile / Социальные приложения
- Потребительские сервисы (Uber, GetTaxi, delivery-агрегаторы, Square)
- HoReCa – автоматизация (различные бонусные системы по типу Giftoman, prostor)
- B2B Software / SaaS / Cloud solutions
- Интернет (nginx)
- Travel сегмент (агрегаторы, бронирование: oktogo, ostrovok, aviasales)
- Sharing-economy сегмент (airbnb, аренда вещей)
- Геолокация (Альтергео)
- Dating (Pure / Tinder)
- E-commerce (lamoda, sotovik, holodilnik.ru)
- Контентные проекты (Internet Media)
- Wearable Devices (браслеты, устройства для квантификации жизни)
- Security
- Internet of things (умный дом, умная машина)
- Clean Tech
- Энергетика
- Mobile
- Телекомы
- Финансы
- Quantum Computing
- Биоинформатика / персональная медицина
Целевая метрика
Сначала определимся с целевой метрикой. По условиям задачи она остаётся открытой, поэтому мы предлагаем рассчитывать сразу несколько метрик
- Рост сферы рынка за 3 года
- Рост среднего значения / медианы ROI стартапа в этой сфере рынка
Характеристики модели
Характеристики должны быть измеримыми и взяты из достоверных источников. Источниками могут быть как и открытые данные, так и различные оценки из изданий уровня Forbes. При этом в большинстве своём, большое количество различных сфер окладывает ограничения на модель. Объём выручки, как и объём прибыли будет отличаться, поэтому основное внимание при построении списка факторов мы будем уделять темпам роста, поскольку именно темпы роста и будут определять насколько вырастет цена актива в течении входа фонда.
Вначале приведены характеристики напрямую влияющие на целевую метрику. Помимо этого, дстоверную информацию о их значениях можно довольно-таки легко найти. В первой части приводятся характеристики, которые рассчитываются для публичных компаний, во второй менее прозрачные и достоверные оценки для компаний и стартапов, в третьей же части приводятся факторы, которые косвенно отражают активность и тенденции рынка и должны обеспечивать дополнительную точность модели.
Пример различных значений факторов для 5 сфер:
Объем моб. данных | Рост рынка в 12-13 | Рост суммарного дохода публичных компаний | Рост средней зарплаты в индустрии | Рост числа патентов в индустри | Рост числахэштегов и тикеров | |
Mobile | 1 | 10% | 8% | 7% | 80% | 21% |
Потребительские сервисы | 0,5 | 15% | 12% | 9% | 5% | 10% |
SaaS | 0,5 | 23% | 20% | 18% | 10% | 12% |
Геолокация | 1 | 3% | 2% | 8% | 30% | 10% |
Dating | 0,5 | 7% | 6% | 10% | 3% | 4% |
Как считать рост
Большинство представленных ниже факторов интересуют нас в аспекте роста. Смотреть больше 5 лет в ретроспективе не имеет смысла назад, потмоу что некоторых рынков просто не было, поэтому будем считать, что нас интересует рост за 5 лет, рост за 2012-2013 год и прирост в I квартале 2013-2014, если для факторов не указано обратное.
Факторы публичных компаний
investment_volume_in_sphere_[USA I Israel | UAE | RF | europe| China] — рост суммарного объёма инвестиций в отрасль млн. долларов в исследуемых странах
gross_income_of_public_companies_[country] — рост суммарного дохода публичных компаний в этой сфере в стране
avg_income_of_public_companies_[country] — рост среднего дохода публичных компаний в этой сфере в стране
median_income_of_public_companies_[country] — рост медианы дохода публичных компаний в этой сфере в стране
Ниже для схожих характеристик название указывается квадратных скобках, подразумевая, что они определяют сразу несколько характеристик, например:
[gross | median | avg]_plus_of_public_companies_[country] — суммарный / средний / рост медианы прибыли компаний в этой сфере в стране. (Это сразу три характеристики, которые входят в модель)
avg_growth_of_ebitda_[country] — средний рост EBITDA
growth_of_number_of_next_round_companies_[country] — рост числа компаний в сфере, которые получили финансирование любой стадии (от посевной, до стадии роста)
Эти фичи помогают правильно оценить и позволить различать перспективы travel и retail / ecommerce компаний, потому что маркетинговый бюджет для них выше, чем у, например, компаний, работающих в сфере робототехники/разработки дронов:
[avg | median ]_marketing_budget_[country] — среднее значение и медиана маркетингового бюджета компаний в отрасли
[avg | median]_marketing_budget_[country] — среднее значение и медиана процента оборота компаний, которая уходит на маркетинг
Характеристики, описывающие динамику роста рынка в 5 летней ретроспективе. При работе с этими характеристиками очень важно оценить динамику рынка. Потому что, например, рынок мобильных приложений уже достиг насыщения и сейчас растёт не так активно
[internal | world | export | import ]_market_volume_[country]_[source] — рост объёма внутреннего / мирового / экспортного рынка.
2012_2013_market_growth_[country]_[source] — рост рынка за 2012-2013 год
2013_2014_market_growth_forecat_[country]_[source] — предсказанный рост рынка
2013_2014_market_growth_[country]_[source] — фактический рост рынка
Фичи для учёта активности существующих компаний ещё не ставших публичными
Посолько нужно оценивать не только те компании, которые провели IPO для получения адекватной картины рынка, но и прибыльность / активность существующих компаний помимо их инвестиционной оценки (которая, конечно уже учитывается в модели как growth_of_number_of_next_round_companies_[country], которая даёт возможность оценить то, что WhatsApp, который пока что не особо генерируют прибыль, тем не менее принёс прибыль фондам, которые в него инвестировали при покупки WA фейсбуком), необходимо добавить в модель следующие фичи:
estimated_companies_growth_value_[country] — взвешанная оценка роста стоимости непубличных компаний из медийных/экспертных источников. Это очень спорная фичи и будет нужна только если исследовать экспертные оценки, чтобы попробовать оценить капитализацию компании. Помимо очевидных журналов/публикаций для поиска оценок можно использовать Quora.
growth_of_[linear | top]_vacancies_at_carrier_sites_[country] — рост количества вакансий линейного персонала (программисты, инженеры, менеджеры, продаваны) и топ-менеджмента, опубликованных на HR сайтов для работы в компаниях в исследуемой отрасли.
growth_of_average_industry_salary_[country] — рост объёма средней зарплаты в отрасле в стране. Тут, естественно, намного интереснее смотреть на темпы роста, потому что вилка зарплат значительно различается, даже переходя от Москвы к регионам, не говоря уже о разнице в з/п между западным и восточным побережьем США. К счастью, большинство HH/HR сайтов предоставляет в ежегодных отчётах данные о росте и темпах роста средней зарплаты. Для РФ это HH.ru, hantim, job, erabota, для мира это LinkedIn, topcareer, etc.
Отличная метрика насыщенности, количества конкурентов и роста рынка — это цена клика в системах контекстной рекламы. А также темпы роста этой цены, если этот показатель можно теоретически найти. Естественно, данный параметр будет коррелировать со средней долей маркетингового бюджета в отрасли, но он будет давать более точную картину.
Помимо этого наличие Яндекса в РФ позволяет сравнить темпы росты рынка по этому параметру использую Я.Директ. И при построении финальной оценки можно использовать среднюю цену клика в директе, вместо средний цены клика в Гугле, потому что
[growth|avg_price]_per_context_click_[country] — прирост / средняя цена клика по основным ключевым запросам в Google Adwords
Следущие четыре метрики предполагаются сами по себе для области + динамика их изменения. При этом нужно как-то учитывать их рост/падение, как это отражается на ROIC для фондов… Но слава богу наша потенциальная регрессионная модель/выбранный алгоритм сможет сделать это за нас.
growth_of_customer_acqusition_cost(cac)_[country] — средний рост отношения общих затрат на продажи и маркетинг (в том числе рекламу, зарплаты и бонусы специалистов, комиссии агентств, операционные издержки на обработку сделки) за определенный период к количеству новых клиентов за этот же период для компаний в отрасли
ration_of_customer_lifetime_value_to_customer_acuisition_cost(LTV:CAC)_[country] — значение отношеняя средней прибыли за «время жизни» одного клиента и стоимостт привлечения клиента
time_to_payback_cac_[country] — сколько времени (как правило, сколько месяцев) необходимо, чтобы вернуть затраты на привлечение клиента
Интеллектуальные фичи
Очень спорной выглядит идея попытаться оценить уровень внимания пользователей и медиа к различных сферам, исходя из тех же причин, которые приведены в статье. В ней выражается мнение, что сейчас слишком переоценены культ молодости, стартапов, приложений для общения, в то время как биотехнологии, альтернативная энергетика, которыми заниматься “не модно” не до получают столько внимания, да и тот же 23andMe не соберёт больше публикаций, чем бум Flappy Bird / FireChat / WeeChat / покупки WhatsApp / Oculus Rift. Не соберёт, пока пресональная медицина и победа над старостью не станут реальностью, поэтому необходимо пытатсья оценивать и косвенные признаки, такие как рост числа запросов и публикаций в области. Тем не менее, приведённые ниже факторы косвено отображают активность и рост рынков и неиспользовать их нельзя.
growth_of_patents_number_[country] — поскольку даже в РФ потихоньку все гос данные становятся доступными, то можно оценить и процентный числа рост числа патентов в области.
google_trend_market_dynimcs — рост числа запросов в гугле за последний год по релевантным отрасли запросам. Например, квантовые вычисления, data mining + big data + анализ данных. Для получения значений этих факторов нужно использовать Google Trends (для России можно сопоставлять с Яндексом)
public_tiker_hashtag_[year_growth | half_year_growth] — годовой/полугодовой прирост числа хэштегов в твиттере и фейсбуке, которые относятся к тикерам публичных компаний в отрасли
growth_share_of_market_in_portfoio_[Sequoia | Founders Fund | Accel Partners | DST | Bekshire Hathaway | UCP] — обязательно надо использовать рост доли инвестиций в портфеле этих компаний в год, поскольку сам факт вложения ими средств показывает наличие уже существующего тренда и формирует интерес в этой области
growth_money_volume_spent_on_acqusition_by_[Apple | Facebook | Google | Microsoft | Samsung] — рост суммы денег, потраченная на инвестирование / приобритение стартапов в отрасли технологическими гигантами. Потому что приобретение ВатсАппа, например, повышает цену мессенджеров и внимание к ним, точно также как вчерашняя покупка Гуглом компании-производителя дронов, к которому присматривался Facebook
При поиске данных для следующих факторов нужно особо строго подходить к выбору акселлераторов/инкубаторов. Потому что участие компании в акселерационной программе предполагает более строгий отбор, ведь участие идёт за долю в компании.
Обязательны к рассмотрению: ФРИИ, Технопарки в РФ, MassChallenge, Y combinator, Startup sauna, а также программы, актуальные для отраслей
growth_of_startups_share_at_incubators — рост доли стартапов в выбранной сфере в инкубаторах
growth_of_startups_share_at_accelerators — рост доли стартапов в акселлераторах
growth_of_number_of_questions_at_quora_[country] — рост количества вопросов, касающееся стартапов в выбранной области на сервисе Quora (см. комментарий ниже)
[growth_of_number|acceleration_of_growth]_of_questions_at_stackexchange_[country] — процентный рост количества вопросов по обалсти на stackexchange позволит оценить рост интереса специалистов в области. Задача состоит в том, чтобы привлечь экспертов с целью правильной идентификации тегов для каждой отрасли. Например, рост вопросов по Cocoa свидетельствует о том, что появляется больше интереса к мобильным приложениям. Процентный рост на 200% вопросов о принципе устройства полимеразы говорит о том, что повышается интерес к биоинформатике/персональной медицине. Ну или просто-напрасто у студентов началась сессия.
growth_of_number_of_conferences_[country] — рост количества отраслевых конференций в год
growth_of_avg_number_of_conference_reports_[country] — рост среднего количества тематических докладов на конференциях
Источники для получениях данных
- Доклады о доходности и прогнозы по развитию публичных компаний.
- Государственные сайты со статистикой. Патентное бюро США, Роспатент
- Публикации в Forbes, Business Magazine, Mashable
- Quora — сайт вопросов и ответов
- Stackexchange — сайт профессиональных вопросов и ответов, разделённый по отраслям. Его частью является stackoverflow.
- Google Trends, Яндекс.Вордстат
- Google Adwords, Яндекс.Директ
- Twitter, Facebook API
Ещё статьи по теме:
Вложения в стартапы нужно оценивать с помощью математики
Как оценить стоимость стартапа
Предварительная оценочная стоимость компаний: метод венчурного капитала (часть 2)
Методы оценки стартапа
Математика венчурного дела
Share the post "Статистическая модель для определения перспективных отраслей инвестиционного фонда"