Статистическая модель для определения перспективных отраслей инвестиционного фонда

Давече я наткнулся на интересный пост в Фейсбуке, в котором просили построить модель для определения интересных отраслей для инвестирования денег. И поскольку лет через 15, когда я вырасту большим и сильным, я буду работать в венчурном фонде, а также мне очень нравится заниматься анализом данных, я решил немного подумать над тем, как эти отрасли можно определять. Но поскольку, вопреки утверждению папы дяди Фёдора, с ума всё-таки лучше сходить всем вместе, то спекулировать умом над этим вопросом я позвал двух замечательных ребят: Сашу Лиса и Стаса Фискова, которые шарят в финансах и инвестировании куда больше меня. Результатам пары вечеров в google docs стала эта модель.

PWNZ Investment Fund Regression Model

Описание модели имеют следующую структуру:

  • Модель в целом, а также то, как планируется исследовать различные ниши с её помощью
  • Потенциальные сферы
  • Подробное описани используемых факторов и характеристики
  • Возможные источники и способы получения данных

Введение

wine_big_thing_type

Поскольку фиксированной метрики качества модели не предусмотрено, мы начнём построение модели, которая позволит понять ситуацию и обнаружить, как и насыщенные сферы, так и потенциальные голубые океаны / next BuzzWord / the Next Big Thing. Искомая модель должна показать как обстоят дела в потенциальных сферах в мире и спрогнозировать их развитие.

Наша модель будет регрессионной. Это значит, что в начале мы будем рассматривать классический случай регресии для определения целевой метрики. При обучении на известных рынках (США / Европа / Азия, возможно снижение абстракции до венчурного рынка Израиля и ОАЭ), мы определим регрессионные коэффициенты для факторов, которые потом используем, чтобы спрогнозировать значение целевой метрики на российском рынке.

При этом ещё до обучения модели необходимо будет выделить кореллирующие факторы и решить задачу снижения размерности, используя PCA / LDA (факторный / дискриминантный анализ). При этом использование слабых регрессоров, которые представлены ниже должно быть оправдано, поскольку они несут в себе косвенную информацию о положении рынка и основных тенденциях.

Естественно, обычную линейную модель лучше будет заменить более сложной моделью на основе дерева принятия решения или нейронной сети, но первоначальные результаты должны быть получены с её помощь с целью экспертной интерпретации полученных коэффициентов.

Список потенциальных сфер для инвестиций

  • Игры (социальные, мобильные)
  • Mobile / Социальные приложения
  • Потребительские сервисы (Uber, GetTaxi, delivery-агрегаторы, Square)
  • HoReCa – автоматизация (различные бонусные системы по типу Giftoman, prostor)
  • B2B Software / SaaS / Cloud solutions
  • Интернет (nginx)
  • Travel сегмент (агрегаторы, бронирование: oktogo, ostrovok, aviasales)
  • Sharing-economy сегмент (airbnb, аренда вещей)
  • Геолокация (Альтергео)
  • Dating (Pure / Tinder)
  • E-commerce (lamoda, sotovik, holodilnik.ru)
  • Контентные проекты (Internet Media)
  • Wearable Devices (браслеты, устройства для квантификации жизни)
  • Security
  • Internet of things (умный дом, умная машина)
  • Clean Tech
  • Энергетика
  • Mobile
  • Телекомы
  • Финансы
  • Quantum Computing
  • Биоинформатика / персональная медицина

Целевая метрика

Сначала определимся с целевой метрикой. По условиям задачи она остаётся открытой, поэтому мы предлагаем рассчитывать сразу несколько метрик

  1. Рост сферы рынка за 3 года
  2. Рост среднего значения / медианы ROI стартапа в этой сфере рынка

Характеристики модели

Характеристики должны быть измеримыми и взяты из достоверных источников. Источниками могут быть как и открытые данные, так и различные оценки из изданий уровня Forbes. При этом в большинстве своём, большое количество различных сфер окладывает ограничения на модель. Объём выручки, как и объём прибыли будет отличаться, поэтому основное внимание при построении списка факторов мы будем уделять темпам роста, поскольку именно темпы роста и будут определять насколько вырастет цена актива в течении входа фонда.

Вначале приведены характеристики напрямую влияющие на целевую метрику. Помимо этого, дстоверную информацию о их значениях можно довольно-таки легко найти. В первой части приводятся характеристики, которые рассчитываются для публичных компаний, во второй менее прозрачные и достоверные оценки для компаний и стартапов, в третьей же части приводятся факторы, которые косвенно отражают активность и тенденции рынка и должны обеспечивать дополнительную точность модели.

Пример различных значений факторов для 5 сфер:

Объем моб. данных Рост рынка в 12-13 Рост суммарного дохода публичных компаний Рост средней зарплаты в индустрии Рост числа патентов в индустри Рост числахэштегов и тикеров
Mobile 1 10% 8% 7% 80% 21%
Потребительские сервисы 0,5 15% 12% 9% 5% 10%
SaaS 0,5 23% 20% 18% 10% 12%
Геолокация 1 3% 2% 8% 30% 10%
Dating 0,5 7% 6% 10% 3% 4%

Как считать рост

Большинство представленных ниже факторов интересуют нас в аспекте роста. Смотреть больше 5 лет  в ретроспективе не имеет смысла назад, потмоу что некоторых рынков просто не было, поэтому будем считать, что нас интересует рост за 5 лет, рост за 2012-2013 год и прирост в I квартале 2013-2014, если для факторов не указано обратное.

Факторы публичных компаний

investment_volume_in_sphere_[USA I Israel | UAE | RF | europe| China] — рост суммарного объёма инвестиций в отрасль млн. долларов в исследуемых странах

gross_income_of_public_companies_[country] — рост суммарного дохода публичных компаний в этой сфере в стране

avg_income_of_public_companies_[country] — рост среднего дохода публичных компаний в этой сфере в стране

median_income_of_public_companies_[country] — рост медианы дохода публичных компаний в этой сфере в стране

Ниже для схожих характеристик название указывается квадратных скобках, подразумевая, что они определяют сразу несколько характеристик, например:

[gross | median | avg]_plus_of_public_companies_[country] — суммарный / средний / рост медианы прибыли компаний в этой сфере в стране. (Это сразу три характеристики, которые входят в модель)

avg_growth_of_ebitda_[country] — средний рост EBITDA

growth_of_number_of_next_round_companies_[country] — рост числа компаний в сфере, которые получили финансирование любой стадии (от посевной, до стадии роста)

Эти фичи помогают правильно оценить и позволить различать перспективы travel и retail / ecommerce компаний, потому что маркетинговый бюджет для них выше, чем у, например, компаний, работающих в сфере робототехники/разработки дронов:

[avg | median ]_marketing_budget_[country] — среднее значение и медиана маркетингового бюджета компаний в отрасли

[avg | median]_marketing_budget_[country] — среднее значение и медиана процента оборота компаний, которая уходит на маркетинг

Характеристики, описывающие динамику роста рынка в 5 летней ретроспективе. При работе с этими характеристиками очень важно оценить динамику рынка. Потому что, например, рынок мобильных приложений уже достиг насыщения и сейчас растёт не так активно

[internal | world | export | import ]_market_volume_[country]_[source] — рост объёма внутреннего / мирового / экспортного рынка.

2012_2013_market_growth_[country]_[source] — рост рынка за 2012-2013 год

2013_2014_market_growth_forecat_[country]_[source] — предсказанный рост рынка

2013_2014_market_growth_[country]_[source]  — фактический рост рынка

Фичи для учёта активности существующих компаний ещё не ставших публичными

Посолько нужно оценивать не только те компании, которые провели IPO для получения адекватной картины рынка, но и прибыльность / активность существующих компаний помимо их инвестиционной оценки (которая, конечно уже учитывается в модели как growth_of_number_of_next_round_companies_[country], которая даёт возможность оценить то, что WhatsApp, который пока что не особо генерируют прибыль, тем не менее принёс прибыль фондам, которые в него инвестировали при покупки WA фейсбуком), необходимо добавить в модель следующие фичи:

estimated_companies_growth_value_[country] — взвешанная оценка роста стоимости непубличных компаний из медийных/экспертных источников. Это очень спорная фичи и будет нужна только если исследовать экспертные оценки, чтобы попробовать оценить капитализацию компании. Помимо очевидных журналов/публикаций для поиска оценок можно использовать Quora.

growth_of_[linear | top]_vacancies_at_carrier_sites_[country] — рост количества вакансий линейного персонала (программисты, инженеры, менеджеры, продаваны) и топ-менеджмента, опубликованных на HR сайтов для работы в компаниях в исследуемой отрасли.

growth_of_average_industry_salary_[country] — рост объёма средней зарплаты в отрасле в стране. Тут, естественно, намного интереснее смотреть на темпы роста, потому что вилка зарплат значительно различается, даже переходя от Москвы к регионам, не говоря уже о разнице в з/п между западным и восточным побережьем США. К счастью, большинство HH/HR сайтов предоставляет в ежегодных отчётах данные о росте и темпах роста средней зарплаты. Для РФ это HH.ru, hantim, job, erabota, для мира это LinkedIn, topcareer, etc.

Отличная метрика насыщенности, количества конкурентов и роста рынка — это цена клика в системах контекстной рекламы. А также темпы роста этой цены, если этот показатель можно теоретически найти. Естественно, данный параметр будет коррелировать со средней долей маркетингового бюджета в отрасли, но он будет давать более точную картину.

Помимо этого наличие Яндекса в РФ позволяет сравнить темпы росты рынка по этому параметру использую Я.Директ. И при построении финальной оценки можно использовать среднюю цену клика в директе, вместо средний цены клика в Гугле, потому что

[growth|avg_price]_per_context_click_[country] — прирост / средняя цена клика по основным ключевым запросам в Google Adwords

Следущие четыре метрики предполагаются сами по себе для области + динамика их изменения. При этом нужно как-то учитывать их рост/падение, как это отражается на ROIC для фондов… Но слава богу наша потенциальная регрессионная модель/выбранный алгоритм сможет сделать это за нас.

growth_of_customer_acqusition_cost(cac)_[country] — средний рост отношения общих затрат на продажи и маркетинг (в том числе рекламу, зарплаты и бонусы специалистов, комиссии агентств, операционные издержки на обработку сделки) за определенный период к количеству новых клиентов за этот же период для компаний в отрасли

ration_of_customer_lifetime_value_to_customer_acuisition_cost(LTV:CAC)_[country] — значение отношеняя средней прибыли за «время жизни» одного клиента и стоимостт привлечения клиента

time_to_payback_cac_[country] — сколько времени (как правило, сколько месяцев) необходимо, чтобы вернуть затраты на привлечение клиента

Интеллектуальные фичи

Очень спорной выглядит идея попытаться оценить уровень внимания пользователей и медиа к различных сферам, исходя из тех же причин, которые приведены в статье. В ней выражается мнение, что сейчас слишком переоценены культ молодости, стартапов, приложений для общения, в то время как биотехнологии, альтернативная энергетика, которыми заниматься “не модно” не до получают столько внимания, да и тот же 23andMe не соберёт больше публикаций, чем бум Flappy Bird / FireChat / WeeChat / покупки WhatsApp / Oculus Rift.  Не соберёт, пока пресональная медицина и победа над старостью не станут реальностью, поэтому необходимо пытатсья оценивать и косвенные признаки, такие как рост числа запросов и публикаций в области. Тем не менее, приведённые ниже факторы косвено отображают активность и рост рынков и неиспользовать их нельзя.

growth_of_patents_number_[country] — поскольку даже в РФ потихоньку все гос данные становятся доступными, то можно оценить и процентный числа рост числа патентов в области.

google_trend_market_dynimcs — рост числа запросов в гугле за последний год по релевантным отрасли запросам. Например, квантовые вычисления, data mining + big data + анализ данных. Для получения значений этих факторов нужно использовать Google Trends (для России можно сопоставлять с Яндексом)

public_tiker_hashtag_[year_growth | half_year_growth] — годовой/полугодовой прирост числа хэштегов в твиттере и фейсбуке, которые относятся к тикерам публичных компаний в отрасли

growth_share_of_market_in_portfoio_[Sequoia | Founders Fund | Accel Partners | DST | Bekshire Hathaway | UCP] — обязательно надо использовать рост доли инвестиций в портфеле этих компаний в год, поскольку сам факт вложения ими средств показывает наличие уже существующего тренда и формирует интерес в этой области

growth_money_volume_spent_on_acqusition_by_[Apple | Facebook | Google | Microsoft | Samsung] — рост суммы денег, потраченная на инвестирование / приобритение стартапов в отрасли технологическими гигантами. Потому что приобретение ВатсАппа, например, повышает цену мессенджеров и внимание к ним, точно также как вчерашняя покупка Гуглом компании-производителя дронов, к которому присматривался Facebook

При поиске данных для следующих факторов нужно особо строго подходить к выбору акселлераторов/инкубаторов. Потому что участие компании в акселерационной программе предполагает более строгий отбор, ведь участие идёт за долю в компании.

Обязательны к рассмотрению: ФРИИ, Технопарки в РФ, MassChallenge, Y combinator, Startup sauna, а также программы, актуальные для отраслей

growth_of_startups_share_at_incubators — рост доли стартапов в выбранной сфере в инкубаторах

growth_of_startups_share_at_accelerators — рост доли стартапов в акселлераторах

growth_of_number_of_questions_at_quora_[country] — рост количества вопросов, касающееся стартапов в выбранной области на сервисе Quora (см. комментарий ниже)

[growth_of_number|acceleration_of_growth]_of_questions_at_stackexchange_[country] — процентный рост количества вопросов по обалсти на stackexchange позволит оценить рост интереса специалистов в области. Задача состоит в том, чтобы привлечь экспертов с целью правильной идентификации тегов для каждой отрасли. Например, рост вопросов по Cocoa свидетельствует о том, что появляется больше интереса к мобильным приложениям. Процентный рост на 200% вопросов о принципе устройства полимеразы говорит о том, что повышается интерес к биоинформатике/персональной медицине. Ну или просто-напрасто у студентов началась сессия.

growth_of_number_of_conferences_[country] — рост количества отраслевых конференций в год

growth_of_avg_number_of_conference_reports_[country] — рост среднего количества тематических докладов на конференциях

Источники для получениях данных

  1. Доклады о доходности и прогнозы по развитию публичных компаний.
  2. Государственные сайты со статистикой. Патентное бюро США, Роспатент
  3. Публикации в Forbes, Business Magazine, Mashable
  4. Quora — сайт вопросов и ответов
  5. Stackexchange — сайт профессиональных вопросов и ответов, разделённый по отраслям. Его частью является stackoverflow.
  6. Google Trends, Яндекс.Вордстат
  7. Google Adwords, Яндекс.Директ
  8. Twitter, Facebook API

 Ещё статьи по теме:

Вложения в стартапы нужно оценивать с помощью математики
Как оценить стоимость стартапа
Предварительная оценочная стоимость компаний: метод венчурного капитала (часть 2)
Методы оценки стартапа
Математика венчурного дела