Кирилл Саенко
июль 2016.
3027

Пришли ли в Россию большие данные? Или анализ и прогнозирование с помощью Big Data осуществляют только единичные компании? (Яндекс и т.д. не считается)

Ответить
Ответить
Комментировать
0
Подписаться
1
2 ответа
Поделиться

Тут смотря что называть биг датой. 

Если это просто методики хранения и обработки огромных массивов неструктурированной или плохо структурированной информации, то это уже давно в России, более менее все крупные банки, телеком и прочее уже давно используют это у себя. Есть финансовые ИТ компании, которые работают в сфере торговли на рынках, хедж фонды и так далее, которые все это конечно же используют. Куча стартапов по предоставлению услуг майнинга данных и машинного обучения для компаний. Так что все уже давно здесь. Глобализация же, тем более в такой сфере как ИТ.

1
-1

Насколько у нас работа с большими данными является самодостаточным инструментом анализа, способным решать широкий круг задач? Насколько серьезно используются прогнозные возможности систем? Или сейчас пока это приятное дополнение к классическим методам анализа и мода?

Читал несколько статей, в которых описывается отношение к Big Data как к ящику Пандоры, в который можно загрузить кучу данных, нажать на кнопку и получить стратегию развития (утрированно). Насколько я знаю, как работает data science, это массовая истерия, которая в реальности в жизнь не воплощается (опять же, за исключением Яндекса, наверное, который потенциально станет самым крутым маркетинг-консультантом в ближайшем будущем и будет еще и на этом зарабатывать)

0
Ответить

Скажу сразу, что я не спец по биг дате и вообще машин лернигу. Мой анализ часто идет по обычным структурированным данным. Но я смотрю в сторону и темы нашего разговора. 

Так еще раз. Биг дата это просто метод хранения и обработки данных. Это просто когда все данные уже не так классно ложатся в обычные условные SQL DB и иже с ними. Поэтому придумали вот эти вот методы хранения и обработки. Всякие NоSQL и всякие шины типа Spark, которые тянут в реалтайме данные и так далее. Потому что данных много, они неструктурированны и растут очень быстро. Это методы хранения и обработки этих данных, такие как MapReduce в Hadoop. В этом плане, у очень большого количества компаний это все применяется. Просто придумайте себе такую сферу, где данных будет много и они неструктурированны. С высокой долей вероятности, там будет применятся все это. Hadoop и фреймворки поверх него уже давно мейнстрим. Я вот могу придумать для телекома такие задачи. Могу для соцсетей, могу для клевых всяких приложений, где нужна обработка разных данных от человека, и пользователей много, а также где важны выводы на основе этих данных пользователю, например аппы по здоровью с данными из интернета вещей. Да куда ни плюнь, методы эти пригодились бы. Игры, опять же. Вот эти все браузерные фритуплейчики. Зарабатывать то надо, а для этого надо аналитить поведение игроков и куча еще параметров. 
Да, многое можно хранить в SQL обычном и тянуть потом аналитику оттуда, но на каком то этапе возникают проблемы и проще возможно подключить кластер со слабоструктурированными данными и тянуть еще и оттуда, все это обрабатывая вместе. 
Что значит, биг дата это ящик пандоры? Ну да, когда данные не структурированы, плохо понимаешь, что там внутри. Для этого придумали всякие алгоритмы вытаскивания данных из таких систем и их обработки. Это то, что называется Data Maining. Там много всяких методов, как модное и сложное машинное обучение, вплоть до прикручивания нейросетей, так и обычный статистический анализ данных. В общем, там МНОГО математики и алгоритмов. Все это можно назвать Data Science, да. 

Вот это то, что касается Биг Даты. 

Следует ли считать те же компании типа FaceFind, которые работают на нейронках использующими Биг Дату я не могу сказать. Все это уже так тесно сплелось в одном целом, что уже никто не разделяет особо. Просто есть методы работы с данными, какие то тут удобнее применять, какие то тут. 

Насколько я знаю, как работает data science, это массовая истерия, которая в реальности в жизнь не воплощается

На счет этого, data science, это не только про Биг Дату. Это вообще про данные. Все методики машинного обучения и выуживания выводов из данных успешно применяются в бизнесе во многих компаниях, не только в Яндексе. И для этого не обязательно иметь Биг Дату у себя развернутую. 
Посмотрите на hh.ru в вакансии по ключевым словам. В разных компаниях востребовано, и не только потому что это модно, а в первую очередь, потому что надо. Бизнес же. 

Насколько у нас работа с большими данными является самодостаточным инструментом анализа, способным решать широкий круг задач? Насколько серьезно используются прогнозные возможности систем? Или сейчас пока это приятное дополнение к классическим методам анализа и мода?

Отвечая на это, могу сказать, что Биг Дата это не инструмент анализа, так что тут сам вопрос не корректен. Но методы анализа данных успешно самодостаточны, и сейчас уже выходят на мейнстрим. И да они сочетаются и с классическими методами анализа. В данный виток развития инфраструктур, данных, ИТ мы можем себе это позволить. И это все будет только расти, увеличиваться, углубляться, улучаться и так далее. 

Уф, какой длинный комментарий. 
Ну и я не претендую на точность, и правильность каких вещей, что я сказал, но в целом я думаю, мало где ошибся. 
Пусть спецы, если что меня поправят.

+2
Ответить
Прокомментировать

Анализ и прогнозирование используется, например, в нашей сфере программ лояльности, и его мы делаем без технологий распределенного хранения данных, которые часто называют BigData. Просто потому, что данные умещаются на одном сервере и эти распиаренные навороты ничего не дали бы, кроме накладных расходов.

Зато могу сказать, что реальные практические задачи в нашей сфере формулируются совершенно не так, как в учебниках и требуют других, специально разработанных технологий и матаппарата.

2
-2

Мне кажется, мало есть задач, которые формулируются как в учебниках. Особенно когда дело касается аналитических моделей, заточенных под индивидуальные процессы.

0
Ответить

В науке и инновациях - да, все задачи новые или свежие.

А вот в технологии задачи традиционные, из серии "из пункта А в пункт Б".

В данном случае во всех учебниках машинного обучения данные в таблице с параметрами в столбцах, а на деле эта таблица миллион на миллион, 99% клеток пустые.

Поэтому на практике храним данные не в перекрестной таблице, а в виде компактного набора значений.

Другой аспект: производительность компьютеров очень сильно зависит от физического расположения данных в кэшах разного уровня. Поэтому данные нужно заранее располагать в том порядке, в котором они будут востребованы процессором. В учебниках "машинного обучения" об этом не видел даже упоминаний.

При этом все носятся с мулькой о больших данных.

0
Ответить

Вот в том и дело, что постоянно на различных конференциях слышу о том, как классно использовать большие данные. А на деле вижу, что ни маркетологи, ни аналитики их не применяют (технарей знаю мало), хоть и говорят о них постоянно. Поведенческие факторы почти не включаются в системы. Кажется, что часть людей создала ореол таинственности вокруг больших данных, а на самом деле все работают по старинке, прикрываясь выученными словами и используя чуть ли ни excel-функционал в разных языках программирования (даже на 20% не используют потенциал языков, заточенных под статистику). Я понимаю, как в теории надо работать с такими системами и вижу, что почти никто с ними не работает, даже если заявляют об этом

0
Ответить
Ещё 17 комментариев

Зато сейчас новая такая же мулька с блокчейном))

0
Ответить

Как это связано? Как-то не уловил пока массового настроения на этот счет)))

0
Ответить

Никак не связано, кроме того, что вся лента в ФБ в блокчейнах, при этом никто не понимает, в чем новые выгоды для клиентов или на чем экономия/снижение рисков.

0
Ответить

У вас просто круг общения видимо такой)) У меня лента в ФБ молчит о блокчейнах.)) Изредка биткоины в финансовых журналах упоминаются. Пока, как по мне, это еще одна производная от физической ценности товаров, которая позволит создавать саморасширяющуюся необеспеченную финансовую систему

+1
Ответить

А на деле вижу, что ни маркетологи, ни аналитики их не применяют (технарей знаю мало), хоть и говорят о них постоянно.

Потому что ни маркетологам, ни аналитикам-маркетологам это не нужно. Пока что. Они считают какие то очень простые вещи. Хотя и там можно было бы впилить и применить методы машин лернинга.

0
Ответить

Проблема не в том, чтобы впилить и применить, а в том, чтобы сбылись предсказания с большими финансовыми последствиями.

Риски тут похожи на биржевые операции.

0
Ответить

Ну давайте так. Есть конкретные задачи, есть методы решения конкретных задач. 
Как только маркетинговые данные станут достаточно большими, или хозяин данных просто запустит их хранение, то я уверен, что методы машин лернинга здесь справятся быстрее и уверенней, чем обычный статистический анализ, на школьной матстатистике, где надо еще и эти данные привести в нормальную форму. 

Но с другой стороны, никуда обычный анализ не денется, ведь результаты работы надо как то оценивать, да попроще. 

А вот предсказания, как по мне, лучше будет работать у скажем нейронок. (да сложных, да затратных, и поэтому пока не используемых в бизнесе на таких незначительных задачах, где можно заюзать обычный анализ)

0
Ответить

А на чем основано ваше утверждение, что предсказания будут лучше сбываться у черного ящика, который даже не понятно как тестировать и отлаживать, чем у многомерной сегментации на основе статистической достоверности?

0
Ответить

Ну на самом деле нейронки, и даже глубокие уже не такой уж и черный ящик. 
Во вторых, конечно же, мое утверждение ничем не подкреплено, это просто мое мироощущение технологии) Возможно совершенно неправильное. 
В третьих, просто потому что мы можем оценить работу этой нейронки. И если она работает правильно на правильно подобранной выборке, то в чем причина сильно сомневаться в прогнозе? Мало того, при достаточно большой и разнообразной выборке, нейронка сможет предсказать даже то, что не может обычный статистический анализ, просто в силу того, что он просто не умеет работать с огромным количеством переменных, в отличии от нейронок. А значит, если мы берем маркетиноговые данные и исследования на этот счет, то можно, например, взять и сгузить в нейронку не только продажи, приходы, затраты, а еще и конкурентов, сми, упоминания и очень много всего, что как мне кажется положительно скажется на прогнозе. 

Но возможно я совсем не понимаю как работает маркетинг, и вообще ничего не понимаю)

Мне просто нравится это обсуждение.)

+1
Ответить

Вы ошибаетесь насчет количества переменных у нейронок: оно сильно ограничено.

"Стандартный" статистический анализ тут не рассматривается - это специальные разработки. Речь о том, что прозрачный алгоритм, основанный на статистике и, шире, - теории вероятностей - предпочтительней, поскольку соответствует научному подходу.

Проблема с "лернингом" и "нейронками" такая же, как с "неонками" - трудно обеспечить чистый эксперимент и эффективность прогнозов.

+1
Ответить

Прозрачный алгоритм при большом массиве может элементарно не перевариться машиной даже с очень хорошей оптимизацией. Или я ошибаюсь?

0
Ответить

При "очень хорошей оптимизации" - переваривает.

Например, у меня на средней мощности ноуте прогнозные модели для 16 временных срезов на 361 тыс наблюдений с 354 тыс параметров строится примерно за час.

0
Ответить

Но погодите, прозрачный алгоритм тоже может быть в машинном обучении. 

Давайте так, нам нужны предсказательные данные на основе разнозненных маркетинговых данных, собранных в одну кучу и не сложно поддающихся обработки и предсказанию на основе обычной статистики, допустим в экселе или там в еще где, в общем в обычных инструментах аналитики, где сейчас работают аналитики маркетинга, для предсказания каких то бизнес показателей. 

Но что такое машинное обучение? Это как раз методы предсказывания на основе данных. Просто они сложные. Но вполне математичны. 

"Машинное обучение (англ. Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных."

В данном случае, мы применяем уже всем известные методы математического анализа, просто комбинируя для лучшего результата, таким образом создавая (обучая машину) алгоритм. А извлекаем мы данные из выборки для обучения и создания дальнейшего алгоритма, с помощью Data Mining.

"Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний)." 

Да, извлекать можно и с помощью нейронок, как я и говорил выше, но можно и с помощью обычных каких то ординарных математических методов, раздельно обрабатывающих разные массивы данных. 

В данном случае, если вы это имели в виду, то я с вами согласен, если что то другое, то вот вам применимость машинного обучения для маркетинговых исследований без нейронок.

+1
Ответить

Это более, чем сносно, как мне кажется. А на каком языке алгоритм прописан?

0
Ответить

Например, у меня на средней мощности ноуте прогнозные модели для 16 временных срезов на 361 тыс наблюдений с 354 тыс параметров строится примерно за ча

Да, но у вас данные структурированные и понятные скорее всего.

+1
Ответить

Самые ресурсоемкие куски - на ассемблере. Остальное - на чем было удобнее разработчикам, delphi 2 насколько я помню.

Данные алгоритм обрабатывает любые, представимые в виде 'название параметра (текст)' = значение (вещественное число). Пробовали и погоду, и географические координаты, и фразы в описаниях товаров.

Реальные примеры данных:
'Сумма покупок(period=Последних недель|n=2|text=Газ)' = 1889.88
'Пол'=0
'!Предложение(Характеристика=Duration)'=35
'Типичное время покупки(Дни=По будням за год)'=12.49

99% значений - пустые.

Новые характеристики добавляются написанием отдельных хранимых процедур в БД, и не изменяют движок.

Данные не нужно интерпретировать, они сразу применимы для прогнозов.

0
Ответить

Да, и обычно прогнозирум изменение будущей доходности клиента по сравнению с контрольной группой.

0
Ответить
Прокомментировать
Ответить
Читайте также на Яндекс.Кью
Читайте также на Яндекс.Кью