Что такое data-driven и кому выгодно владеть большими данными в Казахстане?

14 октября 2019, 14:10

Роман Лукьянчиков Написать автору

Рассказываем, как анализ больших данных помогает бизнесу в принятии качественных решений.

В 2019 году информация о покупках, транзакциях и любой другой активности потребителей – важный и ценный ресурс. В умелых руках он помогает компаниям делать прогнозы, лучше понимать аудиторию, увеличивать доходы и сокращать риски. Спрос на big data, появившийся в начале нулевых, создал новые профессии и подходы управления. В частности, data-driven культуру, когда в принятии решений компания опирается на аналитику больших данных. Их сбор, обработку и анализ упрощает использование технологии искусственного интеллекта (ИИ) на базе машинного обучения.

Важно отметить, что переход к data-driven – это не столько технологическая трансформация, но изменение бизнес-модели компании. Бизнес обязан отбросить все методы работы, не основанные на численных показателях, в целостности и корректности которых уверен. Принятие любого решения должно быть обосновано влиянием на бизнес-цели компании и аргументировано цифрами.

С этим две проблемы:

Бизнес не готов отказываться от работающих схем взаимодействия с клиентом, базирующихся на "ощущениях".
В РК практически нет data-science-специалистов.

Informburo.kz поговорил с ведущими специалистами по data-science в IT-компании Kolesa Group Петром Царенко и Дмитрием Казаковым о том, как data-driven помогает решать бизнес-задачи, создаёт спрос на новые профессии и влияет на бизнес в Казахстане.

Кто и зачем работает с большими данными?

Большими данными преимущественно обладают крупные компании и корпорации, но за счёт доступности технологий с big data может работать даже небольшой интернет-магазин. Но просто собирать данные недостаточно. Нужна инфраструктура сбора и систематизации данных и своевременной передачи нужных цифр специалистам. Эта инфраструктура требовательна к человеческому ресурсу.

Сотрудников нужной квалификации искать сложно.

"Крупные компании активно внедряют data-driving-подход в разные отрасли по всему миру. Если раньше на большие данные опирались только в Силиконовой долине в компаниях типа Amazon и Facebook, сейчас их используют и на производствах, и в нефтедобыче и переработке. В том же "Яндексе" есть подразделение data factory, услугами которого пользуются заказчики из разных сфер, от науки до металлургии", – говорит тимлид направления data-аналитики Дмитрий Казаков.

слева Петр Царенко, справа Дмитрий Казаков

Слева – Пётр Царенко, справа – Дмитрий Казаков / Фото Романа Лукьянчикова

По словам Дмитрия, алгоритмы машинного обучения также применяются на фондовой бирже, где не менее половины торгов ведут нейросети. Причём гораздо быстрее брокеров. В технологии искусственного интеллекта заинтересованы и госструктуры. Например, в нескольких городах Казахстана работает система видеонаблюдения "Сергек" с технологией компьютерного зрения. Её функционал широк: от распознавания номеров и фиксирования нарушений ПДД до экологического мониторинга и прогнозирования автомобильных пробок.

"Один из ключевых способов применения данных – прогнозы. У бизнеса всегда есть какие-то опасения, идеи и желания. К нам приходят с вопросами, например, что будет в ближайшие полгода или какой сегмент пользователей у нас вырастет. Мы, как аналитики, изучаем данные с помощью разных методик и можем определить наиболее перспективные группы пользователей. При этом точность нашего прогноза должна быть не менее 90%", – говорит Дмитрий.

В 2015 году агентство Adweek выяснило, как маркетологи относятся к данным. 77% уверены, что без них не обойтись, 69% используют их для настройки таргетированного контента, 55% – при разработке маркетинговой стратегии, 49% – для эффективной коммуникации с клиентами, 44% основывают на данных аналитические отчёты.

Data-driven намного ускоряет процессы принятия решений и поиск ошибок. Можно двигаться и старыми методами, но медленнее и с большими затратами, считает специалист. Так, анализ больших данных в комплексе с другими мерами, по его словам, помог Kolesa Group вырасти в два раза за последние два года. 40% этого роста обеспечил именно data-driven-подход. С другими интересными кейсами по внедрению data-driven можно ознакомиться здесь и здесь.

"Три года назад решения в "Колёсах" принимались по интуиции менеджера, – рассказывает директор по данным Пётр Царенко. – Например, нам нужно срочно улучшить поиск на сайте, команда работает три месяца, но ощутимых результатов нет. Сейчас перед решением какой-либо задачи мы обращаемся к данным, которые помогают понять слабые и сильные места продукта. Также мы можем сравнивать показатели нескольких наших продуктов между собой".

Кто такой дата-сайнтист и чем он занимается?

Аналитик – это одна из самых важных ролей в компании. Глаза, ум и здравый смысл бизнеса.В сфере исследования данных работают несколько категорий специалистов. В зависимости от задач, которые они решают, можно выделить пять основных направлений:

Data-инженеры создают инфраструктуру для хранения данных и следят за их корректностью
Data-аналитики решают бизнес-задачи с помощью данных, работая с алгоритмами машинного обучения
ML-инженеры (Machine Learning) тоже работают с алгоритмами, создавая умные сервисы, знают языки программирования. Создают системы по распознаванию голоса и объектов на фото и видео, приложения по трансформации фотографий
ML-research разрабатывают новые прикладные алгоритмы для машинного обучения. Обычно это специалисты с PhD. Они работают в крупных корпорациях типа Google и Facebook. В Казахстане таких специалистов можно пересчитать по пальцам
BI-аналитики представляют собранные данные в понятном виде для руководства компании. Например, в виде графиков, таблиц или индикаторов, демонстрирующих результаты каждый день или за нужный период.

По словам Дмитрия Казакова, немаловажно, с каким профессиональным опытом специалист приходит в data science. Продукт-менеджеры или маркетологи чаще идут в дата-аналитику. Освоив код, они могут стать ML-инженерами. Из бывших разработчиков также обычно получаются хорошие ML- или data-инженеры. Специалисты, владеющие знаниями по прикладной математике, теории вероятности и статистике, востребованы в ML-research.

Какие компании используют big data в Казахстане?

В основном это сотовые операторы, банки и телекоммуникационные компании. Успех того же Kaspi на местном рынке во многом связан с технологиями big data и аналитиками, которые понимают поведение пользователей и умеют определять риски, считает Пётр Царенко. Также большим объёмом данных о казахстанских пользователях могут владеть такие крупные IT-компании, как "Яндекс", Google и Facebook, или новые сервисы на местном рынке типа Glovo.

Unsplash

"Пока эта отрасль находится на начальном этапе. Сперва на рынок заходят новаторы, на которых потом равняются остальные игроки. Понятно, что не все пока готовы работать с большими данными и будут набивать много шишек", – отмечает Дмитрий Казаков.

Тип собираемых данных зависит от специфики компании. В случае онлайн-сервисов накопленная информация делится на несколько кластеров. Крупнейший из них относится к поведению пользователей, будь то клики, переходы, время пребывания на сайте или в приложении. Второй большой кластер – данные, хранящиеся на сервере, например, информация о транзакциях.

В "Колёсах" за работу с большими данными отвечает R&D-отдел (Research and Development). Его сотрудники занимаются ML-инженерией и data-science-аналитикой. В первом случае это разработка продуктов и решений для сервисов проекта, а во втором – отчёты, визуализация данных и поиск ценных инсайтов из собранной информации. В обоих отделах задействованы python-разработчики и data-инженеры, которые помогают работать с данными в отдельных микросервисах.

В своей работе компания использует алгоритмы машинного обучения. Например, отдел модерации ежедневно проверяет 70-80 тысяч объявлений на сайтах проекта. 90 процентов из них проходит через микросервис "Гермиона". Его задача выявлять нарушения, мошенничество или запрещённый контент. Проверка объявления искусственным интеллектом занимает меньше секунды.

"Кроме проверки объявлений, отдел модерации также собирает дата-сет – данные для улучшения "Гермионы". Для нас главная метрика, чтобы сервис ошибался не чаще, чем человек, при том, что модераторы у нас опытные”, – говорит Пётр Царенко.

Всё, что не проверяет микросервис, поступает к модераторам. На основе их решений нейросеть учится распознавать новые виды нарушений. До запуска автомодерации специалисты обучили нейросеть находить закономерности по большой базе объявлений, ранее не прошедших проверку.

В первую очередь миркосервис научился находить причину блокировки объявления. Допустим, скрытая реклама, неправильная категория, нецензурная лексика, дискриминация, продажа наркотиков или человеческих органов. Для распознания недопустимых слов нейросеть также обучалась по словарям.

Сотрудники RND отдела за работой

Сотрудники RND-отдела за работой / Роман Лукьянчиков

"Также мы стараемся отлавливать объявления от мошенников, – рассказывает Пётр Царенко. – Допустим, когда злоумышленник пытается продать автомобиль по заниженной цене и потом просит отправить ему предоплату, потому что он якобы находится в другом городе. Таких мошенников определять сложнее всего, потому что их объявления похожи на обычные”.

Готов ли казахстанский рынок к data-driven?

Несмотря на большой интерес к сфере data-science, на рынке пока не хватает специалистов. В Казахстане университеты только начали открывать специальности по Data и Computer Science. В числе первых – КБТУ, КазНУ и Политех. Работать с большими данными хотят преимущественно студенты и совсем молодые специалисты.

"Мы долго не можем найти себе людей в команду, потому что на рынке мало тех, кто сразу бы мог выполнять поставленные задачи. Большие компании открывают свои академии для студентов последних курсов, где обучают их всему необходимому. Так делают Beeline, Kaspi. Мы тоже собираемся запускать свою академию. Для нас это чуть ли не единственный способ быстро найти талантливых ребят и через полгода-год получить хороших специалистов в нужном для нас количестве. Спрос на дата-сайнтистов и ML-инженеров с опытом пока превышает предложения", – говорит Пётр Царенко.

Другая крайность – слабое представление компаний, начинающих работать с big data, каких результатов они хотят с их помощью достичь и какие задачи решить. От этого во многом зависит подбор профессиональной команды, задача которой предлагать руководству свежие идеи и рекомендации. По мнению специалистов, прежде чем внедрять data-driven-подход, у организации должны быть налажены все рабочие процессы.

Так, главный признак дата-ориентированной компании – эффективная цепочка создания стоимости (value chain). Собранные данные и отчёты превращаются в идеи и рекомендации, используемые руководителями для принятия решений. Это циклический процесс: data-science приводит к изменениям в бизнесе, результаты изменений оценивают, анализируют и снова применяют для изменения бизнеса. Однако руководители и топ-менеджеры в Казахстане не готовы (во всяком случае, пока) полностью положиться на данные, что порождает другой замкнутый круг: data-science не используется в полной мере, не показывает результатов и отбрасывается как малоэффективный инструмент.

Популярное в нашем Telegram-канале