SlideShare a Scribd company logo
Чатбот для	подсказки	ответов	на	вопросы
Александр Сербул
руководитель направления
Карл…
Карл, я пишу
хороший код и
люблю свою
работу….
Это очень круто,
пап!
Карл… Карл,	я	специалист	по	
BigData….
Это	очень	круто,	
пап!
Но	я	давно	забыл	тервер	
и	диффиренциальное	
исчисление	и	НЕ	МОГУ	
ИХ	ВСПОМНИТЬ,	даже	за	
отпуск!
«Открытые линии»
• У вас есть какой-нибудь интернет-
магазин
• Нужно скоммуницировать экспертов
интернет-магазина с покупателями
из разных каналов…
• Люди начинают задавать вопросы…
• Ваши сотрудники начинают им
отвечать…
«Открытые линии»
«Открытые линии»
«Открытые линии»
«Открытые линии»
Призовем Ктулху?
• Клиент состыкован с менеджером
• Но клиенты задают часто похожие
вопросы
• И получают похожие ответы
• База знаний, ЧАВО…
•А вдруХ AI поможет?
Все готовы к отжигу в
печи?
• Начнет болеть голова
• Из носа потечет кровь
• Пропадет слух
• Возможны судорги и
левитация…
Здравствуй, NLP
• Регулярки? Да! J
• Куча экспертов и …
регулярки?
• Предикативная логика и
базка?
• Семантические графы и ЛСД
(C20H25N3O)
Национальный корпус русского
языка и … «тайные знания»
• ruscorpora.ru
• Томита-парсер (Яндекс)
• Морфологический словарь
• Словарь синонимов
• Тезаурус/семантическая сеть
• «Тайные знания» Яндекс,
ABBYY…
Карл…
Карл, я подписан на
новости научной
библиотеки….
Это очень круто,
пап!
Карл… Карл,	я	специалист	по	
BigData….
Это	очень	круто,	
пап!
Только	на	их	данных	у	
них	ВСЕ	РАБОТАЕТ…	а	у	
на	моих	– нет	J Пойду	и	
напьюсь!
«Из грязи» … в князи!
• Зачем изучать линейную
алгебру?
• Зачем понимать
логистическую регрессию?
• Зачем знать модели Макарова
Маркова?
• Айда сразу в … Deep Learning!
Нам поможет «черная магия»
нейронок
• DSSM (Microsoft) и другие…
• Яндекс «Палех», Google
SmartReply
• Word2Vec, GloVe
Суть архитектуры на пальцах…
• 3 (N)-граммы, tfidf
• Сжатие размерности
(нелинейное)
• Метрика похожести какая
«НИТЬ», например скалярное
произведение векторов:
arxiv (1508.01585v2)
Метрики похожести, страшные и
ужасные…
• Многое зависит от ваших
данных
• Их объема, структуры
• Фазы Луны
• Года по китайскому календарю
• Дня и месяца рождения
руководителя проекта!
На чем «кодить», production
• Тензоры… numpy, nd4j
• Python: Theano, Keras,
TensorFlow
• Lua: Torch7
• Java/Scala: Deeplearning4j
• Production…
«Нейробот» J
Embedding+encoding -
каскад сжатия вопроса/контекста
(RNN/FF/CNN, softsign, adam)
Слой векторного умножения
(dot product) либо другой kernel
Корректирующий слой
(feed forward + softmax)
Ответ сети: похожесть
вопроса и ответа (0-1)
TF-IDF/Ngram – токенизация
TF-IDF/Ngram - токенизация
Embedding+encoding -
каскад сжатия ответа
(RNN/FF/CNN, softsign, adam)
"Вопрос"
"Ответ"
Кластер веб-серверов,
Кэширование, REST-API
GPUs (TitanX)
Возможные ответы
на контекст
Глубокая нейронная сеть
с двумя входами и одним выходом
с адаптивной архитектурой.
Внутри сети происходит совмещение
семантических пространств вопросов
и ответов.
TuringТюнинг…
• Если мало данных… нейронка «бредит»
• Метрики качества: recall@N, уровень «бреда» и т.п.
• Обратный индекс
• Кластеризация похожих ответов
• Многопоточность
• Онлайн-дообучение
• Экстремальный highload
• «Экспериментируем» с мэрией Москвы
Бот-платформа Битрикс24
• https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=93
• Приглашаем дата-сатанистов сайнтистов к
сотрудничеству
• Пишите NLP + Deep + Convolution+ Adversarial +
Autoencoder + Neural Turing Machine + … чат-боты
• Всем отличного настроения и качественных
моделей! J
Спасибо за
внимание!
Вопросы?
Александр Сербул
@AlexSerbul
serbul@1c-bitrix.ru

More Related Content

PPTX
Devconf-2014: Ноотропы для BigData
PPTX
РИТ-2014: Ноотропы RDF для BigData
PDF
Александр Сербул, «1С-Битрикс»: Нейросети для бизнеса - в crm, в маркетинге, ...
PDF
Современные средства NLP в поисковых задач - Стачка 2017
PDF
Golang в действии: Как нам удается писать highload приложение на (не?)подходя...
PPT
Реальный мир и хорошие модели данных.
PDF
RTB DSP на языке Go: укрощение buzzwords
PDF
Devconf-2014: Ноотропы для BigData
РИТ-2014: Ноотропы RDF для BigData
Александр Сербул, «1С-Битрикс»: Нейросети для бизнеса - в crm, в маркетинге, ...
Современные средства NLP в поисковых задач - Стачка 2017
Golang в действии: Как нам удается писать highload приложение на (не?)подходя...
Реальный мир и хорошие модели данных.
RTB DSP на языке Go: укрощение buzzwords

Similar to Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы (20)

PDF
Машинное обучение в электронной коммерции - практика использования и подводны...
PPTX
Машинное обучение в электронной коммерции — практика использования и подводны...
PPTX
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
PDF
HappyDev'15 Keynote: Когда все данные станут большими...
PPT
Почему оно не находится! / Андрей Аксенов (Sphinx)
PDF
TopRater.com Машинное понимание миллионов отзывов / Павел Велихов (TopRater)
PPTX
Про качественный поиск
PDF
2 bdw.key
PDF
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
PPTX
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
PPTX
CodeFest 2012. Аксёнов А. — Как мы разрабатываем Sphinx
PDF
Pgconfru 2015 kosmodemiansky
PPT
Низкоуровневые оптимизации. Андрей Аксенов. Unigine Open Air 2013
PPT
Про качественный поиск (Андрей Аксенов)
PPTX
Машинное обучение (Открытый семинар по средам)
PDF
Лев Валкин — Кое-что про Erlang
PDF
Erlang and OCaml Experience at Echo
PDF
Павел Павлов - Scala для профессионалов - Joker 2013
PDF
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
PDF
Собеседование на позицию Java Developer
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
Почему оно не находится! / Андрей Аксенов (Sphinx)
TopRater.com Машинное понимание миллионов отзывов / Павел Велихов (TopRater)
Про качественный поиск
2 bdw.key
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
CodeFest 2012. Аксёнов А. — Как мы разрабатываем Sphinx
Pgconfru 2015 kosmodemiansky
Низкоуровневые оптимизации. Андрей Аксенов. Unigine Open Air 2013
Про качественный поиск (Андрей Аксенов)
Машинное обучение (Открытый семинар по средам)
Лев Валкин — Кое-что про Erlang
Erlang and OCaml Experience at Echo
Павел Павлов - Scala для профессионалов - Joker 2013
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
Собеседование на позицию Java Developer
Ad

More from Newprolab (20)

PDF
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
PDF
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
PDF
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
PDF
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
PDF
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
PDF
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
PDF
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
PPTX
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
PDF
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
PDF
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
PDF
Data Science Week 2016. Segmento, "Digital Employee"
PDF
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
PDF
Data Science Week 2016. Sberbank
PDF
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
PDF
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
PDF
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
PPTX
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
PPTX
Data Science Week 2016. GlowByte, "Культура работы с данными"
PDF
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
PDF
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Sberbank
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Ad

Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы