Разработка чат-ботов является активно развивающейся темой. Существует большое количество эксперементальных проектов от различных компаний, таких как Google, Microsoft и других. Существуют научные работы, посвященные данной теме, например, Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models.
Конечной целью проекта является разработка telegram-бота, предназначенного для обсужения новостей. Программа должна анализировать текст новости, выделять ее темы и главную мысль. Также программа должна быть способна поддерживать обсуждение новости на русском языке, то есть автоматически генерировать подходящие по смыслу фразы или выбирать наиболее уместную в данном контексе готовую фразу из базы.
Для реализации генерации фраз будет использоваться LSTM-нейронная сеть. Для ее обучения могут использоваться фразы из комментариев к новостям, форумов и других источников. Для построения нейронной сети будет использоваться библиотека Tensorflow. Это современная библиотека с широким функционалам, позволяющая стоить нейронные сети любой сложности, с поддержкой вычислений на GPU. Для обработки текстов применяются библиотеки Pymorphy2 и Mystem. Для парсинга сайтов будет использоваться библиотека BeautifulSoap. Это библиотека для простого и быстрого парсинга веб-страниц.
- Изучение api Telegram.
- Написание прототипа, способного отвечать, случайно выбирая заранее заготовленные ответы.
- Написание парсера новостей.
- Написание бота, способного отправлять пользователю свежие новости. (Ко второй контрольной точке)
- Добавить возможность поддерживать диалог, используя шаблонные фразы.
- Написание бота, способного генерировать ответы на естественном языке.