🤖 Haystack RAG Telegram Bot (Docling + Pinecone)

Модульный Telegram-бот на Python для RAG (Retrieval-Augmented Generation) по своим документам.

Docling парсит PDF/DOCX и разбивает контент на чанки
Haystack 2.x Pipelines собирают ingestion + generation пайплайны
Pinecone хранит эмбеддинги и делает быстрый векторный поиск
После загрузки файла бот отправляет резюме ровно одним предложением
Дальше бот отвечает на вопросы с учетом загруженных документов (RAG)

Проект сделан как домашка “Кейс 3: Поиск по своим данным” (VPg07).

Автор: Георгий Белянин (Georgy Belyanin)
Email: georgy.belyanin@gmail.com

✨ Возможности

📄 Загрузка документов (PDF, DOCX и др.)
🧩 Автоматическое чанкование через Docling
🔎 Векторный поиск по Pinecone
💬 Ответы на вопросы по документам (RAG)
📝 Авто-резюме документа (строго 1 предложение)
🔐 Изоляция пользователей: поиск и ответы только по документам текущего chat_id

⚠️ Примечание о производительности Docling

Docling обрабатывает документы локально (в том числе OCR), поэтому при первом запуске и на больших PDF это может занять заметное время.
В уроке отдельно отмечают, что обработка идёт локально через ML-стек (например, PyTorch) — это нормально, просто подожди завершения.

Рекомендация:

тестируй сначала на маленьком PDF (2–5 страниц)
включи подробные логи (chunk count, documents_written), чтобы видеть прогресс

🏗️ Архитектура

hay_v2_bot/
├── bot/                    # Telegram handlers (I/O)
├── pipelines/              # Haystack pipelines
│   ├── ingestion.py        # Docling -> embeddings -> Pinecone
│   └── generation.py       # question -> retrieve -> LLM answer
├── components/             # Custom Haystack components + helpers
├── config.py               # .env settings + validation
└── main.py                 # entrypoint

✅ Требования

Python 3.10–3.12 (рекомендуется 3.11)
Pinecone аккаунт + API key
Telegram bot token (BotFather)
OpenAI API key (или совместимый прокси) + base url

🚀 Быстрый старт

1) Установка

python -m venv .venv
# macOS/Linux
source .venv/bin/activate
# Windows PowerShell
.venv\Scripts\Activate.ps1

pip install -U pip
pip install -r requirements.txt

2) Настройка переменных окружения

cp .env.example .env

Заполни .env:

TELEGRAM_BOT_TOKEN
OPENAI_API_KEY и OPENAI_BASE_URL
PINECONE_API_KEY, PINECONE_INDEX_NAME

3) Pinecone index

Создай индекс в Pinecone:

dimension: 1536 (для text-embedding-3-small)
metric: cosine

4) Запуск бота

python -m hay_v2_bot.main

📖 Использование в Telegram

/start — приветствие
Отправь боту файл (PDF/DOCX)
- бот пишет “получил / обрабатываю…”
- потом “готово”
- затем одно предложение резюме
Дальше просто задавай вопросы текстом — бот ответит с учетом документов

🧪 Быстрая проверка (перед сдачей)

python -m compileall hay_v2_bot
python -c "from hay_v2_bot.config import Settings; print('config ok')"
python -c "from hay_v2_bot.pipelines.ingestion import build_ingestion_pipeline; print('ingestion ok')"
python -c "from hay_v2_bot.pipelines.generation import build_generation_pipeline; print('generation ok')"

🔐 Безопасность

Никогда не коммить .env
Не логируй ключи и токены
.env.example — только шаблон

📸 Скриншоты для сдачи (минимальный набор)

Дерево проекта (папка hay_v2_bot/ + bot/ pipelines/ components/)
Терминал: успешный старт (Bot started polling... / без ошибок)
Telegram: /start
Telegram: загрузка файла + “готово” + резюме 1 предложением
Telegram: вопрос по документу → ответ
(опционально) Pinecone dashboard: видно индекс/namespace и что есть векторы

🗺️ Roadmap (необязательно)

Команда /reset для очистки пользовательского namespace/фильтра
Ссылки на источники (chunk_id / page) в ответах
Поддержка других форматов документов (TXT, MD и др.)

📄 License

MIT

👤 Автор

Георгий Белянин (Georgy Belyanin)
Email: georgy.belyanin@gmail.com

📝 Примечания

Проект создан в рамках курса "Кейс 3: Поиск по своим данным" (VPg07)
Все зависимости указаны в requirements.txt
Для работы требуется .env файл (см. .env.example в репозитории или создай по шаблону из README)

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
docs		docs
hay_v2_bot		hay_v2_bot
scripts		scripts
.cursorrules		.cursorrules
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🤖 Haystack RAG Telegram Bot (Docling + Pinecone)

✨ Возможности

⚠️ Примечание о производительности Docling

🏗️ Архитектура

✅ Требования

🚀 Быстрый старт

1) Установка

2) Настройка переменных окружения

3) Pinecone index

4) Запуск бота

📖 Использование в Telegram

🧪 Быстрая проверка (перед сдачей)

🔐 Безопасность

📸 Скриншоты для сдачи (минимальный набор)

🗺️ Roadmap (необязательно)

📄 License

👤 Автор

📝 Примечания

About

Uh oh!

Releases

Packages

Languages

ergon73/haystack-rag-docling-bot

Folders and files

Latest commit

History

Repository files navigation

🤖 Haystack RAG Telegram Bot (Docling + Pinecone)

✨ Возможности

⚠️ Примечание о производительности Docling

🏗️ Архитектура

✅ Требования

🚀 Быстрый старт

1) Установка

2) Настройка переменных окружения

3) Pinecone index

4) Запуск бота

📖 Использование в Telegram

🧪 Быстрая проверка (перед сдачей)

🔐 Безопасность

📸 Скриншоты для сдачи (минимальный набор)

🗺️ Roadmap (необязательно)

📄 License

👤 Автор

📝 Примечания

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages