Projeto de aprendizado para implementar um sistema RAG (Retrieval Augmented Generation) que responde perguntas sobre documentos PDF usando LangChain.
- LangChain: Framework para aplicações com LLMs
- Google Gemini: Modelo de linguagem para geração de respostas
- HuggingFace Embeddings: Geração de embeddings locais
- ChromaDB: Banco de dados vetorial
- PyPDF: Extração de texto de PDFs
-
Preparação dos Dados:
- Carrega o PDF
- Divide em chunks menores
- Gera embeddings (vetores) de cada chunk
- Armazena no ChromaDB
-
Consulta:
- Usuário faz uma pergunta
- Sistema busca chunks mais relevantes semanticamente
- Monta um prompt com os chunks + pergunta
- LLM gera resposta baseada no contexto
