ScriptumAI

[English] | [Français] | [Español]

English

Introduction

ScriptumAI is a private and advanced Retrieval-Augmented Generation platform designed for document ingestion, semantic search, and query processing. It leverages cutting-edge machine learning and natural language processing techniques.

Key Technologies

Backend: Flask
Frontend: Streamlit
ML & NLP: PyTorch, Ollama API
Database: Chroma
Testing: pytest

Architecture

The project follows a modular architecture with distinct components for embedding, ingestion, query processing, and retrieval.

Project Structure

backend/: Core components (embedding, ingestion, query, retrieval)
frontend/: Streamlit user interface
config.py: Configuration settings
main.py: Application entry point
tests/: Unit tests

Key Features

Document Ingestion
- Multi-format support (text, PDF, DOCX, HTML, Markdown)
- Chunking for efficient processing
- Storage in Chroma for fast retrieval
Query Processing
- Uses LLM to generate relevant responses
- Context-based retrieval using cosine similarity
Semantic Search
- Search within ingested documents
- Returns most relevant chunks with scores and metadata
System Statistics
- Displays ingestion statistics and models used
User Interface
- Components for ingestion, queries, and search
- Dashboard for statistics and recent activity
Unit Testing
- Comprehensive tests for all major components

Quick Start

Prerequisites

Python 3.8+ (tested with 3.12.7), Flask, Streamlit, PyTorch, Ollama API, Chroma, pytest

Installation and Launch

Clone the repository
Create a virtual environment
Install dependencies: pip install -r requirements.txt
Launch backend: python api.py
Launch frontend in another terminal: streamlit run app.py

License

This project is available under a dual license:

GNU Affero General Public License v3.0 (AGPL-3.0)
Commercial License

For more details, see the LICENSE file and COMMERCIAL_LICENSE.md.

Contributing

Please read our CONTRIBUTING.md for details on our code of conduct and the process for submitting pull requests.

Français

Introduction

ScriptumAI est une plateforme privée et avancée de Génération Augmentée par Récupération conçue pour l'ingestion de documents, la recherche sémantique et le traitement des requêtes. Elle utilise des techniques de pointe en apprentissage automatique et en traitement du langage naturel.

Technologies Clés

Backend: Flask
Frontend: Streamlit
ML & NLP: PyTorch, API Ollama
Base de données: Chroma
Tests: pytest

Architecture

Le projet suit une architecture modulaire avec des composants distincts pour l'intégration, l'ingestion, le traitement des requêtes et la récupération.

Structure du Projet

backend/: Composants principaux (intégration, ingestion, requête, récupération)
frontend/: Interface utilisateur Streamlit
config.py: Paramètres de configuration
main.py: Point d'entrée de l'application
tests/: Tests unitaires

Fonctionnalités Principales

Ingestion de Documents
- Support multi-format (texte, PDF, DOCX, HTML, Markdown)
- Découpage pour un traitement efficace
- Stockage dans Chroma pour une récupération rapide
Traitement des Requêtes
- Utilise LLM pour générer des réponses pertinentes
- Récupération basée sur le contexte utilisant la similarité cosinus
Recherche Sémantique
- Recherche dans les documents ingérés
- Retourne les fragments les plus pertinents avec scores et métadonnées
Statistiques du Système
- Affiche les statistiques d'ingestion et les modèles utilisés
Interface Utilisateur
- Composants pour l'ingestion, les requêtes et la recherche
- Tableau de bord pour les statistiques et l'activité récente
Tests Unitaires
- Tests complets pour tous les composants majeurs

Démarrage Rapide

Prérequis

Python 3.8+ (testé su 3.12.7), Flask, Streamlit, PyTorch, API Ollama, Chroma, pytest

Installation et Lancement

Cloner le dépôt
Créer un environnement virtuel
Installer les dépendances : pip install -r requirements.txt
Lancer le backend : python api.py
Dans un autre terminal, lancer le frontend : streamlit run app.py

Licence

Ce projet est disponible sous une double licence :

Licence publique générale GNU Affero v3.0 (AGPL-3.0)
Licence commerciale

Pour plus de détails, consultez le fichier LICENSE et COMMERCIAL_LICENSE.md.

Contribuer

Veuillez lire notre CONTRIBUTING.md pour plus de détails sur notre code de conduite et le processus de soumission des pull requests.

Español

Introducción

ScriptumAI es una plataforma privado y avanzada de Generación Aumentada por Recuperación diseñada para la ingestión de documentos, búsqueda semántica y procesamiento de consultas. Utiliza técnicas de vanguardia en aprendizaje automático y procesamiento del lenguaje natural.

Tecnologías Clave

Backend: Flask
Frontend: Streamlit
ML & NLP: PyTorch, API de Ollama
Base de datos: Chroma
Pruebas: pytest

Arquitectura

El proyecto sigue una arquitectura modular con componentes distintos para la incrustación, ingestión, procesamiento de consultas y recuperación.

Estructura del Proyecto

backend/: Componentes principales (incrustación, ingestión, consulta, recuperación)
frontend/: Interfaz de usuario de Streamlit
config.py: Configuraciones
main.py: Punto de entrada de la aplicación
tests/: Pruebas unitarias

Características Principales

Ingestión de Documentos
- Soporte multi-formato (texto, PDF, DOCX, HTML, Markdown)
- Fragmentación para procesamiento eficiente
- Almacenamiento en Chroma para recuperación rápida
Procesamiento de Consultas
- Usa LLM para generar respuestas relevantes
- Recuperación basada en contexto usando similitud del coseno
Búsqueda Semántica
- Búsqueda en documentos ingeridos
- Devuelve los fragmentos más relevantes con puntuaciones y metadatos
Estadísticas del Sistema
- Muestra estadísticas de ingestión y modelos utilizados
Interfaz de Usuario
- Componentes para ingestión, consultas y búsqueda
- Panel de control para estadísticas y actividad reciente
Pruebas Unitarias
- Pruebas exhaustivas para todos los componentes principales

Inicio Rápido

Requisitos Previos

Python 3.8+ (probado en 3.12.7), Flask, Streamlit, PyTorch, API de Ollama, Chroma, pytest

Instalación y Lanzamiento

Clonar el repositorio
Crear un entorno virtual
Instalar dependencias: pip install -r requirements.txt
Inicie el backend: python api.py
En otra terminal, inicie el frontend: streamlit run app.py

Licencia

Este proyecto está disponible bajo una licencia dual:

Licencia Pública General Affero de GNU v3.0 (AGPL-3.0)
Licencia Comercial

Para más detalles, consulte el archivo LICENSE y COMMERCIAL_LICENSE.md.

Contribuir

Por favor, lea nuestro CONTRIBUTING.md para obtener detalles sobre nuestro código de conducta y el proceso para enviar pull requests.

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
Installation		Installation
backend		backend
data		data
frontend		frontend
temp_uploads		temp_uploads
tests		tests
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
COMMERCIAL_LICENSE.md		COMMERCIAL_LICENSE.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
api.py		api.py
app.py		app.py
config.py		config.py
main.py		main.py
requirements.txt		requirements.txt

License

Guiss-Guiss/ScriptumAI

Folders and files

Latest commit

History

Repository files navigation

ScriptumAI

English

Introduction

Key Technologies

Architecture

Project Structure

Key Features

Quick Start

Prerequisites

Installation and Launch

License

Contributing

Français

Introduction

Technologies Clés

Architecture

Structure du Projet

Fonctionnalités Principales

Démarrage Rapide

Prérequis

Installation et Lancement

Licence

Contribuer

Español

Introducción

Tecnologías Clave

Arquitectura

Estructura del Proyecto

Características Principales

Inicio Rápido

Requisitos Previos

Instalación y Lanzamiento

Licencia

Contribuir

About

Topics

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages