-
Notifications
You must be signed in to change notification settings - Fork 1
ATTRIBUTIONS
Version: 1.2.0
Last Updated: December 2025
Dieses Dokument zeigt transparent, welche Features von externen Bibliotheken bereitgestellt werden und welche Innovationen von ThemisDB selbst stammen. ThemisDB baut auf bewährten Open-Source-Komponenten auf und kombiniert diese zu einer einzigartigen Multi-Model-Datenbank mit nativer LLM-Integration.
- Lizenz: Apache 2.0 / GPL 2.0
- Repository: https://github.com/facebook/rocksdb
-
Verwendung in ThemisDB:
- LSM-Tree basierte Key-Value-Storage-Engine
- TransactionDB mit MVCC (Multi-Version Concurrency Control)
- Write-Ahead-Log (WAL) für Durability
- Snapshot-Mechanismus für konsistente Backups
- Compaction und Compression (LZ4, ZSTD)
- Block Cache für Read-Performance
ThemisDB-Erweiterungen:
- Multi-Model-Mapping über hierarchisches Key-Schema
- Transactional Secondary/Graph/Vector Index Management
- Custom Merge Operators für komplexe Updates
- Adaptive Compaction-Strategien
- Integration mit verteiltem Sharding
- Lizenz: MIT
- Repository: https://github.com/nlohmann/json
-
Verwendung in ThemisDB:
- JSON Parsing und Serialisierung
- Schema Validation
- JSON Patch Operations
- Lizenz: Apache 2.0
- Repository: https://github.com/simdjson/simdjson
-
Verwendung in ThemisDB:
- High-Performance JSON Parsing (SIMD-beschleunigt)
- Streaming JSON Parser für große Dokumente
- On-Demand JSON Field Extraction
ThemisDB-Erweiterungen:
- Hybrid JSON Processing Pipeline (simdjson für Performance-kritische Pfade)
- Custom JSON Query Language (AQL JSON Operators)
- JSON Path Indexing
- Lizenz: Apache 2.0
- Repository: https://github.com/nmslib/hnswlib
-
Verwendung in ThemisDB:
- Hierarchical Navigable Small World (HNSW) Graph-basierte ANN-Suche
- Multi-Layer Graph-Struktur
- Efficient k-NN Search
- Lizenz: MIT
- Repository: https://github.com/facebookresearch/faiss
-
Verwendung in ThemisDB:
- GPU-beschleunigte Vector Search (optional)
- IVF (Inverted File Index) für große Vektormengen
- Product Quantization (PQ) für Speicherreduktion
- IndexIVFFlat, IndexIVFPQ, IndexHNSWFlat
ThemisDB-Erweiterungen:
- Transactional Vector Index Updates (ACID-Garantien)
- Hybrid Search: BM25 + Vector für RAG-Workflows
- Embedding Cache mit 70-90% Cost Reduction
- Multi-Backend GPU Support (10 Backends: CUDA, Vulkan, HIP, OpenCL, DirectX, OneAPI, ZLUDA, ROCm, Metal, WebGPU)
- Zero-Copy Integration zwischen Vector DB und LLM (native LLM Engine)
- Distributed Vector Search mit Sharding
- Filter-basierte Vector Search (Filtered ANN)
- Lizenz: Boost Software License 1.0
- Repository: https://www.boost.org/
-
Verwendung in ThemisDB:
- Asynchrones I/O Framework (Boost.Asio)
- HTTP/1.1 Server (Boost.Beast)
- WebSocket Support
- TLS/SSL Integration
ThemisDB-Erweiterungen:
- Custom Wire Protocol (binäres Netzwerkprotokol)
- Server-Sent Events (SSE) für Streaming Queries
- Rate Limiting & Load Shedding
- Connection Pooling & Keep-Alive Management
- Multi-Endpoint Load Balancing in Clients
- Lizenz: Apache 2.0 (OpenSSL 3.x)
- Repository: https://github.com/openssl/openssl
-
Verwendung in ThemisDB:
- TLS 1.3 Encryption
- Certificate Management
- SHA256 Hashing
- Cryptographic Primitives
ThemisDB-Erweiterungen:
- Field-Level Encryption (AES-256-GCM)
- HSM/PKCS#11 Integration
- Certificate Pinning
- Key Rotation Mechanisms
- Vault Integration (HashiCorp Vault)
- Lizenz: curl License (MIT-style)
- Repository: https://github.com/curl/curl
-
Verwendung in ThemisDB:
- HTTP Client Operations
- WebDAV Integration
- REST API Calls für externe Services
- Lizenz: Apache 2.0
- Repository: https://github.com/apache/arrow
-
Verwendung in ThemisDB:
- Columnar In-Memory Data Format
- Parquet File Support
- Zero-Copy Data Sharing
- SIMD-optimierte Compute Functions
ThemisDB-Erweiterungen:
- Hypertables (TimescaleDB-kompatibel) mit automatischem Partitionieren
- Time-Series Aggregates mit SIMD-Beschleunigung (5-10x schneller)
- OLAP Features: CUBE, ROLLUP, Window Functions
- Complex Event Processing (CEP) Engine
- Gorilla Compression für Time-Series
- Lizenz: Apache 2.0
- Repository: https://github.com/oneapi-src/oneTBB
-
Verwendung in ThemisDB:
- Task-basierte Parallelisierung
- Concurrent Data Structures
- Parallel Algorithms
- Work Stealing Scheduler
ThemisDB-Erweiterungen:
- Parallel Query Execution
- Parallel Index Building
- Parallel Compaction
- Distributed Task Scheduling
- Lizenz: MIT
- Repository: https://github.com/gabime/spdlog
-
Verwendung in ThemisDB:
- High-Performance Logging
- Async Logging
- Multiple Sinks (File, Console, Syslog)
- Rotating Files
- Lizenz: MIT
- Repository: https://github.com/fmtlib/fmt
-
Verwendung in ThemisDB:
- String Formatting
- Type-Safe printf-style Formatting
- Lizenz: Apache 2.0
- Repository: https://github.com/open-telemetry/opentelemetry-cpp
-
Verwendung in ThemisDB:
- Distributed Tracing
- OTLP-HTTP Exporter
- Span Context Propagation
ThemisDB-Erweiterungen:
- Prometheus Metrics Integration
- Custom Metrics für Query Performance
- Audit Logging mit SIEM Integration
- Performance Profiling
- Lizenz: MIT
- Repository: https://github.com/jbeder/yaml-cpp
-
Verwendung in ThemisDB:
- YAML Configuration Files
- Config Parsing und Validation
- Lizenz: BSD / GPL 2.0
- Repository: https://github.com/facebook/zstd
-
Verwendung in ThemisDB:
- Compression für Content Storage
- RocksDB Compression
- Network Protocol Compression
- Lizenz: BSD-3-Clause
- Repository: https://github.com/google/googletest
-
Verwendung in ThemisDB:
- Unit Testing Framework
- Test Fixtures
- Mocking Framework
- Lizenz: Apache 2.0
- Repository: https://github.com/google/benchmark
-
Verwendung in ThemisDB:
- Performance Benchmarks
- Microbenchmarks
- Regression Testing
- Lizenz: MIT
- Repository: https://github.com/microsoft/mimalloc
-
Verwendung in ThemisDB:
- High-Performance Memory Allocator
- Drop-in Replacement für malloc/free
- 20-40% Memory Performance Boost
Die folgenden Features sind exklusive Eigenentwicklungen von ThemisDB und nicht aus externen Bibliotheken übernommen:
"ThemisDB keeps its own llamas." – Weltweit erste Datenbank mit integrierter LLM-Engine!
- ✅ Embedded LLM Engine: llama.cpp Integration direkt in der Datenbank
- ✅ Zero-Copy RAG: Direkter Speicherzugriff zwischen Vector DB und LLM (4x schneller)
- ✅ Cost Reduction: 100-1000x günstiger als AWS/Azure/GCP APIs
- ✅ Multi-Tier GPU Support: Entry (<16GB), Mid-Range (<24GB), High-End (>24GB)
- ✅ Distributed Reasoning: Gehirn-inspirierte Multi-Shard-Kollaboration
- ✅ Continuous Batching: vLLM-style Optimization (2.6x Throughput)
- ✅ On-Premise AI: Keine externen API-Calls, vollständige Datensouveränität
Kernarchitektur:
┌─────────────────────────────────────────┐
│ ThemisDB Kernel │
│ │
│ ┌────────────┐ ┌──────────────┐ │
│ │ Vector DB │◄────►│ LLM Engine │ │
│ │ (HNSW) │ Zero │ (llama.cpp) │ │
│ └────────────┘ Copy └──────────────┘ │
│ │ │ │
│ └──────────┬─────────┘ │
│ │ │
│ ┌───────▼────────┐ │
│ │ Unified Memory │ │
│ │ (GPU/CPU) │ │
│ └─────────────────┘ │
└─────────────────────────────────────────┘
Canonical Storage + Projection Layers Pattern
- ✅ Base Entity Model: Jedes Objekt ist primär ein JSON/Binär-Blob
- ✅ Multi-Model Projections: Relationale, Graph-, Vector- und Dokument-Views auf denselben Daten
- ✅ Atomic Multi-Index Updates: Ein Write-Operation aktualisiert alle Indizes transactional
- ✅ Query Language (AQL): Einheitliche Syntax für alle Datenmodelle
- ✅ Cross-Model Queries: SQL JOINs mit Graph Traversals und Vector Search kombinierbar
Beispiel (konzeptionelle AQL-Syntax):
-- AQL Query: Kombiniert Graph + Vector + Relational
-- Hinweis: Dies zeigt das konzeptionelle Design; die genaue Syntax kann variieren.
-- Siehe docs/aql/aql_syntax.md für die aktuelle API-Dokumentation.
FOR user IN users
FILTER user.age > 25
LET similar_docs = VECTOR_SEARCH(user.embedding, k=10)
LET connections = GRAPH_NEIGHBORS(user.id, depth=2)
RETURN { user, similar_docs, connections }- ✅ MVCC mit Snapshot Isolation: Concurrent Reads ohne Locking
- ✅ Distributed SAGA Patterns: Multi-Shard Transactions
- ✅ Write-Write Conflict Detection: Optimistic Concurrency Control
- ✅ Transactional Indexes: Alle Indizes (Secondary, Graph, Vector) sind ACID-konform
- ✅ Multi-Level Transactions: Entity-Level, Session-Based, Distributed
- ✅ Field-Level Encryption: AES-256-GCM mit automatischem Key Management
- ✅ RBAC (Role-Based Access Control): Granulare Berechtigungsverwaltung
- ✅ Apache Ranger Integration: Policy-basiertes Access Control
- ✅ Audit Logging: Vollständiger Audit Trail für Compliance (GDPR, HIPAA)
- ✅ HSM/TSA Integration: Hardware Security Module Support
- ✅ Certificate Pinning: Enhanced TLS Security
- ✅ Malware Scanning: Integrierter Content Scanner
- ✅ PII Detection: Automatische Erkennung personenbezogener Daten
- ✅ BM25 + Vector Fusion: Kombination von Full-Text und Similarity Search
- ✅ Reciprocal Rank Fusion (RRF): Optimale Ergebnis-Kombination
- ✅ 85% Recall@10: Benchmark-übertreffende Accuracy
- ✅ Embedding Cache: 70-90% Cost Reduction für LLM-Applikationen
- ✅ Query Rewriting: Automatische Query-Optimierung für RAG
- ✅ VCC-URN Sharding: Content-basiertes Consistent Hashing
- ✅ Horizontal Scaling: Automatic Rebalancing
- ✅ Multi-Master Replication: CRDT-basierte Konfliktauflösung
- ✅ RAID-like Redundancy: MIRROR, STRIPE, PARITY Modi
- ✅ Kubernetes Operator: Cloud-Native Deployment
- ✅ Auto-Discovery: Dynamische Cluster-Topologie
Weltweit umfassendste GPU-Backend-Unterstützung!
- ✅ CUDA (NVIDIA)
- ✅ Vulkan (Cross-Platform)
- ✅ HIP (AMD)
- ✅ OpenCL (Cross-Platform)
- ✅ DirectX 12 (Windows)
- ✅ OneAPI/SYCL (Intel)
- ✅ ZLUDA (CUDA on AMD)
- ✅ ROCm (AMD)
- ✅ Metal (Apple)
- ✅ WebGPU (Browser/Experimental)
Features:
- Automatische Platform Detection
- Graceful Fallback auf CPU
- 10-50x Speedup für Vector Search
- GPU Memory Management
- Multi-GPU Support
- ✅ Complex Event Processing (CEP): Pattern Matching über Event Streams
- ✅ OLAP Operators: CUBE, ROLLUP, GROUPING SETS
- ✅ Window Functions: ROW_NUMBER, RANK, LEAD, LAG
- ✅ Statistical Aggregators: Percentiles, Variance, Correlation
- ✅ Time-Series Engine: Gorilla Compression, Continuous Aggregates
- ✅ Hypertables: TimescaleDB-kompatible Partitionierung
- ✅ Multi-Backend Storage: Filesystem, WebDAV, S3, Azure Blob
- ✅ Threshold-Based Selection: Automatische Backend-Wahl nach Größe
- ✅ Content Versioning: Vollständige Version History
- ✅ MIME Detection: Automatische Content-Type Erkennung
- ✅ Deduplication: SHA256-basierte Content-Addressierung
- ✅ Content Processors: Text, Image, Audio, Video, Geo, CAD (Optional)
- ✅ Cost-Based Optimizer: Cardinality Estimation & Join Reordering
- ✅ Index Selection: Automatische Index-Nutzung
- ✅ Predicate Pushdown: Filter frühzeitig anwenden
- ✅ CTE (Common Table Expression) Cache: Wiederverwendung von Subqueries
- ✅ Semantic Cache: Query Result Caching mit Similarity Matching
- ✅ Prometheus Metrics: 50+ Custom Metrics
- ✅ OpenTelemetry Tracing: Distributed Tracing
- ✅ Health Checks:
/healthEndpoint mit detailliertem Status - ✅ Performance Profiling: Query Execution Plans
- ✅ Grafana Dashboards: Vorkonfigurierte Monitoring Dashboards
- ✅ Client SDKs: Go, Python, Rust, JavaScript, Ruby, Java, C#
- ✅ REST API: Comprehensive HTTP/JSON API
- ✅ GraphQL: Alternative Query Interface
- ✅ Wire Protocol: Binäres, high-performance Netzwerkprotokoll
- ✅ Docker Images: Multi-Arch Support (amd64, arm64)
- ✅ Helm Charts: Kubernetes Deployment
- ✅ Package Managers: apt, brew, choco, rpm
Kein anderes DBMS bietet:
- Integrierte LLM-Engine ohne externe API-Calls
- Zero-Copy Memory Sharing zwischen Vector DB und LLM
- 100-1000x Cost Reduction gegenüber Hyperscalern
Während andere DBMS separate Engines für verschiedene Modelle haben:
- ThemisDB verwendet ein einziges Storage Layer
- Atomic Updates über alle Indizes
- Cross-Model Queries in einer Zeile Code
10 GPU-Backends (mehr als jede andere Datenbank!):
- Läuft auf NVIDIA, AMD, Intel, Apple Silicon
- Graceful Fallback garantiert Betrieb überall
Integrierte Security aus dem Kernbestand (nicht als Add-On):
- Field-Level Encryption mit HSM/PKI
- Apache Ranger Integration
- Vollständiger Audit Trail
Von Edge bis Cloud:
- QNAP NAS Support (Embedded Variant)
- Kubernetes-Ready mit Operator
- Docker/VM mit und ohne GPU
- Fully Static Binaries für älteste Systeme
ThemisDB wurde inspiriert von:
- ArangoDB - Multi-Model Architecture Konzept
- CozoDB - Hybrid Relational-Graph-Vector Design
- Azure Cosmos DB - Multi-Model mit Unified API
- TimescaleDB - Time-Series Hypertables
- DuckDB - Embedded Analytics Engine
Aber ThemisDB geht weiter:
- ✅ Native LLM Integration (weltweit einzigartig)
- ✅ 10 GPU-Backends (mehr als alle anderen)
- ✅ True Unified Storage (nicht mehrere Engines nebeneinander)
- ✅ ACID über alle Datenmodelle (inklusive Vector!)
ThemisDB selbst ist unter der MIT License with Government Clause lizenziert (siehe LICENSE für den vollständigen Lizenztext).
Alle verwendeten Third-Party-Bibliotheken sind unter permissive Open-Source-Lizenzen verfügbar:
- Apache 2.0 (RocksDB, FAISS, Arrow, TBB, OpenTelemetry, simdjson, Google Benchmark)
- MIT (nlohmann/json, spdlog, fmt, yaml-cpp, mimalloc)
- Boost Software License 1.0 (Boost Libraries)
- BSD-3-Clause (Google Test)
- curl License (libcurl)
Eine vollständige Liste der Lizenzen aller Dependencies ist unter LICENSE und in den jeweiligen Submodules verfügbar.
Ein besonderer Dank an die Communities und Maintainer der oben genannten Bibliotheken. Ohne diese herausragenden Open-Source-Projekte wäre ThemisDB nicht möglich.
ThemisDB steht auf den Schultern von Giganten – aber mit eigenen innovativen Features, die es zu einer einzigartigen Multi-Model-Datenbank mit nativer KI-Integration machen.
ThemisDB – Built with ❤️ for the database community
"We don't take credit for others' work – we build on it and create something new."
ThemisDB v1.3.4 | GitHub | Documentation | Discussions | License
Last synced: January 02, 2026 | Commit: 6add659
Version: 1.3.0 | Stand: Dezember 2025
- Übersicht
- Home
- Dokumentations-Index
- Quick Reference
- Sachstandsbericht 2025
- Features
- Roadmap
- Ecosystem Overview
- Strategische Übersicht
- Geo/Relational Storage
- RocksDB Storage
- MVCC Design
- Transaktionen
- Time-Series
- Memory Tuning
- Chain of Thought Storage
- Query Engine & AQL
- AQL Syntax
- Explain & Profile
- Rekursive Pfadabfragen
- Temporale Graphen
- Zeitbereichs-Abfragen
- Semantischer Cache
- Hybrid Queries (Phase 1.5)
- AQL Hybrid Queries
- Hybrid Queries README
- Hybrid Query Benchmarks
- Subquery Quick Reference
- Subquery Implementation
- Content Pipeline
- Architektur-Details
- Ingestion
- JSON Ingestion Spec
- Enterprise Ingestion Interface
- Geo-Processor Design
- Image-Processor Design
- Hybrid Search Design
- Fulltext API
- Hybrid Fusion API
- Stemming
- Performance Tuning
- Migration Guide
- Future Work
- Pagination Benchmarks
- Enterprise README
- Scalability Features
- HTTP Client Pool
- Build Guide
- Implementation Status
- Final Report
- Integration Analysis
- Enterprise Strategy
- Verschlüsselungsstrategie
- Verschlüsselungsdeployment
- Spaltenverschlüsselung
- Encryption Next Steps
- Multi-Party Encryption
- Key Rotation Strategy
- Security Encryption Gap Analysis
- Audit Logging
- Audit & Retention
- Compliance Audit
- Compliance
- Extended Compliance Features
- Governance-Strategie
- Compliance-Integration
- Governance Usage
- Security/Compliance Review
- Threat Model
- Security Hardening Guide
- Security Audit Checklist
- Security Audit Report
- Security Implementation
- Development README
- Code Quality Pipeline
- Developers Guide
- Cost Models
- Todo Liste
- Tool Todo
- Core Feature Todo
- Priorities
- Implementation Status
- Roadmap
- Future Work
- Next Steps Analysis
- AQL LET Implementation
- Development Audit
- Sprint Summary (2025-11-17)
- WAL Archiving
- Search Gap Analysis
- Source Documentation Plan
- Changefeed README
- Changefeed CMake Patch
- Changefeed OpenAPI
- Changefeed OpenAPI Auth
- Changefeed SSE Examples
- Changefeed Test Harness
- Changefeed Tests
- Dokumentations-Inventar
- Documentation Summary
- Documentation TODO
- Documentation Gap Analysis
- Documentation Consolidation
- Documentation Final Status
- Documentation Phase 3
- Documentation Cleanup Validation
- API
- Authentication
- Cache
- CDC
- Content
- Geo
- Governance
- Index
- LLM
- Query
- Security
- Server
- Storage
- Time Series
- Transaction
- Utils
Vollständige Dokumentation: https://makr-code.github.io/ThemisDB/