أداة متقدمة لمعالجة الكتب المصورة وتحويلها إلى نصوص قابلة للبحث باستخدام تقنية OCR (Optical Character Recognition).
- تحويل PDF إلى نص قابل للبحث: تحويل الكتب المصورة إلى PDF قابل للبحث
- استخراج النص: استخراج النص من الصور باستخدام OCR
- دعم متعدد اللغات: دعم العربية والإنجليزية
- معالجة متوازية: معالجة متعددة الخيوط لتسريع العملية
- دمج الملفات: دمج ملفات PDF متعددة
- تحسين الصور: معالجة الصور قبل OCR لتحسين الدقة
- قابل للتخصيص: إعدادات قابلة للتعديل
- Python 3.7+
- Tesseract OCR: لاستخراج النص من الصور
- ImageMagick: لمعالجة الصور
- Poppler: لتحويل PDF إلى صور
# تثبيت عبر Homebrew
brew install tesseract
brew install imagemagick
brew install poppler
# تثبيت حزم Python
pip install PyPDF2 Pillow# Ubuntu/Debian
sudo apt-get install tesseract-ocr tesseract-ocr-ara imagemagick poppler-utils
sudo apt-get install python3-pip
pip3 install PyPDF2 Pillow
# Fedora
sudo dnf install tesseract tesseract-langpack-ara ImageMagick poppler-utils
pip3 install PyPDF2 Pillow- استنسخ المستودع:
git clone https://github.com/ayzem88/pdf-ocr-processor.git
cd pdf-ocr-processor- ثبت المتطلبات:
pip install -r requirements.txtpython "معالج الكتب المصورة.py"- تحويل PDF إلى قابل للبحث: تحويل ملف PDF مصور إلى PDF قابل للبحث
- جمع وتقسيم: جمع أو تقسيم ملفات PDF
- تحويل وجمع الصور: تحويل الصور إلى PDF قابل للبحث
- فتح قفل: إزالة الحماية من ملفات PDF
يمكنك تعديل الإعدادات في الملف الرئيسي:
CONFIG = {
'DENSITY': 400, # دقة الصور (dpi)
'MAX_WORKERS': 4, # عدد الخيوط للمعالجة المتوازية
'PSM': 6, # نمط تقسيم الصفحة
'LANG_PDF': 'ara+eng',# لغات OCR لملف PDF
'LANG_TXT': 'ara+eng',# لغات OCR لملف TXT
'KEEP_IMAGES': False, # الاحتفاظ بالصور المؤقتة
'MERGE_BATCH': 200, # حجم دفعة الدمج
}معالج الكتب المصورة/
├── معالج الكتب المصورة.py # الملف الرئيسي
├── كشكول/ # أدوات إضافية
│ ├── 01 تحويل إلى قابل للبحث.py
│ ├── 02 جمع وتقسيم.py
│ ├── 03 تحويل وجمع الصور إلى.py
│ └── 04 فتح قفل.py
├── stopwords.txt # كلمات الإيقاف
├── requirements.txt # المتطلبات
└── README.md # هذا الملف
معالج الكتب المصورة.py: الملف الرئيسي للمعالجكشكول/01 تحويل إلى قابل للبحث.py: تحويل PDF إلى قابل للبحثكشكول/02 جمع وتقسيم.py: جمع وتقسيم ملفات PDFكشكول/03 تحويل وجمع الصور إلى.py: تحويل الصور إلى PDFكشكول/04 فتح قفل.py: إزالة الحماية من PDF
نرحب بمساهماتكم! يمكنك المساهمة من خلال:
- فتح issue للإبلاغ عن مشاكل أو اقتراح ميزات جديدة
- إرسال pull request لإضافة ميزات أو إصلاح أخطاء
- تحسين دقة OCR
- إضافة دعم للغات إضافية
هذا المشروع مرخص تحت MIT License - راجع ملف LICENSE للتفاصيل.
تم تطوير هذا المشروع بواسطة أيمن الطيّب بن نجي (ayzem88)
للاستفسارات أو المساهمة، يمكنك التواصل معي عبر:
- البريد الإلكتروني: aymen.nji@gmail.com
- تأكد من تثبيت جميع البرامج المطلوبة قبل الاستخدام
- دقة OCR تعتمد على جودة الصور الأصلية
- المعالجة المتوازية تسرع العملية ولكنها تستهلك موارد أكثر
- يمكنك تعديل الإعدادات حسب احتياجاتك
- واجهة رسومية (GUI)
- دعم المزيد من اللغات
- تحسين خوارزميات معالجة الصور
- دعم المزيد من صيغ الملفات
- معالجة أسرع وأكثر كفاءة
- دعم Windows
- واجهة سطر الأوامر (CLI) محسّنة
# تثبيت متطلبات التطوير
pip install -r requirements-dev.txt
# تشغيل الاختبارات
python -m pytest tests/
# تشغيل مع تغطية الكود
pytest tests/ --cov=. --cov-report=htmlيحتوي المشروع على ملف GitHub Actions workflow في .github/workflows/ci.yml للاختبارات التلقائية.
ملاحظة: إذا واجهت مشكلة في رفع ملف workflow، يمكنك إضافته يدوياً من واجهة GitHub:
- اذهب إلى المستودع → Actions
- اختر "New workflow"
- انسخ محتوى
.github/workflows/ci.yml
نرحب بمساهماتكم! راجع دليل المساهمة للتفاصيل.
راجع CHANGELOG.md لمعرفة التغييرات في كل إصدار.
An advanced tool for processing scanned books and converting them into searchable text using OCR (Optical Character Recognition) technology.
- PDF to Searchable Text: Convert scanned books to searchable PDF
- Text Extraction: Extract text from images using OCR
- Multi-language Support: Support for Arabic and English
- Parallel Processing: Multi-threaded processing for faster execution
- File Merging: Merge multiple PDF files
- Image Enhancement: Image processing before OCR to improve accuracy
- Customizable: Adjustable settings
- Python 3.7+
- Tesseract OCR: For text extraction from images
- ImageMagick: For image processing
- Poppler: For PDF to image conversion
# Install via Homebrew
brew install tesseract
brew install imagemagick
brew install poppler
# Install Python packages
pip install PyPDF2 Pillow# Ubuntu/Debian
sudo apt-get install tesseract-ocr tesseract-ocr-ara imagemagick poppler-utils
sudo apt-get install python3-pip
pip3 install PyPDF2 Pillow
# Fedora
sudo dnf install tesseract tesseract-langpack-ara ImageMagick poppler-utils
pip3 install PyPDF2 Pillow- Clone the repository:
git clone https://github.com/ayzem88/pdf-ocr-processor.git
cd pdf-ocr-processor- Install requirements:
pip install -r requirements.txtpython "معالج الكتب المصورة.py"- Convert PDF to Searchable: Convert scanned PDF to searchable PDF
- Merge and Split: Merge or split PDF files
- Convert and Merge Images: Convert images to searchable PDF
- Unlock: Remove protection from PDF files
You can modify settings in the main file:
CONFIG = {
'DENSITY': 400, # Image resolution (dpi)
'MAX_WORKERS': 4, # Number of threads for parallel processing
'PSM': 6, # Page segmentation mode
'LANG_PDF': 'ara+eng',# OCR languages for PDF
'LANG_TXT': 'ara+eng',# OCR languages for TXT
'KEEP_IMAGES': False, # Keep temporary images
'MERGE_BATCH': 200, # Merge batch size
}pdf-ocr-processor/
├── معالج الكتب المصورة.py # Main file
├── كشكول/ # Additional tools
│ ├── 01 تحويل إلى قابل للبحث.py
│ ├── 02 جمع وتقسيم.py
│ ├── 03 تحويل وجمع الصور إلى.py
│ └── 04 فتح قفل.py
├── stopwords.txt # Stop words
├── requirements.txt # Requirements
└── README.md # This file
معالج الكتب المصورة.py: Main processor fileكشكول/01 تحويل إلى قابل للبحث.py: Convert PDF to searchableكشكول/02 جمع وتقسيم.py: Merge and split PDFsكشكول/03 تحويل وجمع الصور إلى.py: Convert images to PDFكشكول/04 فتح قفل.py: Remove PDF protection
We welcome contributions! You can contribute by:
- Opening an issue to report problems or suggest new features
- Submitting a pull request to add features or fix bugs
- Improving OCR accuracy
- Adding support for additional languages
This project is licensed under MIT License - see the LICENSE file for details.
Developed by Ayman Al-Tayyib Ben Naji (ayzem88)
For inquiries or contributions, you can contact me via:
- Email: aymen.nji@gmail.com
- Make sure to install all required software before use
- OCR accuracy depends on original image quality
- Parallel processing speeds up the process but consumes more resources
- You can adjust settings according to your needs
- Graphical user interface (GUI)
- Support for more languages
- Improved image processing algorithms
- Support for more file formats
- Faster and more efficient processing
- Windows support
- Enhanced command-line interface (CLI)
# Install development requirements
pip install -r requirements-dev.txt
# Run tests
python -m pytest tests/
# Run with code coverage
pytest tests/ --cov=. --cov-report=htmlThe project contains a GitHub Actions workflow file in .github/workflows/ci.yml for automated testing.
Note: If you encounter issues pushing the workflow file, you can add it manually from the GitHub interface:
- Go to the repository → Actions
- Select "New workflow"
- Copy the contents of
.github/workflows/ci.yml
We welcome contributions! See Contributing Guide for details.
See CHANGELOG.md for changes in each version.