dataiku · straux · Oct 13, 2025 · Sep 26, 2025 · Sep 26, 2025 · Sep 26, 2025
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,5 +1,11 @@
 # Changelog
 
+## [Version 2.4.0](https://github.com/dataiku/dss-plugin-tesseract-ocr/releases/tag/v2.4.0) - Minor release - 2025-10
+
+- Add partitions support for input folders
+- drop support for Python 3.6, 3.7 and 3.8
+- add support for Python 3.11 and 3.12
+
 ## [Version 2.3.3](https://github.com/dataiku/dss-plugin-tesseract-ocr/releases/tag/v2.3.3) - Patch release - 2024-04
 
 - Add support for .tif extension in OCR

diff --git a/code-env/python/desc.json b/code-env/python/desc.json
@@ -1,13 +1,12 @@
 {
   "acceptedPythonInterpreters": [
-    "PYTHON36",
-    "PYTHON37",
-    "PYTHON38",
     "PYTHON39",
-    "PYTHON310"
+    "PYTHON310",
+    "PYTHON311",
+    "PYTHON312"
   ],
   "corePackagesSet": "AUTO",
   "forceConda": false,
   "installCorePackages": true,
   "installJupyterSupport": true
-}
+}
diff --git a/code-env/python/spec/requirements.txt b/code-env/python/spec/requirements.txt
@@ -1,14 +1,11 @@
+Pillow==10.3.0
+opencv-python==4.8.1.78
+pytesseract==0.3.13
 pypdfium2==4.17.0
-pytesseract==0.3.7
-Pillow==8.2.0
-matplotlib==3.3.4; python_version <= '3.9'
-matplotlib==3.7.1; python_version >= '3.10'
-opencv-python==4.5.1.48; python_version <= '3.9'
-opencv-python==4.7.0.72; python_version >= '3.10'
 deskew==0.10.33
-torch==1.11.0; python_version >= '3.10'
-torch==1.9.1; python_version <= '3.9'
-easyocr==1.7.0
-packaging==21.3
+matplotlib==3.7.1
+packaging==24.0
+torch==2.8.0
+easyocr==1.7.2
 python-docx==0.8.11
-pypandoc==1.11
+pypandoc==1.12
diff --git a/custom-recipes/image-conversion/recipe.py b/custom-recipes/image-conversion/recipe.py
@@ -2,7 +2,7 @@
 from PIL import Image
 from io import BytesIO
 import logging
-from text_extraction_ocr_utils.recipes_io_utils import get_input_output
+from text_extraction_ocr_utils.recipes_io_utils import get_input_output, list_input_paths
 from text_extraction_ocr_utils import convert_image_to_greyscale_bytes
 from text_extraction_ocr_utils import image_conversion_parameters
 from text_extraction_ocr_utils import pdf_to_pil_images_iterator
@@ -15,7 +15,7 @@
 
 params = image_conversion_parameters(get_recipe_config())
 
-input_filenames = input_folder.list_paths_in_partition()
+input_filenames = list_input_paths(input_folder)
 total_images = len(input_filenames)
 
 # check if pdf and split pdf into multiple images

diff --git a/custom-recipes/image-processing-custom/recipe.py b/custom-recipes/image-processing-custom/recipe.py
@@ -3,15 +3,15 @@
 from io import BytesIO
 import numpy as np
 import logging
-from text_extraction_ocr_utils.recipes_io_utils import get_input_output
+from text_extraction_ocr_utils.recipes_io_utils import get_input_output, list_input_paths
 from text_extraction_ocr_utils import image_processing_parameters
 from text_extraction_ocr_utils import Constants
 
 logger = logging.getLogger(__name__)
 
 input_folder, output_folder = get_input_output('folder', 'folder')
 
-input_filenames = input_folder.list_paths_in_partition()
+input_filenames = list_input_paths(input_folder)
 total_images = len(input_filenames)
 
 params = image_processing_parameters(get_recipe_config())

diff --git a/custom-recipes/ocr-text-extraction-dataset/recipe.py b/custom-recipes/ocr-text-extraction-dataset/recipe.py
@@ -6,7 +6,7 @@
 
 from dataiku.customrecipe import get_recipe_config
 from text_extraction_ocr_utils import Constants
-from text_extraction_ocr_utils.recipes_io_utils import get_input_output
+from text_extraction_ocr_utils.recipes_io_utils import get_input_output, list_input_paths
 from text_extraction_ocr_utils import convert_image_to_greyscale_bytes
 from text_extraction_ocr_utils import pdf_to_pil_images_iterator
 from text_extraction_ocr_utils import ocr_parameters
@@ -21,7 +21,7 @@
 
 params = ocr_parameters(get_recipe_config())
 
-input_filenames = input_folder.list_paths_in_partition()
+input_filenames = list_input_paths(input_folder)
 total_files = len(input_filenames)
 
 rows = []

diff --git a/custom-recipes/text-extraction/recipe.py b/custom-recipes/text-extraction/recipe.py
@@ -4,7 +4,7 @@
 from time import perf_counter
 
 from dataiku.customrecipe import get_recipe_config
-from text_extraction_ocr_utils.recipes_io_utils import get_input_output
+from text_extraction_ocr_utils.recipes_io_utils import get_input_output, list_input_paths
 from text_extraction_ocr_utils import text_extraction_parameters
 from text_extraction_ocr_utils import Constants
 from text_extraction import extract_text_content
@@ -21,7 +21,7 @@
 
 params = text_extraction_parameters(get_recipe_config())
 
-input_filenames = input_folder.list_paths_in_partition()
+input_filenames = list_input_paths(input_folder)
 total_files = len(input_filenames)
 
 rows = []

diff --git a/plugin.json b/plugin.json
@@ -1,6 +1,6 @@
 {
     "id": "tesseract-ocr",
-    "version": "2.3.3",
+    "version": "2.4.0",
     "meta": {
         "label": "Text extraction and OCR",
         "description": "Extract text from documents & images.",

diff --git a/python-lib/text_extraction_ocr_utils/recipes_io_utils.py b/python-lib/text_extraction_ocr_utils/recipes_io_utils.py
@@ -1,6 +1,7 @@
 import dataiku
 from dataiku.customrecipe import get_input_names_for_role
 from dataiku.customrecipe import get_output_names_for_role
+from dataiku.core import flow
 
 
 def get_input_output(input_type='dataset', output_type='dataset'):
@@ -19,3 +20,11 @@ def get_input_output(input_type='dataset', output_type='dataset'):
         output_obj = dataiku.Dataset(output_names)
 
     return input_obj, output_obj
+
+def list_input_paths(input_folder):
+    partitions = flow.FLOW['in'][0].get("partitions", [""])
+    return [
+        path
+        for partition in partitions
+        for path in input_folder.list_paths_in_partition(partition)
+    ]
diff --git a/tests/python/integration/requirements.txt b/tests/python/integration/requirements.txt
@@ -1,4 +1,4 @@
-pandas>=1.0,<1.1
-pytest==6.2.1
+pytest
+requests<2.22,>=2
 dataiku-api-client
-git+git://github.com/dataiku/dataiku-plugin-tests-utils.git@master#egg=dataiku-plugin-tests-utils
+git+https://github.com/dataiku/dataiku-plugin-tests-utils.git@master#egg=dataiku-plugin-tests-utils