Improvements

duckduckgrayduck · duckduckgrayduck · commit 215c12afc968 · 2025-09-23T12:24:56.000-05:00
diff --git a/documentcloud/documents.py b/documentcloud/documents.py
@@ -241,7 +241,7 @@ def process(self, **kwargs):
         if "ocr_engine" in kwargs:
             payload["ocr_engine"] = kwargs["ocr_engine"]
 
-        self._client.post(f"{self.api_path}/{self.id}/process/", json=payload or None)
+        self._client.post(f"{self.api_path}/{self.id}/process/", json=payload)
 
 
 class DocumentClient(BaseAPIClient):
@@ -354,6 +354,9 @@ def _extract_ocr_options(self, kwargs):
         force_ocr = kwargs.pop("force_ocr", False)
         ocr_engine = kwargs.pop("ocr_engine", "tess4")
 
+        if not isinstance(force_ocr, bool):
+            raise ValueError("force_ocr must be a boolean")
+
         if ocr_engine and ocr_engine not in ("tess4", "textract"):
             raise ValueError(
                 "ocr_engine must be either 'tess4' for tesseract or 'textract'"
@@ -373,15 +376,15 @@ def _upload_url(self, file_url, **kwargs):
         # create the document
         params = self._format_upload_parameters(file_url, **kwargs)
         params["file_url"] = file_url
+        if force_ocr:
+            params["force_ocr"] = force_ocr
+            params["ocr_engine"] = ocr_engine
         response = self.client.post("documents/", json=params)
         create_json = response.json()
 
         # wrap in Document object
         doc = Document(self.client, create_json)
 
-        # begin processing if needed
-        if force_ocr:
-            doc.process(force_ocr=force_ocr, ocr_engine=ocr_engine)
         return doc
 
     def _upload_file(self, file_, **kwargs):
@@ -544,9 +547,12 @@ def upload_urls(self, url_list, handle_errors=False, **kwargs):
         kwargs.pop("title", None)
 
         force_ocr, ocr_engine = self._extract_ocr_options(kwargs)
-
         obj_list = []
         params = self._format_upload_parameters("", **kwargs)
+        # Add OCR options directly to params if needed
+        if force_ocr:
+            params["force_ocr"] = force_ocr
+            params["ocr_engine"] = ocr_engine
         for i, url_group in enumerate(grouper(url_list, BULK_LIMIT)):
             # Grouper will put None's on the end of the last group
             url_group = [url for url in url_group if url is not None]
@@ -583,25 +589,6 @@ def upload_urls(self, url_list, handle_errors=False, **kwargs):
             create_json = response.json()
             obj_list.extend(create_json)
 
-            # Begin bulk processing if needed
-            if force_ocr:
-                process_payload = [
-                    {"id": j["id"], "force_ocr": force_ocr, "ocr_engine": ocr_engine}
-                    for j in create_json
-                ]
-                try:
-                    self.client.post("documents/process/", json=process_payload)
-                except (APIError, RequestException) as exc:
-                    if handle_errors:
-                        logger.info(
-                            "Error processing the following documents: %s\n%s",
-                            exc,
-                            "\n".join(url_group),
-                        )
-                        continue
-                    else:
-                        raise
-
         logger.info("Upload URLs complete")
 
         # Pass back the list of documents