variable contentfile chunk sizes (#1980)

shanbady · web-flow · commit 05fdbb623e5b · 2025-01-23T17:05:55.000-05:00
* adding a setting to be able to override the chunk size when embedding

* adding collection name override param

* updating spec

* adding test

* added test. switched back to tiktokenizer with chunk size param

* fixing test

* fix test

* catching exception

* fixing tests
diff --git a/frontends/api/src/generated/v0/api.ts b/frontends/api/src/generated/v0/api.ts
@@ -10901,6 +10901,7 @@ export const VectorContentFilesSearchApiAxiosParamCreator = function (
     /**
      * Vector Search for content
      * @summary Content File Vector Search
+     * @param {string} [collection_name] Manually specify the name of the Qdrant collection to query
      * @param {Array<string>} [content_feature_type] The feature type of the content file. Possible options are at api/v1/course_features/
      * @param {Array<string>} [course_number] Course number of the content file
      * @param {Array<string>} [file_extension] The extension of the content file.
@@ -10917,6 +10918,7 @@ export const VectorContentFilesSearchApiAxiosParamCreator = function (
      * @throws {RequiredError}
      */
     vectorContentFilesSearchRetrieve: async (
+      collection_name?: string,
       content_feature_type?: Array<string>,
       course_number?: Array<string>,
       file_extension?: Array<string>,
@@ -10947,6 +10949,10 @@ export const VectorContentFilesSearchApiAxiosParamCreator = function (
       const localVarHeaderParameter = {} as any
       const localVarQueryParameter = {} as any
 
+      if (collection_name !== undefined) {
+        localVarQueryParameter["collection_name"] = collection_name
+      }
+
       if (content_feature_type) {
         localVarQueryParameter["content_feature_type"] = content_feature_type
       }
@@ -11025,6 +11031,7 @@ export const VectorContentFilesSearchApiFp = function (
     /**
      * Vector Search for content
      * @summary Content File Vector Search
+     * @param {string} [collection_name] Manually specify the name of the Qdrant collection to query
      * @param {Array<string>} [content_feature_type] The feature type of the content file. Possible options are at api/v1/course_features/
      * @param {Array<string>} [course_number] Course number of the content file
      * @param {Array<string>} [file_extension] The extension of the content file.
@@ -11041,6 +11048,7 @@ export const VectorContentFilesSearchApiFp = function (
      * @throws {RequiredError}
      */
     async vectorContentFilesSearchRetrieve(
+      collection_name?: string,
       content_feature_type?: Array<string>,
       course_number?: Array<string>,
       file_extension?: Array<string>,
@@ -11062,6 +11070,7 @@ export const VectorContentFilesSearchApiFp = function (
     > {
       const localVarAxiosArgs =
         await localVarAxiosParamCreator.vectorContentFilesSearchRetrieve(
+          collection_name,
           content_feature_type,
           course_number,
           file_extension,
@@ -11116,6 +11125,7 @@ export const VectorContentFilesSearchApiFactory = function (
     ): AxiosPromise<ContentFileVectorSearchResponse> {
       return localVarFp
         .vectorContentFilesSearchRetrieve(
+          requestParameters.collection_name,
           requestParameters.content_feature_type,
           requestParameters.course_number,
           requestParameters.file_extension,
@@ -11141,6 +11151,13 @@ export const VectorContentFilesSearchApiFactory = function (
  * @interface VectorContentFilesSearchApiVectorContentFilesSearchRetrieveRequest
  */
 export interface VectorContentFilesSearchApiVectorContentFilesSearchRetrieveRequest {
+  /**
+   * Manually specify the name of the Qdrant collection to query
+   * @type {string}
+   * @memberof VectorContentFilesSearchApiVectorContentFilesSearchRetrieve
+   */
+  readonly collection_name?: string
+
   /**
    * The feature type of the content file. Possible options are at api/v1/course_features/
    * @type {Array<string>}
@@ -11247,6 +11264,7 @@ export class VectorContentFilesSearchApi extends BaseAPI {
   ) {
     return VectorContentFilesSearchApiFp(this.configuration)
       .vectorContentFilesSearchRetrieve(
+        requestParameters.collection_name,
         requestParameters.content_feature_type,
         requestParameters.course_number,
         requestParameters.file_extension,
diff --git a/main/settings.py b/main/settings.py
@@ -848,3 +848,10 @@ def get_all_config_keys():
 AI_BUDGET_DURATION = get_string(name="AI_BUDGET_DURATION", default="60m")
 AI_MAX_BUDGET = get_float(name="AI_MAX_BUDGET", default=0.05)
 AI_ANON_LIMIT_MULTIPLIER = get_float(name="AI_ANON_LIMIT_MULTIPLIER", default=10.0)
+CONTENT_FILE_EMBEDDING_CHUNK_SIZE_OVERRIDE = get_int(
+    name="CONTENT_FILE_EMBEDDING_CHUNK_SIZE", default=None
+)
+CONTENT_FILE_EMBEDDING_CHUNK_OVERLAP = get_int(
+    name="CONTENT_FILE_EMBEDDING_CHUNK_OVERLAP",
+    default=200,  # default that the tokenizer uses
+)
diff --git a/openapi/specs/v0.yaml b/openapi/specs/v0.yaml
@@ -831,6 +831,12 @@ paths:
       description: Vector Search for content
       summary: Content File Vector Search
       parameters:
+      - in: query
+        name: collection_name
+        schema:
+          type: string
+          minLength: 1
+        description: Manually specify the name of the Qdrant collection to query
       - in: query
         name: content_feature_type
         schema:
diff --git a/vector_search/conftest.py b/vector_search/conftest.py
@@ -1,5 +1,6 @@
 import numpy as np
 import pytest
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from qdrant_client.http.models.models import CountResult
 
 from vector_search.encoders.base import BaseEncoder
@@ -30,11 +31,14 @@ def _use_dummy_encoder(settings):
 def _use_test_qdrant_settings(settings, mocker):
     settings.QDRANT_HOST = "https://test"
     settings.QDRANT_BASE_COLLECTION_NAME = "test"
+    settings.CONTENT_FILE_EMBEDDING_CHUNK_OVERLAP = 0
     mock_qdrant = mocker.patch("qdrant_client.QdrantClient")
     mock_qdrant.scroll.return_value = [
         [],
         None,
     ]
+    get_text_splitter_patch = mocker.patch("vector_search.utils._get_text_splitter")
+    get_text_splitter_patch.return_value = RecursiveCharacterTextSplitter()
     mock_qdrant.count.return_value = CountResult(count=10)
     mocker.patch(
         "vector_search.utils.qdrant_client",
diff --git a/vector_search/serializers.py b/vector_search/serializers.py
@@ -229,6 +229,10 @@ class ContentFileVectorSearchRequestSerializer(serializers.Serializer):
             "The readable_id value of the parent learning resource for the content file"
         ),
     )
+    collection_name = serializers.CharField(
+        required=False,
+        help_text=("Manually specify the name of the Qdrant collection to query"),
+    )
 
 
 class ContentFileVectorSearchResponseSerializer(SearchResponseSerializer):
diff --git a/vector_search/utils.py b/vector_search/utils.py
@@ -1,7 +1,8 @@
+import logging
 import uuid
 
 from django.conf import settings
-from langchain.text_splitter import RecursiveCharacterTextSplitter, TokenTextSplitter
+from langchain.text_splitter import TokenTextSplitter
 from qdrant_client import QdrantClient, models
 
 from learning_resources.models import LearningResource
@@ -21,6 +22,8 @@
 )
 from vector_search.encoders.utils import dense_encoder
 
+logger = logging.getLogger(__name__)
+
 
 def qdrant_client():
     return QdrantClient(
@@ -178,17 +181,17 @@ def _get_text_splitter(encoder):
     """
     Get the text splitter to use based on the encoder
     """
+    chunk_params = {
+        "chunk_overlap": settings.CONTENT_FILE_EMBEDDING_CHUNK_OVERLAP,
+    }
     if hasattr(encoder, "token_encoding_name") and encoder.token_encoding_name:
-        # leverage tiktoken to ensure we stay within token limits
-        return TokenTextSplitter(encoding_name=encoder.token_encoding_name)
-    else:
-        # default for use with fastembed
-        return RecursiveCharacterTextSplitter(
-            chunk_size=512,
-            chunk_overlap=50,
-            add_start_index=True,
-            separators=["\n\n", "\n", ".", " ", ""],
-        )
+        chunk_params["encoding_name"] = encoder.token_encoding_name
+
+    if settings.CONTENT_FILE_EMBEDDING_CHUNK_SIZE_OVERRIDE:
+        chunk_params["chunk_size"] = settings.CONTENT_FILE_EMBEDDING_CHUNK_SIZE_OVERRIDE
+
+    # leverage tiktoken to ensure we stay within token limits
+    return TokenTextSplitter(**chunk_params)
 
 
 def _process_content_embeddings(serialized_content):
@@ -254,10 +257,16 @@ def _process_content_embeddings(serialized_content):
         metadata.extend(split_metadatas)
         ids.extend(split_ids)
     if len(resource_points) > 0:
-        client.update_vectors(
-            collection_name=RESOURCES_COLLECTION_NAME,
-            points=resource_points,
-        )
+        try:
+            # sometimes we can't update the multi-vector if max size is exceeded
+
+            client.update_vectors(
+                collection_name=RESOURCES_COLLECTION_NAME,
+                points=resource_points,
+            )
+        except Exception as e:  # noqa: BLE001
+            msg = f"Exceeded multi-vector max size: {e}"
+            logger.warning(msg)
     return points_generator(ids, metadata, embeddings, vector_name)
 
 
diff --git a/vector_search/utils_test.py b/vector_search/utils_test.py
@@ -1,5 +1,5 @@
 import pytest
-from langchain.text_splitter import RecursiveCharacterTextSplitter
+from django.conf import settings
 from qdrant_client import models
 from qdrant_client.models import PointStruct
 
@@ -234,11 +234,30 @@ def test_get_text_splitter(mocker):
     """
     Test that the correct splitter is returned based on encoder
     """
+    settings.CONTENT_FILE_EMBEDDING_CHUNK_SIZE_OVERRIDE = None
     encoder = dense_encoder()
     encoder.token_encoding_name = None
     mocked_splitter = mocker.patch("vector_search.utils.TokenTextSplitter")
-    splitter = _get_text_splitter(encoder)
-    assert isinstance(splitter, RecursiveCharacterTextSplitter)
+    _get_text_splitter(encoder)
+    assert "encoding_name" not in mocked_splitter.mock_calls[0].kwargs
     encoder.token_encoding_name = "cl100k_base"  # noqa: S105
-    splitter = _get_text_splitter(encoder)
-    mocked_splitter.assert_called()
+    _get_text_splitter(encoder)
+    assert "encoding_name" in mocked_splitter.mock_calls[1].kwargs
+
+
+def test_text_splitter_chunk_size_override(mocker):
+    """
+    Test that we always use the recursive splitter if chunk size is overriden
+    """
+    chunk_size = 100
+    settings.CONTENT_FILE_EMBEDDING_CHUNK_SIZE_OVERRIDE = chunk_size
+    settings.CONTENT_FILE_EMBEDDING_CHUNK_OVERLAP = chunk_size / 10
+    encoder = dense_encoder()
+    mocked_splitter = mocker.patch("vector_search.utils.TokenTextSplitter")
+    encoder.token_encoding_name = "cl100k_base"  # noqa: S105
+    _get_text_splitter(encoder)
+    assert mocked_splitter.mock_calls[0].kwargs["chunk_size"] == 100
+    mocked_splitter = mocker.patch("vector_search.utils.TokenTextSplitter")
+    settings.CONTENT_FILE_EMBEDDING_CHUNK_SIZE_OVERRIDE = None
+    _get_text_splitter(encoder)
+    assert "chunk_size" not in mocked_splitter.mock_calls[0].kwargs
diff --git a/vector_search/views.py b/vector_search/views.py
@@ -114,12 +114,19 @@ def get(self, request):
             query_text = request_data.data.get("q", "")
             limit = request_data.data.get("limit", 10)
             offset = request_data.data.get("offset", 0)
+            collection_name_override = request_data.data.get("collection_name")
+            collection_name = CONTENT_FILES_COLLECTION_NAME
+            if collection_name_override:
+                collection_name = (
+                    f"{settings.QDRANT_BASE_COLLECTION_NAME}.{collection_name_override}"
+                )
+
             response = vector_search(
                 query_text,
                 limit=limit,
                 offset=offset,
                 params=request_data.data,
-                search_collection=CONTENT_FILES_COLLECTION_NAME,
+                search_collection=collection_name,
             )
             if request_data.data.get("dev_mode"):
                 return Response(response)
diff --git a/vector_search/views_test.py b/vector_search/views_test.py
@@ -188,3 +188,34 @@ def test_content_file_vector_search_filters_empty_query(mocker, client):
             ),
         ]
     )
+
+
+def test_content_file_vector_search_filters_custom_collection(mocker, client):
+    """Test content file vector search uses custom collection if specified"""
+
+    mock_qdrant = mocker.patch("qdrant_client.QdrantClient")
+    custom_collection_name = "foo_bar_collection"
+    mock_qdrant.scroll.return_value = [[]]
+    mocker.patch(
+        "vector_search.utils.qdrant_client",
+        return_value=mock_qdrant,
+    )
+    mock_qdrant.count.return_value = CountResult(count=10)
+    # omit the q param
+    params = {
+        "offered_by": ["ocw"],
+        "platform": ["edx"],
+        "key": ["testfilename.pdf"],
+        "course_number": ["test"],
+        "content_feature_type": ["test_feature"],
+        "run_readable_id": ["test_run_id"],
+        "resource_readable_id": ["test_resource_id_1", "test_resource_id_2"],
+        "collection_name": custom_collection_name,
+    }
+
+    client.get(reverse("vector_search:v0:vector_content_files_search"), data=params)
+    assert (
+        mock_qdrant.scroll.mock_calls[0]
+        .kwargs["collection_name"]
+        .endswith(custom_collection_name)
+    )

Original file line number	Diff line number	Diff line change
`@@ -229,6 +229,10 @@ class ContentFileVectorSearchRequestSerializer(serializers.Serializer):`
`229`	`229`	`"The readable_id value of the parent learning resource for the content file"`
`230`	`230`	`),`
`231`	`231`	`)`
	`232`	`+ collection_name = serializers.CharField(`
	`233`	`+ required=False,`
	`234`	`+ help_text=("Manually specify the name of the Qdrant collection to query"),`
	`235`	`+ )`
`232`	`236`
`233`	`237`
`234`	`238`	`class ContentFileVectorSearchResponseSerializer(SearchResponseSerializer):`