chore: cache access to tokeniser

winstxnhdw · winstxnhdw · commit 9dd6a4ff0394 · 2024-09-23T20:06:14.000+01:00
diff --git a/server/api/debug/generate.py b/server/api/debug/generate.py
@@ -25,14 +25,15 @@ def generate(self, state: AppState, data: Query) -> ServerSentEvent:
         an endpoint for generating text directly from the LLM model
         """
         chat = state.chat
+        tokeniser = chat.tokeniser
 
-        prompt = chat.tokeniser.apply_chat_template(
+        prompt = tokeniser.apply_chat_template(
             [{'role': 'user', 'content': data.query}],
             tokenize=False,
             add_generation_prompt=True,
         )
 
-        return ServerSentEvent(chat.generate(chat.tokeniser(prompt).tokens()))
+        return ServerSentEvent(chat.generate(tokeniser(prompt).tokens()))
 
     @post('/benchmark', sync_to_thread=True)
     def benchmark(self, state: AppState, data: Query) -> Benchmark:
@@ -42,15 +43,17 @@ def benchmark(self, state: AppState, data: Query) -> Benchmark:
         an endpoint for benchmarking the LLM model
         """
         chat = state.chat
+        tokeniser = chat.tokeniser
+
         message: Message = {'role': 'user', 'content': data.query}
-        prompt = chat.tokeniser.apply_chat_template([message], add_generation_prompt=True, tokenize=False)
-        tokenised_prompt = chat.tokeniser(prompt).tokens()
+        prompt = tokeniser.apply_chat_template([message], add_generation_prompt=True, tokenize=False)
+        tokenised_prompt = tokeniser(prompt).tokens()
 
         start = perf_counter()
         response = ''.join(chat.generate(tokenised_prompt))
         total_time = perf_counter() - start
 
-        output_tokens = chat.tokeniser(response).tokens()
+        output_tokens = tokeniser(response).tokens()
         total_tokens = len(tokenised_prompt) + len(chat) + len(output_tokens)
 
         return Benchmark(