Feat/embedding #1

jtrecenti · 2025-04-22T02:05:03Z

Adiciona feature de auto label. Por enquanto apenas com OpenAI, mas seria legal usar alguma ferramenta mais geral para lidar com outros modelos

Por exemplo, usando o llm do simonw, que o guilherme recomendou:

import llm, json
from pydantic import BaseModel

class Dog(BaseModel):
    name: str
    age: int

model = llm.get_model("gpt-4o-mini")
response = model.prompt("Describe a nice dog", schema=Dog)
dog = json.loads(response.text())
print(dog)
# {"name":"Buddy","age":3}

Obs: não precisa dar merge ainda, vamos conversar antes

…ios uv

Copilot

Pull Request Overview

This PR introduces an automatic labeling feature leveraging the OpenAI API to generate and refine cluster labels. Key changes include:

The addition of utility functions for generating and refining cluster labels in utils_auto_label.py.
Integration of the auto-labeling feature into the cluster module.
An update to the Python version requirement and dependency revisions in pyproject.toml.

Reviewed Changes

Copilot reviewed 5 out of 6 changed files in this pull request and generated 1 comment.

File	Description
src/cluster_facil/utils_auto_label.py	New utilities for generating and refining cluster labels using the OpenAI API.
src/cluster_facil/cluster.py	Added an auto_label_cluster method to integrate automatic labeling into the clustering workflow.
pyproject.toml	Updated the python version requirement and added/updated dependencies including openai and python-dotenv.

Files not reviewed (1)

.env.example: Language not supported

src/cluster_facil/cluster.py

Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>

bdcdo · 2025-04-25T00:47:13Z

Acho que uma boa ideia seria usar o langchain, porque ele tem muito mais suporte e funções que o llm do simonw.
A função que encaixaria melhor pra gente seria essa: https://python.langchain.com/docs/how_to/chat_models_universal_init/

Única coisa meio chatinha é que ela envolveria incluir uma dependência a mais para cada provedor, o que acrescenta uma dificuldade adicional para quem não programa, mas quer utilizar a biblioteca. No entanto, como eles já vão ter que ir atrás de uma chave de API de qualquer jeito, não vejo grande problema nisso.

bdcdo

Achei que a implementação ficou ótima. Vou depois testar pra ver como ficou. Estou bastante curioso pra ver se com esses prompts simples já funciona, ou se pra ficar algo menor precisamos construir um agente.

bdcdo · 2025-04-25T00:51:13Z

pyproject.toml

Tava na minha lista de tarefas pensar em que versão de python vamos colocar como mínima. Imagino que trocou para 3.10 por conta do uso do list. O ideal é só identificar qual o menor valor que não quebra o nosso código, certo? Se sim, tudo certo.

bdcdo · 2025-04-25T01:08:03Z

src/cluster_facil/cluster.py

        logging.info(f"Analisando características de {len(df_para_preparar)} textos (TF-IDF)...")
        # Define parâmetros padrão que podem ser sobrescritos pelos kwargs
-        default_tfidf_params = {'stop_words': STOPWORDS_PT}
+        default_tfidf_params = {'stop_words': list(STOPWORDS_PT)}


Tive também problema com isso e acabei solucionando trocando no arquivo utils como o STOPWORDS_PT está definido. Troquei de tupla pra lista e já fiz o push pra main. Acho que podemos deixar essa redundância. O que acha?

bdcdo · 2025-04-25T01:11:23Z

src/cluster_facil/cluster.py

        logging.info(f"Contagem de textos por classificação manual na coluna '{self.nome_coluna_classificacao}':\n{contagem}")
        return None
+
+    def auto_label_cluster(self, rodada: int = None, model: str = "gpt-4.1-nano", api_key: str = None, temperature: float = 0.0, cut_limit: int = 30, random_state: int = None, final_refine: bool = True, n_examples_final: int = 10) -> dict:


O random_state padrão tá como 42 em outros lugares. Acho que vale padronizar em um só valor.

Considerando que esse é um método de um objeto da classe ClusterFacil, acho que não precisa incluir "cluster" no nome.
Podemos também abrasileirar para "auto_classificar" ou algo do tipo.

bdcdo · 2025-04-25T01:13:05Z

src/cluster_facil/cluster.py

+            model (str): Nome do modelo OpenAI (default: 'gpt-4.1-nano').
+            api_key (str, opcional): Chave da API OpenAI. Se não fornecida, busca em OPENAI_API_KEY.
+            temperature (float): Temperatura do modelo.
+            cut_limit (int, opcional): Número máximo de textos a serem enviados para o LLM por cluster. Se None, usa todos. Default=30.


Acho que o default pode ser menor para economizar tokens. Estamos usando 10 para analisar manualmente e tem funcionado bem.

Estou me referindo ao cut_limit

bdcdo · 2025-04-25T01:14:08Z

src/cluster_facil/cluster.py

+            api_key (str, opcional): Chave da API OpenAI. Se não fornecida, busca em OPENAI_API_KEY.
+            temperature (float): Temperatura do modelo.
+            cut_limit (int, opcional): Número máximo de textos a serem enviados para o LLM por cluster. Se None, usa todos. Default=30.
+            random_state (int, opcional): Semente para amostragem aleatória dos textos. Default=None (não controla aleatoriedade).


Mencionei acima a sugestão de padronizar em 42.
Numa nota mais de desenho da biblioteca, acho que o ideal seria controlar todas as aleatoriedades possíveis para tornar os resultados de cada pesquisador reprodutíveis.

E aqui ao random_state

bdcdo · 2025-04-25T01:35:34Z