Modelo de Classificação de Despesas

Descrição 📑

A utilização do modelo de classificação de despesas em Machine Learning começa com o processamento e análise dos dados disponíveis na planilha. Essa planilha contém registros de despesas categorizadas em 13 classes diferentes, como "Aluguel", "Contas de Consumo", "Educação", entre outras, numeradas de 0 a 12:

Código	Categoria
0	Aluguel
1	Contas de Consumo
2	Despesas Diversas
3	Educação
4	Empréstimos
5	Equipamentos
6	Impostos e Taxas
7	Pagamentos e Créditos
8	Saúde
9	Seguro
10	Serviço Prestado
11	Serviços Digitais
12	Transporte

O objetivo do modelo é prever a categoria de uma nova despesa com base em características como valor, data, descrição ou outros atributos relevantes.

Técnicas Usadas 💡

Random Forest

O Random Forest é um modelo de Machine Learning baseado em um conjunto de árvores de decisão. Ele funciona assim:

Cria várias árvores de decisão independentes, cada uma treinada com diferentes subconjuntos dos dados. Cada árvore faz uma previsão e, no final, o modelo combina os resultados de todas elas. Para classificação, ele usa a maioria dos votos; para regressão, faz uma média dos resultados. Esse modelo é robusto, lida bem com dados complexos e reduz o risco de erros que poderiam ocorrer em uma única árvore, tornando as previsões mais precisas e confiáveis.

StratifiedKFold

O StratifiedKFold é uma técnica de validação cruzada usada para avaliar modelos de Machine Learning. Ele divide os dados em várias partes (ou "folds"), mas com uma diferença importante: garante que a proporção das classes seja mantida em cada divisão.

Por exemplo, se sua base tem 70% da categoria "A" e 30% da categoria "B", cada parte criada pelo StratifiedKFold também terá essas mesmas proporções. Isso ajuda a evitar distorções nos resultados, especialmente em bases de dados desbalanceadas, garantindo que o modelo seja testado de forma justa em diferentes cenários.

Processo do Modelo 📈

Pré-processamento dos dados: Os dados da planilha são organizados e tratados. Isso inclui limpeza de valores inconsistentes, transformação de descrições de texto em vetores numéricos (usando técnicas como TF-IDF ou embeddings), e codificação de colunas categóricas.
Divisão dos dados: Os dados são divididos em conjuntos de treinamento e teste, para que o modelo possa aprender e ser avaliado.
Treinamento do modelo: O algoritmo de classificação Random Forests foi escolhido para esse caso por se encaixar melhor no contexto do objetivo. O modelo é treinado para associar as descrições das despesas às categorias corretas com base nos exemplos do conjunto de treinamento.
Avaliação: O modelo é testado com dados que ele ainda não viu, no conjunto de teste, para verificar sua precisão e confiabilidade.
Predição: Após o treinamento, o modelo pode ser usado para classificar novas despesas automaticamente. Basta fornecer os dados da despesa, e o modelo retorna a categoria correspondente.

Por exemplo, se uma nova entrada contém a descrição "Pagamento de aluguel de escritório", o modelo analisará os padrões aprendidos e poderá classificá-la como pertencente à categoria "Aluguel".

Esse tipo de aplicação é útil para automação financeira, controle de orçamento e análise de despesas de forma eficiente e escalável.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
README.md		README.md
model.ipynb		model.ipynb
rf_model.pkl		rf_model.pkl
tfidf_vectorizer.pkl		tfidf_vectorizer.pkl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Modelo de Classificação de Despesas

Descrição 📑

Técnicas Usadas 💡

Random Forest

StratifiedKFold

Processo do Modelo 📈

Ferramentas Utilizadas 🛠

About

Releases

Packages

Languages

Chroma-CESAR/Model_ExpensesClassification

Folders and files

Latest commit

History

Repository files navigation

Modelo de Classificação de Despesas

Descrição 📑

Técnicas Usadas 💡

Random Forest

StratifiedKFold

Processo do Modelo 📈

Ferramentas Utilizadas 🛠

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages