Autor: João Pedro da S. Lima
Orientação: Prof. Dr. José Alfredo Costa
Este repositorio contém um conjunto de técnicas de NLP (Natural Language Processing) desenvolvidas durante a pesquisa do aluno João Pedro enquanto bolsista de Iniciação Científica na UFRN (Universidade Federal do Rio Grande do Norte).
As técnicas aqui demonstradas são focadas no processamento de textos em PT-BR, com intuito final de criação de algoritmos para automação inteligente voltada ao meio jurídico.
A pesquisa aqui descrita foi desenvolvida principalmente no período de AGO-2020 a JUN-2022. Os materiais disponibilizados são resultado de todo o trabalho desenvolvido nesse período.
Nesta pesquisa, foram desenvolvidas aplicações, materiais e estudos sobre os principais algoritmos da área de IA, englobando os escopos supervisionado e não-supervisionado, com implementações em código de programação (principalmente Python) e com estudos teóricos sobre os detalhes matemáticos e estatísticos de cada algoritmo.
O escopo principal da pesquisa foi o estudo e desenvolvimento de técnicas de NLP para clustering de textos jurídicos.
O repositório está organizado com base no escopo dos materiais produzidos.
Durante a pesquisa, foram feitas pesquisas principais, pesquisas paralelas e materiais teóricos, cada uma delas possui uma pasta única.
- 📂 Pesquisas principais: São o foco da IC, os materiais mais aprofundados e que geram as principais análises. Atualmente são o "O desenvolvimento de um modelo para Clustering textual com TF-IDF, Mapa de Kohonen e K-Means" e "Avaliação do clustering de documentos legais com diferentes métodos de feature extraction".
- 📂 Pesquisas paralelas: São pequenas pesquisas e experimentos pontuais desenvolvidas ao longo do IC.
- 📂 Materiais teóricos: São materiais desenvolvidos com intuito de estudar/apresentar conceitos de NLP e Machine Learning.
- LIMA, João Pedro; COSTA, José Alfredo; ARAÚJO, Diogenes Carlos. Comparison of Feature Extraction Methods for Brazilian Legal Documents Clustering. In: 2021 IEEE Latin American Conference on Computational Intelligence (LA-CCI). IEEE, 2021. p. 1-5.
- ARAÚJO, Diógenes Carlos et al. A Comparison of Classification Methods Applied to Legal Text Data. In: EPIA Conference on Artificial Intelligence. Springer, Cham, 2021. p. 68-80.
- LIMA, João Pedro; COSTA, José Alfredo; ARAÚJO, Diogenes Carlos. Legal Document Clustering With TF-IDF Vectors, Kohonen Map and K-Means. In: 18th CONTECSI Conference.
- Clustering de documentos jurídicos - Apresentação eCICT UFRN 2021.
- Vídeo Apresentação Contecsi- Legal Document Clustering with TF-IDF vectors, Kohonen Map and K-Means
- Vídeo Apresentação LACCI - Comparison of Feature Extraction Methods for Brazilian Legal Documents Clustering