Skip to content

Trabalho de conclusão para o curso de especialização em Ciência de Dados da Facens com uso de Processamento de Linguagem Natural para análise de discurso de ódio em redes sociais.

License

Notifications You must be signed in to change notification settings

gmsarti/TCC_Facens

Repository files navigation

TCC_Facens

Introdução

Trabalho de conclusão para o curso de especialização em Ciência de Dados da Facens com uso de Processamento de Linguagem Natural para análise de discurso de ódio em redes sociais.

O trabalho pode ser acessado no neste Google Colab. Nossa apresentação pode ser encontrada aqui.

O Percurso

Nossa intensão inicial era trabalhar com NPL e para isso pensamos em usar dados de redes sociais. Durante as primeiras conversas com nosso orientador chegamos ao tema da análise de discurso de ódio. Nesse momento investigamos a possibilidade de conseguir com desenvolvedoras de jogos logs anonimizados de chats de seus jogos, uma vez que o mundo gamer vem se mostrado um grande celeiro de discurso de ódio, como evidenciado em casos como o gamer gate. Essa tentativa foi frustrada, e podemos dizer que felizmente, pois as empresas vêm tendo bastante cuidados com os dados de seus clientes, e a legislações como a Lei Geral de Proteção de Dados (LGPD) e a General Data Protection Regulation (GDPR)

Pesquisando Corpus sobre Discurso de Ódio encontramos a iniciativa do Centro de Estudos Web (CEWEB/NIC) de desenvolver uma Inteligência Artificial que ajude na prevenção da disseminação desse tipo de comportamento online. Eles trabalham com um Corpus em português brasileiro que foi publicado por Fortuna, P., Rocha Da Silva, J., Soler-Company, J., Wanner, L., & Nunes, S. (2019). "A Hierarchically-Labeled Portuguese Hate Speech Dataset", com dados tirados do Twitter e que se encontra no Github.

Outras referências que não entram nesse trabalho

Outro site muito interessante que encontramos foi um agregador de datasets sobre hate speach em várias linguas diferentes o hatespeachdata. Nesse site encontramos tanto o arquivo citado acima como o artigo Offensive Comments in the Brazilian Web: A Dataset and Baseline Results que também pode ser encontrado no Github e trata de comentários no site G1.

Cronograma

Data Objetivo Feito
29/08/20 Discutir sobre o dataset utilizado e abordagens recomendadas [x]
24/10/20 Apresentar código para tratar e preparar dados para o uso em experimentos de aprendizado de máquina. Discutir problemas encontrados e decidir próximos passos [x]
30/01/21 Revisar experimentos, apontar problemas e planejar correções ou melhorias [x]
11/04/21 Entrega do material para banca []
24/04/21 Evento de Apresentação final dos TCCs []

About

Trabalho de conclusão para o curso de especialização em Ciência de Dados da Facens com uso de Processamento de Linguagem Natural para análise de discurso de ódio em redes sociais.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published