TCC_Facens

Introdução

Trabalho de conclusão para o curso de especialização em Ciência de Dados da Facens com uso de Processamento de Linguagem Natural para análise de discurso de ódio em redes sociais.

O trabalho pode ser acessado no neste Google Colab. Nossa apresentação pode ser encontrada aqui.

O Percurso

Nossa intensão inicial era trabalhar com NPL e para isso pensamos em usar dados de redes sociais. Durante as primeiras conversas com nosso orientador chegamos ao tema da análise de discurso de ódio. Nesse momento investigamos a possibilidade de conseguir com desenvolvedoras de jogos logs anonimizados de chats de seus jogos, uma vez que o mundo gamer vem se mostrado um grande celeiro de discurso de ódio, como evidenciado em casos como o gamer gate. Essa tentativa foi frustrada, e podemos dizer que felizmente, pois as empresas vêm tendo bastante cuidados com os dados de seus clientes, e a legislações como a Lei Geral de Proteção de Dados (LGPD) e a General Data Protection Regulation (GDPR)

Pesquisando Corpus sobre Discurso de Ódio encontramos a iniciativa do Centro de Estudos Web (CEWEB/NIC) de desenvolver uma Inteligência Artificial que ajude na prevenção da disseminação desse tipo de comportamento online. Eles trabalham com um Corpus em português brasileiro que foi publicado por Fortuna, P., Rocha Da Silva, J., Soler-Company, J., Wanner, L., & Nunes, S. (2019). "A Hierarchically-Labeled Portuguese Hate Speech Dataset", com dados tirados do Twitter e que se encontra no Github.

Outras referências que não entram nesse trabalho

Outro site muito interessante que encontramos foi um agregador de datasets sobre hate speach em várias linguas diferentes o hatespeachdata. Nesse site encontramos tanto o arquivo citado acima como o artigo Offensive Comments in the Brazilian Web: A Dataset and Baseline Results que também pode ser encontrado no Github e trata de comentários no site G1.

Cronograma

Data	Objetivo	Feito
29/08/20	Discutir sobre o dataset utilizado e abordagens recomendadas	[x]
24/10/20	Apresentar código para tratar e preparar dados para o uso em experimentos de aprendizado de máquina. Discutir problemas encontrados e decidir próximos passos	[x]
30/01/21	Revisar experimentos, apontar problemas e planejar correções ou melhorias	[x]
11/04/21	Entrega do material para banca	[]
24/04/21	Evento de Apresentação final dos TCCs	[]

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.gitignore		.gitignore
2019-05-28_portuguese_hate_speech_binary_classification.csv		2019-05-28_portuguese_hate_speech_binary_classification.csv
2019-05-28_portuguese_hate_speech_hierarchical_classification.csv		2019-05-28_portuguese_hate_speech_hierarchical_classification.csv
LICENSE		LICENSE
OffComBR2.csv		OffComBR2.csv
README.md		README.md
analise_exploratoria.ipynb		analise_exploratoria.ipynb
graph_hierarchical_classes.csv		graph_hierarchical_classes.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TCC_Facens

Introdução

O Percurso

Outras referências que não entram nesse trabalho

Cronograma

About

Releases

Packages

Languages

License

gmsarti/TCC_Facens

Folders and files

Latest commit

History

Repository files navigation

TCC_Facens

Introdução

O Percurso

Outras referências que não entram nesse trabalho

Cronograma

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages