Pacote Python contendo os corpora do projeto DANTE do POeTiSA
Report Bug
-
Request Feature
pip install dante-corpora
Esta biblioteca contempla os seguintes corpora:
-
DANTEStocks: Corpus de tweets que usam termos do mercado financeiro. Esse corpus foi segmentado em 3 Pandas DataFrame:
- base: Conteudo dos tweets;
- emotion: Camada de anotacao dos tweets;
- pos: Camada de anotacao Morfossintatica (Part of Speech).
-
DANTEShots: Corpus de tweets de pessoas politicas sobre a vacinacao contra a COVID-19. Esse corpus foi segmentado em 3 Pandas DataFrame:
- base: Conteudo dos tweets;
- stance: Camada de anotacao de posicionamento;
- pos: Camada de anotacao Morfossintatica (Part of Speech).
# Importacao da biblioteca
from dante.corpora import Dante
# Instanciando qual corpus sera usado
stocks = Dante('dantestocks')
# Instanciando conjuntos de dados
base = stocks.get_data('base')
emotion = stocks.get_data('emotion')
pos = stocks.get_data('pos')
# Exibindo as 5 primeiras linhas do conjunto base
print(base.head())
Contribuicoes sao bem-vindas! Sinta-se a vontade para propor melhorias, relatar problemas ou abrir pull requests.
Este projeto e licenciado sob a Licenca MIT.