Cross-Lingual Offensive Language Identification

Authors: Nikolina Grabovica, Selma Halilčević, Matjaž Mav

Advisors: Slavko Žitnik

Organization: University of Ljubljana, Faculty of Computer and Information Science

Course: Natural Language Processing 2020/2021

Description

In this short paper we reviewed a few publicly available datasets and a few different methods for offensivelanguage identification. We explored traditional methods using handcrafted features, contextual embeddings andembedding alignment methods and current state of the art transformer models.

Report: report.pdf

Requirements

Conda

Installation

$ conda create --name nlp --file requirements.txt
$ conda activate nlp
Make sure that jupyter notebooks are run with repository root as working directory
Download trained model checkpoints from here (12GB): https://drive.google.com/file/d/10r0ixTeOgG1AxDBksGMPjsUsO_sLe9gD/view?usp=sharing
Place checkpoints into repository root, see folder structure for details

Folder structure

├── .gitignore                      Git ignore config
├── README.md                       This file
├── requirements.txt                Conda environment definition
├── data/                           Contains datasets 
├── reports/                        Contains reports
├── results/                        Contains final results and visualizations
├── checkpoints/                    !!Contains downloaded checkpoints, see installation steps!!
    ├── elmoformanylanguages/       Contains pre-trained ELMo for EN and SI language
    ├── outputs/                    Contains pre-trained BERT, mBERT, T5 and mT5 models
    ├── .gitignore                  
└── src/                            Contains source files
    └── eval-*.ipynb                Model evaluation notebooks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Cross-Lingual Offensive Language Identification

Description

Requirements

Installation

Folder structure

About

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 52 Commits
.vscode		.vscode
checkpoints		checkpoints
data		data
model.trans_test		model.trans_test
results		results
src		src
.gitignore		.gitignore
NMT_model_slo-eng.ipynb		NMT_model_slo-eng.ipynb
README.md		README.md
report.pdf		report.pdf
requirements.txt		requirements.txt
sentiment_analysis_text_classification-tweets_baseline_model.ipynb		sentiment_analysis_text_classification-tweets_baseline_model.ipynb

arruw/fri-2021-nlp-project

Folders and files

Latest commit

History

Repository files navigation

Cross-Lingual Offensive Language Identification

Description

Requirements

Installation

Folder structure

About

Topics

Resources

Stars

Watchers

Forks

Contributors 2

Languages