-
Pre-neteja més exhaustiva:
- ", "
- ??
- 271 - Vacia
- 294 - nan
- 499, 577 - falsos directes
- Eliminats signes de puntuació i demés simbols
- Amb el corpus complet apareixen més problemes de neteja
-
Substitució de apostrofs per paraula completa
- Es lleva com si fora una stopword
-
Stopwords (http://latel.upf.edu/morgana/altres/pub/ca_stop.htm)
-
Stemmer (http://snowball.tartarus.org/algorithms/catalan/stemmer.html)
- No disponible a Python
-
Lemmatization (https://github.com/michmech/lemmatization-lists)
- En proces de construcció d'un propi
- Es decarta, per ara
-
Models i la seua entrada Hugging Face:
- Hi ha un total de 32 models dels quals 26 son per a traducció, 2 de automatic speech recognition i la resta de fill-mask. Cap de text classification.
-
https://github.com/ccoreilly/spacy-catala
- Es una versió de fa tan sols un any pero pareix que ja no es compatible amb la versió actual de Spacy.
- Es descarta, per ara
-
Exploration data analysis de les clases simples:
- Representació visual de algunes caracteristiques
- Class count
-
Métrica: recall (dóna errors al utilitzar-la a Sklearn amb SVM i NB).
-
Sklearn:
- Naive Bayes
- SVM
- Sense stopwords millora un 1%.
- Agafant a soles una clase la millora es d'un 3-4%.
-
Confusion matrix
-
Estadistiques de cada classe
-
Hacer experimiento con las 4 clases principales
- Repetir amb FastText
-
Llevar les mostres amb més d'una classe
-
Representación vectorial de l'entrada, embeddings (FastText)
-
Revisar la SVM
Reunió 20/05/21
- Entrenar amb bi-grames ("hola que tal" -> " hola", "hola que", "que tal", "tal ")
- Llevar els trigrames repetits
- Probar i modificar la SVM
- El problema era que agafava la representació CountVector en compte de la Tf-IDF
- Comprobar si la classe correcta está en les 2-5 primeres classes
- FastText, veure amb model descarregat si es pot actualitzar i generar els embeddings amb aquest i el corpus d'APunt
- Repetir els experiments amb els mateixos corpus de test/train
- Utilitzar els embeddings de FastText per al NB i la SVM
Reunió 03/06/21
- FE D'ERRATES: La primera columna es es LONGITUD MITJANA DEL TEXT EN PARAULES i la segona la LONGITUD MITJANA DE LES PARAULES. Aixo pot aclarir un poc més el perqué dels resultats amb tri-grames en tf-idf
- Usar get_sentence_vector() (FastText)
- El MultinomialNB no acepta entrades amb valors negatius i FastText en genera amb aquestos
- decision_function() (SVM)
- Revisas estadistiques del NB i SVM
- Analisis de recall i precisió per classe
- Omplir taula de 4-6 classes per a FastText
- Comprobar si la classe correcta está en les 3-5 primeres classes (precissió)
- Analisis del corpus entre solapament de bi-grames, tri-grames... entre classes
- Augmentar els n-grames de n-diferents
- Dóna recall macro menor al 5%
- EXTRA: Model Random Forest
- Anar redactant
Reunió 17/06/21
- Embeddings per a 4 y 6 classes
- Prova Canal 9 vs APunt
- Averiguar buides ¿?
Per al futur...
- Demo de aplicació per a la defensa i periodistes
- Gran experiment de Lluis
- Possible experiment amb mayusculas y minusculas