Skip to content

Latest commit

 

History

History
84 lines (72 loc) · 3.77 KB

TODO.md

File metadata and controls

84 lines (72 loc) · 3.77 KB
  • Pre-neteja més exhaustiva:

    • ", "
    • ??
    • 271 - Vacia
    • 294 - nan
    • 499, 577 - falsos directes
    • Eliminats signes de puntuació i demés simbols
    • Amb el corpus complet apareixen més problemes de neteja
  • Substitució de apostrofs per paraula completa

    • Es lleva com si fora una stopword
  • Stopwords (http://latel.upf.edu/morgana/altres/pub/ca_stop.htm)

  • Stemmer (http://snowball.tartarus.org/algorithms/catalan/stemmer.html)

    • No disponible a Python
  • Lemmatization (https://github.com/michmech/lemmatization-lists)

    • En proces de construcció d'un propi
    • Es decarta, per ara
  • Models i la seua entrada Hugging Face:

    • Hi ha un total de 32 models dels quals 26 son per a traducció, 2 de automatic speech recognition i la resta de fill-mask. Cap de text classification.
  • https://github.com/ccoreilly/spacy-catala

    • Es una versió de fa tan sols un any pero pareix que ja no es compatible amb la versió actual de Spacy.
    • Es descarta, per ara
  • Exploration data analysis de les clases simples:

    • Representació visual de algunes caracteristiques
    • Class count
  • Métrica: recall (dóna errors al utilitzar-la a Sklearn amb SVM i NB).

  • Sklearn:

    • Naive Bayes
    • SVM
    • Sense stopwords millora un 1%.
    • Agafant a soles una clase la millora es d'un 3-4%.
  • Confusion matrix

  • Estadistiques de cada classe

  • Hacer experimiento con las 4 clases principales

    • Repetir amb FastText
  • Llevar les mostres amb més d'una classe

  • Representación vectorial de l'entrada, embeddings (FastText)

  • Revisar la SVM

Reunió 20/05/21

  • Entrenar amb bi-grames ("hola que tal" -> " hola", "hola que", "que tal", "tal ")
  • Llevar els trigrames repetits
  • Probar i modificar la SVM
    • El problema era que agafava la representació CountVector en compte de la Tf-IDF
  • Comprobar si la classe correcta está en les 2-5 primeres classes
  • FastText, veure amb model descarregat si es pot actualitzar i generar els embeddings amb aquest i el corpus d'APunt
  • Repetir els experiments amb els mateixos corpus de test/train
  • Utilitzar els embeddings de FastText per al NB i la SVM

Reunió 03/06/21

Reunió 17/06/21

  • Embeddings per a 4 y 6 classes
  • Prova Canal 9 vs APunt
  • Averiguar buides ¿?

Per al futur...

  • Demo de aplicació per a la defensa i periodistes
  • Gran experiment de Lluis
  • Possible experiment amb mayusculas y minusculas