Mlm and llrd #6

metekemertas · 2023-02-15T17:43:12Z

No description provided.

devrimcavusoglu · 2023-02-15T19:50:51Z

utils/generic_utils.py

+    predictions = (probs > thresholds).astype(int)
+    clf_dict = classification_report(labels, predictions, zero_division=0, output_dict=True)
+    return {"micro f1": clf_dict["micro avg"]["f1-score"],
+            "macro f1": clf_dict["macro avg"]["f1-score"]}


"weighted" avg.'ı da return dict'e ekleyebilir miyiz ?

devrimcavusoglu · 2023-02-15T19:52:55Z

utils/generic_utils.py

+
+# Preprocessing function to clean the tweets.
+# Use with caution: removing hashtags and handles _may_ reduce model performance.
+def preprocess_tweet(tweet, remove_hashtags=False, remove_handles=False):


buraya telefon numaralarını silmek için de bi kod ekleyebiliriz, şu notebook'da basit bi preprocess yazmıştım genel olarak çalışıyor gibi ama kaçırdığı edge caseler de olabilir belki refine etmek gerekir.

devrimcavusoglu · 2023-02-15T19:59:12Z

utils/generic_utils.py

+    tweet = re.sub(r'www\S+', '', tweet)
+    tweet = re.sub(r'pic.twitter\S+', '', tweet)
+
+    tweet = re.sub(r'\W', ' ', tweet)  # remove special characters


\W tüm special karakterleri siliyor (gerekli puncuationlar dahil). Pretraining'de eğer punctuationlar silinmeden eğitildiyse model (örn. genelde kullandığımız loodos modelleri), bu problem yaratır fine-tuning'de, o yüzden önerim virgül, nokta, ünlem, soru işareti gibi spesifik noktalama işaretlerini kaldırmamak. "loodos" pretraining için baktım şu normalization scriptini kullanmışlar, punctuation removal yok.

devrimcavusoglu · 2023-02-15T20:01:12Z

utils/generic_utils.py

+    tweet = re.sub(r'pic.twitter\S+', '', tweet)
+
+    tweet = re.sub(r'\W', ' ', tweet)  # remove special characters
+    tweet = re.sub(r'\s+', ' ', tweet)  # remove multiple whitespaces


Bilmediğim için soruyorum bu regex sub \n veya \t gibi kısımları da multiple whitespace'ten sayıyor mu ? eğer onları ignore ediyorsa (tek whitespace gibi görüp), onları da handle edecek bi kod ile değiştirebiliriz burayı, aşağıdaki kod gibi bişey ile

tweet = " ".join(tweet.split())

devrimcavusoglu · 2023-02-15T20:05:14Z

utils/dataset_utils.py

+from unicode_tr import unicode_tr
+
+
+def prep_datasets(tokenizer, labelidx2name, path, label_col="label", text_col="image_url"):


labelidx2name argumanına gerek yok, datasets.Dataset internal olarak bu şemayı under-the-hood tutuyor, direkt onu utilize edebiliriz. HF'de usage kısmında var readme'de.

# to convert from id to string print(dataset["train"].features["label"].int2str(tweet["label"]))

# to convert from string to id print(dataset["train"].features["label"].str2int(tweet["label_name"]))

devrimcavusoglu · 2023-02-15T20:07:50Z

utils/dataset_utils.py

+    df_test = pd.DataFrame().from_records(list(intent["test"]))
+
+    df_train[text_col] = df_train[text_col].apply(lambda x: unicode_tr(x).lower())
+    df_test[text_col] = df_test[text_col].apply(lambda x: unicode_tr(x).lower())


lower() yaparken şuna dikkat etmeliyiz Türkçe için ı/i.

metekemertas added 2 commits February 14, 2023 18:21

Added scripts for MLM, LLRD and utils

8c56f7c

Major refactor. Added package utils. Adapted code to new dataset

8a1aaa2

metekemertas requested a review from merveenoyan February 15, 2023 17:43

Minor fix

5431fe8

devrimcavusoglu reviewed Feb 15, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mlm and llrd #6

Mlm and llrd #6

metekemertas commented Feb 15, 2023

devrimcavusoglu Feb 15, 2023

devrimcavusoglu Feb 15, 2023

devrimcavusoglu Feb 15, 2023

devrimcavusoglu Feb 15, 2023

devrimcavusoglu Feb 15, 2023

devrimcavusoglu Feb 15, 2023

		from unicode_tr import unicode_tr


		def prep_datasets(tokenizer, labelidx2name, path, label_col="label", text_col="image_url"):

Mlm and llrd #6

Are you sure you want to change the base?

Mlm and llrd #6

Conversation

metekemertas commented Feb 15, 2023

devrimcavusoglu Feb 15, 2023

Choose a reason for hiding this comment

devrimcavusoglu Feb 15, 2023

Choose a reason for hiding this comment

devrimcavusoglu Feb 15, 2023

Choose a reason for hiding this comment

devrimcavusoglu Feb 15, 2023

Choose a reason for hiding this comment

devrimcavusoglu Feb 15, 2023

Choose a reason for hiding this comment

devrimcavusoglu Feb 15, 2023

Choose a reason for hiding this comment