Skip to content

trailerAI/Domain-Robust-Retraining-of-Pretrained-Language-Model

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 

Repository files navigation

Domain-Robust-Retraining-of-Pretrained-Language-Model

  • 한국어에 대한 많은 PLM(Pretrained Language Model)들이 있지만, 대부분 문어체에 대한 PLM이 존재합니다. 여기서는 한국어 대화(구어체) 데이터의 예측을 위한 재학습된 PLM을 소개합니다.
  • 이 모델은 klue/roberta-base를 기본 모델로 삼고 구어체 데이터셋을 추가적으로 Retraining을 시킨 것으로, 우리는 이를 Kconvo-roberta로 정의합니다.
  • 재학습시킨 데이터셋은 국립국어원AI-Hub을 통해 수집하였으며, 수집한 데이터셋은 아래와 같습니다.
■ 전처리 후 약 40GB, 약 25,000,000 Line

- 국립국어원
   * 온라인 대화 말뭉치 2021
   * 일상 대화 말뭉치 2020
   * 구어 말뭉치
   * 메신저 말뭉치

- AI-Hub
   * 온라인 구어체 말뭉치 데이터
   * 상담 음성
   * 한국어 음성
   * 자유대화 음성(일반남여)
   * 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터
   * 한국인 대화음성
   * 감성 대화 말뭉치
   * 주제별 텍스트 일상 대화 데이터
   * 용도별 목적대화 데이터
   * 한국어 SNS

Usage

  • Kconvo-roberta는 huggingface 라이브러리를 통해 사용하실 수 있습니다.
# Kconvo-roberta
from transformers import RobertaTokenizerFast, RobertaModel

tokenizer_roberta = RobertaTokenizerFast.from_pretrained("yeongjoon/Kconvo-roberta")
model_roberta = RobertaModel.from_pretrained("yeongjoon/Kconvo-roberta")

Paper


Contributor

  • Tak-Sung Heo, Yeongjoon Park, Byeong-Cheol Jo

About

Korean Pretrained Language Model

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •