Skip to content
This repository has been archived by the owner on Jul 23, 2023. It is now read-only.

한글/영어 감성어 사전과 bitTA 패키지 데이터셋 정리 #4

Open
statkclee opened this issue Jul 12, 2022 · 1 comment

Comments

@statkclee
Copy link
Contributor

한국어 감성어 사전과 더불어 영문 감성어 사전도 함께 모아두는 것은 어떨까요?
그리고, bitTA 패키지에 내장 데이터셋에 대해 정리를 해야 하지 않을까 싶습니다.
예를 들어, 소설이라... 취임사 등등...

@choonghyunryu
Copy link
Contributor

현황

  • 한국어 감성어 사전
    • KOSAC(Korean Sentiment Analysis Corpus) sentiment dictionary
      • get_opinion() 함수가 KOSAC을 이용해서 감성 분석 결과를 반환
    • KNU Korean Sentiment Dictionary
      • 최근에 구글링에 자주 검색되는 사전임
      • 아직 이 사전을 이용해서 감성을 분석하는 기능은 미구현
  • 한글 데이터 현황
    • 대통령 연설문
      • 7개의 변수와 2,408개의 관측치 (김대중, 노무현, 이명박)
    • 네이버 카페 글모음
      • 13개의 변수와 1,000개의 관측치
    • Naver sentiment movie corpus v1.0
      • 감성 사전이라기 보다는 영화리뷰의 긍부정 예측 모델링 예제 데이터 성격
      • 3개변수
        • train set : 150,000건
        • test set : 50,000건

향후 계획

  • 한글 데이터
    • 저작권 기간이 만료된 한글 소설/산문집 등 1개 선정
    • 영어 데이터 ?
  • 영어 감성어 사전 ?

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants