Skip to content

COCO 평가 코드 임포트

Yongho Choi edited this page Jul 15, 2020 · 2 revisions

COCO-Captioning 평가 기준

BLEU

  • 배열되는 단어(n-grame)들의 유사도에 대한 지표 길이가 길어지는 문장의 비교가 결과가 좋지않다.
  • However, at a senetence-level the n-gram matches for higher n rarely occur. AS a reuslts, BLEU performs poorly when comparing individual sentences.

ROUGE-L

  • 양 캡션 문장에 중복되있는 단어들을 기반으로 측정된 점수

METEOR

  • 문장간의 1:1 의 일치성의 목적으로 단어들의 할당의 발생함으로써 생기는 점수 지표.

CIDEr

-The CIDEr metric measures consensus in image captions by performing a Term Frequency Inverse Document Frequency(TF-IDF) weighting for each n-gram.

  • 가중치를 통해서 단어 정보의 의미성을 판단. 이는 후보 캡셔과 답안 캡션들 사이의 코사인 평균의 유사성을 사용하여 나오는 cost 이다.

COCO 평가 코드 임포트

reference : https://github.com/vsubhashini/caption-eval , https://github.com/tylin/coco-caption

  • 코드분석
    • create_json 파이썬 파일을 이용하여 정답에 대한 문장들을 평가가 가능한 json 포맷팅으로 바꿔준다.
    • json 포맷팅에 대한 것을 run_evaluations.py를 이용하여 학습하고 테스트로 나온 예측 문장들이 있는 텍스트파일을 명령인수로 넣어준다.

BLUE, Meteor, Rouge-L, CIDEr 에 대한 점수를 뽑을 수 있다.