Skip to content

[Feature] 모델 비교 실험 결과: 한국어 뉴스 요약/재구성 성능 평가 #4

@sunnyanna0

Description

@sunnyanna0

뉴스 요약 태스크 중심으로 주요 한국어 LLM 모델들을 비교 실험한 결과입니다.
기준: 출력 형식, 길이, 난이도 대응력, 요약 정확도, 문해력 대응, 추론 속도, 메모리 사용량 등

✅ 비교표

모델명 파라미터 수 (B) Inference dtype 출력 형식 적절성 출력 길이 난이도 분기 (상/중/하) 요약 정확도 문해력 적용도 추론 속도 (sec) vRAM 사용량
Gemini‑flash‑2.0 비공개 비공개 ✅ 적절 ✅ 적절 ✅ 적절 ✅ 높음 ✅ 높음 0.5–1.5초
nlpai‑lab/KULLM3 10.7B float16 ✅ 적절 ✅ 적절 ✅ 높은 수준 대응 ✅ 매우 높음 ✅ 매우 높음 8–12초 10 GB
naver‑HyperCLOVAX‑1.5B 1.5B float16 ✅ 적절 ✅ 적절 ✅ 적절 ✅ 높음 ✅ 높음 4–6초 약 3.5–6 GB
skt/A.X-4.0-Light 7B float16 ✅ 적절 ✅ 적절 ✅ 적절 ✅ 중–상 ✅ 중–상 3–5초 약 4–6 GB
Qwen/Qwen2.5‑7B‑Instruct 7B float16 / 8bit ⚠️ 중립 ✅ 적절 ⚠️ 다소 부족 ⚠️ 중간 ⚠️ 낮음 10–15초 6–9 GB
kakaocorp/kanana‑1.5‑8b‑instruct‑2505 8B float16 ✅ 적절 ✅ 적절 ✅ 상/중/하 표현 가능 ✅ 중간 ✅ 중간 6–10초 약 7 GB
mistralai/Mistral‑7B‑Instruct‑v0.3 7B float16 / nf4 ✅ 적절 ⚠️ 과다 가능 ⚠️ 중하 ✅ 높음 ⚠️ 중간 7–10초 7–8 GB
LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct 8B float32 (기본) ✅ 적절 ✅ 적절 ✅ 상급 표현 우수 ✅ 높음 ✅ 중–상 6–9초 7–9 GB
beomi/KoAlpaca‑Polyglot‑12.8B 12.8B float16 ⚠️ 단조로움 ⚠️ 짧음/불안정 ⚠️ 단순 반복 ⚠️ 중간 ⚠️ 중간 6–8초 10 GB 이상

🔍 주요 인사이트

  • KULLM3, EXAONE 3.0, HyperCLOVAX는 요약 품질과 문해력 대응에서 뛰어남
  • ⚠️ Qwen, KoAlpaca는 문해력 대응력, 자연스러움, 난이도 분기 성능이 떨어지는 편
  • Gemini는 가장 빠르지만 로컬 추론 불가, 활용 제한 있음

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions