[Feature] 모델 비교 실험 결과: 한국어 뉴스 요약/재구성 성능 평가

> 뉴스 요약 태스크 중심으로 주요 한국어 LLM 모델들을 비교 실험한 결과입니다.  
> 기준: 출력 형식, 길이, 난이도 대응력, 요약 정확도, 문해력 대응, 추론 속도, 메모리 사용량 등

### ✅ 비교표

| 모델명 | 파라미터 수 (B) | Inference dtype | 출력 형식 적절성 | 출력 길이 | 난이도 분기 (상/중/하) | 요약 정확도 | 문해력 적용도 | 추론 속도 (sec) | vRAM 사용량 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| **Gemini‑flash‑2.0** | 비공개 | 비공개 | ✅ 적절 | ✅ 적절 | ✅ 적절 | ✅ 높음 | ✅ 높음 | 0.5–1.5초 | – |
| **nlpai‑lab/KULLM3** | 10.7B | float16 | ✅ 적절 | ✅ 적절 | ✅ 높은 수준 대응 | ✅ 매우 높음 | ✅ 매우 높음 | 8–12초 | 10 GB |
| **naver‑HyperCLOVAX‑1.5B** | 1.5B | float16 | ✅ 적절 | ✅ 적절 | ✅ 적절 | ✅ 높음 | ✅ 높음 | 4–6초 | 약 3.5–6 GB |
| **skt/A.X-4.0-Light** | 7B | float16 | ✅ 적절 | ✅ 적절 | ✅ 적절 | ✅ 중–상 | ✅ 중–상 | 3–5초 | 약 4–6 GB |
| **Qwen/Qwen2.5‑7B‑Instruct** | 7B | float16 / 8bit | ⚠️ 중립 | ✅ 적절 | ⚠️ 다소 부족 | ⚠️ 중간 | ⚠️ 낮음 | 10–15초 | 6–9 GB |
| **kakaocorp/kanana‑1.5‑8b‑instruct‑2505** | 8B | float16 | ✅ 적절 | ✅ 적절 | ✅ 상/중/하 표현 가능 | ✅ 중간 | ✅ 중간 | 6–10초 | 약 7 GB |
| **mistralai/Mistral‑7B‑Instruct‑v0.3** | 7B | float16 / nf4 | ✅ 적절 | ⚠️ 과다 가능 | ⚠️ 중하 | ✅ 높음 | ⚠️ 중간 | 7–10초 | 7–8 GB |
| **LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct** | 8B | float32 (기본) | ✅ 적절 | ✅ 적절 | ✅ 상급 표현 우수 | ✅ 높음 | ✅ 중–상 | 6–9초 | 7–9 GB |
| **beomi/KoAlpaca‑Polyglot‑12.8B** | 12.8B | float16 | ⚠️ 단조로움 | ⚠️ 짧음/불안정 | ⚠️ 단순 반복 | ⚠️ 중간 | ⚠️ 중간 | 6–8초 | 10 GB 이상 |

---

## 🔍 주요 인사이트

- ✅ `KULLM3`, `EXAONE 3.0`, `HyperCLOVAX`는 요약 품질과 문해력 대응에서 뛰어남
- ⚠️ `Qwen`, `KoAlpaca`는 문해력 대응력, 자연스러움, 난이도 분기 성능이 떨어지는 편
- ❗ `Gemini`는 가장 빠르지만 로컬 추론 불가, 활용 제한 있음


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] 모델 비교 실험 결과: 한국어 뉴스 요약/재구성 성능 평가 #4

✅ 비교표

🔍 주요 인사이트

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

모델명	파라미터 수 (B)	Inference dtype	출력 형식 적절성	출력 길이	난이도 분기 (상/중/하)	요약 정확도	문해력 적용도	추론 속도 (sec)	vRAM 사용량
Gemini‑flash‑2.0	비공개	비공개	✅ 적절	✅ 적절	✅ 적절	✅ 높음	✅ 높음	0.5–1.5초	–
nlpai‑lab/KULLM3	10.7B	float16	✅ 적절	✅ 적절	✅ 높은 수준 대응	✅ 매우 높음	✅ 매우 높음	8–12초	10 GB
naver‑HyperCLOVAX‑1.5B	1.5B	float16	✅ 적절	✅ 적절	✅ 적절	✅ 높음	✅ 높음	4–6초	약 3.5–6 GB
skt/A.X-4.0-Light	7B	float16	✅ 적절	✅ 적절	✅ 적절	✅ 중–상	✅ 중–상	3–5초	약 4–6 GB
Qwen/Qwen2.5‑7B‑Instruct	7B	float16 / 8bit	⚠️ 중립	✅ 적절	⚠️ 다소 부족	⚠️ 중간	⚠️ 낮음	10–15초	6–9 GB
kakaocorp/kanana‑1.5‑8b‑instruct‑2505	8B	float16	✅ 적절	✅ 적절	✅ 상/중/하 표현 가능	✅ 중간	✅ 중간	6–10초	약 7 GB
mistralai/Mistral‑7B‑Instruct‑v0.3	7B	float16 / nf4	✅ 적절	⚠️ 과다 가능	⚠️ 중하	✅ 높음	⚠️ 중간	7–10초	7–8 GB
LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct	8B	float32 (기본)	✅ 적절	✅ 적절	✅ 상급 표현 우수	✅ 높음	✅ 중–상	6–9초	7–9 GB
beomi/KoAlpaca‑Polyglot‑12.8B	12.8B	float16	⚠️ 단조로움	⚠️ 짧음/불안정	⚠️ 단순 반복	⚠️ 중간	⚠️ 중간	6–8초	10 GB 이상

[Feature] 모델 비교 실험 결과: 한국어 뉴스 요약/재구성 성능 평가 #4

Description

✅ 비교표

🔍 주요 인사이트

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions