ppl和gen模式有什么区别，可以用通俗的语言解释一下吗 #597

xealml · 2023-11-15T13:17:58Z

xealml
Nov 15, 2023

求教

Nov 15, 2023

以选择题为例

问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子

gen (generate) 就是以上述问题作为提示词，让默写往下续写，并从续写中提取答案为 A / B / C / D 中的哪一个

ppl (perplexity) 就是给模型 4 句话：

1. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 A
2. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 B
3. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 C
4. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 D

看模型更认同哪一句话 (混淆度 perplexity 更低)，认同哪一句话，就用哪一句话对应的答案 A / B / C / D

gen 和 ppl 最终都是得到 A / B / C / D 之一，与参考答案进行比较，得分或者不得分等等

View full answer

Leymore · 2023-11-15T14:02:34Z

Leymore
Nov 15, 2023

以选择题为例

问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子

gen (generate) 就是以上述问题作为提示词，让默写往下续写，并从续写中提取答案为 A / B / C / D 中的哪一个

ppl (perplexity) 就是给模型 4 句话：

1. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 A
2. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 B
3. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 C
4. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 D

看模型更认同哪一句话 (混淆度 perplexity 更低)，认同哪一句话，就用哪一句话对应的答案 A / B / C / D

gen 和 ppl 最终都是得到 A / B / C / D 之一，与参考答案进行比较，得分或者不得分等等

4 replies

xealml Nov 16, 2023
Author

感谢解答，生成这边还有个疑问啊，如果语言模型不生成 ABCD其中一个，评估时相当于就不看这种结果了吗，还是要控制生成次数，比如三次，知道能生成其中一个选项

Leymore Nov 20, 2023

首先要过后处理，比如模型说了一堆，最后有一个 "所以选B"，后处理应该是要用某种方法把这个 "B" 提取出来的。
其次如果模型没有这种输出，或者拒绝回答(比如出于安全考虑等)，那么就会直接判为错，OpenCompass 中一般是这么实现的；一些其他的框架在具体实现是，会从 ABCD 中随机输出一个作为输出。

qing-yuan233 Dec 20, 2024

想请问一下，如果评估数据集是QA数据集而非选择题数据集，那么ppl是如何评估的呢？

rederyang Dec 24, 2024

想请问一下，如果评估数据集是QA数据集而非选择题数据集，那么ppl是如何评估的呢？

可能是算参考答案的ppl，得到一个平均值。

niexufei · 2023-11-28T08:58:36Z

niexufei
Nov 28, 2023

以选择题为例
问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子
gen (generate) 就是以上述问题作为提示词，让默写往下续写，并从续写中提取答案为 A / B / C / D 中的哪一个

ppl (perplexity) 就是给模型 4 句话：
1. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 A
2. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 B
3. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 C
4. 问题：小白是什么动物？A. 老鼠 B. 牛 C. 老虎 D. 兔子 答案是 D
看模型更认同哪一句话 (混淆度 perplexity 更低)，认同哪一句话，就用哪一句话对应的答案 A / B / C / D

gen 和 ppl 最终都是得到 A / B / C / D 之一，与参考答案进行比较，得分或者不得分等等

感谢答复。再次追问下，一个模型的ppl和gen方式对于同一套选择题的得分理论上是否应该一致？但是实际测试中，发现有不一致的场景，那么此时即使ppl得分高，ppl能代表模型能力吗？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ppl和gen模式有什么区别，可以用通俗的语言解释一下吗 #597

{{title}}

Replies: 2 comments 4 replies

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

ppl和gen模式有什么区别，可以用通俗的语言解释一下吗 #597

xealml Nov 15, 2023

Replies: 2 comments · 4 replies

Leymore Nov 15, 2023

xealml Nov 16, 2023 Author

Leymore Nov 20, 2023

qing-yuan233 Dec 20, 2024

rederyang Dec 24, 2024

niexufei Nov 28, 2023

xealml
Nov 15, 2023

Replies: 2 comments 4 replies

Leymore
Nov 15, 2023

xealml Nov 16, 2023
Author

niexufei
Nov 28, 2023