大佬好，请问下数据构造中的特殊token #208

IamRoBota · 2023-04-29T15:26:51Z

看到在TokenTruncation.process()中构造input_ids时，拼完a和b之后，在句尾添加了两个。

请问：
1.为什么需要两个呢，一个会怎么样?
2.如果我在句子a中需要一个特殊token来分隔一下a中的上下两句，请问选哪个好一些呢？我看ChatGLM tokenizer的特殊token只有<eop> <pad> <sop> <unk>和[MASK]

感谢🙏

ssbuild · 2023-04-30T07:48:37Z

一个两个都可以，只是加强下结束符。

IamRoBota · 2023-04-30T08:37:54Z

一个

谢谢大佬，那请问第二个问题呢？不用换行符的话，更好一点吗？

Provide feedback