为什么不直接用Embedding召回的结果呢？ #1

leitelyaya · 2023-03-17T02:23:16Z

第6步有什么改进？为什么不直接用Embedding召回的结果呢？

fierceX · 2023-03-23T14:03:53Z

抱歉，最近有点忙没有看到。第六步主要的原因我认为有两点：

使回复更贴近人类回复，例如应用到智能客服领域
针对大段文章，这一步能够让chatgpt抽取和问题更加相关的内容回复，当然，这样会出现chatgpt胡说八道的情况

总体来说，如果想要体验完美，还有很多工程要做。但如果用gpt4，那就没那么多限制了

wallon-ai · 2023-03-27T09:42:06Z

你好，文档稍微长一点时，文档后面的内容模型好像学不到，请问你知道怎么解决这个问题吗？

fierceX · 2023-03-28T07:09:55Z

@wallon-ai 这个其实暂时有点无解，因为这个的原理就是对文本中的每行，或者没段进行向量化，然后针对问题也进行向量化，最后通过相似度计算出比较相近的文本段落，然后交给chatgpt进行回答。那在这个过程中，chatgpt其实起到的作用没有想象中的大。

其实这个方案比较适合的场景是QA，特别是有QA手册的，用chatgpt进行抽取关键内容并进行人性化回复会比较适合。或者解析一些段落清晰的文章，例如一段文本描述的内容就基本仅限于该段文本。如果是那种上下文各种联系的，这个并不能很好的解决该问题。

fierceX · 2023-03-28T07:11:12Z

@wallon-ai 最好的办法应该是gpt4或者针对性的微调，但是微调的代价应该很大（openai 还没放出来微调api），gpt4拥有更长的上下文，这样就能解决长文档的问题。

wallon-ai · 2023-03-28T07:22:06Z

但是gpt4还是有长度限制，就特别好奇chatpdf是如何解决这个问题的？

…

------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年3月28日(星期二) 下午3:11 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [fierceX/Document_QA] 为什么不直接用Embedding召回的结果呢？ (Issue #1) @wallon-ai 最好的办法应该是gpt4或者针对性的微调，但是微调的代价应该很大（openai 还没放出来微调api），gpt4拥有更长的上下文，这样就能解决长文档的问题。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为什么不直接用Embedding召回的结果呢？ #1

为什么不直接用Embedding召回的结果呢？ #1

leitelyaya commented Mar 17, 2023

fierceX commented Mar 23, 2023

wallon-ai commented Mar 27, 2023

fierceX commented Mar 28, 2023

fierceX commented Mar 28, 2023

wallon-ai commented Mar 28, 2023 via email

为什么不直接用Embedding召回的结果呢？ #1

为什么不直接用Embedding召回的结果呢？ #1

Comments

leitelyaya commented Mar 17, 2023

fierceX commented Mar 23, 2023

wallon-ai commented Mar 27, 2023

fierceX commented Mar 28, 2023

fierceX commented Mar 28, 2023

wallon-ai commented Mar 28, 2023 via email