Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为什么不直接用Embedding召回的结果呢? #1

Open
leitelyaya opened this issue Mar 17, 2023 · 5 comments
Open

为什么不直接用Embedding召回的结果呢? #1

leitelyaya opened this issue Mar 17, 2023 · 5 comments

Comments

@leitelyaya
Copy link

第6步有什么改进?为什么不直接用Embedding召回的结果呢?

@fierceX
Copy link
Owner

fierceX commented Mar 23, 2023

抱歉,最近有点忙没有看到。第六步主要的原因我认为有两点:

  1. 使回复更贴近人类回复,例如应用到智能客服领域
  2. 针对大段文章,这一步能够让chatgpt抽取和问题更加相关的内容回复,当然,这样会出现chatgpt胡说八道的情况

总体来说,如果想要体验完美,还有很多工程要做。但如果用gpt4,那就没那么多限制了

@wallon-ai
Copy link

你好,文档稍微长一点时,文档后面的内容模型好像学不到,请问你知道怎么解决这个问题吗?

@fierceX
Copy link
Owner

fierceX commented Mar 28, 2023

@wallon-ai 这个其实暂时有点无解,因为这个的原理就是对文本中的每行,或者没段进行向量化,然后针对问题也进行向量化,最后通过相似度计算出比较相近的文本段落,然后交给chatgpt进行回答。那在这个过程中,chatgpt其实起到的作用没有想象中的大。

其实这个方案比较适合的场景是QA,特别是有QA手册的,用chatgpt进行抽取关键内容并进行人性化回复会比较适合。或者解析一些段落清晰的文章,例如一段文本描述的内容就基本仅限于该段文本。如果是那种上下文各种联系的,这个并不能很好的解决该问题。

@fierceX
Copy link
Owner

fierceX commented Mar 28, 2023

@wallon-ai 最好的办法应该是gpt4或者针对性的微调,但是微调的代价应该很大(openai 还没放出来微调api),gpt4拥有更长的上下文,这样就能解决长文档的问题。

@wallon-ai
Copy link

wallon-ai commented Mar 28, 2023 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants