请问如何用模型由给定的文本生成embedding #174

qengli · 2023-08-11T09:24:57Z

qengli
Aug 11, 2023

我想用模型生成embedding,然后计算两段文本的相似度

jklj077 · 2023-10-31T07:26:30Z

jklj077
Oct 31, 2023
Maintainer

Qwen模型是纯decoder的语言模型（这里虽然一般这么说，但很不严谨的，它其实是原始Transformer论文里encoder部分的架构，但是auto-regressive的训练，就是自注意力只能看到句子前的token，不能看到句子后面的token），虽然最后输出层前的隐层输出可以当成是embedding，但可能不太适合做embedding类任务。

这里有些论文可参考，像OpenAI有篇文章就是拿语言模型(GPT3/Codex)做基础，然后用对比学习去继续训练获得embedding模型的。 https://cdn.openai.com/papers/Text_and_Code_Embeddings_by_Contrastive_Pre_Training.pdf

欢迎讨论！

0 replies

15810856129 · 2024-01-15T07:27:25Z

15810856129
Jan 15, 2024

从逻辑上讲，输入一个句子，想得到句子的embedding，可以找到输入句子的结束标识，比如eos，然后用eos对应的embedding作为整个句子向量吧；那么具体怎么获取这个eos位置的embedding呢？

1 reply

tangyanlin Sep 29, 2024

获取了eos作为句子的embedding，但是embedding都很相似，没有太大区分度

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

请问如何用模型由给定的文本生成embedding #174

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

请问如何用模型由给定的文本生成embedding #174

Uh oh!

qengli Aug 11, 2023

Replies: 2 comments · 1 reply

Uh oh!

jklj077 Oct 31, 2023 Maintainer

Uh oh!

15810856129 Jan 15, 2024

Uh oh!

tangyanlin Sep 29, 2024

qengli
Aug 11, 2023

Replies: 2 comments 1 reply

jklj077
Oct 31, 2023
Maintainer

15810856129
Jan 15, 2024