Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Philip's blog #36

Open
p208p2002 opened this issue Apr 2, 2024 · 0 comments
Open

Philip's blog #36

p208p2002 opened this issue Apr 2, 2024 · 0 comments

Comments

@p208p2002
Copy link
Owner

https://blog.philip-huang.tech/?page=dpo

論文連結: https://arxiv.org/abs/2305.18290

RLHF 是複雜且不穩定的,首先訓練一個獎勵模型以反應人類偏好,然後利用強化學習微調語言模型來最大化估計獎勵,在過程中約束微調的模型不可以偏離原始模型太多。

標準的RLHF背後使用PPO技術。

我們介紹一個可用於RLHF的參數化隱式獎勵模型,讓我們可以僅用自監督方法解決標準RLHF問題。

DPO優化人類偏好,同時避免使用強化學習。現有的 RLHF 方法首先將獎勵模型擬合到一個包含提示和人類對不同回應對的偏好的數據集中,然後使用強化學習找到最大化學習獎勵的策略。相比之下,DPO直接優化最能滿足偏好的策略,使用簡單的分類目標,擬合一個隱式獎勵模型,其相應的最優策略可以以封閉形式提取。

我們將展示現有 RL 方法的訓練目標可以

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant