SimPO 无需ref_model的LLM对齐

One-line summary

通过修改奖励函数，去除掉DPO训练中需要的ref_model

DPO是一种离线的偏好学习优化算法，通过重参数化强化学习中的奖励函数来学习人类偏好，同时加强训练的稳定性和简单性。 SimPO是一种更加简单有效的方法:用一个序列的平均对数概率作为隐式的奖励。

DPO的公式

\begin{aligned} L_{DPO} (π_{θ}; π_{ref}) = \\ - E [\log σ (β \log \frac{π_{θ} (y_{w} ∣ x)}{π_{ref} (y_{w} ∣ x)} - β \log \frac{π_{θ} (y_{l} ∣ x)}{π_{ref} (y_{l} ∣ x)})] \end{aligned}

SIMPO公式

\begin{aligned} L_{SimPO} (π_{θ}) = \\ - E [\log σ (\frac{β}{| y_{w} |} \log π_{θ} (y_{w} ∣ x) - \frac{β}{| y_{l} |} \log π_{θ} (y_{l} ∣ x) - γ)] \end{aligned}

注意，SimPO不需要一个reference model，这意味着这个训练的时候需要的显存的数量可以大大减少了。

r是一个奖励函数，一个带有闭式解的表达式作为优化策略：

r (x, y) = β \log \frac{p_{θ}^{*} (y ∣ x)}{p_{ref} (y ∣ x)} + β \log Z (x)

然后用Bradly-Terry排序目标

p (y_{w} > y_{l} | x) = σ (r (x, y_{w}), r (x, y_{l}))

得到DPO的优化目标：最小化负对数的BT:

L_{DPO} (θ) = - E_{c, x_{0}^{w}, x_{0}^{l}} [\log σ (β \log \frac{p_{θ} (x_{0}^{w} ∣ c)}{p_{ref} (x_{0}^{w} ∣ c)} - β \log \frac{p_{θ} (x_{0}^{l} ∣ c)}{p_{ref} (x_{0}^{l} ∣ c)})]

语言模型生成一个序列的时候是通过最大化平均对数似然(maximizes the average log likelihood)：

p_{θ} (y ∣ x) = \frac{1}{| y |} \log π_{θ} (y ∣ x) = \frac{1}{| y |} \sum_{i = 1}^{| y |} \log π_{θ} (y_{i} ∣ x, y_{< i}) .

这个目标和奖励函数r有不一致的地方，也就是说 $r (x, y_{w}) > r (x, y_{l})$ 推导不出 $p_{θ} (x, y_{w}) > p_{θ} (x, y_{l})$

如下图所示，直观的可以看书r大的不一定概率大

为了解决这个问题，SimPO改了奖励函数
从：

r (x, y) = β \log \frac{p_{θ}^{*} (y ∣ x)}{p_{ref} (y ∣ x)} + β \log Z (x)

到

r_{SimPO} (x, y) = \frac{β}{| y |} \log π_{θ} (y ∣ x) = \frac{β}{| y |} \sum_{i = 1}^{| y |} \log π_{θ} (y_{i} ∣ x, y_{< i}),

这个平均最小的奖励函数和LM生成的时候的式子类似，然后就可以解决3.1里提到的问题

p (y_{w} > y_{l} | x) = σ (r (x, y_{w}), r (x, y_{l}) - γ)

方法部分结束

picture/DPO-variants.png

从语言模型的生成过程的目标推导出了减小generation和reward之间差异的新的reward function
去掉了对ref_model的依赖
加入了一个最小的奖励差距
得到一个简单的preference optimization loss

有几个问题: