SAPO 无需构造数据的对齐

1 Introduction

1.1 Problem Statement

DPO训练的时候要求构造配对的数据,这不好构造

此处省略去我构造配对数据时候的心酸泪目

所以作者希望探索出一种替代方案,降低构造数据的成本,提高RLHF的效果。

1.2 Stated Contribution

2 Related Work

2.1 RLHF

RLHF: Reinforcement Learning from Human Feedback
强化学习概念:

ORPO (Odds Ratio Preference Optimization):

Formulas:

  1. DPO Loss Function:
LDPO(πθ;πref)=E(x,y+,y)D[logσ(βlogπθ(y+|x)πref(y+|x)βlogπθ(y|x)πref(y|x))]
  1. ORPO Odds Definition:
odds(y+|x)=πθ(y+|x)1πθ(y+|x),odds(y|x)=πθ(y|x)1πθ(y|x)
  1. ORPO Loss Function:
odds(y+|x)=πθ(y+|x)1πθ(y+|x),odds(y|x)=πθ(y|x)1πθ(y|x)LORPO=E(x,y+,y)D[LSFTλlogσ(logodds(y+|x)odds(y|x))]

3 Method

picture/Pasted image 20240707112021.png
首先对于一个输入x和一个选定的正样本y,将y分割成3段,然后让模型生成中间段,作为负样本y'。 然后这个正负样本对被加入了一个队列。 训练过程中,随机从这个队列里面采样tuple,然后作为训练policy network的输入。 最后滑动平均地更新这个πema

这个和moco的memory bank真的越来越像了,逐渐更新的队列。

picture/Pasted image 20240707114651.png

4 Experiment

4.1 Implementation Details

Training Details Summary

Hardware:

Training Hyperparameters:

SAPO Method Specifics:

4.2 Evaluation

picture/Pasted image 20240707114944.png

5 Summary

5.1 Relative Position

6 Comments

提供了一种构造负样本的思路,并且证明了有效性。 有放到视觉生成模型上的潜力。
CV里面这样的agument 很多, 按照inpainting的思路,mask一部分生成作为negative也可以做。

7 Supp.

7.1 SLiC-HF: Sequence Likelihood Calibration with Human Feedback

这篇论文介绍了一种名为SLiC-HF的新方法,它通过人类反馈来校准语言模型的序列概率,提供了一种比传统RLHF更简单、更高效的替代方案。研究显示,SLiC-HF在Reddit TL;DR摘要任务上显著提升了性能,并且能够利用为其他模型收集的反馈数据,减少了新数据收集的成本。此外,论文还提供了一个基于开源T5模型的SLiC-HF实现,该实现在自动和人类评估中均优于RLHF方法。