← 返回论文列表
🟢 阿里 AliExpress · GPSD · 判别式推荐 Scaling

GPSD:用生成式预训练解决判别式推荐的过拟合,解锁 Transformer Scaling Law

Scaling Transformers for Discriminative Recommendation via Generative Pretraining

作者
Chengqi Wang et al. · Alibaba
会议
KDD 2025
来源
arXiv 2506.03699
核心成果
13K→0.3B 参数 Scaling Law · AliExpress 在线显著提升 · 代码开源
💬
一句话总结
GPSD 发现判别式推荐过拟合的根源在于稀疏嵌入训练不充分,通过先用自回归生成式 Transformer 预训练得到高质量嵌入表(采样 Softmax 解决稀疏性),再将嵌入表迁移并冻结(Sparse Freeze)进行判别式微调,彻底消除了两种过拟合现象,首次在推荐系统判别式任务上建立了从 13K 到 0.3B 参数的幂律 Scaling Law,并在 AliExpress 在线 A/B 测试中取得显著增益。
🎯
§1 背景与动机

论文:Scaling Transformers for Discriminative Recommendation via Generative Pretraining

机构:Alibaba Group(AliExpress 电商推荐系统)

链接:arxiv.org/abs/2506.03699

开源代码:github.com/chqiwang/gpsd-rec

1.1 判别式推荐的两大顽疾

在工业级推荐系统的排序阶段,模型通常以判别式方式训练:给定用户行为序列和候选 item,预测用户会不会点击/购买(CTR/CVR 预测)。当研究者尝试把 NLP 领域的成功经验——用更大的 Transformer 模型获得更好效果——迁移到推荐场景时,遭遇了两个严重阻碍:

顽疾 1:严重的过拟合(Overfitting)

论文区分了两种过拟合现象:

  • One-epoch overfitting:在每个 epoch 交界处,验证 AUC 会发生突然的剧烈下跌。原因是每个 epoch 结束时,模型的嵌入表已经被本 epoch 数据"重塑",对下一个 epoch 的旧数据造成分布偏移。
  • Within-one-epoch overfitting:更隐蔽的过拟合——在 epoch 开始后的某个时间点,训练 AUC 还在持续上升,但验证 AUC 几乎停止增长。这说明模型在"死记硬背"训练集里的噪声,而非学习泛化规律。

顽疾 2:模型缩放无效(Scaling Doesn't Work)

在 NLP 中,模型参数量越大,效果越好(Scaling Law)。但在判别式推荐中,更大的模型反而更差——因为参数越多,过拟合越严重,大模型的泛化性能不如小模型。

这意味着工业界为了追求性能,只能不断堆 特征工程 而无法靠增大模型获益,推荐系统被困在了"小模型"时代。

Figure 1(a): 判别式模型过拟合现象
Figure 1(a)(论文原图):判别式推荐模型在 CTR 任务上的过拟合现象。训练和验证 AUC 之间存在显著 gap,且更大的模型反而验证性能更差,完全无法复现 NLP 中的 Scaling Law 效果。
Figure 1(b): 不同规模的判别式模型 AUC 对比
Figure 1(b)(论文原图):不同规模判别式模型的 AUC 对比。无预训练时,scaling 无效甚至有害;GPSD 方案使判别式模型首次在推荐场景建立了类似 NLP 的 Scaling Law。

1.2 关键观察:为什么生成式模型不过拟合?

论文的关键洞察来自对比:用相同 Transformer 架构训练一个生成式推荐模型(自回归地预测下一个 item),训练和验证的 loss 曲线始终保持很小的常数差距,不存在任何过拟合。而且更大的生成式模型始终更好,Scaling Law 完全成立。

为什么?论文的假设:

  • 生成式训练使用采样 Softmax(Sampled Softmax),每个正样本都会随机采样大量负 item。这意味着每个 item 的嵌入向量会被频繁更新——尾部 item 和头部 item 的嵌入都有充分的训练。
  • 相比之下,判别式训练只用展示给用户的 item 对作为样本,稀疏性极强——头部 item 训练充分,尾部 item 几乎没有梯度,嵌入表质量极差,导致过拟合。
核心 Insight:过拟合的根本原因在于稀疏嵌入(Sparse Embedding)的质量差——判别式训练无法充分优化尾部 item 的嵌入。
解法:用生成式预训练把嵌入表训练好,然后把这套高质量嵌入冻结,只让 Transformer 的 dense 参数在判别式阶段更新。这样判别式训练就再也不需要去学习嵌入表,过拟合问题从根源上被消除。
⚙️
§2 方法详解
Figure 2: GPSD 框架总览
Figure 2(论文原图):GPSD 框架概览。生成式预训练阶段用采样 Softmax 充分训练嵌入表;判别式微调阶段将嵌入表冻结,只更新 Transformer dense 参数,彻底消除稀疏嵌入导致的过拟合。

2.1 生成式预训练(Generative Pretraining)

第一阶段:用 Transformer 自回归地学习用户行为序列的生成分布。给定用户行为序列 $X = (x_1, x_2, \ldots, x_L)$,目标是最小化序列的负对数似然:

$$\mathcal{L}_{\text{gen}} = \sum_{X \in \mathcal{D}} \sum_{l=1}^{L} -\log \hat{p}(x_l \mid x_1, \ldots, x_{l-1})$$
符号说明
  • $X = (x_1, \ldots, x_L)$:用户的历史行为 item 序列,按时间先后排列
  • $\hat{p}(x_l \mid x_1, \ldots, x_{l-1})$:Transformer 预测在看了前 $l-1$ 个 item 后,下一个 item 是 $x_l$ 的概率
  • 采用采样 Softmax而非 Full Softmax:从全量 item 中随机采样 $|N|$ 个负 item,大幅降低计算开销

采样 Softmax 的形式:

$$\hat{p}(x_l \mid x_{1},\ldots,x_{l-1}) = \frac{\exp\bigl(f(x_l;\, x_{1},\ldots,x_{l-1})\bigr)}{\exp\bigl(f(x_l;\, x_{1},\ldots,x_{l-1})\bigr) + \sum_{n \in N} \exp\bigl(f(n;\, x_{1},\ldots,x_{l-1})\bigr)}$$
符号说明
  • $f(x;\, \text{context})$:Transformer 对 item $x$ 给出的 logit 分值(context 为前序序列)
  • $N$:从全量 item 中随机采样的负 item 集合(大小通常为几百到几千)
  • 采样 Softmax 保证了每个 item(包括尾部 item)都有机会作为负样本被训练,解决稀疏性问题
  • Transformer 结构:采用 Pre-Norm、RMSNorm、RoPE、SwiGLU 等现代 LLM 技术
💡 举例:为什么采样 Softmax 能解决稀疏性?

假设系统中有 400 万个 item,其中 10% 是头部 item(有大量用户行为),90% 是尾部 item(几乎没有行为)。

判别式训练(CTR):只用有展示记录的 item 对训练。尾部 item 几乎不出现在训练集中 → 嵌入向量几乎不更新 → 质量差 → 模型无法通过嵌入表学到泛化的 item 表示 → 过拟合。

生成式预训练(GPSD):每条训练样本都会随机采样 1000 个负 item。即使某个尾部 item $x$ 只有 10 次正向行为,它作为负样本出现的频率是 $\frac{1000}{4M} \times$ 训练总步数,远比正样本出现次数多。所有 item 的嵌入都能充分更新,嵌入表质量大幅提升。

2.2 判别式微调(Discriminative Training)

第二阶段:基于预训练的 Transformer,进行 CTR/CVR 等判别式任务的微调。

模型架构调整:

  • 将候选 item 与用户历史序列拼接后输入 Transformer(与生成式阶段的区别:不再是纯自回归,需要候选 item 的信息)
  • 在历史 item 和候选 item 的嵌入上分别加 Segment Embedding,帮助模型区分两类输入
  • Transformer 最后一层的输出拼接其他类别特征和数值特征,输入 MLP head 预测 CTR 概率
  • 默认使用单向 Transformer(causal mask),与在线 serving 时的 KV-cache 优化兼容

2.3 五种迁移策略:关键消融实验

如何把预训练的权重迁移到判别式模型?论文提出并对比了五种策略:

策略稀疏参数(嵌入表)Dense 参数(Transformer 权重)效果
NT(No Transfer)随机初始化随机初始化基线,严重过拟合
FT(Full Transfer)从预训练迁移从预训练迁移轻微改善,仍过拟合
ST(Sparse Transfer)从预训练迁移随机初始化轻微改善,仍过拟合
FT&SF(Full Transfer + Sparse Freeze)从预训练迁移并冻结从预训练迁移显著改善,适合小数据集和大模型
ST&SF(Sparse Transfer + Sparse Freeze)从预训练迁移并冻结随机初始化显著改善,支持跨架构迁移,更灵活
最关键的结论:仅仅迁移权重(FT/ST)而不冻结稀疏参数,效果几乎不改善——模型依然会在判别式训练中把好的嵌入表"污染"。冻结稀疏参数(SF)是消除过拟合的关键操作,与是否同时迁移 dense 参数关系不大。

2.4 稀疏参数冻结的本质分析

为什么冻结稀疏参数有效?论文通过训练曲线给出了直观解释:

Figure 4(a): FT 策略 AUC 曲线
Figure 4(a)(论文原图):FT 策略(全量迁移,不冻结)的 AUC 曲线。尽管使用了预训练权重,不冻结稀疏参数时过拟合问题依然存在。
Figure 4(c): FT&SF 策略 AUC 曲线
Figure 4(c)(论文原图):FT&SF 策略的 AUC 曲线。冻结稀疏参数后,过拟合现象消失,训练和验证 AUC 差距缩小为接近常数,模型泛化能力显著提升。

机制解释:

  • 生成式预训练阶段:嵌入表获得了充分、高质量的训练(所有 item 都被充分更新)
  • 判别式微调阶段:冻结嵌入表,模型只需要学习如何用这套高质量嵌入计算用户-item 相关性(Transformer dense 参数),而不需要再去纠正嵌入表的噪声
  • 结果:训练信号全部用于优化 dense 参数,这部分参数的优化不存在稀疏性问题,因此不过拟合
💡 举例:SF 策略的直觉类比

类比:一个翻译模型,先用大量无标注文本学好"词向量"(生成式预训练),再只用少量标注数据训练"翻译策略"(判别式微调),同时把词向量冻结不变。

如果不冻结词向量:少量标注数据会把好不容易学好的词向量"带偏",导致泛化性差。

如果冻结词向量:翻译策略的训练完全不受词向量质量的拖累,少量标注数据足够训练好翻译策略,最终效果远优于不冻结。

GPSD 的 SF 策略完全遵循同样的逻辑:嵌入表是"词向量",Transformer dense 参数是"翻译策略"。

📊
§3 实验结果

3.1 工业数据集消融(内部 CTR/CVR/CART 数据集)

策略CTRCVRCART备注
NT(基线,无预训练)基线
FT轻微+轻微+轻微+改善不稳定
ST轻微+轻微+轻微+改善不稳定
FT&SF显著+显著+显著+小数据/大模型最优
ST&SF显著+显著+显著+支持跨架构,生产推荐

3.2 Scaling Law 验证:13K → 0.3B 参数

Figure 5(a): Scaling AUC 曲线
Figure 5(a)(论文原图):GPSD 方案在 CTR-XL(50 亿样本)数据集上的 Scaling Law 验证。Dense 参数从 13K 扩展到 327M,AUC 持续单调提升,符合 $\text{AUC} \sim a \cdot N^b$ 的幂律,首次在判别式推荐任务上建立了稳定的 Scaling Law。
Scaling Law 数据:
  • Dense 参数从 13K 到 327M(约 25,000 倍),AUC 持续单调提升
  • Sparse 参数从 125M 到 4B(32 倍扩展)
  • 拟合的 AUC 经验上界:约 0.7097(AUC 绝对值,即理论天花板)
  • 拟合的 Loss 经验下界:约 0.3695

3.3 跨架构迁移(Cross-Architecture Transfer)

Figure 6(b): 跨架构迁移到 Wukong
Figure 6(b)(论文原图):将 Transformer 预训练的嵌入表迁移到 Wukong 架构(非序列模型)后,Wukong 也获得了稳定的 Scaling Law,验证 ST&SF 策略具有架构无关性(plug-and-play)。

ST&SF 策略的最大工程价值:嵌入表的迁移是跨架构的。即使排序模型用的不是 Transformer(如 Wukong、HSTU),只要嵌入维度相同,就可以把生成式 Transformer 预训练的嵌入表直接搬过来用,同样能获得显著提升和 Scaling Law 效果。这使得 GPSD 成为一个与架构解耦的通用框架

3.4 公开数据集验证(Taobao、Amazon Electronics/Foods)

基线模型原始 AUC+ ST&SF 后 AUC相对提升
DeepFM基准+2.36%~5.12%各数据集范围
DIN基准+2.67%~8.01%
DIEN基准+3.15%~9.43%
Transformer(NT)弱于所有基线+最大 10.03%,超过所有基线从最差到最优
重要发现:不加 ST&SF 时,Transformer 模型的性能比 DIN/DIEN 这样的旧方法更差。加入 ST&SF 后,Transformer 成为所有模型中最强的。这直接说明:Transformer 本身有极强的建模能力,但被过拟合问题彻底压制——GPSD 解放了这种能力。

3.5 在线 A/B 测试(AliExpress 电商)

AliExpress 在线 A/B 结果(30 天实验窗口):
  • 在 CTR、CVR、GMV 等核心指标上均有显著正向提升(具体数值论文中以表格形式呈现)
  • 模型规模:使用了 3 层 Transformer(L3H160A4),参数量相对较小但已能覆盖主要收益
  • 增量训练集成:生产环境采用增量 GPSD(Incremental-GPSD),每天增量训练生成式模型,每天将新的嵌入表迁移给排序模型,保持 SID 与流量分布的同步
💬
§4 一句话总结
GPSD 发现判别式推荐过拟合的根源在于稀疏嵌入训练不充分,通过先用自回归生成式 Transformer 预训练得到高质量嵌入表(采样 Softmax 解决稀疏性),再将嵌入表迁移并冻结(Sparse Freeze)进行判别式微调,彻底消除了两种过拟合现象,首次在推荐系统判别式任务上建立了从 13K 到 0.3B 参数的幂律 Scaling Law,并在 AliExpress 在线 A/B 测试中取得显著增益。

✅ 主要亮点

  • 严格区分了两种过拟合(one-epoch / within-one-epoch)并分别分析了成因
  • ST&SF 策略架构无关,可作为 plug-in 应用到任意排序模型(DeepFM、DIN、HSTU、Wukong)
  • 首次在推荐判别式任务建立幂律 Scaling Law,指明了推荐系统的规模化路径
  • 增量 GPSD 框架解决了生产环境嵌入表实时同步问题,具有高工程价值
  • 代码完整开源,可直接复现

⚠️ 局限与注意

  • 生成式预训练需要独立维护,增加了系统复杂度和资源开销
  • 嵌入表冻结意味着排序模型无法通过在线训练"纠正"嵌入质量——生成式预训练的质量上限直接决定了最终效果上限
  • 实验中序列长度相对较短($L_{\max} = 100$),超长序列(万级别)的效果有待验证
  • FT&SF 和 ST&SF 在不同场景下各有优势,需要根据数据集大小和模型规模选择