← 返回论文列表
🔍 工业实践综述

SID 融入排序模型:工业实践综述与 DLRM 落地方案

系统梳理 7 篇将 Semantic ID(RQ-VAE 离散 token)引入 CTR/CVR 排序模型的工业论文, 分析各方案在 特征接入方式Embedding 参数化训练目标设计冷启动处理 四个维度的异同, 并面向 DLRM 架构提炼可直接落地的工程 idea。

覆盖论文
7 篇
覆盖机构
Google · Meta · ByteDance · Alibaba · LinkedIn · 快手
核心任务
CTR / CVR 精排
目标场景
DLRM 类排序模型
🎯
§1 动机:为什么把 SID 引入排序模型

传统 DLRM 类排序模型用随机哈希 item ID(或直接的 item 大表 embedding)作为 item 的唯一稀疏特征。这套方案在工业界已沿用多年,但随着模型规模扩大和对冷启动/长尾的要求提升,暴露出三个根本性缺陷:

1
无语义关系 → 泛化差
随机哈希让 item ID 之间毫无相关性。两件语义相似的商品(同类目、相近风格)在 embedding 空间里可能距离极远,无法共享梯度,长尾 item 训练样本少、收敛慢。
2
ID 漂移 → 训练不稳定
商品不断上下架:新 ID 冷启动为零向量,旧 ID 退出后知识消失。在 Meta 广告系统中,50% 的 item 在 6 天内退出;ByteDance 数据中新旧 ID 切换导致 norm variance 持续震荡,制约 dense 参数的 scaling。
3
大嵌入表 → Scaling 瓶颈
item ID 表可达数十亿行,大量参数在稀疏更新中利用率极低。随着 dense 网络 scaling up,embedding table 的不稳定性成为主要瓶颈(TRM 实证:ID 模型 1.2B 参数时 norm variance = 1.91,Token 模型仅 0.78)。
SID 的核心价值: 用 RQ-VAE / RK-Means 将 item 的内容/协同 embedding 量化为离散 token 序列 $[c_1, c_2, \ldots, c_L]$,使语义相近的 item 共享相同前缀,形成有意义的层次结构。新 item 只要有内容特征即可立即获得 SID,彻底解决冷启动;token 集合相对封闭稳定,training distribution shift 大幅降低。

下图展示了 SID 在 DLRM 中替换 item ID embedding 的总体思路:

内容特征
(图文/视频/文本)
多模态编码器
(MLLM/CLIP)
RQ-VAE /
RK-Means
SID: $[c_1,c_2,..,c_L]$
DLRM 排序模型
(替换 item ID)
📚
§2 七篇论文速览

以下 7 篇论文均在工业级排序模型(YouTube / Meta Ads / ByteDance / Alibaba / LinkedIn Feed / 快手广告)中验证了将 SID 引入 DLRM 类模型的效果,各有侧重:

G

Better Generalization with Semantic IDs (SemID) → 查看完整报告

Google DeepMind · arXiv 2306.08121 · RecSys 2024 · Singh, Vu et al.
YouTube 排序 N-gram / SPM 子词 embedding 冷启动 CTR/1D AUC ↑

核心问题:YouTube 亿级视频语料,随机哈希制约长尾和冷启动泛化。直接用稠密内容 embedding 替换 item ID 会大幅降低整体 CTR AUC(记忆能力不足)。

具体做法:两阶段方案。① 用 RQ-VAE 将视频内容 embedding 离散为 L=8 层 SID,codebook 大小 K=2048;② 用 N-gram 或 SPM(SentencePiece Model)将 SID token 序列切分为子词,对子词做 embedding lookup 并求和,作为排序模型的 item 特征。

1
N-gram 方案
对 SID $[c_1,..,c_8]$ 按固定长度分组,如 Unigram = 8 个 lookup,Bigram = 4 个 lookup(每个含两个 code 的组合,embedding 表大小 $K^2$)。每组 embedding 相加得 item 表示。
2
SPM 方案(推荐)
基于 SentencePiece 从 item corpus 的 SID 分布中自动学习可变长子词:高频共现的 code 组合合并为一个 token,罕见的退化为 unigram。给定固定 embedding 表大小,SPM 比 N-gram 更高效,大规模下优势明显。

实验结论:用户历史序列用 SPM-SID 表示时,整体 CTR AUC 和冷启动 CTR/1D AUC 均优于随机哈希基线,serving cost 不变。

Meta Ads 排序 Prefix-Ngram 参数化 +0.15% NE · A/A方差 -43%

核心问题:Meta 广告系统中 item 基数极大(数十亿),随机哈希导致(a)embedding 不稳定(新旧 ID 交替引起梯度冲突),(b)尾部物品曝光不足,(c)A/A 测试方差大。

具体做法:将 RQ-VAE 生成的 SID $[c_1,c_2,..,c_L]$ 按层级前缀切分为 Prefix-Ngram 子词集合:

$$\text{PrefixNgram}(c_1,..,c_L) = \{(c_1), (c_1,c_2), (c_1,c_2,c_3), \ldots, (c_1,..,c_L)\}$$
说明
  • $(c_1)$ 对应最粗粒度语义(如"食品类"),越长的前缀越细粒度
  • 每个前缀 tuple 独立查 embedding 表,所有 lookup 相加得 item 表示
  • 比纯 N-gram 更充分利用 SID 层次结构,上下层共享梯度

关键洞察:SID 前缀长度与 item 点击损失率单调相关(更深前缀 → 语义越精确 → 预测越精确),验证了层次语义的有效性。

生产部署:在 Meta Ads 大规模排序系统上线,成为排序模型中重要度最高的稀疏特征之一;注意力机制(Transformer/PMA)与 SID prefix 结合收益更大。

M2

SIDE: Semantic ID Embedding → 查看完整报告

Meta · arXiv 2506.16698 · 2025
Meta Ads 排序 无嵌入表 SID 解码 NE 2.4× · 数据3× 压缩

核心问题:随着 SID 层数增加,传统 N-gram embedding 表呈指数增长($K^N$ 行),存储不可行。同时 N-gram 方案仅使用简单加法聚合,忽略了 SID 内部的结构信息。

三大创新:

1
VQ Fusion(多信号融合为单一 SID)
多任务 VQ-VAE 框架,将内容 embedding + 协同信号(行为数据) + 类别预测 loss 联合量化为一套 SID,而非多套。显著降低存储和服务延迟。
2
SIDE(无表 SID Embedding)
不维护大嵌入表,而是直接从 SID token 的 codebook vector 线性组合得到 item embedding:内存从 $O(\exp(C \cdot b) \times d)$ 降到 $O(b \times d)$($b$ 为 bit 数)。彻底消除大规模 embedding lookup 的需求。
3
DPCA(Discrete-PCA,三元码本 {-1,0,1})
在 RQ 基础上引入三元码本(每个量化级别的码字只取 -1、0、1),类似二值量化但更灵活。码字组共线排列(乘积量化变体),可以 bit-parallel 高效计算。相比标准 RQ-VAE 同精度下压缩比最高 682×。

实验结论:广告系统上线,NE 提升 2.4×,数据 footprint 减少 3×,部署机器成本降低 20×,推理延迟 <500ms,内存 ≤2.5GB。

BD

TRM: Token-based Recommendation Model(Farewell to Item IDs) → 查看完整报告

ByteDance · arXiv 2601.22694 · 2026 · Zhao, Zhang et al.
ByteDance 搜索排序 协同感知量化 判别+生成联合训练 CTR AUC +0.65% · 稀疏参数 -33%

核心问题:大排序模型 scaling 时,item ID embedding table 的分布不稳定(norm variance 随参数增大持续震荡)成为 scaling law 的主要障碍。直接换 semantic token 性能反而下降(token 无法记忆高频 item)。

三大创新:

1
协同感知量化(Collaborative-Aware Quantization)
两阶段训练 MLLM:第一阶段 in-domain 视频描述微调;第二阶段用 query-item 正样本对 + item-item 高协同相似对做对比学习(InfoNCE)对齐表示,使量化后的 SID 同时感知内容语义和用户行为偏好。
2
混合 Tokenization:Gen-token + Mem-token
Gen-token:RQ-KMeans 生成的粗粒度 SID(5层,codebook 4096),走 deep 侧(加 dropout 防过拟合),负责语义泛化。Mem-token:对高频出现的 k-gram token 组合用 BPE 生成新 token ID(最多 2×10⁷ 个),走 wide 侧,负责记忆高频 item 的细粒度组合知识。Wide&Deep 网络融合两者。
3
判别式 + 生成式联合训练
除常规 BCE 判别 loss $\mathcal{L}_d$ 外,增加生成 loss $\mathcal{L}_g$:给定 query + user context,用 causal transformer 自回归预测用户正交互 item 的 gen-token 序列(Next-Token Prediction)。两者加权合并 $\mathcal{L} = \mathcal{L}_d + \lambda \mathcal{L}_g$,生成目标迫使模型感知 SID 的结构信息。
Ali

GPSD: Generative Pretraining → Discriminative Scaling → 查看完整报告

Alibaba · arXiv 2506.03699 · KDD 2025 · Wang et al.
Alibaba 电商排序 生成式预训练 → 判别式迁移 GMV +7.03% · 可扩展至 0.3B

核心问题:判别式排序模型(CTR/CVR)训练时数据稀疏,存在两种过拟合:单轮过拟合(epoch 切换时突然发生)和轮内过拟合(首轮 epoch 内持续)。过拟合随模型规模扩大恶化,导致大模型不如小模型。

关键洞察:生成式模型(自回归预测用户行为序列)不存在过拟合——因为通过大量随机负采样避免了数据稀疏问题。

具体做法(GPSD 三阶段):

1
生成式预训练(Generative Pretraining)
用标准 Transformer(Pre-Norm, RMSNorm, RoPE, SwiGLU)自回归预测用户行为序列中的下一个 item(用 item 的 SID 或 item ID 表示),采用 sampled softmax 高效训练。
2
参数迁移(Parameter Transfer)
将预训练参数迁移到判别式 CTR/CVR 模型。论文测试 5 种迁移策略,最优为 ST&SF(Sparse Transfer + Sparse Freeze):仅迁移稀疏 embedding 参数,并在判别式训练阶段冻结这部分参数。
3
判别式微调(Discriminative Finetuning)
固定迁移来的 embedding,只更新 dense(Transformer)部分,正常训练 CTR/CVR 任务。避免过拟合的同时,dense 参数可 scale 到 0.3B,实现幂律 scaling。

实验结论:成功将模型从 13K 扩展到 0.3B 稠密参数,性能遵循幂律。线上 A/B:GMV +7.03%,订单 +2.11%,CTR +3.78%。

LI
LinkedIn Feed 排序 Prefix-Ngram SID 替换 Post ID Long Dwell AUC +2.4% · 参数量 5.4B→1.3B

核心问题:LinkedIn Feed 排序模型依赖数百个手工特征,维护成本高、泛化受限。随着模型规模扩大(54亿稀疏参数),Post ID 嵌入表巨大且存在冷启动问题(新帖无 embedding)。

具体做法:LiGR 将 Feed 排序重构为基于 Transformer 的 scaling-friendly 架构,关键创新之一是用 Prefix-Ngram SID 替换 Post ID

1
RQ-VAE 生成 SID
对帖子(Post)内容 embedding 用 RQ-VAE 离散化,生成 3 层 SID,每层 codebook 大小 1000(总 token 词表 3000),远小于原始 Post ID 词表(54亿行)。
2
Prefix-Ngram 编码(Concat Pooling)
对 $[c_1, c_2, c_3]$ 生成 Unigram + Bigram + Trigram 三级前缀,各级 embedding concat 拼接(而非 sum pooling),每级 embedding 独立,充分利用层次语义。
3
替换 Post ID + 集合级注意力
SID embedding 替换原 Post ID(54亿→13亿参数,减少76%),配合集合级(Set-level)注意力机制同时处理用户历史和候选帖子列表,支持多样性建模。

关键结论:仅用 7 个特征即可超越使用数百特征的基线模型;Semantic ID 替换 Post ID 后 Long Dwell AUC +0.4%,同时模型参数从 54 亿降到 13 亿。整体架构 Long Dwell AUC +2.4%,DAU +0.27%,Feed 停留时间 +0.28%,已在 LinkedIn Feed 生产部署。

对我们 DLRM 的启示:LiGR 验证了 Prefix-Ngram SID(3层×1000 codes)替换 Item ID 可在大规模工业系统实现 76% 参数量减少同时维持或提升排序质量。采用 concat pooling 而非 sum pooling 可能更充分利用层次信息。
KS

DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System → 查看完整报告

快手技术 · arXiv 2508.10584 · 2025 · Ye, Sun et al. (wuwenjin@kuaishou.com)
快手广告 CTR/CVR One-stage 量化+对齐联合训练 eCPM +3.48% · 冷启 +8.98% · 400M DAU

核心问题:SID 由 MLLM 内容 embedding 量化而来,缺乏协同信号(用户行为),与 CTR/CVR 下游任务目标存在错位。现有两阶段对齐方案(先训 CF 再量化,或先量化再用 CF 对齐)存在信息损失且对齐灵活性差。

核心创新(三大模块):

1
UISM:用户 + 广告双侧语义量化(Dual Learning)
同时为用户(User)和广告(Item)各训一套 RQ-VAE 量化模型(3层×512 codes),分别生成 user SID 和 item SID。用户侧 SID 为创新点——让用户也有离散语义 token,实现双向对齐。
2
ICDM:ID-based CF Debias(流行度去偏)
广告侧存在流行度偏差(20%广告占80%收益),用户侧存在从众偏差。利用因果图 + 解耦域适应网络(CD²AN)分离无偏兴趣表示($c^{int}_u$,$c^{pro}_i$)和偏差表示($c^{con}_u$,$c^{pop}_i$)。用无偏 CF 表示进行对齐,防止偏差注入 SID codebook。
3
MDAM:Multi-view Dual-Aligned 对比对齐
三种对比对齐方式最大化 SID 与 CF 表示的互信息:① Dual U2I:用户 SID ↔ 广告 CF 无偏内容;② Dual I2I/U2U:同侧 SID 与 CF 交叉对齐;③ Co-occur I2I/U2U:共现广告/用户的 SID 对齐。总 loss:$\mathcal{L}_\text{All} = \mathcal{L}_\text{Sem} + \alpha\mathcal{L}_\text{CF} + \beta\mathcal{L}_\text{Align}$

SID 接入排序模型的方式(四种特征):推理阶段生成的 DAS SID 以四种形式接入下游判别式 RS:① ID-based sparse feature(Prefix-Ngram,如 ad_l1=2, ad_l2=2_31, ad_l3=2_31_142);② List-wise 序列 feature(用户历史行为中各广告的 SID 拼成序列);③ Cross match feature(候选广告 SID 与用户历史 SID 匹配计数);④ Dense frozen feature(冻结的 SID 稠密 embedding)。

实验结论:离线 CTR AUC +0.0024(GAUC +0.0026)vs 基线;线上 A/B:eCPM +3.48%,冷启动场景 +8.98%,服务 400M+ DAU。TIGER++ 生成模型也受益:HR@5 +7.3%。

这是最相关的论文!DAS 是快手内部在广告 CTR 排序中落地 SID 的工作,与我们的目标(DLRM + SID)几乎完全一致:同是广告 CTR,同是 sparse ID + SID 混合,同关注冷启,同采用 Prefix-Ngram 接入,且对齐 CF 信号的做法(ICDM + MDAM)可直接作为我们方案 Idea F 的实现参考。
🗂️
§4 维度二:Embedding 参数化方式对比

给定 SID $[c_1,c_2,...,c_L]$,如何设计 embedding 参数化方案直接决定泛化-记忆的 tradeoff 和存储开销:

① Unigram(最简单)

每层 code 独立 lookup:$L$ 次 lookup,每次查 $K$ 行的表。

✅ 参数少($L \times K \times d$),泛化好

❌ 不同层组合信息完全丢失,记忆能力差

② N-gram(固定分组)

每 N 个相邻 code 合并为一个 token,lookup 表大小 $K^N \times d$。

✅ 捕获局部组合;Bigram 已显著优于 Unigram

❌ N>2 时表大小指数爆炸;分组边界固定

③ SPM(自适应子词)

从 SID corpus 学习可变长子词,高频 code 组合自动合并,一张 embedding 表。

✅ 自适应 corpus;单表高效;大表情况下胜过 N-gram

❌ 需额外训练 SPM;推理时分词有额外开销

④ Prefix-Ngram(多粒度前缀)

所有长度的前缀都做 lookup:$L$ 次 lookup,表大小逐层增大(第 $l$ 层 $K^l$ 行)。

✅ 充分利用层次语义;不同粒度梯度共享

❌ 深层前缀表大小仍是 $K^L$,实际需 hash 截断

⑤ SIDE(无表 codebook 投影)

直接用 codebook vector 线性组合,无独立 embedding 表。

✅ 内存最小;OOV 友好;部署简单

❌ 依赖 codebook 质量;码本需在线

⑥ Hybrid Gen+Mem(TRM)

Gen-token(SID)+ Mem-token(BPE k-gram),分别走 deep 和 wide 路径。

✅ 泛化+记忆兼顾;BPE 仅对高频 item 生效

❌ 系统复杂;需额外 BPE 训练流程

对比结论:Meta 实验 Prefix-Ngram > Trigram > Bigram > Unigram;Google 实验 SPM > Bigram > Unigram(大表时);TRM BPE Hybrid 在老 item(>7天)AUC +0.11% vs 新 item +0.06%,验证 Mem-token 对高频记忆的贡献。
🎓
§5 维度三:训练目标扩充

除替换 embedding 外,部分论文对排序模型的训练目标做了扩充,利用 SID 结构引入额外监督信号。

5.1 纯判别式(基础)

Google SemID 和 Meta Prefix-Ngram 只使用标准 CTR BCE loss,SID 仅作为输入特征替换:

$$\mathcal{L} = \mathcal{L}_{\text{disc}} = -\mathbb{E}[y \log \hat{y} + (1-y)\log(1-\hat{y})]$$

5.2 判别 + 生成联合训练(TRM)

在 BCE loss 基础上增加 Next-Token Prediction(NTP)辅助 loss,给定 query + user context 预测正样本 item 的 gen-token 序列:

$$\mathcal{L} = \mathcal{L}_d + \lambda \cdot \mathcal{L}_g$$
符号说明
  • $\mathcal{L}_d$:标准 BCE 判别 loss(CTR/CVR 预测)
  • $\mathcal{L}_g$:生成 loss,仅对正样本 $y{=}1$ 计算;对 gen-token 序列 $[s_1,...,s_L]$ 做逐步自回归预测
  • $\lambda = 0.1$:平衡系数(论文设置)
💡 举例:NTP loss 如何运作

用户历史:[运动鞋→篮球],正交互目标商品 SID = [5, 12, 3](3 层 gen-token)

NTP 要求:给定 user context + "已预测到 5",预测下一个 token = 12;给定 context + "已预测到 5,12",预测 3。

这迫使模型学到 "SID 第 1 层=粗类目,第 2 层=细类目,第 3 层=风格" 的语义层次关系,增强 SID 在交叉特征中的信息量。

消融实验:去掉 NTP loss 后 QAUC 从 +0.05% 降至 +0.01%;且 Positional Encoding 无法替代 NTP(PE 仅 +0.02%),说明提升来自生成目标本身,而非序列位置信息。

5.3 生成式预训练 → 判别式微调(GPSD)

GPSD 最激进:用完全独立的生成式预训练初始化判别式模型的 embedding,冻结后再微调。

1
Stage 1:生成式预训练
自回归预测用户行为序列,sampled softmax,无需负样本标签。
2
Stage 2:稀疏参数迁移 + 冻结(ST&SF)
只迁移 embedding 参数,冻结;dense 参数(Transformer)随机初始化。
3
Stage 3:判别式微调
标准 BCE CTR/CVR loss,dense 参数可 scale 到 0.3B,性能遵循幂律。
关键:冻结 embedding 是成功的关键。解冻(Full Transfer)判别式训练时过拟合重新出现。生成预训练注入的序列先验需要防止被判别目标"遗忘"。
❄️
§6 维度四:冷启动处理

SID 天然支持冷启动(新 item 有内容特征就能生成 SID),但各方案利用程度不同:

论文冷启动策略新 item AUC 改善
Google SemIDRQ-VAE 语义空间稳定,新 item 自动分配 SID,即刻获得有意义 embeddingCTR/1D AUC 显著提升 vs 随机哈希
Meta Prefix-Ngram同上;Prefix 共享梯度使语义相似新 item 受益新 item NE -0.41% vs 随机哈希
SIDEcodebook 本身是稠密向量,新 item 立即有 embedding,无冷启动问题广告系统冷启动显著改善
TRMGen-token 主要改善新 item;Mem-token(BPE)为老 item 增强记忆;新旧分段评估Gen-token: 新 item +0.06%;老 item +0.11%(>7天)
GPSD生成预训练在大量序列上见过更多 item,embedding 先验质量高泛化改善是核心,未单独报告冷启动
LiGRSID 替换 Post ID 彻底消除冷启动:新帖无论曝光量多少,立即获得 SID embedding新帖 AUC 提升(Long Dwell AUC +0.4% 含冷启功劳)
DAS一阶段联合训练使 SID 感知 CF 信号,冷启动场景也能获得有意义的 CF 对齐表示冷启动场景 eCPM +8.98%(最大增益场景)
结论:SID 对新 item 和尾部 item 收益最显著,随机哈希在这些位置 embedding 更新次数少、碰撞率高;SID 通过共享相似 item 前缀梯度补偿稀疏更新。对头部高曝光 item,纯 SID 记忆能力不足,需要 Mem-token(TRM)或保留原始 item ID 作为补充。
📊
§7 横向对比总表

从五个维度对比七篇论文的方案选择:

论文SID 生成方式Embedding 参数化训练目标冷启动线上收益
Google SemID
2306.08121
RQ-VAE,L=8,K=2048,冻结 N-gram / SPM(推荐 SPM) 纯判别 BCE ✓ 原生支持 CTR AUC + 冷启动 CTR/1D 双提升
Meta Prefix-Ngram
2504.02137
RQ-VAE,多模态内容 Prefix-Ngram(全前缀 hash) 纯判别 BCE ✓ 新 item NE -0.41% +0.15% NE;A/A 方差 -43%
SIDE
2506.16698
DPCA 三元码本(VQ-fusion) 无表 codebook 投影(SIDE) 纯判别 BCE ✓ 天然 OOV 友好 NE 2.4×;数据 3×↓;机器成本 20×↓
TRM
2601.22694
RQ-KMeans(协同感知 MLLM),5层×4096 Wide&Deep Gen+Mem(BPE) BCE + NTP 联合(λ=0.1) ✓ Gen-token 新 item +0.06% CTR AUC +0.65%;稀疏参数 -33%
GPSD
2506.03699
标准 SID/item ID(生成预训练序列) Transformer 嵌入表(预训练后冻结) 生成预训练 → 判别微调(冻结稀疏) △ 泛化改善 GMV +7.03%;scale 到 0.3B
LiGR
2502.03417
RQ-VAE,3层×1000 codes,Post 内容 Prefix-Ngram concat pooling(非 sum) 纯判别 BCE + 集合级注意力 ✓ 新帖即刻有 SID Long Dwell AUC +2.4%;参数 5.4B→1.3B
DAS
2508.10584
RQ-VAE,3层×512 codes,MLLM 内容(用户+广告双侧) Prefix-Ngram + List-wise + Cross-match + Dense(四种) 一阶段:BCE + CF Debias + Multi-view 对比对齐 ✓ 冷启 eCPM +8.98% eCPM +3.48%;400M DAU
关键观察:
1. Embedding 参数化的选择独立于 SID 生成方式,可以解耦实验。
2. Google 和 Meta M1 只做最保守的特征替换(无训练目标改变),效果已显著,工程代价小,应先做。
3. TRM 三大创新中 Hybrid Tokenization 贡献最大(消融 -0.09% QAUC),NTP loss 次之(-0.05%),协同感知量化第三(-0.03%)。
4. GPSD 方案最激进,GMV 提升 7% 也最大——高收益伴随高工程复杂度。
💡
§8 面向你的 DLRM 的落地 Idea

你的模型是 TF 实现的 DLRM(稀疏 embedding + dense feature + interaction + MLP),目标是把 SID 融入进去。以下按工程难度从低到高排列 5 个可执行 idea:

💡 Idea A:Embedding 替换(最小改动,快速验证)
  • 灵感来源:Google SemID + Meta Prefix-Ngram
  • 做法:为每个商品预计算 SID,生成 Prefix-Ngram 子特征,每个子特征独立 embedding lookup 后求和,拼接原始 item ID embedding(而非替换,不损失原有能力)。
  • 接合点:DLRM sparse embedding 层;用 tf.nn.embedding_lookup_sparse 聚合多个 SID 子词 embedding。
  • 预期收益:尾部商品和新品 CTR AUC 改善,参考 Meta +0.15% NE。
  • 工程代价:低。1 周内可完成离线实验。
💡 Idea B:用户历史序列用 SID 表示
  • 灵感来源:Google SemID(历史序列中每个 item 用 SID embedding 替换)
  • 做法:用户历史行为序列中,每个历史商品用 SID Prefix-Ngram 求和 embedding 代替 item ID embedding。SID 向量共享语义前缀,在 attention 层更容易匹配语义相关物品。
  • 接合点:DLRM 中 user_history_items 特征组;有 DIN/attention pooling 时收益更大(Meta 实验验证)。
  • 预期收益:跨类目泛化和新品推荐改善。
  • 工程代价:中低。
💡 Idea C:多粒度 SID 并联(Wide&Deep 风格)
  • 灵感来源:TRM 的 Gen-token(泛化)+ Mem-token(记忆)
  • 做法:① Coarse SID(泛化路):只用 SID 前 3 层,走 deep MLP;② Fine SID(记忆路):对高频 k-gram token 组合用 BPE 生成新 token,走 wide 层独立 embedding 表;最终在 interaction 层拼接两路向量。
  • 预期收益:头部商品保持记忆能力;尾部/新品获语义泛化收益。TRM Hybrid 比纯 Gen-token AUC 提升约 0.05-0.11%。
  • 工程代价:中。需 BPE 离线预计算,训练侧双路接入。
💡 Idea D:NTP 辅助损失(SID 结构信息增强)
  • 灵感来源:TRM 的 discriminative + generative 联合训练
  • 做法:增加 2-4 层 causal transformer 分支,以 query/user context 为条件,对正样本商品 SID 序列做 next-token prediction(逐步预测 c1→c2→...→cL)。NTP loss 加权叠加在主 CTR BCE loss 上(λ=0.1)。
  • 接合点:复用 DLRM 的 user/query 表示向量作为 NTP 分支 context;SID codebook 作为 NTP 的 vocab。
  • 预期收益:TRM 消融:NTP loss 贡献约 +0.05% QAUC,仅增加 1.7% 参数和 0.5% FLOPs。
  • 工程代价:中。
💡 Idea E:生成式预训练 + Embedding 迁移冻结
  • 灵感来源:GPSD 三阶段框架
  • 做法:用商品序列数据训练独立 Transformer 生成式推荐模型,预训练完成后把 item/SID embedding 参数迁移到 DLRM,并在 DLRM 训练阶段冻结这部分 embedding,只训练 dense MLP 部分。
  • 接合点:DLRM 稀疏 embedding 层用预训练权重初始化后冻结;dense MLP 从头训练。
  • 预期收益:大幅缓解过拟合,DLRM 可安全 scale up;GPSD 线上 GMV +7.03%。
  • 工程代价:高。需独立的生成式预训练流程,但收益最大。
💡 Idea F:CF Debias + 多视角对比对齐(SID 质量根本性提升,参考 DAS 快手)
  • 灵感来源:快手 DAS 的 ICDM + MDAM 模块
  • 核心洞察:SID 由 MLLM 内容 embedding 量化而来,天然缺乏协同信号(CF)。如果直接用带流行度偏差的 CF 对齐,会把偏差注入 codebook,导致冷启动 item 被忽视。正确做法:先去偏(分离流行度 vs 内容兴趣),再用纯净无偏 CF 对齐。
  • 具体做法(分两步):
    CF Debias:在 SID 量化训练时,同时训练因果解耦网络,分离商品侧无偏内容表示 $c^{pro}_i$ 和流行度表示 $c^{pop}_i$;用户侧分离兴趣表示 $c^{int}_u$ 和从众表示 $c^{con}_u$;用无偏 CF 表示做后续对齐。
    Multi-view 对比对齐:三路对比学习让 SID 表示 $z_i$, $z_u$ 感知无偏 CF 信号:Dual U2I(用户 SID ↔ 商品 CF;商品 SID ↔ 用户 CF)+ Dual I2I/U2U(同侧 SID 与 CF 交叉对齐)+ Co-occur I2I/U2U(共现商品/用户的 SID 对齐)。总 loss: $\mathcal{L} = \mathcal{L}_{\text{Sem}} + \alpha\mathcal{L}_{\text{CF}} + \beta\mathcal{L}_{\text{Align}}$
  • 接合点:在 SID 训练(RQ-VAE 量化)阶段加入,不需要修改 DLRM 主模型结构;完成后直接升级 SID 特征,Idea A/B/C/D 自动受益。
  • 预期收益:DAS 在快手广告系统 eCPM +3.48%,冷启动场景 +8.98%(冷启收益最大,因 CF 对齐帮助 SID 理解协同偏好,即使新 item 无历史也能泛化)。
  • 工程代价:高。需重新设计 SID 训练流程,引入 CF 对齐 loss 和解耦网络,工作量约 2-4 周。但不改动 DLRM 主模型,完成后直接升级 SID 特征,ROI 可能最高。
组合建议:Idea A + B 可以同时做(互补不冲突);Idea C 是 A 的加强版(先做 A 验证,再做 C 精细化);Idea D 可在 A/B 基础上追加;Idea E 最激进,适合在 A/B 验证有效后再上;Idea F 是 SID 质量的根本性提升,建议在 Idea A/B 验证 SID 有效后作为重点投入方向——它不改 DLRM 结构,只升级 SID 生成,ROI 可能最高。
🗺️
§9 推荐落地路线
T1
第一阶段:SID 生成基础设施(1-2周)
① 确认 SID 生成 pipeline 就绪(RQ-VAE / RK-Means 已训练,能为所有商品生成离散 token 序列)。② 在特征工程层生成 Prefix-Ngram 子词特征(按层级截断 hash),存入特征缓存。③ 验证 SID 时序稳定性:同一商品在不同时间的 SID 是否稳定。
T2
第二阶段:Idea A + B — Embedding 替换(2-3周)
① 为候选商品增加 SID Prefix-Ngram embedding(Idea A),与原 item ID embedding 拼接,先 A/B 验证。② 同时改造用户历史序列 embedding(Idea B),重新跑离线实验。③ 重点关注新品 AUC 和尾部商品改善;全量 AUC 是否有回退。
T3
第三阶段:Idea C — Hybrid 多粒度(可选,2周)
T2 有效后,为高频商品构建 BPE Mem-token,引入 Wide&Deep 双路结构,验证是否在 T2 基础上进一步提升头部商品记忆能力。注意 BPE token 数量 trade-off(TRM 设置最多 2×10⁷ 个)。
T4
第四阶段:Idea D — NTP 辅助损失(可选,1-2周)
在 T2/T3 基础上增加 2-4 层 causal transformer NTP 分支,对正样本商品 SID 序列做 next-token prediction 辅助 loss(λ=0.1)。消融验证是否带来额外增益。
T5
第五阶段:Idea E — 生成式预训练(长期,4-8周)
若前几阶段验证有效、模型 scaling 需求迫切,启动 GPSD 方案:用商品序列训练独立 Transformer 生成模型,再迁移 embedding 到 DLRM 并冻结,允许 dense 网络从 7M 扩展到 100M+。
T6
第六阶段:Idea F — CF Debias + 多视角对比对齐(根本性提升,2-4周)
在 T2 验证 SID 有效后,重新设计 SID 训练流程:① UISM 双侧 RQ-VAE 量化商品和用户内容表示;② ICDM 因果解耦网络分离流行度偏差和内容兴趣(四路解耦:商品内容/流行度、用户兴趣/从众);③ MDAM 三路对比对齐(Dual U2I、Dual I2I/U2U、Co-occur)让 SID 感知无偏 CF 信号。完成后直接替换 SID 特征,Idea A/B/C/D 的收益自动提升。重点关注冷启动 eCPM,预期 +5-9%。
快速起步建议(最低风险):直接从 Idea A(候选商品 SID Prefix-Ngram embedding 拼接) 开始;用新品和尾部商品的 AUC 作为核心评估指标;1 周内可完成离线实验。
注意事项:① SID 生成的 RQ-VAE 建议用协同信号(用户行为)而非纯内容 embedding 训练(TRM 的协同感知量化核心贡献)。② Prefix-Ngram 的深层前缀需 hash 截断到固定大小的表(如 2²⁰ 行)。③ GPSD 的冻结策略是防止过拟合的关键,不能省略。④ LiGR Concat Pooling 方案需额外的线性层压缩,注意 embedding 维度预算;资源受限时 Sum Pooling 是更好的起点。⑤ Idea F(DAS 风格 CF Debias)中,因果解耦网络需要足够的用户行为数据(日均 PV > 1 亿级别),且训练开销较高(约为标准 SID 训练的 1.5-2x),适合在 SID 方案整体验证有效后作为重点投入。