SID 融入排序模型：工业实践综述

🎯

§1 动机：为什么把 SID 引入排序模型

传统 DLRM 类排序模型用随机哈希 item ID（或直接的 item 大表 embedding）作为 item 的唯一稀疏特征。这套方案在工业界已沿用多年，但随着模型规模扩大和对冷启动/长尾的要求提升，暴露出三个根本性缺陷：

1

无语义关系 → 泛化差

随机哈希让 item ID 之间毫无相关性。两件语义相似的商品（同类目、相近风格）在 embedding 空间里可能距离极远，无法共享梯度，长尾 item 训练样本少、收敛慢。

2

ID 漂移 → 训练不稳定

商品不断上下架：新 ID 冷启动为零向量，旧 ID 退出后知识消失。在 Meta 广告系统中，50% 的 item 在 6 天内退出；ByteDance 数据中新旧 ID 切换导致 norm variance 持续震荡，制约 dense 参数的 scaling。

3

大嵌入表 → Scaling 瓶颈

item ID 表可达数十亿行，大量参数在稀疏更新中利用率极低。随着 dense 网络 scaling up，embedding table 的不稳定性成为主要瓶颈（TRM 实证：ID 模型 1.2B 参数时 norm variance = 1.91，Token 模型仅 0.78）。

SID 的核心价值： 用 RQ-VAE / RK-Means 将 item 的内容/协同 embedding 量化为离散 token 序列 $[c_1, c_2, \ldots, c_L]$，使语义相近的 item 共享相同前缀，形成有意义的层次结构。新 item 只要有内容特征即可立即获得 SID，彻底解决冷启动；token 集合相对封闭稳定，training distribution shift 大幅降低。

下图展示了 SID 在 DLRM 中替换 item ID embedding 的总体思路：

内容特征
(图文/视频/文本)

→

多模态编码器
(MLLM/CLIP)

→

RQ-VAE /
RK-Means

→

SID: $[c_1,c_2,..,c_L]$

→

DLRM 排序模型
(替换 item ID)

📚

§2 七篇论文速览

以下 7 篇论文均在工业级排序模型（YouTube / Meta Ads / ByteDance / Alibaba / LinkedIn Feed / 快手广告）中验证了将 SID 引入 DLRM 类模型的效果，各有侧重：

G

Better Generalization with Semantic IDs (SemID) → 查看完整报告

Google DeepMind · arXiv 2306.08121 · RecSys 2024 · Singh, Vu et al.

YouTube 排序 N-gram / SPM 子词 embedding 冷启动 CTR/1D AUC ↑

核心问题：YouTube 亿级视频语料，随机哈希制约长尾和冷启动泛化。直接用稠密内容 embedding 替换 item ID 会大幅降低整体 CTR AUC（记忆能力不足）。

具体做法：两阶段方案。① 用 RQ-VAE 将视频内容 embedding 离散为 L=8 层 SID，codebook 大小 K=2048；② 用 N-gram 或 SPM（SentencePiece Model）将 SID token 序列切分为子词，对子词做 embedding lookup 并求和，作为排序模型的 item 特征。

1

N-gram 方案

对 SID $[c_1,..,c_8]$ 按固定长度分组，如 Unigram = 8 个 lookup，Bigram = 4 个 lookup（每个含两个 code 的组合，embedding 表大小 $K^2$）。每组 embedding 相加得 item 表示。

2

SPM 方案（推荐）

基于 SentencePiece 从 item corpus 的 SID 分布中自动学习可变长子词：高频共现的 code 组合合并为一个 token，罕见的退化为 unigram。给定固定 embedding 表大小，SPM 比 N-gram 更高效，大规模下优势明显。

实验结论：用户历史序列用 SPM-SID 表示时，整体 CTR AUC 和冷启动 CTR/1D AUC 均优于随机哈希基线，serving cost 不变。

M1

Enhancing Embedding Stability with Semantic ID (SID Prefix-Ngram) → 查看完整报告

Meta · arXiv 2504.02137 · Zheng, Huang et al.

Meta Ads 排序 Prefix-Ngram 参数化 +0.15% NE · A/A方差 -43%

核心问题：Meta 广告系统中 item 基数极大（数十亿），随机哈希导致（a）embedding 不稳定（新旧 ID 交替引起梯度冲突），（b）尾部物品曝光不足，（c）A/A 测试方差大。

具体做法：将 RQ-VAE 生成的 SID $[c_1,c_2,..,c_L]$ 按层级前缀切分为 Prefix-Ngram 子词集合：

$$\text{PrefixNgram}(c_1,..,c_L) = \{(c_1), (c_1,c_2), (c_1,c_2,c_3), \ldots, (c_1,..,c_L)\}$$

说明

$(c_1)$ 对应最粗粒度语义（如"食品类"），越长的前缀越细粒度
每个前缀 tuple 独立查 embedding 表，所有 lookup 相加得 item 表示
比纯 N-gram 更充分利用 SID 层次结构，上下层共享梯度

关键洞察：SID 前缀长度与 item 点击损失率单调相关（更深前缀 → 语义越精确 → 预测越精确），验证了层次语义的有效性。

生产部署：在 Meta Ads 大规模排序系统上线，成为排序模型中重要度最高的稀疏特征之一；注意力机制（Transformer/PMA）与 SID prefix 结合收益更大。

M2

SIDE: Semantic ID Embedding → 查看完整报告

Meta · arXiv 2506.16698 · 2025

Meta Ads 排序无嵌入表 SID 解码 NE 2.4× · 数据3× 压缩

核心问题：随着 SID 层数增加，传统 N-gram embedding 表呈指数增长（$K^N$ 行），存储不可行。同时 N-gram 方案仅使用简单加法聚合，忽略了 SID 内部的结构信息。

三大创新：

1

VQ Fusion（多信号融合为单一 SID）

多任务 VQ-VAE 框架，将内容 embedding + 协同信号（行为数据） + 类别预测 loss 联合量化为一套 SID，而非多套。显著降低存储和服务延迟。

2

SIDE（无表 SID Embedding）

不维护大嵌入表，而是直接从 SID token 的 codebook vector 线性组合得到 item embedding：内存从 $O(\exp(C \cdot b) \times d)$ 降到 $O(b \times d)$（$b$ 为 bit 数）。彻底消除大规模 embedding lookup 的需求。

3

DPCA（Discrete-PCA，三元码本 {-1,0,1}）

在 RQ 基础上引入三元码本（每个量化级别的码字只取 -1、0、1），类似二值量化但更灵活。码字组共线排列（乘积量化变体），可以 bit-parallel 高效计算。相比标准 RQ-VAE 同精度下压缩比最高 682×。

实验结论：广告系统上线，NE 提升 2.4×，数据 footprint 减少 3×，部署机器成本降低 20×，推理延迟 <500ms，内存 ≤2.5GB。

BD

TRM: Token-based Recommendation Model（Farewell to Item IDs） → 查看完整报告

ByteDance · arXiv 2601.22694 · 2026 · Zhao, Zhang et al.

ByteDance 搜索排序协同感知量化判别+生成联合训练 CTR AUC +0.65% · 稀疏参数 -33%

核心问题：大排序模型 scaling 时，item ID embedding table 的分布不稳定（norm variance 随参数增大持续震荡）成为 scaling law 的主要障碍。直接换 semantic token 性能反而下降（token 无法记忆高频 item）。

三大创新：

1

协同感知量化（Collaborative-Aware Quantization）

两阶段训练 MLLM：第一阶段 in-domain 视频描述微调；第二阶段用 query-item 正样本对 + item-item 高协同相似对做对比学习（InfoNCE）对齐表示，使量化后的 SID 同时感知内容语义和用户行为偏好。

2

混合 Tokenization：Gen-token + Mem-token

Gen-token：RQ-KMeans 生成的粗粒度 SID（5层，codebook 4096），走 deep 侧（加 dropout 防过拟合），负责语义泛化。Mem-token：对高频出现的 k-gram token 组合用 BPE 生成新 token ID（最多 2×10⁷ 个），走 wide 侧，负责记忆高频 item 的细粒度组合知识。Wide&Deep 网络融合两者。

3

判别式 + 生成式联合训练

除常规 BCE 判别 loss $\mathcal{L}_d$ 外，增加生成 loss $\mathcal{L}_g$：给定 query + user context，用 causal transformer 自回归预测用户正交互 item 的 gen-token 序列（Next-Token Prediction）。两者加权合并 $\mathcal{L} = \mathcal{L}_d + \lambda \mathcal{L}_g$，生成目标迫使模型感知 SID 的结构信息。

Ali

GPSD: Generative Pretraining → Discriminative Scaling → 查看完整报告

Alibaba · arXiv 2506.03699 · KDD 2025 · Wang et al.

Alibaba 电商排序生成式预训练 → 判别式迁移 GMV +7.03% · 可扩展至 0.3B

核心问题：判别式排序模型（CTR/CVR）训练时数据稀疏，存在两种过拟合：单轮过拟合（epoch 切换时突然发生）和轮内过拟合（首轮 epoch 内持续）。过拟合随模型规模扩大恶化，导致大模型不如小模型。

关键洞察：生成式模型（自回归预测用户行为序列）不存在过拟合——因为通过大量随机负采样避免了数据稀疏问题。

具体做法（GPSD 三阶段）：

1

生成式预训练（Generative Pretraining）

用标准 Transformer（Pre-Norm, RMSNorm, RoPE, SwiGLU）自回归预测用户行为序列中的下一个 item（用 item 的 SID 或 item ID 表示），采用 sampled softmax 高效训练。

2

参数迁移（Parameter Transfer）

将预训练参数迁移到判别式 CTR/CVR 模型。论文测试 5 种迁移策略，最优为 ST&SF（Sparse Transfer + Sparse Freeze）：仅迁移稀疏 embedding 参数，并在判别式训练阶段冻结这部分参数。

3

判别式微调（Discriminative Finetuning）

固定迁移来的 embedding，只更新 dense（Transformer）部分，正常训练 CTR/CVR 任务。避免过拟合的同时，dense 参数可 scale 到 0.3B，实现幂律 scaling。

实验结论：成功将模型从 13K 扩展到 0.3B 稠密参数，性能遵循幂律。线上 A/B：GMV +7.03%，订单 +2.11%，CTR +3.78%。

LI

LiGR: From Features to Transformers — Redefining Ranking for Scalable Impact → 查看完整报告

LinkedIn · arXiv 2502.03417 · KDD 2025 · Thambidurai et al.

LinkedIn Feed 排序 Prefix-Ngram SID 替换 Post ID Long Dwell AUC +2.4% · 参数量 5.4B→1.3B

核心问题：LinkedIn Feed 排序模型依赖数百个手工特征，维护成本高、泛化受限。随着模型规模扩大（54亿稀疏参数），Post ID 嵌入表巨大且存在冷启动问题（新帖无 embedding）。

具体做法：LiGR 将 Feed 排序重构为基于 Transformer 的 scaling-friendly 架构，关键创新之一是用 Prefix-Ngram SID 替换 Post ID：

1

RQ-VAE 生成 SID

对帖子（Post）内容 embedding 用 RQ-VAE 离散化，生成 3 层 SID，每层 codebook 大小 1000（总 token 词表 3000），远小于原始 Post ID 词表（54亿行）。

2

Prefix-Ngram 编码（Concat Pooling）

对 $[c_1, c_2, c_3]$ 生成 Unigram + Bigram + Trigram 三级前缀，各级 embedding concat 拼接（而非 sum pooling），每级 embedding 独立，充分利用层次语义。

3

替换 Post ID + 集合级注意力

SID embedding 替换原 Post ID（54亿→13亿参数，减少76%），配合集合级（Set-level）注意力机制同时处理用户历史和候选帖子列表，支持多样性建模。

关键结论：仅用 7 个特征即可超越使用数百特征的基线模型；Semantic ID 替换 Post ID 后 Long Dwell AUC +0.4%，同时模型参数从 54 亿降到 13 亿。整体架构 Long Dwell AUC +2.4%，DAU +0.27%，Feed 停留时间 +0.28%，已在 LinkedIn Feed 生产部署。

对我们 DLRM 的启示：LiGR 验证了 Prefix-Ngram SID（3层×1000 codes）替换 Item ID 可在大规模工业系统实现 76% 参数量减少同时维持或提升排序质量。采用 concat pooling 而非 sum pooling 可能更充分利用层次信息。

KS

DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System → 查看完整报告

快手技术 · arXiv 2508.10584 · 2025 · Ye, Sun et al. (wuwenjin@kuaishou.com)

快手广告 CTR/CVR One-stage 量化+对齐联合训练 eCPM +3.48% · 冷启 +8.98% · 400M DAU

核心问题：SID 由 MLLM 内容 embedding 量化而来，缺乏协同信号（用户行为），与 CTR/CVR 下游任务目标存在错位。现有两阶段对齐方案（先训 CF 再量化，或先量化再用 CF 对齐）存在信息损失且对齐灵活性差。

核心创新（三大模块）：

1

UISM：用户 + 广告双侧语义量化（Dual Learning）

同时为用户（User）和广告（Item）各训一套 RQ-VAE 量化模型（3层×512 codes），分别生成 user SID 和 item SID。用户侧 SID 为创新点——让用户也有离散语义 token，实现双向对齐。

2

ICDM：ID-based CF Debias（流行度去偏）

广告侧存在流行度偏差（20%广告占80%收益），用户侧存在从众偏差。利用因果图 + 解耦域适应网络（CD²AN）分离无偏兴趣表示（$c^{int}_u$，$c^{pro}_i$）和偏差表示（$c^{con}_u$，$c^{pop}_i$）。用无偏 CF 表示进行对齐，防止偏差注入 SID codebook。

3

MDAM：Multi-view Dual-Aligned 对比对齐

三种对比对齐方式最大化 SID 与 CF 表示的互信息：① Dual U2I：用户 SID ↔ 广告 CF 无偏内容；② Dual I2I/U2U：同侧 SID 与 CF 交叉对齐；③ Co-occur I2I/U2U：共现广告/用户的 SID 对齐。总 loss：$\mathcal{L}_\text{All} = \mathcal{L}_\text{Sem} + \alpha\mathcal{L}_\text{CF} + \beta\mathcal{L}_\text{Align}$

SID 接入排序模型的方式（四种特征）：推理阶段生成的 DAS SID 以四种形式接入下游判别式 RS：① ID-based sparse feature（Prefix-Ngram，如 ad_l1=2, ad_l2=2_31, ad_l3=2_31_142）；② List-wise 序列 feature（用户历史行为中各广告的 SID 拼成序列）；③ Cross match feature（候选广告 SID 与用户历史 SID 匹配计数）；④ Dense frozen feature（冻结的 SID 稠密 embedding）。

实验结论：离线 CTR AUC +0.0024（GAUC +0.0026）vs 基线；线上 A/B：eCPM +3.48%，冷启动场景 +8.98%，服务 400M+ DAU。TIGER++ 生成模型也受益：HR@5 +7.3%。

这是最相关的论文！DAS 是快手内部在广告 CTR 排序中落地 SID 的工作，与我们的目标（DLRM + SID）几乎完全一致：同是广告 CTR，同是 sparse ID + SID 混合，同关注冷启，同采用 Prefix-Ngram 接入，且对齐 CF 信号的做法（ICDM + MDAM）可直接作为我们方案 Idea F 的实现参考。

🗂️

§4 维度二：Embedding 参数化方式对比

给定 SID $[c_1,c_2,...,c_L]$，如何设计 embedding 参数化方案直接决定泛化-记忆的 tradeoff 和存储开销：

① Unigram（最简单）

每层 code 独立 lookup：$L$ 次 lookup，每次查 $K$ 行的表。

✅ 参数少（$L \times K \times d$），泛化好

❌ 不同层组合信息完全丢失，记忆能力差

② N-gram（固定分组）

每 N 个相邻 code 合并为一个 token，lookup 表大小 $K^N \times d$。

✅ 捕获局部组合；Bigram 已显著优于 Unigram

❌ N>2 时表大小指数爆炸；分组边界固定

③ SPM（自适应子词）

从 SID corpus 学习可变长子词，高频 code 组合自动合并，一张 embedding 表。

✅ 自适应 corpus；单表高效；大表情况下胜过 N-gram

❌ 需额外训练 SPM；推理时分词有额外开销

④ Prefix-Ngram（多粒度前缀）

所有长度的前缀都做 lookup：$L$ 次 lookup，表大小逐层增大（第 $l$ 层 $K^l$ 行）。

✅ 充分利用层次语义；不同粒度梯度共享

❌ 深层前缀表大小仍是 $K^L$，实际需 hash 截断

⑤ SIDE（无表 codebook 投影）

直接用 codebook vector 线性组合，无独立 embedding 表。

✅ 内存最小；OOV 友好；部署简单

❌ 依赖 codebook 质量；码本需在线

⑥ Hybrid Gen+Mem（TRM）

Gen-token（SID）+ Mem-token（BPE k-gram），分别走 deep 和 wide 路径。

✅ 泛化+记忆兼顾；BPE 仅对高频 item 生效

❌ 系统复杂；需额外 BPE 训练流程

对比结论：Meta 实验 Prefix-Ngram > Trigram > Bigram > Unigram；Google 实验 SPM > Bigram > Unigram（大表时）；TRM BPE Hybrid 在老 item（>7天）AUC +0.11% vs 新 item +0.06%，验证 Mem-token 对高频记忆的贡献。

🎓

§5 维度三：训练目标扩充

除替换 embedding 外，部分论文对排序模型的训练目标做了扩充，利用 SID 结构引入额外监督信号。

5.1 纯判别式（基础）

Google SemID 和 Meta Prefix-Ngram 只使用标准 CTR BCE loss，SID 仅作为输入特征替换：

$$\mathcal{L} = \mathcal{L}_{\text{disc}} = -\mathbb{E}[y \log \hat{y} + (1-y)\log(1-\hat{y})]$$

5.2 判别 + 生成联合训练（TRM）

在 BCE loss 基础上增加 Next-Token Prediction（NTP）辅助 loss，给定 query + user context 预测正样本 item 的 gen-token 序列：

$$\mathcal{L} = \mathcal{L}_d + \lambda \cdot \mathcal{L}_g$$

符号说明

$\mathcal{L}_d$：标准 BCE 判别 loss（CTR/CVR 预测）
$\mathcal{L}_g$：生成 loss，仅对正样本 $y{=}1$ 计算；对 gen-token 序列 $[s_1,...,s_L]$ 做逐步自回归预测
$\lambda = 0.1$：平衡系数（论文设置）

💡 举例：NTP loss 如何运作

用户历史：[运动鞋→篮球]，正交互目标商品 SID = [5, 12, 3]（3 层 gen-token）

NTP 要求：给定 user context + "已预测到 5"，预测下一个 token = 12；给定 context + "已预测到 5,12"，预测 3。

这迫使模型学到 "SID 第 1 层=粗类目，第 2 层=细类目，第 3 层=风格" 的语义层次关系，增强 SID 在交叉特征中的信息量。

消融实验：去掉 NTP loss 后 QAUC 从 +0.05% 降至 +0.01%；且 Positional Encoding 无法替代 NTP（PE 仅 +0.02%），说明提升来自生成目标本身，而非序列位置信息。

5.3 生成式预训练 → 判别式微调（GPSD）

GPSD 最激进：用完全独立的生成式预训练初始化判别式模型的 embedding，冻结后再微调。

1

Stage 1：生成式预训练

自回归预测用户行为序列，sampled softmax，无需负样本标签。

2

Stage 2：稀疏参数迁移 + 冻结（ST&SF）

只迁移 embedding 参数，冻结；dense 参数（Transformer）随机初始化。

3

Stage 3：判别式微调

标准 BCE CTR/CVR loss，dense 参数可 scale 到 0.3B，性能遵循幂律。

关键：冻结 embedding 是成功的关键。解冻（Full Transfer）判别式训练时过拟合重新出现。生成预训练注入的序列先验需要防止被判别目标"遗忘"。

❄️

§6 维度四：冷启动处理

SID 天然支持冷启动（新 item 有内容特征就能生成 SID），但各方案利用程度不同：

论文	冷启动策略	新 item AUC 改善
Google SemID	RQ-VAE 语义空间稳定，新 item 自动分配 SID，即刻获得有意义 embedding	CTR/1D AUC 显著提升 vs 随机哈希
Meta Prefix-Ngram	同上；Prefix 共享梯度使语义相似新 item 受益	新 item NE -0.41% vs 随机哈希
SIDE	codebook 本身是稠密向量，新 item 立即有 embedding，无冷启动问题	广告系统冷启动显著改善
TRM	Gen-token 主要改善新 item；Mem-token（BPE）为老 item 增强记忆；新旧分段评估	Gen-token: 新 item +0.06%；老 item +0.11%（>7天）
GPSD	生成预训练在大量序列上见过更多 item，embedding 先验质量高	泛化改善是核心，未单独报告冷启动
LiGR	SID 替换 Post ID 彻底消除冷启动：新帖无论曝光量多少，立即获得 SID embedding	新帖 AUC 提升（Long Dwell AUC +0.4% 含冷启功劳）
DAS	一阶段联合训练使 SID 感知 CF 信号，冷启动场景也能获得有意义的 CF 对齐表示	冷启动场景 eCPM +8.98%（最大增益场景）

结论：SID 对新 item 和尾部 item 收益最显著，随机哈希在这些位置 embedding 更新次数少、碰撞率高；SID 通过共享相似 item 前缀梯度补偿稀疏更新。对头部高曝光 item，纯 SID 记忆能力不足，需要 Mem-token（TRM）或保留原始 item ID 作为补充。

📊

§7 横向对比总表

从五个维度对比七篇论文的方案选择：

论文	SID 生成方式	Embedding 参数化	训练目标	冷启动	线上收益
Google SemID 2306.08121	RQ-VAE，L=8，K=2048，冻结	N-gram / SPM（推荐 SPM）	纯判别 BCE	✓ 原生支持	CTR AUC + 冷启动 CTR/1D 双提升
Meta Prefix-Ngram 2504.02137	RQ-VAE，多模态内容	Prefix-Ngram（全前缀 hash）	纯判别 BCE	✓ 新 item NE -0.41%	+0.15% NE；A/A 方差 -43%
SIDE 2506.16698	DPCA 三元码本（VQ-fusion）	无表 codebook 投影（SIDE）	纯判别 BCE	✓ 天然 OOV 友好	NE 2.4×；数据 3×↓；机器成本 20×↓
TRM 2601.22694	RQ-KMeans（协同感知 MLLM），5层×4096	Wide&Deep Gen+Mem（BPE）	BCE + NTP 联合（λ=0.1）	✓ Gen-token 新 item +0.06%	CTR AUC +0.65%；稀疏参数 -33%
GPSD 2506.03699	标准 SID/item ID（生成预训练序列）	Transformer 嵌入表（预训练后冻结）	生成预训练 → 判别微调（冻结稀疏）	△ 泛化改善	GMV +7.03%；scale 到 0.3B
LiGR 2502.03417	RQ-VAE，3层×1000 codes，Post 内容	Prefix-Ngram concat pooling（非 sum）	纯判别 BCE + 集合级注意力	✓ 新帖即刻有 SID	Long Dwell AUC +2.4%；参数 5.4B→1.3B
DAS 2508.10584	RQ-VAE，3层×512 codes，MLLM 内容（用户+广告双侧）	Prefix-Ngram + List-wise + Cross-match + Dense（四种）	一阶段：BCE + CF Debias + Multi-view 对比对齐	✓ 冷启 eCPM +8.98%	eCPM +3.48%；400M DAU

关键观察：
1. Embedding 参数化的选择独立于 SID 生成方式，可以解耦实验。
2. Google 和 Meta M1 只做最保守的特征替换（无训练目标改变），效果已显著，工程代价小，应先做。
3. TRM 三大创新中 Hybrid Tokenization 贡献最大（消融 -0.09% QAUC），NTP loss 次之（-0.05%），协同感知量化第三（-0.03%）。
4. GPSD 方案最激进，GMV 提升 7% 也最大——高收益伴随高工程复杂度。

💡

§8 面向你的 DLRM 的落地 Idea

你的模型是 TF 实现的 DLRM（稀疏 embedding + dense feature + interaction + MLP），目标是把 SID 融入进去。以下按工程难度从低到高排列 5 个可执行 idea：

💡 Idea A：Embedding 替换（最小改动，快速验证）

灵感来源：Google SemID + Meta Prefix-Ngram
做法：为每个商品预计算 SID，生成 Prefix-Ngram 子特征，每个子特征独立 embedding lookup 后求和，拼接原始 item ID embedding（而非替换，不损失原有能力）。
接合点：DLRM sparse embedding 层；用 tf.nn.embedding_lookup_sparse 聚合多个 SID 子词 embedding。
预期收益：尾部商品和新品 CTR AUC 改善，参考 Meta +0.15% NE。
工程代价：低。1 周内可完成离线实验。

💡 Idea B：用户历史序列用 SID 表示

灵感来源：Google SemID（历史序列中每个 item 用 SID embedding 替换）
做法：用户历史行为序列中，每个历史商品用 SID Prefix-Ngram 求和 embedding 代替 item ID embedding。SID 向量共享语义前缀，在 attention 层更容易匹配语义相关物品。
接合点：DLRM 中 user_history_items 特征组；有 DIN/attention pooling 时收益更大（Meta 实验验证）。
预期收益：跨类目泛化和新品推荐改善。
工程代价：中低。

💡 Idea C：多粒度 SID 并联（Wide&Deep 风格）

灵感来源：TRM 的 Gen-token（泛化）+ Mem-token（记忆）
做法：① Coarse SID（泛化路）：只用 SID 前 3 层，走 deep MLP；② Fine SID（记忆路）：对高频 k-gram token 组合用 BPE 生成新 token，走 wide 层独立 embedding 表；最终在 interaction 层拼接两路向量。
预期收益：头部商品保持记忆能力；尾部/新品获语义泛化收益。TRM Hybrid 比纯 Gen-token AUC 提升约 0.05-0.11%。
工程代价：中。需 BPE 离线预计算，训练侧双路接入。

💡 Idea D：NTP 辅助损失（SID 结构信息增强）

灵感来源：TRM 的 discriminative + generative 联合训练
做法：增加 2-4 层 causal transformer 分支，以 query/user context 为条件，对正样本商品 SID 序列做 next-token prediction（逐步预测 c1→c2→...→cL）。NTP loss 加权叠加在主 CTR BCE loss 上（λ=0.1）。
接合点：复用 DLRM 的 user/query 表示向量作为 NTP 分支 context；SID codebook 作为 NTP 的 vocab。
预期收益：TRM 消融：NTP loss 贡献约 +0.05% QAUC，仅增加 1.7% 参数和 0.5% FLOPs。
工程代价：中。

💡 Idea E：生成式预训练 + Embedding 迁移冻结

灵感来源：GPSD 三阶段框架
做法：用商品序列数据训练独立 Transformer 生成式推荐模型，预训练完成后把 item/SID embedding 参数迁移到 DLRM，并在 DLRM 训练阶段冻结这部分 embedding，只训练 dense MLP 部分。
接合点：DLRM 稀疏 embedding 层用预训练权重初始化后冻结；dense MLP 从头训练。
预期收益：大幅缓解过拟合，DLRM 可安全 scale up；GPSD 线上 GMV +7.03%。
工程代价：高。需独立的生成式预训练流程，但收益最大。

💡 Idea F：CF Debias + 多视角对比对齐（SID 质量根本性提升，参考 DAS 快手）

灵感来源：快手 DAS 的 ICDM + MDAM 模块
核心洞察：SID 由 MLLM 内容 embedding 量化而来，天然缺乏协同信号（CF）。如果直接用带流行度偏差的 CF 对齐，会把偏差注入 codebook，导致冷启动 item 被忽视。正确做法：先去偏（分离流行度 vs 内容兴趣），再用纯净无偏 CF 对齐。
具体做法（分两步）：
① CF Debias：在 SID 量化训练时，同时训练因果解耦网络，分离商品侧无偏内容表示 $c^{pro}_i$ 和流行度表示 $c^{pop}_i$；用户侧分离兴趣表示 $c^{int}_u$ 和从众表示 $c^{con}_u$；用无偏 CF 表示做后续对齐。
② Multi-view 对比对齐：三路对比学习让 SID 表示 $z_i$, $z_u$ 感知无偏 CF 信号：Dual U2I（用户 SID ↔ 商品 CF；商品 SID ↔ 用户 CF）+ Dual I2I/U2U（同侧 SID 与 CF 交叉对齐）+ Co-occur I2I/U2U（共现商品/用户的 SID 对齐）。总 loss: $\mathcal{L} = \mathcal{L}_{\text{Sem}} + \alpha\mathcal{L}_{\text{CF}} + \beta\mathcal{L}_{\text{Align}}$
接合点：在 SID 训练（RQ-VAE 量化）阶段加入，不需要修改 DLRM 主模型结构；完成后直接升级 SID 特征，Idea A/B/C/D 自动受益。
预期收益：DAS 在快手广告系统 eCPM +3.48%，冷启动场景 +8.98%（冷启收益最大，因 CF 对齐帮助 SID 理解协同偏好，即使新 item 无历史也能泛化）。
工程代价：高。需重新设计 SID 训练流程，引入 CF 对齐 loss 和解耦网络，工作量约 2-4 周。但不改动 DLRM 主模型，完成后直接升级 SID 特征，ROI 可能最高。

组合建议：Idea A + B 可以同时做（互补不冲突）；Idea C 是 A 的加强版（先做 A 验证，再做 C 精细化）；Idea D 可在 A/B 基础上追加；Idea E 最激进，适合在 A/B 验证有效后再上；Idea F 是 SID 质量的根本性提升，建议在 Idea A/B 验证 SID 有效后作为重点投入方向——它不改 DLRM 结构，只升级 SID 生成，ROI 可能最高。

🗺️

§9 推荐落地路线

T1

第一阶段：SID 生成基础设施（1-2周）

① 确认 SID 生成 pipeline 就绪（RQ-VAE / RK-Means 已训练，能为所有商品生成离散 token 序列）。② 在特征工程层生成 Prefix-Ngram 子词特征（按层级截断 hash），存入特征缓存。③ 验证 SID 时序稳定性：同一商品在不同时间的 SID 是否稳定。

T2

第二阶段：Idea A + B — Embedding 替换（2-3周）

① 为候选商品增加 SID Prefix-Ngram embedding（Idea A），与原 item ID embedding 拼接，先 A/B 验证。② 同时改造用户历史序列 embedding（Idea B），重新跑离线实验。③ 重点关注新品 AUC 和尾部商品改善；全量 AUC 是否有回退。

T3

第三阶段：Idea C — Hybrid 多粒度（可选，2周）

T2 有效后，为高频商品构建 BPE Mem-token，引入 Wide&Deep 双路结构，验证是否在 T2 基础上进一步提升头部商品记忆能力。注意 BPE token 数量 trade-off（TRM 设置最多 2×10⁷ 个）。

T4

第四阶段：Idea D — NTP 辅助损失（可选，1-2周）

在 T2/T3 基础上增加 2-4 层 causal transformer NTP 分支，对正样本商品 SID 序列做 next-token prediction 辅助 loss（λ=0.1）。消融验证是否带来额外增益。

T5

第五阶段：Idea E — 生成式预训练（长期，4-8周）

若前几阶段验证有效、模型 scaling 需求迫切，启动 GPSD 方案：用商品序列训练独立 Transformer 生成模型，再迁移 embedding 到 DLRM 并冻结，允许 dense 网络从 7M 扩展到 100M+。

T6

第六阶段：Idea F — CF Debias + 多视角对比对齐（根本性提升，2-4周）

在 T2 验证 SID 有效后，重新设计 SID 训练流程：① UISM 双侧 RQ-VAE 量化商品和用户内容表示；② ICDM 因果解耦网络分离流行度偏差和内容兴趣（四路解耦：商品内容/流行度、用户兴趣/从众）；③ MDAM 三路对比对齐（Dual U2I、Dual I2I/U2U、Co-occur）让 SID 感知无偏 CF 信号。完成后直接替换 SID 特征，Idea A/B/C/D 的收益自动提升。重点关注冷启动 eCPM，预期 +5-9%。

快速起步建议（最低风险）：直接从 Idea A（候选商品 SID Prefix-Ngram embedding 拼接） 开始；用新品和尾部商品的 AUC 作为核心评估指标；1 周内可完成离线实验。

注意事项：① SID 生成的 RQ-VAE 建议用协同信号（用户行为）而非纯内容 embedding 训练（TRM 的协同感知量化核心贡献）。② Prefix-Ngram 的深层前缀需 hash 截断到固定大小的表（如 2²⁰ 行）。③ GPSD 的冻结策略是防止过拟合的关键，不能省略。④ LiGR Concat Pooling 方案需额外的线性层压缩，注意 embedding 维度预算；资源受限时 Sum Pooling 是更好的起点。⑤ Idea F（DAS 风格 CF Debias）中，因果解耦网络需要足够的用户行为数据（日均 PV > 1 亿级别），且训练开销较高（约为标准 SID 训练的 1.5-2x），适合在 SID 方案整体验证有效后作为重点投入。

SID 融入排序模型：工业实践综述与 DLRM 落地方案

Better Generalization with Semantic IDs (SemID) → 查看完整报告

Enhancing Embedding Stability with Semantic ID (SID Prefix-Ngram) → 查看完整报告

SIDE: Semantic ID Embedding → 查看完整报告

TRM: Token-based Recommendation Model（Farewell to Item IDs） → 查看完整报告

GPSD: Generative Pretraining → Discriminative Scaling → 查看完整报告

LiGR: From Features to Transformers — Redefining Ranking for Scalable Impact → 查看完整报告

DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System → 查看完整报告

① Unigram（最简单）

② N-gram（固定分组）

③ SPM（自适应子词）

④ Prefix-Ngram（多粒度前缀）

⑤ SIDE（无表 codebook 投影）

⑥ Hybrid Gen+Mem（TRM）

5.1 纯判别式（基础）

5.2 判别 + 生成联合训练（TRM）

5.3 生成式预训练 → 判别式微调（GPSD）