📚 论文 · 笔记

学习笔记 & 论文解读

推荐 · 搜索 · LLM · NLP · 工业落地

论文 17
学习笔记 11
Semantic ID 12
生成式推荐 7
排序 Scaling 6
2026 arXiv 2603.24958 流式数据集蒸馏 · 快手+中科大
DIET:用 1-2% 数据复现全量训练效果,推荐系统模型迭代成本降低 60×
DIET: Learning to Distill Dataset Continually for Recommender Systems · Jiaqing Zhang, Hao Wang et al. · 中科大 + 快手 · arXiv 2026.03
将「数据集蒸馏」引入持续学习推荐场景,维护一个随流式数据持续演化的紧凑合成记忆集(仅 1-2% 数据量)。Phase 1 用 label-conditioned EL2N 选出决策边界样本,融合历史对齐记忆;Phase 2 通过影响力引导双向寻址 + bi-level 优化精细调整合成数据。下游架构只需在合成数据上热身 + 继承参考模型 embedding,无需访问全量历史,模型迭代成本最多降低 60×,跨架构泛化(DCN→WuKong/RankMixer)均有效。
📋 综述 Semantic ID × 排序 7篇工业论文 · DLRM 落地方案
SID 融入排序模型:工业实践综述与 DLRM 落地方案
Google · Meta × 2 · ByteDance · Alibaba · LinkedIn · 快手 · 7 篇论文横向对比 + 6 个落地 Idea + 推荐路线
系统梳理将 Semantic ID 引入 CTR/CVR 排序模型(DLRM 类)的 7 篇工业论文(SemID / Prefix-Ngram / SIDE / TRM / GPSD / LiGR / DAS),从特征接入方式、Embedding 参数化、训练目标扩充、冷启动处理四个维度横向对比,并面向 DLRM 架构提炼 6 个可直接落地的工程 Idea(从 Embedding 替换到 CF Debias + 多视角对比对齐)。
2025 KDD 2025 · arXiv 2506.03699 排序 Scaling 生成预训练 阿里 AliExpress
GPSD:生成式预训练 + 稀疏参数冻结,解锁 Transformer 判别排序 Scaling Law
Scaling Transformers for Discriminative Recommendation via Generative Pretraining · Qijiong Liu et al. · Alibaba / AliExpress · KDD 2025
判别推荐模型存在单轮次/轮次内双过拟合,制约 Scaling;GPSD 用生成预训练稀疏参数初始化判别模型后冻结(ST&SF),使密集参数从 13K 扩展到 0.3B 时遵循幂律 Scaling,跨架构(HSTU/Wukong)均有效,AliExpress 生产 CTR/CVR 双提升。
2025 KDD 2025 · arXiv 2502.03417 排序 Scaling Semantic ID LinkedIn DAU +0.27%
LiGR:用 7 个特征超越数百特征,LinkedIn 生成式排序的工业实践
From Features to Transformers: Redefining Ranking for Scalable Impact · Fedor Borisyuk et al. · LinkedIn · KDD 2025
LiGR 将 HSTU 风格生成式推荐引入 LinkedIn Feed 排序,7 个特征超越数百特征的 DLRM 基线;Gated skip-connection 解决大模型训练稳定性;Setwise Attention 替代规则多样性;SID concat pooling 将参数量从 5.4B→1.3B;生产 A/B:DAU +0.27%,Feed 时长 +0.28%。
2025 arXiv 2509.03236 端到端生成式搜索 快手 CTR +1.67%
OneSearch:第一个工业部署的电商搜索端到端生成式框架
OneSearch: A Unified End-to-End Generative Framework for E-commerce Search · 快手电商搜索团队
RQ-OPQ 混合量化(层次语义+独特属性残差)+ 三视图用户行为序列注入(User ID / 显式短序列 / 隐式长序列 QFormer 压缩)+ 三阶段 SFT(语义对齐→共现同步→个性化)+ 自适应奖励 DPO,将 MCA 召回-精排统一为单一 BART encoder-decoder,快手商城 A/B:商品 CTR +1.67%、订单量 +3.22%、OPEX -75.40%、MFU 3.26%→27.32%。
2025 arXiv 2508.10584 双对齐 SID 快手 eCPM +3.48%
DAS:一阶段双对齐 Semantic ID,解决协同信号缺失的快手广告落地
DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System · 快手广告算法团队
传统两阶段 SID 对齐(先 CF 后量化)存在信息损失;DAS 一阶段联合优化 UISM(双侧 RQ-VAE)+ ICDM(CF 去偏)+ MDAM(三种多视图对比对齐),四类特征接入判别式和生成式 RS,快手 4 亿日活 A/B:eCPM +3.48%,冷启动 +8.98%。
2025 arXiv 2504.02137 排序 Scaling Prefix-Ngram SID Meta 广告
Prefix-Ngram SID:Meta 广告排序的层次化语义 ID 工业实践
Semantic IDs for Large-Scale Recommendation Systems · Meta Ads
Meta 在广告排序系统中将 RQ-VAE 生成的 SID 以 Prefix-Ngram 方式展开为层次化稀疏特征,并接入 DLRM 嵌入表;提出 FLOPs 正则化防止 codebook 坍缩,实现冷启动提升和整体 CTR 正向增益,工业部署简洁高效。
2025 arXiv 2506.16698 排序 SID 扩展 SIDE Meta Instagram
SIDE:Meta 将 SID 推广到全排序栈,序列 + 交叉特征全覆盖
Scaling Item Representations via Semantic IDs · Meta Instagram
在 Prefix-Ngram 基础上,SIDE 将 SID 进一步扩展为序列历史特征(用户历史 SID 序列)和交叉计数特征(候选 SID 与历史序列匹配数),覆盖 CTR/CVR 排序全链路,Meta Instagram 生产验证整体正向,显著改善冷启动场景。
2026 arXiv 2601.22694 排序 Scaling Semantic Token
TRM:用语义 Token 替代 Item ID,解锁大排序模型的扩展潜力
Farewell to Item IDs: Unlocking the Scaling Potential of Large Ranking Models via Semantic Tokens · Zhao et al. · ByteDance
Item ID 是孤立符号,难以共享知识且制约 scaling;TRM 提出协同感知表示 + 混合 Tokenization(Gen+Mem)+ 判别式生成式联合训练,线上搜索 CTR AUC +0.65%、稀疏参数减少 33%,scaling law 特性显著改善。
2025.07 arXiv 2507.22224 框架&消融 Semantic ID
GRID:生成式推荐 Semantic ID 实践手册(Snap 开源框架)
Generative Recommendation with Semantic IDs: A Practitioner's Handbook · Snap Inc.
对生成式推荐中 SID 使用方式进行大规模消融研究的实践指南。关键发现:RK-Means(Residual K-Means)量化方案通常优于 RQ-VAE;Encoder-Decoder 架构优于 Decoder-only;同时公开了完整可复现代码框架,便于研究者快速实验不同组合。
2025 SIGIR 2025 · arXiv 2504.04400 多 Tokenizer 预训练 Semantic ID
MTGRec:多标识符 Item Tokenization + 课程学习预训练
Pre-training Generative Recommender with Multi-Identifier Item Tokenization · Zheng, Liu et al. · RUC + Huawei
现有生成式推荐 one-to-one tokenization 导致长尾 token 曝光不足、数据多样性差。MTGRec 从 RQ-VAE 训练过程取相邻 epoch 的多个 checkpoint 作为语义相关的多个 tokenizer,将单条用户序列扩增为多组 token 序列用于预训练。引入基于一阶梯度近似的数据影响力估计,动态调整各 tokenizer 数据的采样概率(课程学习)。微调时固定单一 tokenizer 保证 item 可识别。Amazon 三数据集超越 TIGER/LETTER/TIGER++,在长尾 item 改善尤其显著。
2025 SIGIR 2025 · arXiv 2409.05546 端到端 Tokenizer Semantic ID
ETEGRec:端到端联合优化 Item Tokenizer 与生成式推荐器
Generative Recommender with End-to-End Learnable Item Tokenization · Liu, Zheng et al. · RUC + Kuaishou
现有方法将 Item Tokenizer(RQ-VAE)与生成推荐器解耦训练,导致 tokenizer 无法感知推荐目标。ETEGRec 提出双 Encoder-Decoder 架构:tokenizer 和 recommender 各自一套 Enc-Dec,通过序列-物品对齐(KL 散度拉近编码器输出与物品 token 分布)和偏好-语义对齐(InfoNCE 拉近 decoder 隐态与重建物品语义)实现联合优化,并引入交替训练保证稳定性。Amazon 三数据集全面超越 TIGER/LETTER。
2025.03 arXiv 2503.02453 稀疏-稠密级联 Semantic ID 百度广告 +3.60%
COBRA:级联稀疏-稠密表示,统一生成式与稠密检索
Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations · Yang, Ji et al. · Baidu
现有生成式推荐(如 TIGER)仅用离散 SID,信息损失大;COBRA 提出级联表示:先自回归生成 SID(粗粒度),再以 SID 为条件生成稠密向量(细粒度),两者拼接作为序列输入。推理时 BeamFusion 融合 Beam 分数与 ANN 相似度分数。百度广告平台亿级用户 A/B:转化率 +3.60%,ARPU +4.15%。
2025.02 arXiv 2502.18965 端到端生成 Semantic ID 快手线上 +1.68%
OneRec:用统一生成模型替代多级漏斗,快手主场景落地
Unifying Retrieve and Rank with Generative Recommender and Preference Alignment · Deng et al. · Kuaishou
首个工业级单阶段生成推荐系统,用 Encoder-Decoder + MoE 替代三级漏斗(召回→粗排→精排)。创新点:① Balanced K-Means 残差量化解决 hourglass 现象;② Session-wise 生成(一次输出整批视频)替代逐 item 预测;③ Iterative Preference Alignment (IPA) 结合 DPO 从奖励模型自动构造偏好对。快手主页 A/B:总观看时长 +1.68%,人均观看时长 +6.56%。
2024.11 arXiv 2411.18814 混合召回 Semantic ID
LIGER:融合生成式与稠密检索的序列推荐
Unifying Generative and Dense Retrieval for Sequential Recommendation · Liu Yang, Fabian Paischer et al. · Meta AI
系统比较生成式召回(TIGER)与稠密召回在学术 benchmark 上的性能差距,发现生成式召回冷启动为零。提出 LIGER 混合方案:用 SID 做候选生成,再补入冷启动 item,以 dense embedding 重排,同时训练 next-token 预测和余弦相似度 loss,兼顾效率与冷启动表现。
2023/2024 arXiv 2306.08121 Semantic ID 排序
SemID:将 Semantic ID 带入 YouTube 亿级排序模型
Better Generalization with Semantic IDs · Singh, Vu et al. · Google DeepMind
随机哈希 video ID 制约长尾和冷启动泛化;SemID 提出 N-gram 和 SPM 两种子词 embedding 方案,在 YouTube ~1 亿视频语料上验证 SPM-SID 同时超越随机哈希基线的整体 CTR AUC 和冷启动 CTR/1D AUC,serving cost 不增加。
2023 NeurIPS 2023 · arXiv 2305.05065 生成式推荐 Semantic ID
TIGER:用生成式检索重构推荐系统召回阶段
Recommender Systems with Generative Retrieval · Rajput, Mehta et al. · Google DeepMind
首次将生成式检索(Generative Retrieval)引入推荐系统:用 RQ-VAE 为 item 生成层级 Semantic ID,Transformer Encoder-Decoder 自回归预测下一个 item 的 Semantic ID。在 Amazon 三数据集全面超越 SASRec/BERT4Rec,原生支持冷启动和多样性调节。
🔧 Agent 工程 2026 新概念 AGENTS.md Generator-Evaluator
Harness Engineering:让 AI Agent 不再犯同一个错误
Mitchell Hashimoto 命名 · OpenAI / Anthropic / Martin Fowler 相继跟进 · 2026 年 2 月爆火
核心思想:每次发现 Agent 犯错,就工程化一个解决方案让它永远不再犯。两种形式:AGENTS.md 错误记录文件 + 专用验证脚本工具。深度解析 Anthropic 三 Agent 架构(Planner + Generator + Evaluator),Sprint 合同机制,Playwright MCP 实时点击验证,以及与 Context Engineering 的关系。附效果对比:单 Agent $9/20 分钟(功能损坏)vs 三 Agent $200/6 小时(16 特性完整可玩)。
🤖 AI 系统 Agent 技术 规划/记忆/工具
AI Agent 关键技术全景:规划 / 记忆 / 工具 / 反思 / 多 Agent
从「LLM 作为大脑」到自主完成复杂任务 · ReAct · RAG · MCP · Multi-Agent 协作 · 2025 现状
全面梳理 AI Agent 核心技术栈:规划(CoT/ToT/ReAct/Prompt Chaining);记忆(短期 Context Window、长期 RAG 向量数据库、结构化存储);工具调用(Function Calling/MCP/Computer Use);反思机制(Reflexion/Evaluator-Optimizer);多 Agent 协作(Orchestrator-Workers/Routing/Parallelization);以及 2025 年新技术 MCP 协议和 Computer Use 能力详解。附挑战与落地建议。
🔍 RAG Agent 技术 检索增强
RAG 检索增强生成:从离线向量化到在线检索全链路
Embedding · FAISS/HNSW · Dense/Sparse/Hybrid 检索 · Reranker · Chunking 策略 · 完整工程实践
完整的 RAG 技术链路:Embedding 模型原理与选型(BGE/text-embedding-3);五种 Chunking 策略对比(固定/重叠/语义/Parent-Child);IVF 和 HNSW 向量索引原理图解;Dense/Sparse/Hybrid 三种检索策略 + RRF 合并;Reranker 两阶段架构(Bi-Encoder vs Cross-Encoder);完整在线离线工程代码;进阶技巧 HyDE/Multi-Query/Self-RAG;RAGAS 评估框架。
🧠 推理 Agent 技术 ReAct / CoT
ReAct / Agent 推理框架:从 CoT 到 ReAct 到 Tree-of-Thought
CoT · ReAct 三原语 · Reflexion · Plan-Execute · ToT · 完整 Prompt 模板 · 框架选型
推理框架全景:CoT(Standard/Zero-Shot)的局限性分析;ReAct 的 Thought/Action/Observation 三原语 + 完整生产 Prompt 模板 + 代码循环实现;Reflexion 失败反思记忆;Plan-Execute 两阶段架构;LATS 蒙特卡洛树搜索;Tree-of-Thought 四组件(分解/生成/评估/搜索);六种框架对比选型表;工程实现(防止无限循环/上下文压缩/解析鲁棒性)。
🔧 工具调用 Agent 技术 MCP 协议
Function Calling & MCP:工具调用底层机制全解
JSON Schema 工具定义 · 并行调用 · 错误处理 · MCP 三层架构 · stdio/SSE Transport · 安全防御
工具调用完整技术栈:JSON Schema 工具定义规范与 Description 写法技巧;Function Calling 四轮对话全流程图解;并行工具调用(asyncio 并发执行);三种错误类型处理;MCP 协议定位(USB-C 类比);Host/Client/Server 三层架构图;MCP 三类能力(Tools/Resources/Prompts);stdio vs SSE Transport 对比;JSON-RPC 2.0 消息格式;Prompt Injection 防御机制;Function Calling vs MCP 选型建议。
🖥️ 硬件基础 背景知识 GPU 体系结构
GPU 硬件基础:CPU / GPU / 寄存器 / SRAM / HBM / PCIe 从零讲清楚
FlashAttention、KV Cache 量化等 LLM 优化论文的硬件基础 · 五层存储层级 · Warp & 内存墙 · A100 关键数字速查
从零搭建 GPU 硬件认知:五层存储层级(寄存器/SRAM/HBM/DRAM/SSD)的容量与带宽对比;SM/CUDA Core/Tensor Core 各自职责;Warp 是什么,warp divergence 为何让 RabitQ 慢 174 万倍;内存墙:312 TFLOPS 算力 vs 2 TB/s 带宽的差距;PCIe/NVLink 通信带宽与多 GPU 训练;以及「计算本身不消耗内存」的真正含义。
⚡ 推理优化 LLM 基础 推理效率
LLM 推理优化:KV Cache · vLLM · TurboQuant · Flash Attention
让大模型跑得更快、占更少内存的四项核心技术,每个都有具体数字 + 局限性分析
持续更新的推理优化笔记。KV Cache:为什么缓存 K/V 而不是 Q,MQA/GQA 如何压缩显存;vLLM/PagedAttention:分页虚拟内存消灭碎片,利用率 20%→90%+;TurboQuant:随机旋转 + 向量量化把 K/V 压到 2/4 bit;FlashAttention v1/v2/v3:Tiling + Online Softmax,HBM IO 从 O(N²) 降到 O(N),训练推理均可用。四项技术可同时叠加。

Semantic ID & Item 表征

如何为 item 生成有语义的离散 token(RQ-VAE、RK-Means、协同感知量化、端到端 tokenizer 等)
2025 KDD 2025 排序 Scaling · 稀疏冻结
GPSD:生成预训练稀疏参数 → 冻结 → 判别微调,消除双过拟合
Alibaba / AliExpress
ST&SF(稀疏迁移 + 冻结)策略将生成预训练的高质量稀疏参数迁移到判别模型,冻结后消除两类过拟合,实现 13K→0.3B 密集参数的 Scaling Law,跨架构(HSTU/Wukong)均有效。
2025 KDD 2025 SID concat pooling
LiGR:SID concat pooling 替代 Post ID,参数量压缩 4×
LinkedIn
RQ-VAE 生成 3 层 SID,Prefix-Ngram concat(而非 sum)聚合各层 embedding,替代 Post ID(词汇量亿级)使参数量从 5.4B→1.3B,Long Dwell AUC +0.40%(vs Post ID),冷启动显著改善。
2025 arXiv 2508.10584 双对齐 · 去偏 CF · 快手
DAS:一阶段双侧 RQ-VAE + CF 去偏 + 多视图对比对齐
快手广告团队
UISM 双侧量化 + ICDM 流行度/从众偏差去除 + MDAM 三种对比对齐(u2i/u2u-i2i/co-occurrence),联合训练最大化 SID 与 CF 信号互信息,eCPM +3.48%,冷启动 +8.98%。
2025 arXiv 2504.02137 Prefix-Ngram · FLOPs 正则
Prefix-Ngram:Meta 广告 RQ-VAE + FLOPs 正则 + 层次稀疏特征
Meta Ads
FLOPs Regularizer(基于 codebook 使用频次)防止 codebook collapse,SID 以 1/2/3-gram 前缀展开为层次化稀疏特征接入 DLRM,冷启动 + 整体 CTR 双正向。
2025 arXiv 2506.16698 序列 + 交叉特征 · Meta Instagram
SIDE:SID 序列历史 + 交叉匹配计数,全链路排序覆盖
Meta Instagram
在 Prefix-Ngram 基础上增加用户 SID 历史序列特征和 SID 交叉计数特征,覆盖排序全链路;冷启动场景收益最显著,Instagram 生产验证正向,工程实现简洁。
2026 arXiv 2601.22694 协同感知 Token · 混合 Gen+Mem
TRM:协同感知量化 + 混合 Tokenization,服务大排序 Scaling
ByteDance
将用户交互信号引入 token 生成过程(协同感知量化),混合生成式(Gen)和记忆式(Mem)表示让 token 兼顾语义泛化和高频 item 记忆,与大排序模型联合训练。
2025.07 arXiv 2507.22224 RK-Means · 消融对比
GRID:RK-Means vs RQ-VAE 系统性消融
Snap Inc.
对比 RQ-VAE 和 RK-Means(Residual K-Means)等多种 SID 生成方案,发现 RK-Means 在多数情况下优于 RQ-VAE;同时验证了 codebook 层数、codebook 大小等关键超参的影响。
2025 SIGIR 2025 多 Tokenizer · 长尾优化
MTGRec:相邻 epoch checkpoint 作为多语义相关 Tokenizer
RUC + Huawei
取 RQ-VAE 训练过程中相邻 epoch 的多个 checkpoint 作为多个 tokenizer,每个 item 拥有多个语义相近但有细微差异的 SID,大幅扩增训练数据,特别改善长尾 item 的 token 曝光频次。
2025 SIGIR 2025 端到端可学习 Tokenizer
ETEGRec:联合优化 RQ-VAE Tokenizer 与推荐器
RUC + Kuaishou
打破 tokenizer 预训练后冻结的惯例,通过双对齐 loss(SIA + PSA)让 RQ-VAE 感知推荐优化目标,token 分配随训练动态调整,更好适配推荐任务。
2024.11 arXiv 2411.18814 SID + 文本表征
LIGER:SID 输入 + dense embedding 输出的混合架构
Meta AI
将 SID 和文本 embedding 拼接作为输入,同时输出 dense embedding 用于相似度检索和 SID 预测,解决纯 SID 生成方案冷启动为零的问题。
2023/2024 arXiv 2306.08121 N-gram / SPM · 排序侧 SID
SemID:N-gram 与 SPM 子词 embedding 用于亿级排序模型
Google DeepMind
与生成式召回不同,SemID 将 SID 用于排序侧 embedding 替换。对比 N-gram tokenization 与 Sentence-Piece Model(SPM),SPM-SID 在 CTR AUC 和冷启动 AUC 上均优于随机哈希 ID,serving cost 不变。
2023 NeurIPS 2023 RQ-VAE · 层级 SID
TIGER:RQ-VAE 生成层级 Semantic ID
Google DeepMind
奠基工作。用 RQ-VAE 为每个 item 生成 m 级 Semantic ID(每级 codebook 大小 256),共享 item 前缀隐含语义层级关系,支持冷启动 item 直接用内容 embedding 映射到 SID。

生成式推荐与检索

用自回归/seq2seq 直接生成 item ID,替代传统双塔 + ANN 召回范式;含工业落地与方法融合
2025.07 arXiv 2507.22224 框架 & 消融
GRID:生成式推荐实践手册,Snap 开源可复现框架
Generative Recommendation with Semantic IDs: A Practitioner's Handbook · Snap Inc.
针对 GR 方法的各设计选择(SID 生成方案、模型架构、训练目标等)进行系统消融。关键结论:RK-Means 优于 RQ-VAE;Encoder-Decoder 优于 Decoder-only;大 codebook + 多层 SID 通常更好。开源完整可复现代码,便于研究者在此基础上快速迭代。
2025 SIGIR 2025 · arXiv 2504.04400 多 Tokenizer 预训练
MTGRec:多 Tokenizer 数据增强 + 课程学习预训练
Pre-training Generative Recommender with Multi-Identifier Item Tokenization · RUC + Huawei
取 RQ-VAE 多个训练 epoch checkpoint 作为 n 个语义相关 tokenizer,一条用户序列扩增为 n 条 token 序列。数据影响力估计(一阶梯度近似)动态调整各 tokenizer 数据采样比例(课程学习预训练),微调时用单一 tokenizer。支持更深 T5(8 层)稳定 scaling;长尾 item 改善尤其显著。
2025 SIGIR 2025 · arXiv 2409.05546 端到端 Tokenizer
ETEGRec:端到端联合优化 Item Tokenizer 与推荐器
Generative Recommender with End-to-End Learnable Item Tokenization · RUC + Kuaishou
双 Enc-Dec 架构(RQ-VAE tokenizer + T5 recommender)。序列-物品对齐(SIA):用 KL 散度拉近 Encoder 序列表示与 item collaborative embedding 在 codebook 空间的分布;偏好-语义对齐(PSA):用 InfoNCE 拉近 Decoder 第一个隐态与重建 item 语义。交替训练(固定一方优化另一方)保证稳定性。Amazon 2023 三数据集全面优于 TIGER/LETTER。
2025.03 arXiv 2503.02453 稀疏-稠密级联 百度广告 +3.60%
COBRA:级联 Sparse-Dense 表示,BeamFusion 推理
Sparse Meets Dense · Yang, Ji et al. · Baidu
输入序列中每个 item 用(SID embedding || dense vector)拼接表示;Decoder 先预测 SID 再以 SID 为条件预测 dense vector,形成粗到细两级生成。BeamFusion 将 Beam 分数与 ANN 余弦分数加权融合,控制召回多样性。在 Beauty/Sports/Toys 超越 TIGER 15-24%;百度广告 2 亿日活 A/B:转化 +3.60%,ARPU +4.15%。
2025.02 arXiv 2502.18965 端到端单阶段 快手主场景 +1.68%
OneRec:工业级单阶段生成推荐,替代三级漏斗
Unifying Retrieve and Rank · Deng et al. · Kuaishou
1B 参数 Encoder-Decoder + MoE,session-wise 生成(一次生成整批 5-10 个视频)替代逐 item 预测。Balanced K-Means 残差量化保证 codebook 均衡;IPA 策略用奖励模型评分自动构造 DPO 偏好对。快手主页线上 A/B:观看时长 +1.68%,人均单次观看时长 +6.56%。
2024.11 arXiv 2411.18814 生成式 + 稠密混合
LIGER:融合生成式与稠密检索,解决冷启动难题
Unifying Generative and Dense Retrieval for Sequential Recommendation · Meta AI
分析 TIGER(生成式)与 Dense Retrieval 的性能差距和冷启动问题,提出 LIGER:共用 SID 输入,Decoder 预测 SID,Encoder 输出 dense embedding;推理时生成式召回 K 个候选 + 补入冷启动 item,用 dense embedding 重排。在 Beauty/Sports/Toys/Steam 四数据集取得生成式/稠密最优折中。
2023 NeurIPS 2023 · arXiv 2305.05065 开创性工作
TIGER:用生成式检索重构推荐系统召回阶段
Recommender Systems with Generative Retrieval · Rajput, Mehta et al. · Google DeepMind
首次将生成式检索范式引入推荐系统。RQ-VAE 生成层级 Semantic ID,T5 Encoder-Decoder 自回归输出下一个 item 的 Semantic ID,三数据集全面超越 SOTA,冷启动和多样性原生支持。

排序模型 Scaling

大参数排序模型的 Scaling Law、MoE、稀疏 embedding 替代方案
2025 KDD 2025 · arXiv 2506.03699 大排序 Scaling · 稀疏冻结
GPSD:生成式预训练 + 稀疏冻结,解锁判别排序 Scaling Law
Scaling Discriminative Recommendation via Generative Pretraining · Alibaba KDD 2025
首次在工业规模验证判别排序 Scaling Law(13K→0.3B 密集参数);ST&SF(稀疏迁移+冻结)根本消除两类过拟合;跨架构迁移有效(Transformer→HSTU/Wukong);AliExpress 生产 CTR/CVR 双提升。
2025 KDD 2025 · arXiv 2502.03417 生成式排序 · Setwise
LiGR:7 特征超越数百特征,LinkedIn Transformer 排序实践
From Features to Transformers · LinkedIn KDD 2025
Gated skip-connection 解决大模型训练稳定性;Setwise Attention 替代规则多样性;序列长度/层数/嵌入维度同步扩展验证 Scaling Law;DAU +0.27%,Feed 时长 +0.28%。
2025 arXiv 2504.02137 排序侧 SID · Meta
Prefix-Ngram:Meta 广告排序层次化 SID 特征方案
Semantic IDs for Large-Scale Recommendation Systems · Meta Ads
FLOPs Regularizer 防止 codebook collapse;Prefix-Ngram 层次化特征 + DLRM 嵌入;冷启动 + 整体 CTR 双提升,Meta 广告生产验证。
2025 arXiv 2506.16698 排序全链路 · Instagram
SIDE:SID 推广到排序全栈,序列 + 交叉特征全覆盖
Scaling Item Representations via Semantic IDs · Meta Instagram
用户 SID 历史序列特征 + 候选 SID 交叉计数特征,覆盖 CTR/CVR 全链路,冷启动收益最显著,Instagram 生产正向。
2026 arXiv 2601.22694 大排序 · Scaling
TRM:用语义 Token 替代 Item ID,解锁大排序模型的扩展潜力
Farewell to Item IDs · Zhao et al. · ByteDance
传统 item ID embedding table 是 scaling 瓶颈。TRM 以 Semantic Token 替代,判别式+生成式联合训练;线上 CTR AUC +0.65%,稀疏参数减少 33%,模型越大提升越稳定。
2023/2024 arXiv 2306.08121 排序侧 SID
SemID:Semantic ID 用于 YouTube 亿级排序,冷启动 + CTR 双提升
Better Generalization with Semantic IDs · Google DeepMind
首次验证 SID 可替代排序侧随机哈希 ID embedding,SPM-SID 在整体 CTR AUC 和冷启动 CTR/1D AUC 双胜,serving cost 不变。

序列建模 & 行为理解

SASRec、BERT4Rec、多兴趣建模、长短期行为序列等
暂无解读,敬请期待

LLM × 推荐

用 LLM 做推理、对话推荐、文本特征增强、推荐 instruction tuning 等
暂无解读,敬请期待

多模态推荐

图文 item 理解、视觉 embedding 融合、跨模态对齐等
暂无解读,敬请期待

NLP 基础

Transformer、BERT、预训练语言模型、文本表征等基础工作
暂无解读,敬请期待

系统与工程

训练系统、serving 优化、异构计算、在线学习等工程实践

学习笔记

LLM 基础技术专题精讲 · 结合实例深度解析
🤖 AI 系统 Agent 技术 规划/记忆/工具
AI Agent 关键技术全景:规划 / 记忆 / 工具 / 反思 / 多 Agent
从「LLM 作为大脑」到自主完成复杂任务 · ReAct · RAG · MCP · Multi-Agent 协作 · 2025 现状
全面梳理 AI Agent 核心技术栈:规划(CoT/ToT/ReAct/Prompt Chaining);记忆(短期 Context Window、长期 RAG 向量数据库、结构化存储);工具调用(Function Calling/MCP/Computer Use);反思机制(Reflexion/Evaluator-Optimizer);多 Agent 协作(Orchestrator-Workers/Routing/Parallelization);以及 2025 年新技术 MCP 协议和 Computer Use 能力详解。
🔍 RAG Agent 技术 检索增强
RAG 检索增强生成:从离线向量化到在线检索全链路
Embedding · FAISS/HNSW · Dense/Sparse/Hybrid 检索 · Reranker · Chunking 策略 · 完整工程实践
完整的 RAG 技术链路:Embedding 模型原理与选型;五种 Chunking 策略对比;IVF 和 HNSW 向量索引原理图解;Dense/Sparse/Hybrid 检索 + RRF 合并;Reranker 两阶段精排;完整工程代码;进阶技巧 HyDE/Multi-Query;RAGAS 评估框架。
🧠 推理 Agent 技术 ReAct / CoT
ReAct / Agent 推理框架:从 CoT 到 ReAct 到 Tree-of-Thought
CoT · ReAct 三原语 · Reflexion · Plan-Execute · ToT · 完整 Prompt 模板 · 框架选型
推理框架全景:CoT 局限性;ReAct 三原语 + 生产 Prompt 模板;Reflexion 失败反思;Plan-Execute 两阶段架构;Tree-of-Thought 四组件;六种框架对比选型表;防无限循环等工程实现要点。
🔧 工具调用 Agent 技术 MCP 协议
Function Calling & MCP:工具调用底层机制全解
JSON Schema 工具定义 · 并行调用 · 错误处理 · MCP 三层架构 · stdio/SSE Transport · 安全防御
工具调用完整技术栈:JSON Schema 规范;Function Calling 四轮对话流程;并行调用处理;MCP 协议定位(USB-C 类比);Host/Client/Server 三层架构;Tools/Resources/Prompts 三类能力;stdio vs SSE 对比;Prompt Injection 防御;选型建议。
🖥️ 硬件基础 背景知识 GPU 体系结构
GPU 硬件基础:CPU / GPU / 寄存器 / SRAM / HBM / PCIe 从零讲清楚
FlashAttention、KV Cache 量化等 LLM 优化论文的硬件基础 · 五层存储层级 · Warp & 内存墙 · A100 关键数字速查
从零搭建 GPU 硬件认知:五层存储层级;SM/CUDA Core/Tensor Core;Warp divergence;内存墙;PCIe/NVLink;寄存器与计算的关系。
⚡ 推理优化 LLM 基础 推理效率
LLM 推理优化:KV Cache · Flash Attention · 量化
让大模型跑得更快、占更少内存的核心技术,每个都有具体数字 + 局限性分析
持续更新的推理优化笔记。KV Cache:为什么缓存 K/V 而不是 Q,MQA / GQA 如何压缩显存(LLaMA-2 70B 案例);Flash Attention:标准 Attention 的 HBM IO 瓶颈,Tiling + Online Softmax 原理,v1/v2/v3 各版本改进,为什么训练时显存节省 10-20×;后续会继续加量化(INT8/INT4/FP8)、投机解码、PagedAttention 等内容。
📝 学习笔记 LLM 基础 Tokenizer
LLM Tokenizer 方法总结:BPE / WordPiece / Unigram / SentencePiece
从字符到 Token 的完整演化路径,含每种方法的算法细节、对比与工业应用
覆盖 BPE(GPT 系列)、WordPiece(BERT)、Unigram Language Model(T5/XLNet)、SentencePiece(统一框架)、Byte-level BPE(GPT-2/LLaMA)、tiktoken 等主流方案。每种方法都有具体示例演示词表构建过程,并附 vocab size 选择、多语言处理、OOV 等工程实践经验。
📝 学习笔记 LLM 基础 强化学习
LLM 中的强化学习方法:RLHF / PPO / DPO / GRPO / RLAIF 全面解析
从 InstructGPT 到 DeepSeek-R1,覆盖 LLM 对齐训练的所有主流 RL 范式
从 MDP 基础讲起,详解 RLHF 三阶段流程,PPO 裁剪目标与 KL 惩罚,再到无需参考模型的 DPO / IPO,以及 GRPO(用于 CoT 推理的群体相对策略优化),全程结合「帮我写邮件」「做数学题」等真实例子,每个算法都有直觉理解 + 公式 + 例子三合一。附完整 PyTorch 代码示例。
📝 学习笔记 行业认知 大模型团队
大厂大模型部门:组织结构与技术栈全解析
预训练 / 后训练 / 推理效率 / 评估 / 多模态 / 应用 Agent,每个组在做什么
详细拆解工业级大模型团队的六大职能组:预训练组(Megatron、FlashAttention、Scaling Laws)、后训练对齐组(SFT数据飞轮、RLHF/DPO/GRPO、Red Teaming)、推理效率组(vLLM、量化、投机解码)、评估组、多模态组、应用 Agent 组。每组配有技术栈、日常工作案例和 KPI,并附 LLM × 推荐系统融合趋势分析。
📝 学习笔记 LLM 基础 训练流水线
大模型完整训练流水线:预训练 → SFT → RLHF 深度解析
一篇讲清楚「大模型从随机初始化到会聊天的 AI」的完整教程
专门深挖 SFT 和 RLHF 的本质。SFT:「监督微调 = 看标注员示范学格式,损失函数只计算回答部分,质量远比数量重要」。RLHF:「奖励模型如何从偏好排序中训练,PPO 四个模型同时运行,KL 惩罚防止 Reward Hacking」。附 DPO / GRPO 与 PPO 的对比,以及 RLHF 训练崩溃的常见原因和调参建议。
📐 数学原理 LLM 基础 数学工具
LLM 背后的数学原理:Sigmoid · MLE · KL 散度 · 交叉熵 · Softmax
理解 LLM 训练中反复出现的数学工具,每个都有完整推导 + 直觉
持续更新的数学笔记。覆盖:Sigmoid 等价变形的完整推导(为什么 eᵃ/(eᵃ+eᵇ) = σ(a-b))、Bradley-Terry 损失的梯度分析(自适应更新强度)、最大似然估计 MLE 的直觉与 NLL 损失推导、KL 散度的编码代价解释与 RLHF 中的作用、交叉熵=信息熵+KL的三者统一视角、Softmax 温度系数与 top-k/top-p 采样策略。