📚 论文 · 笔记

学习笔记 & 论文解读

推荐 · 搜索 · LLM · NLP · 工业落地

论文 17 篇

学习笔记 11 篇

Semantic ID 12

生成式推荐 7

排序 Scaling 6

2026 arXiv 2603.24958 流式数据集蒸馏 · 快手+中科大

DIET：用 1-2% 数据复现全量训练效果，推荐系统模型迭代成本降低 60×

DIET: Learning to Distill Dataset Continually for Recommender Systems · Jiaqing Zhang, Hao Wang et al. · 中科大 + 快手 · arXiv 2026.03

→

📋 综述 Semantic ID × 排序 7篇工业论文 · DLRM 落地方案

SID 融入排序模型：工业实践综述与 DLRM 落地方案

Google · Meta × 2 · ByteDance · Alibaba · LinkedIn · 快手 · 7 篇论文横向对比 + 6 个落地 Idea + 推荐路线

系统梳理将 Semantic ID 引入 CTR/CVR 排序模型（DLRM 类）的 7 篇工业论文（SemID / Prefix-Ngram / SIDE / TRM / GPSD / LiGR / DAS），从特征接入方式、Embedding 参数化、训练目标扩充、冷启动处理四个维度横向对比，并面向 DLRM 架构提炼 6 个可直接落地的工程 Idea（从 Embedding 替换到 CF Debias + 多视角对比对齐）。

→

2025 KDD 2025 · arXiv 2506.03699 排序 Scaling 生成预训练阿里 AliExpress

GPSD：生成式预训练 + 稀疏参数冻结，解锁 Transformer 判别排序 Scaling Law

Scaling Transformers for Discriminative Recommendation via Generative Pretraining · Qijiong Liu et al. · Alibaba / AliExpress · KDD 2025

→

2025 KDD 2025 · arXiv 2502.03417 排序 Scaling Semantic ID LinkedIn DAU +0.27%

LiGR：用 7 个特征超越数百特征，LinkedIn 生成式排序的工业实践

From Features to Transformers: Redefining Ranking for Scalable Impact · Fedor Borisyuk et al. · LinkedIn · KDD 2025

→

2025 arXiv 2509.03236 端到端生成式搜索快手 CTR +1.67%

OneSearch：第一个工业部署的电商搜索端到端生成式框架

OneSearch: A Unified End-to-End Generative Framework for E-commerce Search · 快手电商搜索团队

RQ-OPQ 混合量化（层次语义+独特属性残差）+ 三视图用户行为序列注入（User ID / 显式短序列 / 隐式长序列 QFormer 压缩）+ 三阶段 SFT（语义对齐→共现同步→个性化）+ 自适应奖励 DPO，将 MCA 召回-精排统一为单一 BART encoder-decoder，快手商城 A/B：商品 CTR +1.67%、订单量 +3.22%、OPEX -75.40%、MFU 3.26%→27.32%。

→

2025 arXiv 2508.10584 双对齐 SID 快手 eCPM +3.48%

DAS：一阶段双对齐 Semantic ID，解决协同信号缺失的快手广告落地

DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System · 快手广告算法团队

传统两阶段 SID 对齐（先 CF 后量化）存在信息损失；DAS 一阶段联合优化 UISM（双侧 RQ-VAE）+ ICDM（CF 去偏）+ MDAM（三种多视图对比对齐），四类特征接入判别式和生成式 RS，快手 4 亿日活 A/B：eCPM +3.48%，冷启动 +8.98%。

→

2025 arXiv 2504.02137 排序 Scaling Prefix-Ngram SID Meta 广告

Prefix-Ngram SID：Meta 广告排序的层次化语义 ID 工业实践

Semantic IDs for Large-Scale Recommendation Systems · Meta Ads

Meta 在广告排序系统中将 RQ-VAE 生成的 SID 以 Prefix-Ngram 方式展开为层次化稀疏特征，并接入 DLRM 嵌入表；提出 FLOPs 正则化防止 codebook 坍缩，实现冷启动提升和整体 CTR 正向增益，工业部署简洁高效。

→

2025 arXiv 2506.16698 排序 SID 扩展 SIDE Meta Instagram

SIDE：Meta 将 SID 推广到全排序栈，序列 + 交叉特征全覆盖

Scaling Item Representations via Semantic IDs · Meta Instagram

在 Prefix-Ngram 基础上，SIDE 将 SID 进一步扩展为序列历史特征（用户历史 SID 序列）和交叉计数特征（候选 SID 与历史序列匹配数），覆盖 CTR/CVR 排序全链路，Meta Instagram 生产验证整体正向，显著改善冷启动场景。

→

2026 arXiv 2601.22694 排序 Scaling Semantic Token

TRM：用语义 Token 替代 Item ID，解锁大排序模型的扩展潜力

Farewell to Item IDs: Unlocking the Scaling Potential of Large Ranking Models via Semantic Tokens · Zhao et al. · ByteDance

Item ID 是孤立符号，难以共享知识且制约 scaling；TRM 提出协同感知表示 + 混合 Tokenization（Gen+Mem）+ 判别式生成式联合训练，线上搜索 CTR AUC +0.65%、稀疏参数减少 33%，scaling law 特性显著改善。

→

2025.07 arXiv 2507.22224 框架&消融 Semantic ID

GRID：生成式推荐 Semantic ID 实践手册（Snap 开源框架）

Generative Recommendation with Semantic IDs: A Practitioner's Handbook · Snap Inc.

→

2025 SIGIR 2025 · arXiv 2504.04400 多 Tokenizer 预训练 Semantic ID

MTGRec：多标识符 Item Tokenization + 课程学习预训练

Pre-training Generative Recommender with Multi-Identifier Item Tokenization · Zheng, Liu et al. · RUC + Huawei

→

2025 SIGIR 2025 · arXiv 2409.05546 端到端 Tokenizer Semantic ID

ETEGRec：端到端联合优化 Item Tokenizer 与生成式推荐器

Generative Recommender with End-to-End Learnable Item Tokenization · Liu, Zheng et al. · RUC + Kuaishou

现有方法将 Item Tokenizer（RQ-VAE）与生成推荐器解耦训练，导致 tokenizer 无法感知推荐目标。ETEGRec 提出双 Encoder-Decoder 架构：tokenizer 和 recommender 各自一套 Enc-Dec，通过序列-物品对齐（KL 散度拉近编码器输出与物品 token 分布）和偏好-语义对齐（InfoNCE 拉近 decoder 隐态与重建物品语义）实现联合优化，并引入交替训练保证稳定性。Amazon 三数据集全面超越 TIGER/LETTER。

→

2025.03 arXiv 2503.02453 稀疏-稠密级联 Semantic ID 百度广告 +3.60%

COBRA：级联稀疏-稠密表示，统一生成式与稠密检索

Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations · Yang, Ji et al. · Baidu

→

2025.02 arXiv 2502.18965 端到端生成 Semantic ID 快手线上 +1.68%

OneRec：用统一生成模型替代多级漏斗，快手主场景落地

Unifying Retrieve and Rank with Generative Recommender and Preference Alignment · Deng et al. · Kuaishou

→

2024.11 arXiv 2411.18814 混合召回 Semantic ID

LIGER：融合生成式与稠密检索的序列推荐

Unifying Generative and Dense Retrieval for Sequential Recommendation · Liu Yang, Fabian Paischer et al. · Meta AI

系统比较生成式召回（TIGER）与稠密召回在学术 benchmark 上的性能差距，发现生成式召回冷启动为零。提出 LIGER 混合方案：用 SID 做候选生成，再补入冷启动 item，以 dense embedding 重排，同时训练 next-token 预测和余弦相似度 loss，兼顾效率与冷启动表现。

→

2023/2024 arXiv 2306.08121 Semantic ID 排序

SemID：将 Semantic ID 带入 YouTube 亿级排序模型

Better Generalization with Semantic IDs · Singh, Vu et al. · Google DeepMind

随机哈希 video ID 制约长尾和冷启动泛化；SemID 提出 N-gram 和 SPM 两种子词 embedding 方案，在 YouTube ~1 亿视频语料上验证 SPM-SID 同时超越随机哈希基线的整体 CTR AUC 和冷启动 CTR/1D AUC，serving cost 不增加。

→

2023 NeurIPS 2023 · arXiv 2305.05065 生成式推荐 Semantic ID

TIGER：用生成式检索重构推荐系统召回阶段

Recommender Systems with Generative Retrieval · Rajput, Mehta et al. · Google DeepMind

首次将生成式检索（Generative Retrieval）引入推荐系统：用 RQ-VAE 为 item 生成层级 Semantic ID，Transformer Encoder-Decoder 自回归预测下一个 item 的 Semantic ID。在 Amazon 三数据集全面超越 SASRec/BERT4Rec，原生支持冷启动和多样性调节。

→

🔧 Agent 工程 2026 新概念 AGENTS.md Generator-Evaluator

Harness Engineering：让 AI Agent 不再犯同一个错误

Mitchell Hashimoto 命名 · OpenAI / Anthropic / Martin Fowler 相继跟进 · 2026 年 2 月爆火

核心思想：每次发现 Agent 犯错，就工程化一个解决方案让它永远不再犯。两种形式：AGENTS.md 错误记录文件 + 专用验证脚本工具。深度解析 Anthropic 三 Agent 架构（Planner + Generator + Evaluator），Sprint 合同机制，Playwright MCP 实时点击验证，以及与 Context Engineering 的关系。附效果对比：单 Agent $9/20 分钟（功能损坏）vs 三 Agent $200/6 小时（16 特性完整可玩）。

→

🤖 AI 系统 Agent 技术规划/记忆/工具

AI Agent 关键技术全景：规划 / 记忆 / 工具 / 反思 / 多 Agent

从「LLM 作为大脑」到自主完成复杂任务 · ReAct · RAG · MCP · Multi-Agent 协作 · 2025 现状

全面梳理 AI Agent 核心技术栈：规划（CoT/ToT/ReAct/Prompt Chaining）；记忆（短期 Context Window、长期 RAG 向量数据库、结构化存储）；工具调用（Function Calling/MCP/Computer Use）；反思机制（Reflexion/Evaluator-Optimizer）；多 Agent 协作（Orchestrator-Workers/Routing/Parallelization）；以及 2025 年新技术 MCP 协议和 Computer Use 能力详解。附挑战与落地建议。

→

🔍 RAG Agent 技术检索增强

RAG 检索增强生成：从离线向量化到在线检索全链路

Embedding · FAISS/HNSW · Dense/Sparse/Hybrid 检索 · Reranker · Chunking 策略 · 完整工程实践

完整的 RAG 技术链路：Embedding 模型原理与选型（BGE/text-embedding-3）；五种 Chunking 策略对比（固定/重叠/语义/Parent-Child）；IVF 和 HNSW 向量索引原理图解；Dense/Sparse/Hybrid 三种检索策略 + RRF 合并；Reranker 两阶段架构（Bi-Encoder vs Cross-Encoder）；完整在线离线工程代码；进阶技巧 HyDE/Multi-Query/Self-RAG；RAGAS 评估框架。

→

🧠 推理 Agent 技术 ReAct / CoT

ReAct / Agent 推理框架：从 CoT 到 ReAct 到 Tree-of-Thought

CoT · ReAct 三原语 · Reflexion · Plan-Execute · ToT · 完整 Prompt 模板 · 框架选型

推理框架全景：CoT（Standard/Zero-Shot）的局限性分析；ReAct 的 Thought/Action/Observation 三原语 + 完整生产 Prompt 模板 + 代码循环实现；Reflexion 失败反思记忆；Plan-Execute 两阶段架构；LATS 蒙特卡洛树搜索；Tree-of-Thought 四组件（分解/生成/评估/搜索）；六种框架对比选型表；工程实现（防止无限循环/上下文压缩/解析鲁棒性）。

→

🔧 工具调用 Agent 技术 MCP 协议

Function Calling & MCP：工具调用底层机制全解

JSON Schema 工具定义 · 并行调用 · 错误处理 · MCP 三层架构 · stdio/SSE Transport · 安全防御

工具调用完整技术栈：JSON Schema 工具定义规范与 Description 写法技巧；Function Calling 四轮对话全流程图解；并行工具调用（asyncio 并发执行）；三种错误类型处理；MCP 协议定位（USB-C 类比）；Host/Client/Server 三层架构图；MCP 三类能力（Tools/Resources/Prompts）；stdio vs SSE Transport 对比；JSON-RPC 2.0 消息格式；Prompt Injection 防御机制；Function Calling vs MCP 选型建议。

→

🖥️ 硬件基础背景知识 GPU 体系结构

GPU 硬件基础：CPU / GPU / 寄存器 / SRAM / HBM / PCIe 从零讲清楚

FlashAttention、KV Cache 量化等 LLM 优化论文的硬件基础 · 五层存储层级 · Warp & 内存墙 · A100 关键数字速查

从零搭建 GPU 硬件认知：五层存储层级（寄存器/SRAM/HBM/DRAM/SSD）的容量与带宽对比；SM/CUDA Core/Tensor Core 各自职责；Warp 是什么，warp divergence 为何让 RabitQ 慢 174 万倍；内存墙：312 TFLOPS 算力 vs 2 TB/s 带宽的差距；PCIe/NVLink 通信带宽与多 GPU 训练；以及「计算本身不消耗内存」的真正含义。

→

⚡ 推理优化 LLM 基础推理效率

LLM 推理优化：KV Cache · vLLM · TurboQuant · Flash Attention

让大模型跑得更快、占更少内存的四项核心技术，每个都有具体数字 + 局限性分析

持续更新的推理优化笔记。KV Cache：为什么缓存 K/V 而不是 Q，MQA/GQA 如何压缩显存；vLLM/PagedAttention：分页虚拟内存消灭碎片，利用率 20%→90%+；TurboQuant：随机旋转 + 向量量化把 K/V 压到 2/4 bit；FlashAttention v1/v2/v3：Tiling + Online Softmax，HBM IO 从 O(N²) 降到 O(N)，训练推理均可用。四项技术可同时叠加。

→

Semantic ID & Item 表征

如何为 item 生成有语义的离散 token（RQ-VAE、RK-Means、协同感知量化、端到端 tokenizer 等）

2025 KDD 2025 排序 Scaling · 稀疏冻结

GPSD：生成预训练稀疏参数 → 冻结 → 判别微调，消除双过拟合

Alibaba / AliExpress

ST&SF（稀疏迁移 + 冻结）策略将生成预训练的高质量稀疏参数迁移到判别模型，冻结后消除两类过拟合，实现 13K→0.3B 密集参数的 Scaling Law，跨架构（HSTU/Wukong）均有效。

→

2025 KDD 2025 SID concat pooling

LiGR：SID concat pooling 替代 Post ID，参数量压缩 4×

RQ-VAE 生成 3 层 SID，Prefix-Ngram concat（而非 sum）聚合各层 embedding，替代 Post ID（词汇量亿级）使参数量从 5.4B→1.3B，Long Dwell AUC +0.40%（vs Post ID），冷启动显著改善。

→

2025 arXiv 2508.10584 双对齐 · 去偏 CF · 快手

DAS：一阶段双侧 RQ-VAE + CF 去偏 + 多视图对比对齐

快手广告团队

UISM 双侧量化 + ICDM 流行度/从众偏差去除 + MDAM 三种对比对齐（u2i/u2u-i2i/co-occurrence），联合训练最大化 SID 与 CF 信号互信息，eCPM +3.48%，冷启动 +8.98%。

→

2025 arXiv 2504.02137 Prefix-Ngram · FLOPs 正则

Prefix-Ngram：Meta 广告 RQ-VAE + FLOPs 正则 + 层次稀疏特征

Meta Ads

FLOPs Regularizer（基于 codebook 使用频次）防止 codebook collapse，SID 以 1/2/3-gram 前缀展开为层次化稀疏特征接入 DLRM，冷启动 + 整体 CTR 双正向。

→

2025 arXiv 2506.16698 序列 + 交叉特征 · Meta Instagram

SIDE：SID 序列历史 + 交叉匹配计数，全链路排序覆盖

Meta Instagram

在 Prefix-Ngram 基础上增加用户 SID 历史序列特征和 SID 交叉计数特征，覆盖排序全链路；冷启动场景收益最显著，Instagram 生产验证正向，工程实现简洁。

→

2026 arXiv 2601.22694 协同感知 Token · 混合 Gen+Mem

TRM：协同感知量化 + 混合 Tokenization，服务大排序 Scaling

ByteDance

将用户交互信号引入 token 生成过程（协同感知量化），混合生成式（Gen）和记忆式（Mem）表示让 token 兼顾语义泛化和高频 item 记忆，与大排序模型联合训练。

→

2025.07 arXiv 2507.22224 RK-Means · 消融对比

GRID：RK-Means vs RQ-VAE 系统性消融

Snap Inc.

对比 RQ-VAE 和 RK-Means（Residual K-Means）等多种 SID 生成方案，发现 RK-Means 在多数情况下优于 RQ-VAE；同时验证了 codebook 层数、codebook 大小等关键超参的影响。

→

2025 SIGIR 2025 多 Tokenizer · 长尾优化

MTGRec：相邻 epoch checkpoint 作为多语义相关 Tokenizer

RUC + Huawei

取 RQ-VAE 训练过程中相邻 epoch 的多个 checkpoint 作为多个 tokenizer，每个 item 拥有多个语义相近但有细微差异的 SID，大幅扩增训练数据，特别改善长尾 item 的 token 曝光频次。

→

2025 SIGIR 2025 端到端可学习 Tokenizer

ETEGRec：联合优化 RQ-VAE Tokenizer 与推荐器

RUC + Kuaishou

打破 tokenizer 预训练后冻结的惯例，通过双对齐 loss（SIA + PSA）让 RQ-VAE 感知推荐优化目标，token 分配随训练动态调整，更好适配推荐任务。

→

2024.11 arXiv 2411.18814 SID + 文本表征

LIGER：SID 输入 + dense embedding 输出的混合架构

Meta AI

将 SID 和文本 embedding 拼接作为输入，同时输出 dense embedding 用于相似度检索和 SID 预测，解决纯 SID 生成方案冷启动为零的问题。

→

2023/2024 arXiv 2306.08121 N-gram / SPM · 排序侧 SID

SemID：N-gram 与 SPM 子词 embedding 用于亿级排序模型

Google DeepMind

与生成式召回不同，SemID 将 SID 用于排序侧 embedding 替换。对比 N-gram tokenization 与 Sentence-Piece Model（SPM），SPM-SID 在 CTR AUC 和冷启动 AUC 上均优于随机哈希 ID，serving cost 不变。

→

2023 NeurIPS 2023 RQ-VAE · 层级 SID

TIGER：RQ-VAE 生成层级 Semantic ID

Google DeepMind

奠基工作。用 RQ-VAE 为每个 item 生成 m 级 Semantic ID（每级 codebook 大小 256），共享 item 前缀隐含语义层级关系，支持冷启动 item 直接用内容 embedding 映射到 SID。

→

生成式推荐与检索

用自回归/seq2seq 直接生成 item ID，替代传统双塔 + ANN 召回范式；含工业落地与方法融合

2025.07 arXiv 2507.22224 框架 & 消融

GRID：生成式推荐实践手册，Snap 开源可复现框架

Generative Recommendation with Semantic IDs: A Practitioner's Handbook · Snap Inc.

针对 GR 方法的各设计选择（SID 生成方案、模型架构、训练目标等）进行系统消融。关键结论：RK-Means 优于 RQ-VAE；Encoder-Decoder 优于 Decoder-only；大 codebook + 多层 SID 通常更好。开源完整可复现代码，便于研究者在此基础上快速迭代。

→

2025 SIGIR 2025 · arXiv 2504.04400 多 Tokenizer 预训练

MTGRec：多 Tokenizer 数据增强 + 课程学习预训练

Pre-training Generative Recommender with Multi-Identifier Item Tokenization · RUC + Huawei

取 RQ-VAE 多个训练 epoch checkpoint 作为 n 个语义相关 tokenizer，一条用户序列扩增为 n 条 token 序列。数据影响力估计（一阶梯度近似）动态调整各 tokenizer 数据采样比例（课程学习预训练），微调时用单一 tokenizer。支持更深 T5（8 层）稳定 scaling；长尾 item 改善尤其显著。

→

2025 SIGIR 2025 · arXiv 2409.05546 端到端 Tokenizer

ETEGRec：端到端联合优化 Item Tokenizer 与推荐器

Generative Recommender with End-to-End Learnable Item Tokenization · RUC + Kuaishou

双 Enc-Dec 架构（RQ-VAE tokenizer + T5 recommender）。序列-物品对齐（SIA）：用 KL 散度拉近 Encoder 序列表示与 item collaborative embedding 在 codebook 空间的分布；偏好-语义对齐（PSA）：用 InfoNCE 拉近 Decoder 第一个隐态与重建 item 语义。交替训练（固定一方优化另一方）保证稳定性。Amazon 2023 三数据集全面优于 TIGER/LETTER。

→

2025.03 arXiv 2503.02453 稀疏-稠密级联百度广告 +3.60%

COBRA：级联 Sparse-Dense 表示，BeamFusion 推理

Sparse Meets Dense · Yang, Ji et al. · Baidu

输入序列中每个 item 用（SID embedding || dense vector）拼接表示；Decoder 先预测 SID 再以 SID 为条件预测 dense vector，形成粗到细两级生成。BeamFusion 将 Beam 分数与 ANN 余弦分数加权融合，控制召回多样性。在 Beauty/Sports/Toys 超越 TIGER 15-24%；百度广告 2 亿日活 A/B：转化 +3.60%，ARPU +4.15%。

→

2025.02 arXiv 2502.18965 端到端单阶段快手主场景 +1.68%

OneRec：工业级单阶段生成推荐，替代三级漏斗

Unifying Retrieve and Rank · Deng et al. · Kuaishou

1B 参数 Encoder-Decoder + MoE，session-wise 生成（一次生成整批 5-10 个视频）替代逐 item 预测。Balanced K-Means 残差量化保证 codebook 均衡；IPA 策略用奖励模型评分自动构造 DPO 偏好对。快手主页线上 A/B：观看时长 +1.68%，人均单次观看时长 +6.56%。

→

2024.11 arXiv 2411.18814 生成式 + 稠密混合

LIGER：融合生成式与稠密检索，解决冷启动难题

Unifying Generative and Dense Retrieval for Sequential Recommendation · Meta AI

分析 TIGER（生成式）与 Dense Retrieval 的性能差距和冷启动问题，提出 LIGER：共用 SID 输入，Decoder 预测 SID，Encoder 输出 dense embedding；推理时生成式召回 K 个候选 + 补入冷启动 item，用 dense embedding 重排。在 Beauty/Sports/Toys/Steam 四数据集取得生成式/稠密最优折中。

→

2023 NeurIPS 2023 · arXiv 2305.05065 开创性工作

TIGER：用生成式检索重构推荐系统召回阶段

Recommender Systems with Generative Retrieval · Rajput, Mehta et al. · Google DeepMind

→

排序模型 Scaling

大参数排序模型的 Scaling Law、MoE、稀疏 embedding 替代方案

2025 KDD 2025 · arXiv 2506.03699 大排序 Scaling · 稀疏冻结

GPSD：生成式预训练 + 稀疏冻结，解锁判别排序 Scaling Law

Scaling Discriminative Recommendation via Generative Pretraining · Alibaba KDD 2025

首次在工业规模验证判别排序 Scaling Law（13K→0.3B 密集参数）；ST&SF（稀疏迁移+冻结）根本消除两类过拟合；跨架构迁移有效（Transformer→HSTU/Wukong）；AliExpress 生产 CTR/CVR 双提升。

→

2025 KDD 2025 · arXiv 2502.03417 生成式排序 · Setwise

LiGR：7 特征超越数百特征，LinkedIn Transformer 排序实践

From Features to Transformers · LinkedIn KDD 2025

Gated skip-connection 解决大模型训练稳定性；Setwise Attention 替代规则多样性；序列长度/层数/嵌入维度同步扩展验证 Scaling Law；DAU +0.27%，Feed 时长 +0.28%。

→

2025 arXiv 2504.02137 排序侧 SID · Meta

Prefix-Ngram：Meta 广告排序层次化 SID 特征方案

Semantic IDs for Large-Scale Recommendation Systems · Meta Ads

FLOPs Regularizer 防止 codebook collapse；Prefix-Ngram 层次化特征 + DLRM 嵌入；冷启动 + 整体 CTR 双提升，Meta 广告生产验证。

→

2025 arXiv 2506.16698 排序全链路 · Instagram

SIDE：SID 推广到排序全栈，序列 + 交叉特征全覆盖

Scaling Item Representations via Semantic IDs · Meta Instagram

用户 SID 历史序列特征 + 候选 SID 交叉计数特征，覆盖 CTR/CVR 全链路，冷启动收益最显著，Instagram 生产正向。

→

2026 arXiv 2601.22694 大排序 · Scaling

TRM：用语义 Token 替代 Item ID，解锁大排序模型的扩展潜力

Farewell to Item IDs · Zhao et al. · ByteDance

传统 item ID embedding table 是 scaling 瓶颈。TRM 以 Semantic Token 替代，判别式+生成式联合训练；线上 CTR AUC +0.65%，稀疏参数减少 33%，模型越大提升越稳定。

→

2023/2024 arXiv 2306.08121 排序侧 SID

SemID：Semantic ID 用于 YouTube 亿级排序，冷启动 + CTR 双提升

Better Generalization with Semantic IDs · Google DeepMind

首次验证 SID 可替代排序侧随机哈希 ID embedding，SPM-SID 在整体 CTR AUC 和冷启动 CTR/1D AUC 双胜，serving cost 不变。

→

序列建模 & 行为理解

SASRec、BERT4Rec、多兴趣建模、长短期行为序列等

暂无解读，敬请期待

LLM × 推荐

用 LLM 做推理、对话推荐、文本特征增强、推荐 instruction tuning 等

暂无解读，敬请期待

多模态推荐

图文 item 理解、视觉 embedding 融合、跨模态对齐等

暂无解读，敬请期待

NLP 基础

Transformer、BERT、预训练语言模型、文本表征等基础工作

暂无解读，敬请期待

系统与工程

训练系统、serving 优化、异构计算、在线学习等工程实践

🤖 AI 系统 Agent 技术规划/记忆/工具

AI Agent 关键技术全景：规划 / 记忆 / 工具 / 反思 / 多 Agent

从「LLM 作为大脑」到自主完成复杂任务 · ReAct · RAG · MCP · Multi-Agent 协作 · 2025 现状

→

🖥️ 硬件基础背景知识 GPU 体系结构

GPU 硬件基础：CPU / GPU / 寄存器 / SRAM / HBM / PCIe 从零讲清楚

FlashAttention、KV Cache 量化等 LLM 优化论文的硬件基础 · 五层存储层级 · Warp & 内存墙 · A100 关键数字速查

→

学习笔记

LLM 基础技术专题精讲 · 结合实例深度解析

🤖 AI 系统 Agent 技术规划/记忆/工具

AI Agent 关键技术全景：规划 / 记忆 / 工具 / 反思 / 多 Agent

从「LLM 作为大脑」到自主完成复杂任务 · ReAct · RAG · MCP · Multi-Agent 协作 · 2025 现状

→

🔍 RAG Agent 技术检索增强

RAG 检索增强生成：从离线向量化到在线检索全链路

Embedding · FAISS/HNSW · Dense/Sparse/Hybrid 检索 · Reranker · Chunking 策略 · 完整工程实践

完整的 RAG 技术链路：Embedding 模型原理与选型；五种 Chunking 策略对比；IVF 和 HNSW 向量索引原理图解；Dense/Sparse/Hybrid 检索 + RRF 合并；Reranker 两阶段精排；完整工程代码；进阶技巧 HyDE/Multi-Query；RAGAS 评估框架。

→

🧠 推理 Agent 技术 ReAct / CoT

ReAct / Agent 推理框架：从 CoT 到 ReAct 到 Tree-of-Thought

CoT · ReAct 三原语 · Reflexion · Plan-Execute · ToT · 完整 Prompt 模板 · 框架选型

推理框架全景：CoT 局限性；ReAct 三原语 + 生产 Prompt 模板；Reflexion 失败反思；Plan-Execute 两阶段架构；Tree-of-Thought 四组件；六种框架对比选型表；防无限循环等工程实现要点。

→

🔧 工具调用 Agent 技术 MCP 协议

Function Calling & MCP：工具调用底层机制全解

JSON Schema 工具定义 · 并行调用 · 错误处理 · MCP 三层架构 · stdio/SSE Transport · 安全防御

工具调用完整技术栈：JSON Schema 规范；Function Calling 四轮对话流程；并行调用处理；MCP 协议定位（USB-C 类比）；Host/Client/Server 三层架构；Tools/Resources/Prompts 三类能力；stdio vs SSE 对比；Prompt Injection 防御；选型建议。

→

🖥️ 硬件基础背景知识 GPU 体系结构

GPU 硬件基础：CPU / GPU / 寄存器 / SRAM / HBM / PCIe 从零讲清楚

FlashAttention、KV Cache 量化等 LLM 优化论文的硬件基础 · 五层存储层级 · Warp & 内存墙 · A100 关键数字速查

从零搭建 GPU 硬件认知：五层存储层级；SM/CUDA Core/Tensor Core；Warp divergence；内存墙；PCIe/NVLink；寄存器与计算的关系。

→

⚡ 推理优化 LLM 基础推理效率

LLM 推理优化：KV Cache · Flash Attention · 量化

让大模型跑得更快、占更少内存的核心技术，每个都有具体数字 + 局限性分析

持续更新的推理优化笔记。KV Cache：为什么缓存 K/V 而不是 Q，MQA / GQA 如何压缩显存（LLaMA-2 70B 案例）；Flash Attention：标准 Attention 的 HBM IO 瓶颈，Tiling + Online Softmax 原理，v1/v2/v3 各版本改进，为什么训练时显存节省 10-20×；后续会继续加量化（INT8/INT4/FP8）、投机解码、PagedAttention 等内容。

→

📝 学习笔记 LLM 基础 Tokenizer

LLM Tokenizer 方法总结：BPE / WordPiece / Unigram / SentencePiece

从字符到 Token 的完整演化路径，含每种方法的算法细节、对比与工业应用

覆盖 BPE（GPT 系列）、WordPiece（BERT）、Unigram Language Model（T5/XLNet）、SentencePiece（统一框架）、Byte-level BPE（GPT-2/LLaMA）、tiktoken 等主流方案。每种方法都有具体示例演示词表构建过程，并附 vocab size 选择、多语言处理、OOV 等工程实践经验。

→

📝 学习笔记 LLM 基础强化学习

LLM 中的强化学习方法：RLHF / PPO / DPO / GRPO / RLAIF 全面解析

从 InstructGPT 到 DeepSeek-R1，覆盖 LLM 对齐训练的所有主流 RL 范式

从 MDP 基础讲起，详解 RLHF 三阶段流程，PPO 裁剪目标与 KL 惩罚，再到无需参考模型的 DPO / IPO，以及 GRPO（用于 CoT 推理的群体相对策略优化），全程结合「帮我写邮件」「做数学题」等真实例子，每个算法都有直觉理解 + 公式 + 例子三合一。附完整 PyTorch 代码示例。

→

📝 学习笔记行业认知大模型团队

大厂大模型部门：组织结构与技术栈全解析

预训练 / 后训练 / 推理效率 / 评估 / 多模态 / 应用 Agent，每个组在做什么

详细拆解工业级大模型团队的六大职能组：预训练组（Megatron、FlashAttention、Scaling Laws）、后训练对齐组（SFT数据飞轮、RLHF/DPO/GRPO、Red Teaming）、推理效率组（vLLM、量化、投机解码）、评估组、多模态组、应用 Agent 组。每组配有技术栈、日常工作案例和 KPI，并附 LLM × 推荐系统融合趋势分析。

→

📝 学习笔记 LLM 基础训练流水线

大模型完整训练流水线：预训练 → SFT → RLHF 深度解析

一篇讲清楚「大模型从随机初始化到会聊天的 AI」的完整教程

专门深挖 SFT 和 RLHF 的本质。SFT：「监督微调 = 看标注员示范学格式，损失函数只计算回答部分，质量远比数量重要」。RLHF：「奖励模型如何从偏好排序中训练，PPO 四个模型同时运行，KL 惩罚防止 Reward Hacking」。附 DPO / GRPO 与 PPO 的对比，以及 RLHF 训练崩溃的常见原因和调参建议。

→

📐 数学原理 LLM 基础数学工具

LLM 背后的数学原理：Sigmoid · MLE · KL 散度 · 交叉熵 · Softmax

理解 LLM 训练中反复出现的数学工具，每个都有完整推导 + 直觉

持续更新的数学笔记。覆盖：Sigmoid 等价变形的完整推导（为什么 eᵃ/(eᵃ+eᵇ) = σ(a-b)）、Bradley-Terry 损失的梯度分析（自适应更新强度）、最大似然估计 MLE 的直觉与 NLL 损失推导、KL 散度的编码代价解释与 RLHF 中的作用、交叉熵=信息熵+KL的三者统一视角、Softmax 温度系数与 top-k/top-p 采样策略。

→