OneSearch 是快手首个工业部署的电商搜索端到端生成式框架,通过 RQ-OPQ 层次量化编码(保留商品独特属性)+ 三视图用户行为序列注入(User ID 构建/显式短序列/隐式长序列)+ 多阶段 SFT 与自适应奖励系统,将传统多阶段级联架构(召回-粗排-精排)统一为一个 Transformer encoder-decoder 模型,在快手商城搜索 A/B 测试中实现商品 CTR +1.67%、买家数 +2.40%、订单量 +3.22%,同时将运营成本降低 75.40%、MFU 从 3.26% 提升至 27.32%。
论文:OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search
机构:快手(Kuaishou),电商搜索算法团队
发表:arXiv 2509.03236,2025
1.1 传统多阶段级联架构(MCA)的根本局限
电商搜索系统的目标是:在用户输入搜索词后,从数亿候选商品中,在 1 秒内返回同时满足语义相关性和个性化偏好的商品列表。为此,传统系统普遍采用多阶段级联架构(Multi-stage Cascading Architecture, MCA):
传统 MCA 搜索流程
~10亿商品
(EBR 向量检索)
→ 万级候选
(轻量模型)
→ 千级候选
(复杂模型)
→ 百级结果
MCA 通过逐步收窄候选池,平衡了计算效率和排序精度。但它存在两个根本性缺陷:
缺陷 1:计算碎片化(Fragmented Compute)
绝大多数 serving 资源被消耗在各阶段之间的通信和存储,而非真正的数值计算。每一阶段需要独立的模型服务、特征存储、候选传递——系统越复杂,浪费越严重。
量化表现:快手 MCA 的 MFU(模型 FLOPs 利用率)仅为 3.26%,绝大多数算力被浪费在碎片化的通信开销上。
缺陷 2:优化目标冲突(Objective Collision)
召回阶段追求高召回率(尽量不漏掉相关商品),精排阶段追求高精度(尽量把最好的排最前)。两者目标本质上存在冲突,且精排只能对召回/粗排的幸存者重排——如果用户真正想要的商品在召回阶段就被过滤,后续再好的精排也无能为力。
实验验证:论文发现粗排阶段倾向于聚合高曝光商品(HitRate 高但 MRR 低),而精排只能在此基础上重排,这是 MCA 性能天花板的根源。
1.2 电商搜索场景的独特挑战
与视频推荐(OneRec)不同,电商搜索面临三个额外的核心挑战,导致推荐领域的 GR 方法无法直接迁移:
挑战 1:商品文本噪声严重
商家为了增加曝光,会在商品标题中堆砌大量无关关键词(如"男女通用 学生 成人 老人 礼物 送父母...")。这些语义顺序弱、冗余噪声多的文本会严重误导 SID 的编码质量,导致同类商品的 SID 聚类混乱。
挑战 2:强相关性约束
搜索查询通常只有 2-3 个关键词(如"耐克跑鞋 男 42码"),任何一个属性不匹配都会导致严重的相关性问题。传统基于 SID 的 GR 模型倾向于学习共享的 SID 信息,会丢失每个商品的独特属性(如"42码"这一关键信息),破坏查询-商品的相关性约束。
挑战 3:用户搜索意图隐含
用户输入的搜索词往往非常简短,背后的真实购买意图需要结合用户历史行为来推断。例如同样搜索"跑鞋",一个马拉松选手和一个休闲跑步用户的真实需求完全不同,必须将 query 与用户画像有效融合。
生成式搜索 vs 推荐的根本差异
如 Figure 3 所示:推荐的输入输出都是闭合词汇 item,纯 SID 方法可行;查询建议的输入输出都是开放词汇文本,Transformer 直接生效;但搜索的输入是开放词汇(query 文本),输出是闭合词汇(商品 SID)——这种混合开-闭词汇的特性使得两种方法都不能直接套用。
2.1 KHQE:关键词增强层次量化编码
KHQE(Keyword-enhanced Hierarchical Quantization Encoding)是 OneSearch 的商品/查询表示模块,解决两个核心问题:(a) 商品文本噪声多、属性无序;(b) 普通 RQ-VAE/RQ-Kmeans 会丢失商品的独特属性。它分三步构建 SID:
Step 1:协同-语义对齐表示
首先训练一个对齐编码器,使商品和查询的 embedding 同时反映内容语义和用户行为协同信号。训练数据来自真实用户搜索日志,包含 query-query、item-item、query-item 三类配对(由 ItemCF 和 Swing 挖掘)。
对齐总损失为:
- $\mathcal{L}_{q2q}, \mathcal{L}_{i2i}$:query-query / item-item 对比损失,拉近协同相似 pair 的表示
- $\mathcal{L}_{q2i}$:query-item 对比损失,使 embedding 反映真实业务相关性
- $\mathcal{L}_{\text{rank}}$:margin loss,区分不同行为级别(曝光 / 点击 / 下单)的 query-item pair
- $\mathcal{L}_{\text{rel}}$:相关性校正损失,对相似度阈值附近的样本用 LLM 打分并让 BGE 模型拟合该得分
- $\lambda_i$:各损失的调节权重
Step 2:核心关键词增强
商品文本中充斥大量卖家为刷曝光而堆砌的无关词。KHQE 使用命名实体识别(NER)从快手电商平台中识别 18 类结构化属性(品牌、材质、适用人群、场景等),挖掘过去 1 年的点击 query-item 对作为标注数据,用 Qwen-VL 为每个商品识别对应的核心关键词。
最终查询和商品的增强表示为:
- $e_q, e_i$:查询/商品的原始 BGE 编码向量
- $e_k^i$:第 $i$ 个核心关键词对应的向量(与商品分布对齐)
- $m, n$:查询/商品对应的核心关键词数量
- $e_q^o, e_i^o$:关键词增强后的最终表示,均值融合保证关键词权重不超过原始内容
一个商品的原始标题可能是:「耐克 2024 新款男女通用跑步鞋 学生 情侣 父母礼物 减震防滑 42码 黑色 送礼首选」
没有关键词增强时:BGE 编码器看到的是整段文本,"男女通用"、"礼物"、"情侣"等无关词会稀释"耐克"、"42码"、"跑步"等核心属性的权重,导致该商品被聚类到混合类别下。
关键词增强后:NER 识别出核心属性:品牌=耐克、尺码=42码、类型=跑步鞋、颜色=黑色。这 4 个关键词的向量平均后与原始 embedding 各取 50% 权重,使最终表示中核心属性占主导,编码结果更精准,RQ-Kmeans 聚类时同类商品(同品牌+同功能)会被分配相近的 SID 前缀。
Step 3:RQ-OPQ 混合量化
KHQE 的核心创新:将 RQ-Kmeans(处理层次语义)和 OPQ(处理独特属性的残差)结合使用。
RQ-Kmeans:层次语义 SID(3层)
用残差量化 K-means 对 $e_i^o$ 进行 3 层层次聚类,生成 3 个 SID 码字。CodeBook 配置:(4096, 1024, 512)——前层码本大以覆盖粗粒度类别,后层码本小以区分细节。仅对第 3 层使用 balanced k-means(全层 balanced 会导致层次聚类坍缩)。
OPQ:独特属性 SID(2层)
RQ-Kmeans 量化后的残差向量包含商品独特属性(如"42码"这一信息)。用 OPQ(Optimized Product Quantization)对残差量化,生成 2 个额外码字(256-256)。最终每个商品的完整 SID 长度为 5 层,前 3 层捕获层次语义,后 2 层保留独特属性。
2.2 多视图用户行为序列注入(Mu-Seq)
为了让搜索模型理解用户的真实购买意图,OneSearch 从三个视角将用户历史行为注入模型:
视角 1:行为序列构建的 User ID
传统方法(如 TIGER)用随机哈希为每个用户分配一个固定 ID,导致不同行为偏好的用户可能获得相同 ID,个性化能力极弱。OneSearch 提出用行为序列加权平均来构建 User ID:
- $Seq_{\text{short}} = \{s_1, \ldots, s_m\}$:用户最近点击的 $m$ 个商品
- $Seq_{\text{long}} = \{l_1, \ldots, l_n\}$:用户长期历史行为序列(按时间顺序)
- $\lambda_i, \mu_j$:指数递增权重(越近的行为权重越大),用 $\sqrt{i}$ 代替线性 $i$ 以减缓衰减速度
- $SID_{s_i}$:第 $i$ 个商品的 RQ-OPQ SID 向量
- $\lceil \cdot \rceil$:取整操作,将连续的加权平均转化为离散 SID 表示
- User ID 最终长度为 10(短序列和长序列各贡献 5 个 token)
假设有两个用户,都搜索过"跑鞋":
用户 A(马拉松选手):最近 5 次点击 = [耐克 Zoom X, 专业马拉松鞋垫, 压缩裤, 能量胶, 运动水壶]。这些商品的 SID 加权平均后,User ID 的语义重心在「专业运动装备」聚类附近。
用户 B(休闲跑步者):最近 5 次点击 = [回力帆布鞋, 运动T恤, 健身房会员卡, 瑜伽垫, 耳机]。User ID 的语义重心在「休闲运动生活」聚类附近。
推理时:模型输入两个用户的 User ID + 相同 query "跑鞋",会因为 User ID 不同而生成不同的商品 SID 列表——用户 A 倾向于专业竞技跑鞋,用户 B 倾向于舒适休闲跑鞋。这是随机哈希 ID 无法做到的。
视角 2:显式短期行为序列(Explicit Short Seq)
直接将用户最近的历史查询序列($Seq_{\text{query}}$)和短期点击商品序列($Seq_{\text{short}}$)的 SID 拼接到 prompt 中,作为 encoder 的显式输入。模型可以直接"看到"用户最近在搜什么、点了什么,学习其近期偏好变化。同时使用滑动窗口数据增强(最大窗口 5)生成多个训练样本,帮助模型学习兴趣变化规律。
视角 3:隐式长期行为序列(Implicit Long Seq)
长期历史序列可能包含数千条记录($|Seq_{\text{long}}| \sim 10^3$),无法直接拼接到 prompt 中。OneSearch 设计了一种聚合压缩方式:将每个商品的 RQ-Kmeans 3 层聚类中心向量按层求和,再通过 QFormer 压缩为固定长度的隐式表示。
- $\mathbf{M}_{\text{click}}, \mathbf{M}_{\text{order}}, \mathbf{M}_{\text{RSU}}$:分别为点击/下单/搜索相关行为序列的层级聚合向量
- $\mathbf{Item}_{emb}^{L_k}$:商品在第 $k$ 层 RQ-Kmeans 聚类中心的 embedding
- $\mathbf{Q}$:经 QFormer 压缩后的长期行为隐式表示,维度为 $N_M \times 768$
- $N_M$:QFormer 输出的固定 token 数量
- 三类行为(点击/下单/RSU)的权重不同,隐式反映了不同强度的行为信号
2.3 统一 Encoder-Decoder 架构
OneSearch 基于 BART(或 mT5 / Qwen3)的 encoder-decoder 架构。Encoder 接收用户和查询的所有特征,Decoder 自回归生成商品 SID 列表。
模型的完整输入 $\mathbf{X}_U$ 包含:
OneSearch Encoder 输入构成
(行为序列构建,10 token)
+ Query SID
(历史查询 + 点击商品 SID)
$\mathbf{Q}$(QFormer 压缩)
$\mathcal{U}$
生成 top-K 商品 SID
推理公式:
- $uid$:行为序列构建的用户 ID(10 token)
- $q$:输入查询文本;$SID_q$:查询的 KHQE 编码 SID
- $Seq_q$:用户历史查询序列;$Seq_{\text{short}}$:短期点击商品序列
- $Seq_{\text{long}}^{emb}$:QFormer 压缩后的长期行为隐式向量 $\mathbf{Q}$
- $\mathcal{U}$:用户画像(平台人群标签)
- $\mathcal{I}$:生成的商品 SID 列表(beam search 大小 = 512)
2.4 PARS:偏好感知奖励系统
电商搜索需要同时满足相关性约束(搜"耐克 42 码"不能出现阿迪达斯)和个性化偏好(同样的鞋,不同用户排序不同)。PARS 通过三阶段 SFT + 自适应奖励模型来平衡这两个目标。
三阶段监督微调(Multi-stage SFT)
阶段 1:语义内容对齐
三个子任务:(a) query/item 文本 → SID(文本到 ID 的映射);(b) SID → 原始文本(ID 到文本的逆映射);(c) 文本 → 品类信息(强化相关性)。前两个任务建立 SID ↔ 文本的双向对齐,第三个确保 SID 的品类语义准确。
阶段 2:共现同步
忽略用户特征,只学习 query ↔ item 的内在语义和协同关系。包含:query ↔ item 互相预测,以及 query SID ↔ item SID 的互相预测。使用大规模在线交互语料,学习搜索场景中商品的语义协同关系。
阶段 3:用户个性化建模
加入完整用户信息(User ID + query + $SID_q$ + 短期序列 + 长期序列)作为输入,以目标商品 SID 为标签,指导模型学习个性化的用户-查询-商品匹配。短期序列使用滑动窗口增强(窗口最大 5),生成额外训练样本来学习兴趣演变。
阶段 1(语义对齐):模型学到"query='耐克跑鞋'对应 SID=[142, 37, 89, 201, 55]",以及"SID=[142, 37, 89, ...]的商品是'耐克 Zoom X跑鞋'"。模型此时能在文本和 SID 之间双向翻译,但还不知道用户偏好。
阶段 2(共现同步):模型大量学习"搜了'跑鞋'的用户会点什么商品",内化了查询-商品的协同关系(比如"马拉松鞋"和"跑步鞋"在用户行为上高度相关,应该聚在一起)。
阶段 3(个性化):加入具体用户信息。同一查询"跑鞋",对于历史主要购买专业装备的用户,输出倾向于竞技跑鞋 SID;对于历史购买休闲用品的用户,输出倾向于休闲跑鞋 SID。三个阶段层层递进,让模型逐步具备:理解 SID → 理解商品关系 → 理解用户偏好。
自适应奖励系统(Adaptive Reward System)
PARS 的奖励系统通过两个阶段让模型超越 SFT 学到的分布:
① 用户行为 6 级权重:将用户交互分为 6 个层次,分配基础奖励权重 $\lambda = [2.0, 1.5, 1.0, 0.5, 0.2, 0.0]$:
- Level 1:搜索场景内购买的商品(最强正信号)
- Level 2:推荐场景同品类购买的商品
- Level 3:点击的商品
- Level 4:曝光未点击的商品
- Level 5:同品类未曝光商品
- Level 6:其他品类随机商品(无信号)
② 校准 CTR/CVR,计算自适应奖励:
- $Cnt_{\text{pos}}, Cnt_{\text{clk}}, Cnt_{\text{order}}$:商品的曝光次数、点击次数、下单次数
- $Cnt_T$:综合流量规模的对数归一化,消除"仅曝光一次就点击"导致 CTR=100% 的偏差
- $r(q,i)$:最终调和平均奖励分,同时考虑 CTR 和 CVR,避免偏重其中一项
- $\lambda$:行为等级对应的基础权重($[2.0, 1.5, 1.0, 0.5, 0.2, 0.0]$)
③ Reward Model + List-wise DPO 混合排序:先训练一个三塔 SIM 奖励模型(CTR/CVR/CTCVR 三个 tower + 相关性分 $S_{\text{Rel}}$,权重系数 10 倍以确保相关性约束),用奖励模型对 OneSearch 生成的 beam search 结果重排,收集排序变化样本做 list-wise DPO 训练。DPO 优化目标:
- $\hat{r}_\theta(x_u, i_w)$:语言模型隐式定义的偏好奖励,正样本 $i_w$(点击/升排的商品)应高于负样本 $i_l$
- $\pi_\theta, \pi_{\text{ref}}$:当前模型和参考模型的条件概率,比值体现偏好程度
- $\beta$:KL 散度系数,控制新模型与参考模型的偏离程度
- $rw_\Delta$:正负样本奖励差,差值越小,损失权重越大(鼓励区分细微差异)
3.1 实验设置
数据集
快手商城搜索平台 2025 年 5-8 月用户交互数据(约 10 亿 PV),训练集 90 天,测试集最后 1 天,包含点击和下单行为两类。
评估指标
离线指标:HitRate@K 和 MRR@K(K=350/10),模拟真实 Top-K 召回+排序场景。在线指标:商品 CTR、PV CTR、PV CVR、买家数、订单量(均为相对于在线 MCA 的变化量)。
基线
Online MCA:快手商城搜索线上多阶段级联系统(召回+粗排+精排),包含数千特征和多个独立模型。论文未构建离线 MCA 仿真,直接与线上系统对比,更真实。
实现细节
基座模型:BART-B(线上部署选择,已在快手多个场景验证)。线上实际使用模型参数量至少是 BART-B 的 100 倍(保密)。Beam size = 512,SFT batch = 512,DPO batch = 128,RQ-OPQ 配置:(4096, 1024, 512 | 256, 256)。
3.2 离线性能对比(Table 5)
| 方法 | Order HR@350 | Order MRR@350 | Click HR@350 | Click MRR@350 |
|---|---|---|---|---|
| Online MCA(基线) | 51.74% | 19.26% | 64.40% | 16.89% |
| MCA w/o ranking(仅召回+粗排) | 75.75% | 4.19% | 80.23% | 3.00% |
| OPQ only (8/256) | 19.43% | 9.55% | 22.57% | 7.42% |
| RQ-Kmeans (1024-1024-1024) | 57.39% | 9.12% | 63.63% | 7.46% |
| RQ-Kmeans (4096-1024-512) | 59.58% | 14.29% | 62.49% | 11.82% |
| + keywords | 62.38% | 14.30% | 66.14% | 12.10% |
| + l3 balanced | 63.16% | 13.59% | 68.26% | 11.67% |
| + Adaptive RS | 64.33% | 16.11% | 68.94% | 13.80% |
| RQ-OPQ (2/256) | 65.05% | 15.33% | 68.88% | 12.90% |
| RQ-OPQ (2/256) + Adaptive RS(OneSearch) | 66.46% | 18.38% | 71.06% | 16.33% |
3.3 消融研究
行为序列注入消融(Table 6)
| 消融配置 | Order HR@350 | Order MRR@350 | Click HR@350 | Click MRR@350 |
|---|---|---|---|---|
| OneSearch(完整) | 66.46% | 18.38% | 71.06% | 16.33% |
| w/o User SIDs(改用随机哈希 ID) | -0.94% | -0.37% | -1.72% | -0.36% |
| w/o 短期行为序列($Seq_{\text{short}}$) | -3.43% | -1.53% | -4.15% | -1.32% |
| w/o 隐式长期序列($Seq_{\text{long}}^{emb}$) | -2.26% | -1.01% | -3.00% | -1.05% |
| w/o 滑动窗口增强 | -1.95% | -0.81% | -1.80% | -0.70% |
短期行为序列贡献最大(HR -3.43%~-4.15%),说明近期点击行为是搜索意图推断的最强信号。隐式长期序列次之(HR -2.26%~-3.00%),行为序列构建的 User ID 贡献相对小但不可忽略。滑动窗口增强验证了数据增强对学习兴趣演变的有效性。
RQ-OPQ 配置消融(Table 7)
RQ-OPQ (2/256) 是最优配置。增加 OPQ 层数(4/256)因序列变长和解码复杂度上升,反而使性能下降 2-3%。对全部 embedding 使用 OPQ(4*2/256、4*4/256)效果极差,类似于全层 balanced k-means 导致的层次聚类坍缩——过度量化破坏了层次语义结构,使大量商品被聚集到相同 SID 下。
3.4 在线 A/B 测试(Table 8)
| 方法 | Search PVs | Item CTR | PV CTR | PV CVR | Buyer 数 | Order 数 |
|---|---|---|---|---|---|---|
| MCA w/o ranking | - | -9.97% | - | - | -28.78% | -39.14% |
| OneSearch¹(无 RQ-OPQ 和长序列) | 与 MCA 相当(统计不显著) | |||||
| OneSearch²(完整配置) | - | +1.45% | +1.40% | - | - | - |
| OneSearch²_RM(+奖励模型重排) | +1.10% | +1.67% | +3.14% | +1.78% | +2.40% | +3.22% |
- 纯 OneSearch²(无奖励模型)已在 Item CTR 上超越 Online MCA,证明端到端生成式方法本身的排序能力
- 加入奖励模型重排后(OneSearch²_RM),订单量提升 +3.22%,买家数 +2.40%,在大规模搜索场景中这是显著增量
- "仅召回+粗排"版本的订单量暴跌 -39.14%,间接验证了 OneSearch 的精排能力已达到完整 MCA 水平
3.5 计算效率与工程收益
MFU 提升:3.26% → 27.32%
MCA 的绝大多数算力消耗在各阶段间的通信、存储和候选传递,实际有效计算占比极低(仅 3.26%)。OneSearch 将所有计算集中在一个 Transformer 模型中,MFU 达到 27.32%——接近 LLM 在 H100 上的典型水平(约 40%),相当于以更少的总算力实现了更好的效果。
OPEX 降低 75.40%
消除多个独立模型服务(召回 embedding 服务 + 粗排 + 精排 + 独立相关性模型)及其对应的存储、通信基础设施,OneSearch 的运营成本仅为 MCA 的 24.60%。对于日均数千万 PV 的平台,这是数量级的成本节省。
3.6 人工评估与进一步分析
随机抽取 200 个 query,提取 3200 个 query-item pair,由专家评估三个维度(相关性评级:Good / Fair / Bad):
- 页面优质率(整体用户体验):OneSearch² 提升 +1.03%
- 商品质量(排除假冒、图文不符、价格异常):提升 +2.12%
- 查询-商品相关性:提升 +1.87%(主题和核心关键词均匹配的 Good 比例)
MCA 的困境:对于冷启动 query(用户第一次搜索某个品类)或长尾商品(历史交互数据少),MCA 的召回模型(基于用户历史向量相似性)几乎无法找到相关商品,精排模型因无历史特征而退化为流行度排序。
OneSearch 的优势:论文发现在热门 query(top 频率)OneSearch 相对 MCA 提升 0.37%,普通 query 提升 1.27%,长尾/冷启动 query 提升高达 3.13%。这是因为 OneSearch 的 KHQE 基于内容语义而非协同统计,能通过关键词-语义对齐理解新品类;多阶段 SFT 中的 Co-occurrence 阶段学习了大量 query-item 语义对,具备处理未见过的 query 的能力。
行业维度分析:Top-30 行业中 28 个行业 CTR 上升,平均提升 2.49%,说明 OneSearch 在几乎所有商品类目下都有增益,而非仅在某些垂类有效。
4.1 核心亮点
创新 1:RQ-OPQ 混合编码
RQ-Kmeans(层次语义)+ OPQ(残差独特属性)+ 关键词增强(消除噪声)的组合是 OneSearch 最核心的技术贡献。它解决了 SID 编码的一个本质矛盾:共享 SID 前缀有利于层次语义共享,但会丢失每个商品的独特属性。RQ-OPQ 通过在残差上补充 OPQ 编码同时保留了两者。
创新 2:三视图用户建模
User ID 构建(行为序列加权平均)+ 显式短序列(prompt 文本拼接)+ 隐式长序列(QFormer 压缩)的三层次建模,在不同的信息密度和时效性之间取得平衡。这套框架对推荐场景同样适用,是用户建模的一个通用范式。
创新 3:PARS 两阶段 RL
第一阶段(奖励模型引导)确保模型不离 MCA 分布太远,第二阶段(用户真实交互)突破 MCA 上限。这种"先对齐后超越"的训练策略,是解决端到端 GR 从零训练不稳定问题的实用方案,值得借鉴。
工程价值:效率飞跃
MFU 从 3.26% 到 27.32%,OPEX 降低 75.40%,这不仅是学术成果,更是工业落地的核心说服力。说明端到端 GR 框架不只是效果更好,还在算力利用率上有质的提升,对大规模搜索系统有根本性的 ROI 优势。
4.2 不足与局限
- 商品 SID 需要预计算:RQ-OPQ tokenizer 需要离线构建,大促期间新品爆发会带来 SID 分布漂移(虽然实验显示 CUR/ICR 下降很小,但长期积累效应未充分探讨)。
- 奖励模型依赖 MCA 数据:第一阶段 RL 的奖励模型基于 MCA 系统收集的训练数据,天然存在 MCA 分布偏差,需要第二阶段用户真实交互来矫正,增加了训练管道复杂度。
- beam search 搜索空间大:5 层 SID(3层 RQ-Kmeans + 2层 OPQ)的 beam size=512 解码,计算开销远高于简单的 3 层 SID,序列长度和解码速度的 trade-off 需要持续优化。
- 跨场景泛化:论文部署在快手商城搜索/详情页/首页三个场景,但三个场景的用户行为分布差异显著(首页偏浏览、商城偏意图购买),OneSearch 是否需要针对不同场景单独训练未详细讨论。
4.3 启发与对比
OneSearch 是快手首个工业部署的电商搜索端到端生成式框架,通过 RQ-OPQ 层次量化编码(保留商品独特属性)+ 三视图用户行为序列注入(User ID 构建/显式短序列/隐式长序列)+ 多阶段 SFT 与自适应奖励系统,将传统多阶段级联架构(召回-粗排-精排)统一为一个 Transformer encoder-decoder 模型,在快手商城搜索 A/B 测试中实现商品 CTR +1.67%、买家数 +2.40%、订单量 +3.22%,同时将运营成本降低 75.40%、MFU 从 3.26% 提升至 27.32%。