type
Post
status
Published
date
Mar 27, 2026
slug
summary
tags
推荐算法
category
知行合一
icon
password
OneTrans

- (a) 展示了 OneTrans 整体架构. 序列特征 S(蓝色) 与 非序列特征 NS(橙色) 将分别编码为Token,随后 占位符 [SEP] 被插入到不同的用户行为序列之间,统一的 Token 序列会被输入到堆叠的 OneTrans 金字塔块(Pyramid Blocks)中,这些金字塔块会逐步缩减 Token 的长度,直到其与非序列(NS)Token 的数量相匹配。
- (b) OneTrans Block: 这是一个采用前置归一化(pre-norm)的因果 Transformer 块,包含 RMSNorm(均方根归一化)、混合因果注意力(Mixed Causal Attention)和混合前馈神经网络(Mixed FFN)
- (c) 混合参数化: 所有的序列(S)Token 共享同一套 Q/K/V 和 FFN 权重,而每一个非序列(NS)Token 则拥有其专属(token-specific)的独立 Q/K/V 和 FFN 参数
特征处理

- 序列特征 S-tokens(蓝色): 代表用户动态的多行为序列(如点击、加入购物车、购买等)。不同行为的原始特征维度可能不同,OneTrans 会通过各自的 MLP 将它们统一映射为维度 d 的向量。
- 多行为序列的原始输入:
- 利用各自的 MLP 将不同序列映射到统一维度 :
- 非序列特征 NS-tokens(橙色): 代表静态的用户画像、物品属性和上下文信息等。OneTrans 倾向于使用 Auto-Split Tokenizer(自动分割分词器),即将所有非序列特征拼接后通过一个多层感知机(MLP)进行统一投影,然后分割成固定数量(LNS)且维度均为 d 的 Token。实验证明,这种让模型自动划分子空间的方式比人工分组更有效。
- 占位符 [SEP] : 当处理用户的多种行为序列时,OneTrans 采用了一种合并机制。如果按照“非时间戳感知(Timestamp-agnostic)”的策略,模型会根据行为的意图强弱(例如:购买 → 加入购物车 → 点击)将不同类型的序列拼接在一起。为了让模型能够清晰地识别不同行为序列的边界,在不同序列之间会插入可学习的 [SEP] 占位符。消融实验证明,这个
[SEP]占位符能有效帮助模型区分序列,提升预测性能。
- 统一序列构建: 最终,所有的 S-tokens(包含
[SEP])和 NS-tokens 被拼接在一起,形成一条完整的初始 Token 序列,统一输入到 OneTrans 网络中。
金字塔

完整的 Token 序列进入 OneTrans 堆叠的金字塔块后,会经历一个漏斗式的信息提炼过程。
- 缩减的运作机制: 序列数据具有近期行为更重要的“时效性(recency)”特征。OneTrans 利用了这一点,在每一层的 Transformer 计算中,所有的 Token 都会参与 Key(键)和 Value(值)的计算,但发出 Query(查询)的 S-tokens 数量会逐层减少。具体来说,模型每一层都会丢弃(剪枝)掉一部分较早的序列 Query Token,使得传递到下一层的 S-tokens 越来越短。
在金字塔逐层缩减中,仅有索引处于保留集合 中的尾部 Token 会继续发出 Query 进行查询:
这使得序列信息的查询范围逐层变短,但它们仍能基于完整的历史序列计算 Key 和 Value 进行交互提炼。
- 直到与 NS-tokens 匹配: 随着网络层数的加深,长长的行为序列被不断截断和浓缩。通过统一的因果掩码(Causal Mask),位于序列后方的 NS-tokens 可以全程关注(attend)到前面所有的序列历史。最终,冗长的行为序列信息被逐步提炼,并完全汇聚、浓缩到数量固定的非序列(NS)Tokens 中,由这些富含高阶交互信息的 NS-Tokens 输出给任务头(如 CTR/CVR 预测)进行最终打分。
将长序列逐步缩减匹配到 NS-tokens 的设计,为工业级推荐带来了两个巨大的好处:
- 渐进式的信息提炼(Progressive Distillation): 用户的长篇行为历史往往包含大量噪声。金字塔结构迫使模型在逐层计算中,将注意力集中在最核心、最具信息量的事件上,把动态序列的精髓高效地“过滤”并融入到静态的上下文(NS-tokens)中。
- 极大的计算与显存优化(Compute Efficiency): 在传统的 Transformer 中,计算复杂度与 Token 长度的平方成正比。通过逐层缩减发出 Query 的 S-tokens,注意力机制(Attention)的计算开销从 O(L2) 大幅下降到了 O(LL′d)(L′ 为缩减后的长度),前馈神经网络(FFN)的计算量也呈线性减少。这使得模型在不损失精度的前提下,大幅降低了 FLOPs(浮点运算次数)和显存占用,从而满足了工业界严苛的延迟要求
OneTrans Block
当这些 Token 进入模型内部,它们会经过 Transformer 的核心计算单元。为了适应推荐系统的异构数据,OneTrans 对标准 Transformer Block 进行了针对性改造:
- RMSNorm 预归一化: 由于 NS-tokens 和 S-tokens 的数值分布差异极大,模型使用 RMSNorm 作为前置归一化(pre-norm),以对齐不同 Token 的尺度,保证训练的稳定性。
- 混合因果注意力机制 (Mixed Causal Attention): 推荐系统的 Token 具有高度异构性。因此,OneTrans 采用混合参数化:数量庞大且同构的 S-tokens 共享同一套 Q/K/V 投影权重;而每一个 NS-token 则拥有自己专属的独立 Q/K/V 权重。同时,引入统一因果掩码(Causal Mask),强制前面的 Token 只能看到历史,而后方的 NS-tokens 可以全程关注到前面的所有 S-tokens。

- 混合前馈神经网络 (Mixed FFN): 同样地,S-tokens 共享一套 FFN 参数,而每个 NS-token 使用专属的 FFN 进行独立的特征非线性变换。


系统级与工程化优化 (System & Deployment Optimization)
跳出纯算法结构,要让这个庞然大物在毫秒级的工业延迟要求下运行,OneTrans 直接套用了大语言模型(LLM)的工程优化。
- 跨请求 KV 缓存 (Cross Request KV Caching): 在给同一个用户推荐数百个候选物品时,用户的 S-tokens 是不变的。OneTrans 将计算分为两阶段:阶段一仅对 S-tokens 进行一次因果计算并将其 Key/Value 缓存起来;阶段二在面对不同候选物品时,仅计算该物品的 NS-tokens 并复用缓存,极大地降低了重复计算。此外,该缓存还能在用户的不同请求之间实现增量复用。
- LLM 算子生态: 全面引入了 FlashAttention-2 进行显存和 I/O 优化,并采用**混合精度训练(BF16/FP16)**与激活重计算技术,打破显存瓶颈。
预测输出与业务扩展 (Task Prediction & Scaling Law)
提炼出饱含高阶交叉信息和序列动态意图的 NS-tokens 后,这些信息会被送入下游的任务塔(Task Tower)中,输出诸如点击率(CTR)或转化率(CVR)的最终预测分。
- Scaling Law(扩展定律): 实验证明,无论增加模型的深度、宽度,还是序列长度,这套统一架构都能保持可预测的对数线性(log-linear)性能增长。
- 业务产出: 最终在这套架构支撑下,不仅缩短了 3.91% 的端到端延迟,更在实际的线上信息流推荐中,带来了每用户订单数(order/u)提升 4.35%、每用户 GMV 提升 5.68% 的显著业务收益。
- Author:YelloooBlue
- URL:https://tangly1024.com/article/330e32f0-1b7f-802b-ad04-cc78045518cf
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!


