OneTrans 架构拆解（字节） | YelloooBlue Blog 博客

type

Post

status

Published

date

Mar 27, 2026

slug

summary

tags

推荐算法

category

知行合一

icon

password

OneTrans

notion image

(a) 展示了 OneTrans 整体架构. 序列特征 S（蓝色） 与 非序列特征 NS（橙色） 将分别编码为Token，随后占位符 [SEP] 被插入到不同的用户行为序列之间，统一的 Token 序列会被输入到堆叠的 OneTrans 金字塔块（Pyramid Blocks）中，这些金字塔块会逐步缩减 Token 的长度，直到其与非序列（NS）Token 的数量相匹配。

(b) OneTrans Block: 这是一个采用前置归一化（pre-norm）的因果 Transformer 块，包含 RMSNorm（均方根归一化）、混合因果注意力（Mixed Causal Attention）和混合前馈神经网络（Mixed FFN）

(c) 混合参数化：所有的序列（S）Token 共享同一套 Q/K/V 和 FFN 权重，而每一个非序列（NS）Token 则拥有其专属（token-specific）的独立 Q/K/V 和 FFN 参数

特征处理

notion image

序列特征 S-tokens（蓝色）： 代表用户动态的多行为序列（如点击、加入购物车、购买等）。不同行为的原始特征维度可能不同，OneTrans 会通过各自的 MLP 将它们统一映射为维度 d 的向量。

多行为序列的原始输入：
利用各自的 MLP 将不同序列映射到统一维度：

非序列特征 NS-tokens（橙色）： 代表静态的用户画像、物品属性和上下文信息等。OneTrans 倾向于使用 Auto-Split Tokenizer（自动分割分词器），即将所有非序列特征拼接后通过一个多层感知机（MLP）进行统一投影，然后分割成固定数量（LNS）且维度均为 d 的 Token。实验证明，这种让模型自动划分子空间的方式比人工分组更有效。

占位符 [SEP] ： 当处理用户的多种行为序列时，OneTrans 采用了一种合并机制。如果按照“非时间戳感知（Timestamp-agnostic）”的策略，模型会根据行为的意图强弱（例如：购买 → 加入购物车 → 点击）将不同类型的序列拼接在一起。为了让模型能够清晰地识别不同行为序列的边界，在不同序列之间会插入可学习的 [SEP] 占位符。消融实验证明，这个 [SEP] 占位符能有效帮助模型区分序列，提升预测性能。

统一序列构建： 最终，所有的 S-tokens（包含 [SEP]）和 NS-tokens 被拼接在一起，形成一条完整的初始 Token 序列，统一输入到 OneTrans 网络中。

金字塔

notion image

完整的 Token 序列进入 OneTrans 堆叠的金字塔块后，会经历一个漏斗式的信息提炼过程。

缩减的运作机制： 序列数据具有近期行为更重要的“时效性（recency）”特征。OneTrans 利用了这一点，在每一层的 Transformer 计算中，所有的 Token 都会参与 Key（键）和 Value（值）的计算，但发出 Query（查询）的 S-tokens 数量会逐层减少。具体来说，模型每一层都会丢弃（剪枝）掉一部分较早的序列 Query Token，使得传递到下一层的 S-tokens 越来越短。

在金字塔逐层缩减中，仅有索引处于保留集合中的尾部 Token 会继续发出 Query 进行查询：这使得序列信息的查询范围逐层变短，但它们仍能基于完整的历史序列计算 Key 和 Value 进行交互提炼。

直到与 NS-tokens 匹配： 随着网络层数的加深，长长的行为序列被不断截断和浓缩。通过统一的因果掩码（Causal Mask），位于序列后方的 NS-tokens 可以全程关注（attend）到前面所有的序列历史。最终，冗长的行为序列信息被逐步提炼，并完全汇聚、浓缩到数量固定的非序列（NS）Tokens 中，由这些富含高阶交互信息的 NS-Tokens 输出给任务头（如 CTR/CVR 预测）进行最终打分。

💡

将长序列逐步缩减匹配到 NS-tokens 的设计，为工业级推荐带来了两个巨大的好处：

渐进式的信息提炼（Progressive Distillation）： 用户的长篇行为历史往往包含大量噪声。金字塔结构迫使模型在逐层计算中，将注意力集中在最核心、最具信息量的事件上，把动态序列的精髓高效地“过滤”并融入到静态的上下文（NS-tokens）中。

极大的计算与显存优化（Compute Efficiency）： 在传统的 Transformer 中，计算复杂度与 Token 长度的平方成正比。通过逐层缩减发出 Query 的 S-tokens，注意力机制（Attention）的计算开销从 O(L2) 大幅下降到了 O(LL′d)（L′ 为缩减后的长度），前馈神经网络（FFN）的计算量也呈线性减少。这使得模型在不损失精度的前提下，大幅降低了 FLOPs（浮点运算次数）和显存占用，从而满足了工业界严苛的延迟要求

OneTrans Block

当这些 Token 进入模型内部，它们会经过 Transformer 的核心计算单元。为了适应推荐系统的异构数据，OneTrans 对标准 Transformer Block 进行了针对性改造：

RMSNorm 预归一化： 由于 NS-tokens 和 S-tokens 的数值分布差异极大，模型使用 RMSNorm 作为前置归一化（pre-norm），以对齐不同 Token 的尺度，保证训练的稳定性。

混合因果注意力机制 (Mixed Causal Attention)： 推荐系统的 Token 具有高度异构性。因此，OneTrans 采用混合参数化：数量庞大且同构的 S-tokens 共享同一套 Q/K/V 投影权重；而每一个 NS-token 则拥有自己专属的独立 Q/K/V 权重。同时，引入统一因果掩码（Causal Mask），强制前面的 Token 只能看到历史，而后方的 NS-tokens 可以全程关注到前面的所有 S-tokens。

notion image

混合前馈神经网络 (Mixed FFN)： 同样地，S-tokens 共享一套 FFN 参数，而每个 NS-token 使用专属的 FFN 进行独立的特征非线性变换。

notion image

notion image

系统级与工程化优化 (System & Deployment Optimization)

跳出纯算法结构，要让这个庞然大物在毫秒级的工业延迟要求下运行，OneTrans 直接套用了大语言模型（LLM）的工程优化。

跨请求 KV 缓存 (Cross Request KV Caching)： 在给同一个用户推荐数百个候选物品时，用户的 S-tokens 是不变的。OneTrans 将计算分为两阶段：阶段一仅对 S-tokens 进行一次因果计算并将其 Key/Value 缓存起来；阶段二在面对不同候选物品时，仅计算该物品的 NS-tokens 并复用缓存，极大地降低了重复计算。此外，该缓存还能在用户的不同请求之间实现增量复用。

LLM 算子生态： 全面引入了 FlashAttention-2 进行显存和 I/O 优化，并采用**混合精度训练（BF16/FP16）**与激活重计算技术，打破显存瓶颈。

预测输出与业务扩展 (Task Prediction & Scaling Law)

提炼出饱含高阶交叉信息和序列动态意图的 NS-tokens 后，这些信息会被送入下游的任务塔（Task Tower）中，输出诸如点击率（CTR）或转化率（CVR）的最终预测分。

Scaling Law（扩展定律）： 实验证明，无论增加模型的深度、宽度，还是序列长度，这套统一架构都能保持可预测的对数线性（log-linear）性能增长。

业务产出： 最终在这套架构支撑下，不仅缩短了 3.91% 的端到端延迟，更在实际的线上信息流推荐中，带来了每用户订单数（order/u）提升 4.35%、每用户 GMV 提升 5.68% 的显著业务收益。

HyFormer 架构拆解（字节）

InterFormer 架构拆解（Meta）

InterFormer 架构拆解（Meta）

Author:YelloooBlue
URL:https://tangly1024.com/article/330e32f0-1b7f-802b-ad04-cc78045518cf
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

MixFormer 架构拆解（字节）

Lazy loaded image

HyFormer 架构拆解（字节）

Lazy loaded image

InterFormer 架构拆解（Meta）

Lazy loaded image

RankMixer 架构拆解（字节）

Lazy loaded image

Catalog