用以促学

笔记分享

blog.yelloooblue.com

全新装修

现由 NotionNext 4.0 托管

远程服务器Codex联网与登录认证SOP

个人新Mac配置SOP

MixFormer 架构拆解（字节）

HyFormer 架构拆解（字节）

OneTrans 架构拆解（字节）

InterFormer 架构拆解（Meta）

RankMixer 架构拆解（字节）

平常我们在复现论文、搭建模型时，经常会遇到多层感知机（MLP）。很多时候我们只是照搬代码，却很少思考：MLP的结构是怎么设计的？各层顺序有什么讲究？超参数该如何确定？又该如何根据自身任务场景优化模型、判断某一层是否必要？今天就结合一个具体的PyTorch MLP示例，一步步拆解从设计、调参到优化的全流程。

如何从0开始设计一个MLP

Embedding 的终点是 Token 吗？RQ-KMeans 与推荐系统的新范式

本文按照激活函数的发展脉络，对深度学习中常用的激活函数进行了系统整理，涵盖其数学公式、取值范围、核心特点、PyTorch公式级实现代码、适用场景、出现背景（解决的具体问题）以及计算复杂度和参数情况等信息。通过这种方式，可以从工程和理论两个角度快速理解不同激活函数的设计动机与应用差异，帮助在实际模型设计（如推荐系统、CV、LLM 等）中进行合理选型。

机器学习常用激活函数及其选型

在机器学习与深度学习实践中，损失函数（Loss Function）是连接模型预测与优化目标的核心组件，它定义了模型“什么样的预测是好的”。不同任务（如回归、分类、排序或表征学习）对应的损失函数形式和优化目标也各不相同，因此合理选择损失函数往往对模型效果具有决定性影响。本文整理了工程与论文中常见的损失函数，并按照回归、分类（Pointwise）、排序（Pairwise/Listwise）以及表征学习等典型任务场景进行分类，总结其数学形式、核心思想和适用条件，帮助读者在实际建模与系统设计中快速理解各类损失函数的作用及选型依据。

机器学习常用损失函数及其选型

机器学习常用优化器及其选型

在推荐系统领域，我们长期围绕 CTR、CVR、GMV 等目标优化排序与召回，但在广告、优惠券、Push 等营销干预场景中，传统预测模型只能判断用户是否会转化，无法区分「自然转化」与「干预带来的增量转化」，容易造成预算浪费与用户体验损耗。Uplift 建模（增益模型）作为「因果推断」在营销算法的核心落地方向，精准聚焦个体干预增量效应，帮我们定位仅因营销触达才转化的高价值用户、规避反效果人群，实现从「相关性预测」到「因果决策」的能力升级，也是推荐算法工程师拓展营销广告赛道、提升业务 ROI 的必备核心技术。

营销算法-增益模型（Uplift Model）

从item2vec到双塔：一次社交推荐系统的游走式思考

一套逐渐成型的多AI学习工作流

近些年Edge Serverless（或 Edge Compute / Edge Functions）平台越来越多，从AWS Lambda， Azure Functions，到“大善人”的 Cloudflare Workers，几乎成了做轻量后端、API、中转服务时最佳实践。
那么，哪个 Serverless 平台免费额度最良心？、是否够个人/小型项目使用？、如果后续项目扩张，将怎么收费？
这篇文章就简单整理一下目前几个主流平台——Cloudflare Workers、AWS Lambda 和 Azure Functions 的免费额度情况，给准备上手或正在对比的平台一个参考。

主流Serverless平台免费额度 良心大PK

在学习 DSSM / Two-Tower 召回模型时，经常会看到 in-batch negative、sampled softmax、logQ correction 等概念。很多文章会提到 “logits − logQ 可以缓解热门偏置、提升长尾”，但很少从训练目标和负采样分布的角度把这个机制讲清楚。实际上，(-\log Q) 的核心作用并不是刻意优化长尾，而是用于纠正负采样分布带来的训练偏差（sampling bias），使 sampled softmax 的优化目标更接近 full softmax。本文整理了自己理解这一问题的过程，从负采样、logQ correction 到长尾采样策略，尝试用更直观的方式解释这些概念之间的关系。

InBatchNeg采样去偏推导

背包问题是动态规划中最经典、也是最容易让人混淆的一类题型。很多人在刷题时会遇到这样的困惑：为什么有的题容量要倒序遍历，有的要正序？为什么有的题物品在外层循环，有的却是容量在外层？这些差异其实并不是零散的技巧，而是背后对应着一套清晰的分类体系——例如 01 背包、完全背包、组合问题、排列问题以及多重背包等。只要理解每一类问题的本质特征，并掌握对应的模板结构，大多数背包题都可以快速识别并套用正确的解法。本文将从整体结构出发，用树形方式梳理常见背包题型及其题目特征，并给出最简洁、可读性高的代码模板，帮助你在刷题和面试中更快地判断题型并写出正确解法。

YelloooBlue