福星家和 · Fuxing Jiahe
这是我们的生活笔记与好物清单。记录点滴、分享灵感,也欢迎你一起来交流~
从工程、产品和日常经验里拆问题,写出能复用的判断框架。
真实体验与筛选,避免信息噪音,专注好东西。
持续更新,记录可复用的经验与灵感。
本篇是「小模型训练系列」第 4 篇:从 Loss、反向传播、优化器与学习率出发,解释模型能力如何被目标函数一步步塑形。
2026年6月24日
本篇是「小模型训练系列」第 3 篇:用工程 + 数学直觉拆开 Attention 的核心结构、复杂度来源、KV Cache 与长上下文优化路线。
2026年1月22日
本篇是「小模型训练系列」第 2 篇:从工程与数学直觉出发,解释大模型训练中的语义坐标系。
2026年1月5日
本篇是「小模型训练系列」第 1 篇:用工程视角梳理大模型训练从数据到参数更新的完整链路。
2025年11月14日