Series · 5 篇
小模型训练系列
按章节顺序阅读这一组文章,从概念入口到工程判断逐步展开。适合把零散知识串成一条可复用的学习路线。
从这里开始
模型训练流程图解(从 0 到 1 训练自己的 AI) 先建立主线,再进入每个技术细节。最新更新
数据工程:为什么训练数据决定了模型上限?(从清洗到样本配比) 优先补齐真实工程里最容易被忽略的问题。适合谁读
想系统理解技术,又不想被术语劝退的读者。 内容会尽量兼顾通俗表达、工程判断和长期复用。-
模型训练流程图解(从 0 到 1 训练自己的 AI)
本篇是「小模型训练系列」第 1 篇:用工程视角梳理大模型训练从数据到参数更新的完整链路。
-
Embedding:词是如何变成数学的?
本篇是「小模型训练系列」第 2 篇:从工程与数学直觉出发,解释大模型训练中的语义坐标系。
-
Attention 是如何工作的?(从 0 到 1 看懂“关系建模引擎”)
本篇是「小模型训练系列」第 3 篇:用工程 + 数学直觉拆开 Attention 的核心结构、复杂度来源、KV Cache 与长上下文优化路线。
-
Loss & 优化:模型为什么会“学会”?(从误差到能力的塑形)
本篇是「小模型训练系列」第 4 篇:从 Loss、反向传播、优化器与学习率出发,解释模型能力如何被目标函数一步步塑形。
-
数据工程:为什么训练数据决定了模型上限?(从清洗到样本配比)
本篇是「小模型训练系列」第 5 篇:从数据质量、清洗、去重、样本配比与能力边界出发,解释训练数据如何决定梯度方向和模型上限。