← 全部系列

Series · 5 篇

小模型训练系列

按章节顺序阅读这一组文章,从概念入口到工程判断逐步展开。适合把零散知识串成一条可复用的学习路线。

从这里开始

模型训练流程图解(从 0 到 1 训练自己的 AI) 先建立主线,再进入每个技术细节。

最新更新

数据工程:为什么训练数据决定了模型上限?(从清洗到样本配比) 优先补齐真实工程里最容易被忽略的问题。

适合谁读

想系统理解技术,又不想被术语劝退的读者。 内容会尽量兼顾通俗表达、工程判断和长期复用。
  1. 模型训练流程图解(从 0 到 1 训练自己的 AI)

    第 1 篇 · · 预计阅读 4 分钟

    模型训练流程图解(从 0 到 1 训练自己的 AI)

    本篇是「小模型训练系列」第 1 篇:用工程视角梳理大模型训练从数据到参数更新的完整链路。

  2. Embedding:词是如何变成数学的?

    第 2 篇 · · 预计阅读 6 分钟

    Embedding:词是如何变成数学的?

    本篇是「小模型训练系列」第 2 篇:从工程与数学直觉出发,解释大模型训练中的语义坐标系。

  3. Attention 是如何工作的?(从 0 到 1 看懂“关系建模引擎”)

    第 3 篇 · · 预计阅读 8 分钟

    Attention 是如何工作的?(从 0 到 1 看懂“关系建模引擎”)

    本篇是「小模型训练系列」第 3 篇:用工程 + 数学直觉拆开 Attention 的核心结构、复杂度来源、KV Cache 与长上下文优化路线。

  4. Loss & 优化:模型为什么会“学会”?(从误差到能力的塑形)

    第 4 篇 · · 预计阅读 8 分钟

    Loss & 优化:模型为什么会“学会”?(从误差到能力的塑形)

    本篇是「小模型训练系列」第 4 篇:从 Loss、反向传播、优化器与学习率出发,解释模型能力如何被目标函数一步步塑形。

  5. 数据工程:为什么训练数据决定了模型上限?(从清洗到样本配比)

    第 5 篇 · · 预计阅读 8 分钟

    数据工程:为什么训练数据决定了模型上限?(从清洗到样本配比)

    本篇是「小模型训练系列」第 5 篇:从数据质量、清洗、去重、样本配比与能力边界出发,解释训练数据如何决定梯度方向和模型上限。