跳转至

LLM 赛道

赛道概览

1 个 Lesson + 50+ 论文资源 · 预计 1-2 天 · Causal Language Model 从零实现

LLM 赛道聚焦于从零搭建一个 Toy Causal Language Model,让你深入理解 Transformer 自回归解码的核心机制:Causal Mask、位置编码、Token 预测与贪心/采样解码策略。配套 resources/pdfs/llms/ 下的 50+ 篇论文笔记可作为延伸阅读。


学习路径

flowchart LR
    NLP["NLP 赛道\n(先修)"] --> L01["**01 Transformer 文本生成**\nCausal Mask, 自回归解码"]
    L01 --> RES["论文资源库\n50+ LLM Papers"]
    L01 --> MM["Multimodal 赛道\n(后续)"]

    style NLP fill:#0891b2,color:#fff
    style L01 fill:#7c3aed,color:#fff
    style RES fill:#d97706,color:#fff
    style MM fill:#db2777,color:#fff

先修知识

领域 要求
DL-Hub 完成 NLP 赛道(尤其是 Lesson 02 Transformer Encoder)
Transformer Self-Attention, Multi-Head Attention, Layer Normalization
语言模型 自回归分解 \(P(x_1, ..., x_n) = \prod P(x_t \| x_{<t})\) 的直觉

课程列表

序号 项目 代码文档 核心概念
01 Transformer 文本生成 toy_causal_lm_transformer Causal Mask, 自回归解码

Lesson 01 — Transformer 文本生成

学习目标

  • 理解 Causal (Autoregressive) Language Model 的训练范式
  • 掌握 Causal Mask(下三角掩码)的作用与实现
  • 理解 Teacher Forcing 训练 vs 自回归推理的区别
  • 实现 Greedy / Top-k / Top-p 解码策略

核心知识点:

概念 说明
Causal Mask 下三角矩阵,确保 token \(t\) 只能看到 \(x_1, ..., x_{t-1}\)
自回归解码 逐 token 生成:每步输出一个 token,拼接后作为下一步输入
Teacher Forcing 训练时使用真实序列作为输入,而非模型自身的输出
位置编码 Sinusoidal 或 Learnable Positional Encoding
Token Embedding 词汇表到向量空间的映射

Encoder vs Decoder 对比:

flowchart TB
    subgraph Encoder["Transformer Encoder(NLP 赛道)"]
        direction LR
        E1["双向注意力"] --> E2["全序列可见"]
        E2 --> E3["用于分类 / NER"]
    end
    subgraph Decoder["Transformer Decoder(LLM 赛道)"]
        direction LR
        D1["单向注意力\n(Causal Mask)"] --> D2["只看过去"]
        D2 --> D3["用于文本生成"]
    end

    style Encoder fill:#0891b2,color:#fff
    style Decoder fill:#7c3aed,color:#fff

运行命令:

python -m tracks.llm.lesson_01_toy_causal_lm_transformer.train \
  --dataset fake --epochs 1 \
  --max-train-batches 2 --max-eval-batches 2

论文资源库

50+ 篇 LLM 相关论文与笔记

resources/pdfs/llms/ 目录下保留了大量 LLM 领域的经典论文和研究笔记,适合在完成实践课程后进行深度阅读。

推荐阅读顺序:

阶段 主题 代表论文
基础 Transformer 原理 Attention Is All You Need (Vaswani et al., 2017)
预训练范式 自监督语言模型 GPT (Radford et al., 2018), BERT (Devlin et al., 2019)
规模化 大模型 Scaling Laws GPT-3 (Brown et al., 2020), PaLM (Chowdhery et al., 2022)
对齐 RLHF 与指令跟随 InstructGPT (Ouyang et al., 2022)
综述 大模型全景 A Survey of Large Language Models

从 NLP 到 LLM 的关键跨越

flowchart LR
    subgraph NLP["NLP 赛道学到的"]
        N1["词嵌入"]
        N2["Transformer Encoder"]
        N3["Self-Attention"]
    end
    subgraph LLM["LLM 赛道的新内容"]
        L1["Causal Mask"]
        L2["自回归解码"]
        L3["文本生成"]
    end
    subgraph BEYOND["更远的方向"]
        B1["Scaling Laws"]
        B2["RLHF"]
        B3["多模态 LLM"]
    end

    N1 --> L1
    N2 --> L1
    N3 --> L2
    L2 --> L3
    L3 --> B1
    L3 --> B2
    L3 --> B3

    style NLP fill:#0891b2,color:#fff
    style LLM fill:#7c3aed,color:#fff
    style BEYOND fill:#d97706,color:#fff

下一步

完成 LLM 赛道后,你可以继续:

推荐方向 说明
➡ Multimodal 多模态赛道 将语言模型与视觉结合,学习 CLIP、LLaVA 等 VLM
论文阅读 深入 resources/pdfs/llms/ 下的 50+ 篇论文笔记