ParisRain

ParisRainIoT 物联网方向

❯

❯

❯

❯

❯

❯

❯

CORE

2026年3月13日3分钟阅读

deep-learning
d2l-v2
精华

精华｜概率（为深度学习服务）

1）一句话目标

把“概率/随机变量/分布/期望”这些概念，变成后面理解损失函数（负对数似然/交叉熵）、最大似然估计、KL 散度的语言。

2）关键概念（用自己的话）

样本空间 $Ω$ ：所有可能结果。
事件 $A \subseteq Ω$ ：结果落在某个子集里。
随机变量 $X$ ：把结果映射成数， $X : Ω \to R$ 。
分布：描述随机变量取值的规律（离散/连续）。

3）关键公式 / 直觉（只保留最常用的）

概率的基本规则（你学校概率论课会更系统）：
- $P (Ω) = 1, P (A^{c}) = 1 - P (A)$
- $P (A \cup B) = P (A) + P (B) - P (A \cap B)$
期望（“按概率加权平均”）
- 离散： $E [X] = \sum_{x} x p (x)$
- 连续： $E [X] = \int x p (x) d x$
最大似然（MLE）：让数据在模型下“最可能” $\hat{θ} = ar g max_{θ} \sum_{i = 1}^{n} lo g p_{θ} (x_{i})$ 直觉：乘积不好算 → 取 log 变成求和。
交叉熵 / KL（后面分类一定会用到）
- 交叉熵： $H (p, q) = - \sum_{x} p (x) lo g q (x)$
- KL： $D_{KL} (p ∥ q) = \sum_{x} p (x) lo g \frac{p ( x )}{q ( x )}$
- 关系： $H (p, q) = H (p) + D_{KL} (p ∥ q)$ 直觉：训练分类器其实是在让预测分布 $q$ 靠近真实分布 $p$ 。

4）代码对应（你 notebook 的关键 cell/行）

服务器 notebook 路径：
环境（conda env）：
关键 cell：
- 用 batch 的平均 loss 近似期望（经验风险最小化）
- softmax + cross_entropy 其实就是在做负对数似然

5）常见坑

把“互斥”和“独立”混淆。
只会背公式，不会把文字翻译成事件（ $\cup, \cap,^{c}$ ）。
交叉熵里对数底数不影响最优解（差一个常数比例），别纠结。

6）自测（合上书能回答）

为什么最小化交叉熵等价于最大化正确标签的概率？
为什么训练里常用“batch 平均”来近似期望？
KL 为什么不是对称的距离？

关系图谱

精华｜概率（为深度学习服务）
1）一句话目标
2）关键概念（用自己的话）
3）关键公式 / 直觉（只保留最常用的）
4）代码对应（你 notebook 的关键 cell/行）
5）常见坑
6）自测（合上书能回答）