精华|概率(为深度学习服务)
1)一句话目标
- 把“概率/随机变量/分布/期望”这些概念,变成后面理解损失函数(负对数似然/交叉熵)、最大似然估计、KL 散度的语言。
2)关键概念(用自己的话)
- 样本空间 :所有可能结果。
- 事件 :结果落在某个子集里。
- 随机变量 :把结果映射成数,。
- 分布:描述随机变量取值的规律(离散/连续)。
3)关键公式 / 直觉(只保留最常用的)
-
概率的基本规则(你学校概率论课会更系统):
-
期望(“按概率加权平均”)
- 离散:
- 连续:
-
最大似然(MLE):让数据在模型下“最可能” 直觉:乘积不好算 → 取 log 变成求和。
-
交叉熵 / KL(后面分类一定会用到)
- 交叉熵:
- KL:
- 关系: 直觉:训练分类器其实是在让预测分布 靠近真实分布 。
4)代码对应(你 notebook 的关键 cell/行)
- 服务器 notebook 路径:
- 环境(conda env):
- 关键 cell:
- 用 batch 的平均 loss 近似期望(经验风险最小化)
softmax + cross_entropy其实就是在做负对数似然
5)常见坑
- 把“互斥”和“独立”混淆。
- 只会背公式,不会把文字翻译成事件()。
- 交叉熵里对数底数不影响最优解(差一个常数比例),别纠结。
6)自测(合上书能回答)
- 为什么最小化交叉熵等价于最大化正确标签的概率?
- 为什么训练里常用“batch 平均”来近似期望?
- KL 为什么不是对称的距离?