精华|概率(为深度学习服务)

1)一句话目标

  • 把“概率/随机变量/分布/期望”这些概念,变成后面理解损失函数(负对数似然/交叉熵)最大似然估计KL 散度的语言。

2)关键概念(用自己的话)

  • 样本空间 :所有可能结果。
  • 事件 :结果落在某个子集里。
  • 随机变量 :把结果映射成数,
  • 分布:描述随机变量取值的规律(离散/连续)。

3)关键公式 / 直觉(只保留最常用的)

  • 概率的基本规则(你学校概率论课会更系统):

  • 期望(“按概率加权平均”)

    • 离散:
    • 连续:
  • 最大似然(MLE):让数据在模型下“最可能” 直觉:乘积不好算 → 取 log 变成求和。

  • 交叉熵 / KL(后面分类一定会用到)

    • 交叉熵:
    • KL:
    • 关系: 直觉:训练分类器其实是在让预测分布 靠近真实分布

4)代码对应(你 notebook 的关键 cell/行)

  • 服务器 notebook 路径:
  • 环境(conda env):
  • 关键 cell:
    • 用 batch 的平均 loss 近似期望(经验风险最小化)
    • softmax + cross_entropy 其实就是在做负对数似然

5)常见坑

  • 把“互斥”和“独立”混淆。
  • 只会背公式,不会把文字翻译成事件()。
  • 交叉熵里对数底数不影响最优解(差一个常数比例),别纠结。

6)自测(合上书能回答)

  1. 为什么最小化交叉熵等价于最大化正确标签的概率?
  2. 为什么训练里常用“batch 平均”来近似期望?
  3. KL 为什么不是对称的距离?