关于信息几何的简短介绍

本文主要参考文献为 Shun-ichi Amari 所著的 Information geometry and its applications.

信息几何旨在用几何语言描述概率分布。其在最优传输理论，机器学习等领域有广泛用途。近年来，一些物理学家将信息几何运用于非平衡态热力学中，得到了一系列有趣的结论。本文给出信息几何的简单介绍。本文使用爱因斯坦求和约定，即对式子中相同的上下指标求和。

信息几何可以从多个角度引入，本文介绍一种从散度入手的引入方式，这一方式更加直观，不需要太多的微分几何。从度规张量引入的信息几何请参考这里。

1. 散度、对偶仿射坐标与测地线

信息几何主要讨论由参数控制的概率分布构成的流形$~M~$，称其为概率流形或统计流形。考虑由$~n~$个参数$~\boldsymbol{\xi} = (\xi_1, \xi_2, \cdots, \xi_n)~$控制的概率密度函数$~p(x, \boldsymbol{\xi})~$，这$~n~$个参数张成一个$~n~$维统计流形，流形上的每一个点都唯一确定一个概率分布。容易看出，欧氏距离并不能衡量这个流形上两点之间的距离，因此我们需要新的几何。

在这样的流形上定义距离并不容易，因此我们从散度的概念开始。散度可以看作一种广义的距离。若函数$~\mathscr{D}[\cdot \Vert\cdot]~$满足

$\mathscr{D}[p \Vert q] \ge 0$，
$\mathscr{D}[p \Vert q] = 0 \iff p = q$，
$\mathscr{D}[\boldsymbol{\xi}_p \Vert \boldsymbol{\xi}_p + \mathrm{d}\boldsymbol{\xi}] = \frac{1}{2}\sum_{i, j}g_{ij}(\boldsymbol{\xi}_p)\mathrm{d}\xi_i\mathrm{d}\xi_j + O(|\mathrm{d}\xi|^3)$，其中矩阵$~G = (g_{ij})~$为正定矩阵，

则称$~\mathscr{D}~$为散度。

散度通常不满足对称性和三角不等式性，因此它不是距离。欧氏距离是一种对称的散度，因此可以将散度视为欧氏距离的推广。

定义散度$~\mathscr{D}[p \Vert q]~$的对偶为

$$ \mathscr{D}^*[p \Vert q] = \mathscr{D}[q \Vert p]. $$

散度的不对称性将会诱导出概率流形上的对偶联络。

给出一些散度的例子：

Kullbeck-Leibler散度，简称为KL散度：
$$ \mathscr{D}_{\text{KL}}[p \Vert q] = \int p(x)\ln\frac{p(x)}{q(x)}\mathrm{d}x. $$
Bregman散度：Bregman散度由一任意凸函数$\psi$诱导而得。
$$ \mathscr D_\psi [p \Vert q] = \psi(\boldsymbol{\xi_p}) - \psi(\boldsymbol{\xi}_q) - \nabla\psi(\boldsymbol{\xi}_q)\cdot(\boldsymbol\xi_p - \boldsymbol\xi_q). $$
若取$~\psi(\boldsymbol\xi) = \sum_i \xi_i\ln\xi_i~$，则$~\mathscr D_\psi[p \Vert q] = \mathscr D_{\text{KL}}[p \Vert q]$.
$~f~$-散度：$~f~$-散度由一任意凸函数$~f~$诱导而得
$$ \mathscr D_f[p \Vert q] = \sum_i \xi_{p_i}f\left( \frac{\xi_{q_i}}{\xi_{p_i}} \right) \ge f(1). $$
规定$~f~$-散度的标准形式满足$~f(1) = 0$，$f'(1) = 0$，$f''(1) = 1$. 不满足这些条件的$~f~$-散度可以通过变换来得到标准形式。
若取$~f(u) = -\ln u$，则$~\mathscr D_f[p \Vert q] = \mathscr D_{\text{KL}}[p \Vert q]$；若取$~f(u) = u\ln u$，则$~\mathscr D_f[p \Vert q] = \mathscr D_{\text{KL}}[q\Vert p]$.

对于任意一个相同的函数$~\psi~$，我们可以用不同的坐标$~\boldsymbol\xi~$和$~\boldsymbol\eta~$进行描述

$$ \psi(\boldsymbol\xi) = \psi(\boldsymbol\eta(\boldsymbol\xi)). $$

一般而言，若$~\psi~$对$~\boldsymbol\xi~$是凸函数，则对$~\boldsymbol\eta~$不一定是凸函数。但若从$~\boldsymbol\xi~$到$~\boldsymbol\eta~$的变换是仿射变换，那么凸函数的性质会被保留。

基于凸函数$~\psi~$，考虑流形$~M~$上的仿射坐标系$~\boldsymbol\xi$，该坐标系给出流形$~M~$上的一个仿射平坦结构，即流形是平坦的，每一条$~\boldsymbol\xi~$坐标轴都是直线。该结构上的测地线为

$$ \boldsymbol\xi(t) = \boldsymbol a t + \boldsymbol b. $$

其中$~\boldsymbol a$、$\boldsymbol b~$均为常数向量。

由凸函数$~\psi~$的 Legendre 变换可以得到流形$~M~$上关于$~\psi~$的对偶仿射结构。对偶仿射结构也是平坦的，对偶坐标系为

$$ \boldsymbol\eta = \boldsymbol\xi^* = \nabla\psi(\boldsymbol\xi). $$

对偶测地线同样是直线

$$ \boldsymbol\eta(t) = \boldsymbol\xi^*(t) = \boldsymbol a t + \boldsymbol b. $$

2. 广义勾股定理与投影定理

记两条相交曲线的切向量为

$$ \dot{\boldsymbol{\xi}}_1(t) = \frac{\mathrm{d}}{\mathrm{d}t}\boldsymbol{\xi}_1(t), \quad \dot{\boldsymbol{\xi}}_2(t) = \frac{\mathrm{d}}{\mathrm{d}t}\boldsymbol{\xi}_2(t). $$

若它们在交点处的切向量相互垂直，即

$$ \langle \dot{\boldsymbol{\xi}}_1(t)\dot{\boldsymbol{\xi}}_2(t) \rangle = g_{ij}\dot\xi_1^i(t)\dot\xi_2^j(t) = 0, $$

则称这两条曲线垂直相交，其中$~\langle\cdots\rangle~$表示内积。

在黎曼几何中，两个无穷小相邻的切空间由联络$~\nabla~$联系起来。一般而言，黎曼空间不是平坦的，这表明联络$~\nabla~$对应的 Christoffel 符号$~\Gamma_{ij}^k~$一般不为零。在信息几何中，散度的不对称性诱导了流形上的对偶结构，给出对偶联络$~\nabla~$和$~\nabla^*~$，而由 Bregman 散度给出的对偶联络是平坦的，即$~\Gamma_{ij}^k = \Gamma_{ij}^{k*} = 0$。在平坦空间上，我们可以得到类似于欧氏空间中的勾股定理。

考虑凸函数$~\psi~$诱导的统计流形$~M~$上的三个点$~P~$、$~Q~$和$~R~$构成的三角形。若连接$~PQ~$的对偶测地线与连接$~QR~$的测地线垂直，那么三角形$~PQR~$为直角三角形，且有广义勾股定理

$$ \mathscr D_\psi [P\Vert R] = \mathscr D_\psi [P\Vert Q] + \mathscr D_\psi [Q\Vert R]. $$

对于其对偶结构，同样有对偶勾股定理

$$ \mathscr D_{\psi^*} [P\Vert R] = \mathscr D_{\psi^*} [P\Vert Q] + \mathscr D_{\psi^*} [Q\Vert R]. $$

考虑流形$~M~$上的光滑子流形$~S~$及$~S~$外一点$~P~$，则点$~P~$到$~S~$的距离由最小值定义（假设最小值始终存在）

$$ \mathscr D_\psi[P\Vert S] = \min_{R \in S} \mathscr D_\psi[P\Vert R]. $$

经过点$~P~$、与$~S~$垂直的测地线与$~S~$的交点$~\hat{P}_S~$称为点$~P~$在$~S~$上的测地投影，相应对偶测地线给出的交点$~\hat{P}^*_S~$称为对偶测地投影。

投影定理表明，给最小值由点$~P~$的对偶测地投影$~\hat{P}^*_S~$给出，且有勾股定理

$$ \mathscr D_\psi[P\Vert Q] = \mathscr D_\psi[P\Vert \hat{P}^*_S] + \mathscr D_\psi[\hat{P}^*_S\Vert Q]. $$

3. 指数分布族与混合分布族

很多形式各异的概率分布都可以被划为指数分布的形式。更重要的是，由指数分布族给出的凸函数是累积生成函数（自由能），它所诱导的 Bregman 散度即为 KL 散度。KL 散度诱导了统计流形上的对偶平坦黎曼结构，对应的度规张量为 Fisher 信息矩阵，对偶仿射坐标系为正则坐标系和期望坐标系。反之，任意一个 Bregman 散度的生成凸函数都对应一个指数分布族。混合分布族则是指数分布族的对偶，这两种分布族可以具体地给出统计流形上的广义勾股定理。

若一个概率分布$~p(x, \boldsymbol\xi)~$可以化为形式

$$ p(x, \boldsymbol\xi) = \exp\{ \xi^i h_i(x) + k(x) - \psi(\boldsymbol\xi) \}, $$

则该概率分布属于指数分布族，其中$~h_i(x)~$为$~x~$的任意向量函数$~\boldsymbol h~$的分量。简记$~h_i(x)~$为$~x_i~$，为随机向量$~\boldsymbol x~$的分量。

对于样本空间$~X = \{\boldsymbol x\}$，若不取 Lebesgue 测度，而取测度

$$ \mathrm{d}\mu(\boldsymbol x) = \exp\{k(x)\}\mathrm{d}x, $$

则概率密度为

$$ p(\boldsymbol x, \boldsymbol\xi) = \exp\{ \boldsymbol\xi\cdot\boldsymbol x - \psi(\boldsymbol\xi) \}. $$

函数$~\psi~$可以写为

$$ \psi(\boldsymbol\xi) = \ln\int\exp(\boldsymbol\xi\cdot\boldsymbol x)\mathrm{d}\mu(\boldsymbol x). $$

上式利用了$~p(\boldsymbol x, \boldsymbol\xi)~$的归一性。

容易发现函数$~\psi~$是累积生成函数或是统计物理中的自由能，它是凸函数。它诱导了统计流形$~M~$上的对偶平坦黎曼结构。利用上面对偶坐标系的定义可得其对偶坐标为

$$ \boldsymbol\eta = \boldsymbol\xi^* = \nabla\psi(\boldsymbol\xi) = \int\boldsymbol xp(\boldsymbol x, \boldsymbol\xi)\mathrm{d}\mu(\boldsymbol x) = \mathbb E[\boldsymbol x], $$

其中$~\mathbb E[\cdot]~$为期望，因此称$~\boldsymbol\eta~$为期望坐标系。

由$~\psi~$诱导的 Bregman 散度是 KL 散度

$$ \mathscr D[\boldsymbol\xi'\Vert\boldsymbol\xi] = \int p(\boldsymbol x, \boldsymbol\xi)\ln\frac{p(\boldsymbol x, \boldsymbol\xi)}{p(\boldsymbol x, \boldsymbol\xi')}\mathrm{d}\mu(\boldsymbol x) = \mathscr D_{\text{KL}}[\boldsymbol\xi'\Vert\boldsymbol\xi]. $$

$\psi~$诱导的空间是平坦的，其上的测地线是直线。这些直线称为指数测地线。连接点$~p(\boldsymbol x, \boldsymbol\xi_1)~$和点$~p(\boldsymbol x, \boldsymbol\xi_2)~$的测地线为两端点的插值曲线

$$ \boldsymbol\xi(t) = (1-t)\boldsymbol\xi_1 + t\boldsymbol\xi_2. $$

测地线上的概率分布为两端点对数概率分布的插值

$$ \ln p(\boldsymbol x, t) = (1-t)\ln p(\boldsymbol x, \boldsymbol\xi_1) + t\ln p(\boldsymbol x, \boldsymbol\xi_2) - \psi(t). $$

混合分布族是不同于指数分布族的一类分布。混合分布族中的元素一般不属于指数分布族，也有例外，比如离散分布。给定$~n+1~$个线性无关的概率分布$~q_0(x), q_1(x), \cdots, q_n(x)$，其构成的混合分布族为

$$ p(x, \boldsymbol\eta) = \sum_{i=0}^n \eta_i q_i(x), $$

其中$~\boldsymbol\eta~$满足

$$ \sum_{i=0}^n \eta_i = 1; \quad \forall i, \eta_i > 0. $$

混合分布族对应的凸函数为

$$ \varphi(\boldsymbol\eta) = \int p(x, \boldsymbol\eta)\ln p(x, \boldsymbol\eta)\mathrm{d}x. $$

与$~\boldsymbol\eta~$对偶的坐标即为$~\boldsymbol\xi$

$$ \boldsymbol\xi = \nabla\varphi(\boldsymbol\eta). $$

由$~\varphi~$给出的 Bregman 散度也是 KL 散度

$$ \mathscr D_\varphi[\boldsymbol\eta\Vert\boldsymbol\eta'] = \int p(x, \boldsymbol\eta)\ln\frac{p(x, \boldsymbol\eta)}{p(x, \boldsymbol\eta')}\mathrm{d}x = \mathscr D_{\text{KL}}[\boldsymbol\eta\Vert\boldsymbol\eta']. $$

$\varphi~$给出对偶平坦空间，连接$~\boldsymbol\eta_1~$和$~\boldsymbol\eta_2~$的对偶测地线为插值曲线

$$ \boldsymbol\eta(t) = (1 - t)\boldsymbol\eta_1 + t \eta_2. $$

该测地线称为混合测地线。测地线上的概率分布为

$$ p(x, t) = (1-t) p(x, \boldsymbol\eta_1) + t p(x, \boldsymbol\eta_2). $$

4. Fisher信息矩阵作为度规张量

由上述内容可知，指数分布族和混合分布族给出了统计流形$~M~$上的对偶平坦结构，对应凸函数的 Bregman 散度均为 KL 散度。KL 散度同时属于$~f~$-散度。可以证明，任意$~f~$-散度给出的度规张量均为 Fisher 信息矩阵。因此 Fisher 信息天然的成为统计流形$~M~$上的黎曼度量。

Fisher 信息矩阵可以通过 KL 散度的二阶展开得到

$$ \mathscr D_{\text{KL}}[\boldsymbol\xi(t)\Vert\boldsymbol\xi(t+\mathrm{d}t)] = \frac{1}{2}g_{ij}\dot{\xi}^i\dot{\xi}^j\mathrm{d}t^2. $$

Fisher 信息的形式为

$$ g_{ij} = \int \frac{1}{p(\boldsymbol x, \boldsymbol\xi)}\frac{\partial p(\boldsymbol x, \boldsymbol\xi)}{\partial\xi_i}\frac{\partial p(\boldsymbol x, \boldsymbol\xi)}{\partial\xi_j}\mathrm{d}\mu(\boldsymbol x). $$

它还可以写成期望的形式

$$ g_{ij} = \mathbb E \left[ \frac{\partial}{\partial\xi_i}\ln p(\boldsymbol x, \boldsymbol\xi)\frac{\partial}{\partial\xi_j}\ln p(\boldsymbol x, \boldsymbol\xi) \right]. $$

Fisher 信息矩阵是统计流形上唯一在等距变换下不变的二阶张量。统计流形上唯一的不变三阶张量是 Amari-Chentsov 张量

$$ T_{ijk} = \mathbb E \left[ \frac{\partial}{\partial\xi_i}\ln p(\boldsymbol x, \boldsymbol\xi)\frac{\partial}{\partial\xi_j}\ln p(\boldsymbol x, \boldsymbol\xi)\frac{\partial}{\partial\xi_k}\ln p(\boldsymbol x, \boldsymbol\xi) \right]. $$

统计流形上的长度微元为

$$ (\mathrm{d}s)^2 = g_{ij}\mathrm{d}\xi^i\mathrm{d}\xi^j = g_{ij}\dot{\xi}^i\dot{\xi}^j\mathrm{d}t^2. $$

统计长度为

$$ \mathcal{L} = \int \mathrm{d}s = \int \sqrt{g_{ij}\dot{\xi}^i(t)\dot{\xi}^j(t)} \mathrm{d}t. $$