分类:参数估计问题中测量和系综的结合

来自Big Physics
Jinshanw讨论 | 贡献2018年7月11日 (三) 22:14的版本 →‎回到网络数据的情形
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


问题表述

一般的参数估计问题[1]从一个给定的带待定参数的分布函数开始,认为得到的记录[math]\displaystyle{ \left\{x_{i},i=1,2,\cdots N\right\} }[/math]是从这个分布函数[math]\displaystyle{ \mathcal{P}\left(x\left|\right. \theta\right) }[/math]得到的随机样本的集合。实际上,在复杂的问题中,例如对网络的实证数据的获得[2][3],往往包含两种随机因素,测量和分布函数。按照物理学的语言,我们称之为测量和系综。意思是说,从一个分布函数也就是系综当中抽样会带来随机性,另外测量也会带来另一个随机性,也就是说,[math]\displaystyle{ P\left(x\left|\right. \theta, O\right)=\int dz P\left(x\left|\right. z, O\right)\mathcal{P}\left(z\left|\right. \theta\right) }[/math]。其中[math]\displaystyle{ \mathcal{P}\left(z\left|\right. \theta\right) }[/math]的意思是实际样本[math]\displaystyle{ z }[/math]是从分布函数中的一个抽样,[math]\displaystyle{ P\left(x\left|\right. z, O\right) }[/math]的意思是,对于实际样本[math]\displaystyle{ z }[/math]做测量[math]\displaystyle{ O }[/math]得到观测数据[math]\displaystyle{ x }[/math]

现在,我们来解决参数估计的根本问题。

极大似然估计

我们先用极大似然估计的思路。假设测量参数和模型,[math]\displaystyle{ P\left(x\left|\right. z, O_{0}\right) }[/math]是完全已知的,于是在这里参数估计的问题就是确定参数[math]\displaystyle{ \theta^{*} }[/math]从而得到分布函数[math]\displaystyle{ \mathcal{P}\left(x\left|\right. \theta^{*}\right) }[/math]以及计算出来如果没有测量误差的时候的统计量[math]\displaystyle{ \left\langle A\left(x\right)\right\rangle=\int dx A\left(x\right)\mathcal{P}\left(x\left|\right. \theta^{*}\right) }[/math],以及必要的时候带有测量误差的统计量[math]\displaystyle{ \left\langle A_{O_{0}}\left(x\right)\right\rangle=\iint dxdz A\left(x\right)P\left(x\left|\right. z, O\right)\mathcal{P}\left(z\left|\right. \theta^{*}\right) }[/math]

或者,当测量模型确定,但是测量参数待定的时候,也就是[math]\displaystyle{ P\left(x\left|\right. z, O\right) }[/math]的函数形式已知,但是参数[math]\displaystyle{ O }[/math]待定,于是在这里参数估计的问题就是确定参数[math]\displaystyle{ \theta^{*}, O^{*} }[/math]从而得到分布函数[math]\displaystyle{ P\left(x\left|\right. \theta^{*}, O^{*}\right) }[/math],接着计算出来综合系统和测量的统计量[math]\displaystyle{ \left\langle A_{O^{*}}\left(x\right)\right\rangle=\int dx A\left(x\right)P\left(x\left|\right. \theta^{*}, O^{*}\right) }[/math]

这个时候确定参数的方法就是假设参数是一个确定值,而且这个值使得得到真实观测数据的可能性取极大值。背后的逻辑是,实际观测到的值,很大的可能就是系统最容易出现的值。

Bayesian估计

我们再来考虑Beyasian估计的思路。假设测量参数和模型,[math]\displaystyle{ P\left(x\left|\right. z, O_{0}\right) }[/math]是完全已知的,于是在这里参数估计的问题就是确定参数[math]\displaystyle{ \theta }[/math]的分布函数[math]\displaystyle{ P\left(\theta,O_{0}\left|\right. D\right) }[/math],这里[math]\displaystyle{ D }[/math]表示所有的样本数据[math]\displaystyle{ \left\{x\right\} }[/math]。有了参数[math]\displaystyle{ \theta }[/math]的分布函数,,我们能够计算出来如果没有测量误差的时候的统计量[math]\displaystyle{ \left\langle A\left(x\right)\right\rangle=\iint dxd\theta A\left(x\right)\mathcal{P}\left(x\left|\right. \theta\right)P\left(\theta\left|\right. D\right) }[/math],以及必要的时候带有测量误差的统计量[math]\displaystyle{ \left\langle A_{O_{0}}\left(x\right)\right\rangle=\iiint dxdzd\theta A\left(x\right)P\left(x\left|\right. z, O_{0}\right)\mathcal{P}\left(z\left|\right. \theta\right)P\left(\theta\left|\right. D\right) }[/math]

或者,当测量模型确定,但是测量参数待定的时候,也就是[math]\displaystyle{ P\left(x\left|\right. z, O\right) }[/math]的函数形式已知,但是参数[math]\displaystyle{ O }[/math]待定,于是在这里参数估计的问题就是确定参数[math]\displaystyle{ \theta, O }[/math]的分布函数[math]\displaystyle{ P\left(\theta,O\left|\right. D\right) }[/math] 从而计算出来综合系统和测量的统计量[math]\displaystyle{ \left\langle A_{O}\left(x\right)\right\rangle=\iiint dxd\theta dO A\left(x\right)P\left(x\left|\right. \theta, O\right)P\left(\theta,O\left|\right. D\right) }[/math]。当然,既然已经知道了分布函数[math]\displaystyle{ P\left(\theta,O\left|\right. D\right) }[/math]也可以积分掉变量[math]\displaystyle{ O }[/math]仅仅留下来变量[math]\displaystyle{ O }[/math],计算出来去除掉测量因素的统计量,[math]\displaystyle{ \left\langle A\left(x\right)\right\rangle=\iint dxd\theta A\left(x\right)\mathcal{P}\left(x\left|\right. \theta\right)\left[\int dO P\left(\theta, O\left|\right. D\right)\right] }[/math]

这个时候得到参数的分布函数的方法就是运用Bayesian条件概率公式,也就是从已知参数得到观测值的几率来得到反过来的已知观测值得到参数的几率。

两个估计的关系

以上两个估计在很多问题中给出来的结果是可以相互印证的:大概来说,前者相当于后者的分布函数的极值或者均值。也就是说,如果我们对Bayesian估计得到的分布函数,算一个极大值取值点或者均值取值点,很多时候,这个取值点和极大似然估计的结果很接近。不过,将来在问题求解的时候,我们会看到,Bayesian估计可以把参数分布函数的先验信息包含进去,这个时候,这个先验信息会影响结果。上面的对应关系,就不一定存在了。

在网络科学的研究中,指数随机图[4][5]关注了分布函数导致的随机性,Newman的测量误差估计[2][3]则关注了测量和推断导致的随机性。现在,我们发现,实际上,这两个随机性完全可以合起来考虑。


问题求解

我们用例子来回答上面的问题。

假设我们的分布函数是指数形式的,[math]\displaystyle{ \mathcal{P}\left(x\left|\right.\beta\right)=\beta e^{-\beta x}\Theta\left(x\right) }[/math]。其中, [math]\displaystyle{ \Theta\left(x\right) }[/math]是阶跃函数,为了保证[math]\displaystyle{ x\in \left[0,\infty\right) }[/math]。假定我们的测量模型是[math]\displaystyle{ P\left(x\left|\right. z,\sigma\right)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x-z\right)^{2}}{2\sigma^2}} }[/math], 也就是围绕真值[math]\displaystyle{ z }[/math]标准差为[math]\displaystyle{ \sigma }[/math]的正态分布。于是,合起来的测量加上系综的分布函数就需要完成下面的积分,[math]\displaystyle{ P\left(x\left|\right. \beta,\sigma\right) = \int dz \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x-z\right)^{2}}{2\sigma^2}}\beta e^{-\beta z}\Theta\left(z\right) }[/math]

只有系综的情形

我们先分析只有系综的情况,来从样本[math]\displaystyle{ \left\{x_{j}\right\} }[/math]估计出待定系综参数[math]\displaystyle{ \beta }[/math](极大似然)或者参数的分布函数(Bayesian)。相当于测量总是完全准确的,也就是测量函数是[math]\displaystyle{ P\left(x\left|\right.z,O\right)=\delta\left(x-z\right) }[/math]

假设这些样本中的每一个都是独立观测得到的,也就是,[math]\displaystyle{ \mathcal{P}\left(\left\{x_{j}\right\}\left|\right. \beta \right)=\Pi_{j} \left[\beta e^{-\beta x_{j}}\right] }[/math],这个函数取极值的条件是,[math]\displaystyle{ \frac{\partial}{\partial \beta}\ln{\left[\mathcal{P}\left(\left\{x_{j}\right\}\left|\right. \beta \right)\right]}=\sum_{j} \ln{\left[\beta e^{-\beta x_{j}}\right]} }[/math]。于是,[math]\displaystyle{ \frac{1}{\beta}=\frac{1}{N}\sum_{j=1}^{N}x_{j} }[/math]

假设这些样本中的每一个都是独立观测得到的,也就是,[math]\displaystyle{ \mathcal{P}\left(\left\{x_{j}\right\}\left|\right. \beta \right)=\Pi_{j} \left[\beta e^{-\beta x_{j}}\right] }[/math],运用Bayesian公式,得到,[math]\displaystyle{ P\left(\beta \left|\right. \left\{x_{j}\right\} \right) = \frac{\mathcal{P}\left(\left\{x_{j}\right\}\left|\right. \beta \right)P\left(\beta \right)}{\int d\theta \mathcal{P}\left(\left\{x_{j}\right\}\left|\right. \theta \right)P\left(\theta \right)} }[/math]。在假设[math]\displaystyle{ P\left(\beta\right)=1 }[/math],也就是均匀分布的前提下,我们有[math]\displaystyle{ P\left(\beta \left|\right. \left\{x_{j}\right\} \right) = \frac{\left[\beta^{N} e^{-\beta \sum_{j}x_{j}}\right]}{\int d\theta \left[\theta^{N} e^{-\theta \sum_{j}x_{j}}\right]} }[/math]。如果我们求一个参数[math]\displaystyle{ \beta }[/math]的均值,则[math]\displaystyle{ \left\langle \beta \right \rangle = \frac{\int d \beta \left[\beta^{N+1} e^{-\beta \sum_{j}x_{j}}\right]}{\int d\theta \left[\theta^{N} e^{-\theta \sum_{j}x_{j}}\right]}=\frac{G\left(N+1,\sum_{j}x_{j}\right)}{G\left(N,\sum_{j}x_{j}\right)}=\frac{N+1}{\sum_{j}x_{j}} }[/math],也就是[math]\displaystyle{ \frac{1}{\left\langle \beta \right \rangle }=\frac{1}{N+1}\sum_{j=1}^{N}x_{j} }[/math]

可以看到在[math]\displaystyle{ N }[/math]比较大的条件下,两者是一致的。

只有测量的情形

我们再来分析只有测量的情况,来从样本[math]\displaystyle{ \left\{x_{j}\right\} }[/math]估计出待定测量参数[math]\displaystyle{ z,\Delta }[/math](极大似然)或者参数的分布函数(Bayesian)。相当于系综取一个特定的值而不是一个一般的分布函数[math]\displaystyle{ \mathcal{P}\left(z\left|\right.\theta\right)=\delta\left(z-x_{0}\right) }[/math]

假设这些样本中的每一个都是独立观测得到的,也就是,[math]\displaystyle{ P\left(\left\{x_{j}\right\}\left|\right. \sigma, x_{0} \right)=\Pi_{j} \left[\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x_{j}-x_{0}\right)^{2}}{2\sigma^2}}\right] }[/math],这个函数取极值的条件是,[math]\displaystyle{ \frac{\partial}{\partial x_{0}}\ln{\left[P\left(\left\{x_{j}\right\}\left|\right. \sigma, x_{0} \right)\right]}=0 }[/math]并且[math]\displaystyle{ \frac{\partial}{\partial \sigma}\ln{\left[P\left(\left\{x_{j}\right\}\left|\right. \sigma, x_{0} \right)\right]}=0 }[/math]。于是,我们得到,[math]\displaystyle{ x_{0}=\frac{1}{N}\sum_{j}x_{j} }[/math],同时[math]\displaystyle{ \sigma^{2}=\frac{1}{N}\sum_{j}\left(x_{j}-x_{0}\right)^{2} }[/math]。这也就是通常的正态分布的极大似然估计公式。


假设这些样本中的每一个都是独立观测得到的,也就是,[math]\displaystyle{ P\left(\left\{x_{j}\right\}\left|\right. \sigma, x_{0} \right)=\Pi_{j} \left[\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x_{j}-x_{0}\right)^{2}}{2\sigma^2}}\right] }[/math],运用Bayesian公式,得到,[math]\displaystyle{ P\left(x_{0}, \sigma\left|\right. \left\{x_{j}\right\} \right) = \frac{P\left(\left\{x_{j}\right\}\left|\right. x_{0}, \sigma \right)P\left(x_{0}, \sigma \right)}{\int dz_{0}d\delta P\left(\left\{x_{j}\right\}\left|\right. z_{0}, \delta \right)P\left(z_{0}, \delta \right)} }[/math]。在假设[math]\displaystyle{ P\left(z_{0}, \delta \right)=1 }[/math],也就是均匀分布的前提下,我们有[math]\displaystyle{ P\left(x_{0}, \sigma\left|\right. \left\{x_{j}\right\} \right) = \frac{P\left(\left\{x_{j}\right\}\left|\right. x_{0}, \sigma \right)}{\int dz_{0}d\delta P\left(\left\{x_{j}\right\}\left|\right. z_{0}, \delta \right)} }[/math]。这个积分不是太容易积出来。

[math]\displaystyle{ \sigma }[/math]当做已知的情况下,积分会更容易一些。这个时候,如果我们对这个函数求一个均值,则仍然可以验证[math]\displaystyle{ \left\langle x_{0} \right \rangle }[/math]在在[math]\displaystyle{ N }[/math]比较大的条件下,这个Bayesian估计的结果和前面的极大似然估计是一致的。

如果我们还要考虑把[math]\displaystyle{ \sigma }[/math]也当做随机变量,则积分会复杂一些。具体计算就不再做了。实在不行,得不到一般公式,反正可以在给定具体样本的情况下做数值积分。

系综和测量都有的情形

这个时候,我们就从联合了系综和测量的整体分布函数[math]\displaystyle{ P\left(x\left|\right. \theta, O\right) }[/math]开始,可以考虑测量参数已经确定的情形,也可以考虑系综参数已经确定的情形,更加可以考虑测量参数和系综参数都是不确定的情形。从统计学的方法上并不需要创新,不过就是求函数[math]\displaystyle{ P\left(x\left|\right. \theta, O\right) }[/math]的极值,或者用Bayesian公式来求出来反过来的参数的分布函数。

回到网络数据的情形

其中,观测数据往往只有一个,也就是网络的邻接矩阵[math]\displaystyle{ A }[/math],我们有办法来完成上面的统计分析,从而了解测量和分布函数所对应的参数吗?其基本思路是把网络看做是一个随机过程的记录,这个随机过程就是边的形成过程,也就是把一个单一的数据记录[math]\displaystyle{ A }[/math]看作是大量的记录[math]\displaystyle{ \left\{A_{ij}\right\} }[/math]。也就是说,我们需要写下来一个带参数的分布函数的形式,[math]\displaystyle{ P\left(\left\{A_{ij}\right\}\left|\right. \theta, O\right) }[/math],对于已经明确的但是参数待定的测量机制和系综分布函数形式。然后,要么用极大似然估计,或者Bayesian估计。

实际上,一个非常具有一般性的网络的系综分布函数形式,是[math]\displaystyle{ \mathcal{P}\left(A\left|\right. \vec{\beta}\right)= \frac{1}{Z}e^{-\sum_{j}\beta_{j}x_{j}\left(A\right)} }[/math],其中每一个[math]\displaystyle{ x_{j}\left(A\right) }[/math]就是网络[math]\displaystyle{ A }[/math]的统计量。这样的函数形式下的网络的统计估计问题,被称为指数随机图[4][5]。网络随机图理论除了能够给出来分布函数的参数取值或者参数的分布函数于是求出来统计量和统计量的置信区间之外,还可以用来检验一个网络是否存在对某些结构的偏好,也就是这些参数[math]\displaystyle{ \beta_{j} }[/math]的取值:对于小于零的参数,实际上,对应着对相应的结构的偏好。

这个统计学的整理小结实际上是为了统一指数随机图、网络零模型、Newman的网络测量误差这三个工作而做的。具体这个统一框架的工作见指数随机图

参考文献

  1. 吴金闪,《系统科学导引》,科学出版社,http://www.systemsci.org/jinshanw/books/
  2. 2.0 2.1 M. E. J. Newman, Network structure from rich but noisy data, Nature Physics 14, 542–545 (2018). https://www.nature.com/articles/s41567-018-0076-1
  3. 3.0 3.1 M. E. J. Newman, Network reconstruction and error estimation with noisy network data, https://arxiv.org/abs/1803.02427
  4. 4.0 4.1 Garry Robins, Pip Pattison, Yuval Kalish, Dean Lusher, An introduction to exponential random graph (p*) models for social networks, Social Networks, 29(2), 173-191(2007). https://doi.org/10.1016/j.socnet.2006.08.002
  5. 5.0 5.1 Garry Robins, Tom Snijders, Peng Wang, Mark Handcock, Philippa Pattison Recent developments in exponential random graph (p*) models for social networks, Social Networks, Volume 29, 192-215(2007). https://doi.org/10.1016/j.socnet.2006.08.003

本分类目前不含有任何页面或媒体文件。