Big Physics - 用户贡献 [zh-cn]

分类:沈哲思

2020-02-26T08:04:04Z

Szs：

[[Category:研究者]]

沈哲思（Zhesi Shen），中科院文献情报中心副研究员，
北京师范大学系统科学学院博士。
研究工作涉及科学学、复杂系统、复杂网络。

Email: [mailto:zhesi.shen@live.com 给我发电子邮件]

学术主页：[[https://www.researchgate.net/profile/Zhesi_Shen 沈哲思在researchgate上的主页]]

博客：[[https://challenge19.github.io/ 呆思不呆]]

分类:科学计量学导引

2019-01-15T05:25:32Z

Szs：/* 科学计量学的学科大图景 */

[[category:科学学]]
[[分类:概念和书籍]]

=核心思路和理念=
基于网络科学的大科学学

系联、间接影响

从科学（作者、论文、概念）到科学，从科学（论文）到技术（专利），从技术到技术，从科学和技术到产品，从产品到产品，从产品到研发经费，从科学研究到科学的传播和学习

数据框架、问题框架、计算分析方法、实践检验、促进科学技术的发展转播和学习

为了建立这个框架而做的具体研究

本书的写作目的：把科学计量学的研究对象、研究问题和典型思维方式以及分析方法，以及这个学科如何服务于社会和其他学科，用统一的框架呈现出来，促进学科的成熟和发展。将来，这个学科的研究就可以表述成为：在这个基础数据框架(有必要也是可以更新这个数据框架的)上，我们研究什么问题，我们需要什么方法，可以发挥什么作用。

=科学计量学的学科大图景=
典型研究对象、典型研究问题、典型思维方式、典型分析方法、和世界以及其他学科的关系。暂时见[[http://www.systemsci.org/jinshanw 吴金闪的工作和思考]]博客站点上的[[http://www.systemsci.org/jinshanw/2017/03/07/what-is-scientometrics/ 什么是科学计量学]]。

科学计量学是以科学家（广义的，包含研究科学家、技术发明者、以及相关的期刊出版参与和管理者、科技项目和基金管理者、传播科学的老师、接受传播的学生和大众等）的研究学习和教学活动、科学家活动的结果记录，以及跟这些活动相关的这些记录的审稿、出版、传播以及科学研究项目和基金的管理等，为研究对象，旨在促进科学的发展、科学家的培养和成长、科学的传承和传播，的一门科学。
==科学和科学研究==
可计算的数学模型，现实，可证伪性和可重复性，尽量忠实尽量简单的表示
==概念网络：知识高速公路==
概念网络、概念网络与科学研究和科学传播的关系

=科学计量学的数据=
==科学计量学的数据框架==
作者-论文-概念三层网络框架，发明人-专利-技术三层网络框架，性别、位置(必要的时候可以成为网络)、期刊等数据作为顶点的属性
[[文件:3layer.jpg]]
[[文件:Patent Paper.png]]

==科学计量学数据的精炼==

#以搜索引擎为基础的学术数据库：Google Scholar，Microsoft Academic Graph
#科学学数据库：Web of Science， Scopus，Dimensions, OpenCitations, Lens, CrossRef, PubMed
#领域科学学数据库：APS, MathSciNet, JEL, CAS
#专利：USPTO
#基金：NIH, NSF
#书籍：Google ngram
#知识库：Wikipedia，学科概念网络、汉字地图

文章数据包含：作者、标题、作者单位、期刊（名称、卷期页、年）、参考文献、摘要、全文、基金项目号标注、致谢、作者贡献说明
专利数据包含：发明人（单位）、标题、授权号、专利类别、参考文献、摘要、全文、转化
书籍：作者、出版商（地址、年）、词频、引文（？）
学科概念网络：包含概念和概念之间的关系

<ref name="Harinarayana:Data"/>把其中一些数据库做了介绍，并提到了一些做数据库对比的文章。
<ref name="Parinov:Data"/>提到了一些知识库可以当做科学学的研究对象。

需要再加入一些对比数据的参考文献。

===作者识别===
为什么会有姓名识别的问题？

不完整的名字，相同的名字，工作单位的迁移，研究领域的迁移，聚合和拆分的问题

姓名识别如何做？

<ref name="Milojević:Name"/>衡量了最简单的算法——姓的全部和名的第一个字母——的准确率。

<ref name="Schulz:Name"/>、<ref name="Kim:Name"/> 、<ref name="NTU:NameChinese"/> 、<ref name="Sinatra:Name"/>发展了更复杂的算法，例如中国人的姓名的识别、学术单位、研究领域信息用于姓名识别等。

姓名识别的结果如何检验？

Orcid数据（[https://datadryad.org/resource/doi:10.5061/dryad.48s16]），ResearchGate数据，官方email数据，各个国家各个学术单位的统计数据，Norwegian模型<ref name="Sivertsen:Norwegian"/>。

<ref name="Müller:NameData"/>提供了一些可供检验的数据。

机构识别问题

===引用骨架识别和赋权===

引用关系是基本上所有的科学学分析的基础，是科学学主体关系里面最重要的关系。可是，是不是所有的引用都是有效的，或者说同样权重地有效的，引用呢？其基本单位是不是可以看作是一次引用就是一呢？是不是其实有的时候，一篇文章引用其他文章仅仅表示我也看过了这个研究，而不是真的受这个文章的启发呢？也就是说，科学学核心数据要解决的第一个问题就是“是不是所有的引用都需要纳入统计，并且按照同样的单位来纳入统计”？我们称这个问题为引用骨架的识别和赋权。

<ref name="Zhu:Data"/> 、<ref name="SemanticScholar"/>、<ref name="Clough:TR"/>、<ref name="Song:TopicCitation"/>做了初步的研究。

===粗粒化===
粗粒化就是把研究论文聚成类，可以是相当于概念或者主题的类，也可以是相当于学科或者学科方向的类。一般来说所聚出来的类有一定的层级结构。

为什么需要粗粒化。
<ref name="Waltman:Citation"/>指出来为什么从评价的角度，粗粒化也就是论文聚类是重要的。

粗粒化怎么做？

<ref name="Waltman:ClusterCWTS"/>发展了网络科学聚类算法（CWTS聚类算法）来用于文章聚类。

<ref name="Blei:LDA"/>把自然语言处理用于文章聚类。

<ref name="Glänzel:Cluster"/>发展了把引用和文本结合的聚类方法。

自然语言处理技术word2vec<ref name="Mikolov:word2vec"/>、GloVe<ref name="Pennington:GloVe"/>、Doc2Vec<ref name="Doc2Vec"/>在词汇的基础上还考虑了词汇之间的语义联系，用来聚类。网络表示算法node2vec<ref name="Leskovec:node2vec"/>也可以通过引用网络得到顶点的矢量表示。

粗粒化的结果怎么检验？

<ref name="Boyack:Cluster"/>对比了几种论文聚类的算法。

=科学计量学的任务=
==科学领域及其相互关系==
==技术领域及其相互关系==
==科学－技术关系==
<ref name="Narin:Patent"/>、<ref name="Narin:linkage1"/>、<ref name="Narin:linkage2"/>、<ref name="Narin:linkage3"/>、
<ref name="Narin:linkage4"/>、<ref name="Verbeek:linkage"/>、<ref name="Li:Linkage"/>利用专利引用学术论文的数据研究了科学和技术之间的关联。

==科学－技术－经济相互关系==
===经济产业部门的相互关系===
===加上科学和技术到产品的联系===
==科学家活动的模式==
==科学出版的模式==
==评价指标和科研管理==
<ref name="Waltman:Citation"/>总结了关于影响因子的研究的现状、动机和未来方向。

==教和学科学==

=科学计量学的思维方式和分析方法=
==科学计量学之科学思维和科学方法==
==网络科学的思想和技术==

<ref name="Wu:Network"/> 介绍了网络科学的基本精神，并把网络研究分成几个方面做了总结。
<ref name="Zeng:Science2"/> 整理了用网络的思想和方法来研究科学学的工作。
网络科学方面的入门书还有<ref name="Barabási:Network"/>、<ref name="Newman:Network"/>和<ref name="Wang:Network"/>，以及吴金闪的《系统科学导引》<ref name="Wu:Systems"/>。

===关系为王===
几何性，一切都是关系并且只有关系
===直接和间接联系===
一级近邻不需要网络分析，间接影响
===新框架下的共现分析===
作者-作者共现，共施引，共被引，作者-主题共现，主题-主题共现

==统计分析==
对排序指标的需求，均值，检验，百分比，h指数，领域归一化(需要网络分析)

<ref name="Waltman:Citation"/>总结了关于影响因子的研究的现状、动机和未来方向。

==作为分析技术的网络分析==
主题分类，共施引，共被引，合作网络分析，Eigenfactor<ref name="West:Eigenfactor"/> ，IOfactor<ref name="GeneralIO"/>
=典型方法用于典型问题=
==数据精炼问题的解决==
==粗粒化问题的解决==
<ref name="Boyack:Cluster"/>对比了几种论文聚类的算法。

==科学家活动模式分析==
==科学出版活动模式分析==
==评价指标和科研管理问题的解决==
<ref name="Waltman:Citation"/>总结了关于影响因子的研究的现状、动机和未来方向。
<ref name="West:Eigenfactor"/>把网络科学和PageRank算法用于期刊、作者、研究机构、论文影响力度量。

==相互关系问题的分析==
==科学的教和学问题的分析==

=参考文献=
<references>

<ref name="Parinov:Data"> Sergey Parinov，Mikhail Kogalovsky，Semantic linkages in research information systems as a new data source for scientometric studies, Scientometrics 98(2), 927–943(2014).</ref>

<ref name="Harinarayana:Data"> Harinarayana, N. S. (2015) Data sources and software tools for bibliometric studies.</ref>

<ref name="Müller:NameData"> Müller, MC., Reitz, F. & Roy, N. Data sets for author name disambiguation: an empirical analysis and a new resource, Scientometrics (2017) 111: 1467. https://doi.org/10.1007/s11192-017-2363-5 .</ref>

<ref name="Milojević:Name"> Staša Milojević, Accuracy of simple, initials-based methods for author name disambiguation, Journal of Informetrics 7, 767-773(2013). https://doi.org/10.1016/j.joi.2013.06.006 .</ref>

<ref name="Schulz:Name"> Christian Schulz, Amin Mazloumian, Alexander M Petersen, Orion Penner and Dirk Helbing, Exploiting citation networks for large-scale author name disambiguation, EPJ Data Science 20143:11 https://doi.org/10.1140/epjds/s13688-014-0011-3 .</ref>

<ref name="Kim:Name"> Jinseok Kim and Jana Diesner, Distortive effects of initial‐based name disambiguation on measurements of large‐scale coauthorship networks, JASIST, 67, 1446-1461(2016). https://doi.org/10.1002/asi.23489 .</ref>

<ref name="NTU:NameChinese"> Wei-Sheng Chin, Yong Zhuang, Yu-Chin Juan, Felix Wu, Hsiao-Yu Tung, Tong Yu, Jui-Pin Wang, Cheng-Xia Chang, Chun-Pai Yang, Wei-Cheng Chang, Kuan-Hao Huang, Tzu-Ming Kuo, Shan-Wei Lin, Young-San Lin, Yu-Chen Lu, Yu-Chuan Su, Cheng-Kuang Wei, Tu-Chun Yin, Chun-Liang Li, Ting-Wei Lin, Cheng-Hao Tsai, Shou-De Lin, Hsuan-Tien Lin, Chih-Jen Lin; Effective String Processing and Matching for Author Disambiguation　http://jmlr.org/papers/v15/chin14a.html .</ref>

<ref name="Sinatra:Name">Roberta Sinatra, Dashun Wang, Pierre Deville, Chaoming Song, Albert-László Barabási, Quantifying the evolution of individual scientific impact, Science 354(6312), aaf5239(2016), DOI: 10.1126/science.aaf5239 .</ref>

<ref name="Sivertsen:Norwegian">Gunnar Sivertsen, Publication-Based Funding: The Norwegian Model, Research Assessment in the Humanities, 79-90(2016).</ref>

<ref name="Waltman:Citation"> Waltman, Ludo, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS, 10(2) 365-391(2016), DOI: 10.1016/j.joi.2016.02.007 .</ref>

<ref name="Wu:Network"> 吴金闪,狄增如，从统计物理学看复杂网络研究，物理学进展，24(1),18-46(2004).</ref>

<ref name="Barabási:Network">Albert-László Barabási, Network Science, http://networksciencebook.com/ .</ref>

<ref name="Newman:Network"> MEJ Newman, Introduction to Networks. </ref>

<ref name="Wang:Network"> 汪小帆, 李翔 , 陈关荣, 《网络科学导论》. </ref>

<ref name="Wu:Systems"> 吴金闪，《系统科学导引》,　http://www.systemsci.org/jinshanw/books.</ref>

<ref name="Zeng:Science2"> An Zeng, Zhesi Shen, Jianlin Zhou, Jinshan Wu, Ying Fan, Yougui Wang, H Eugene Stanley. 2017. "The science of science: From the perspective of complex systems." PHYSICS REPORTS-REVIEW SECTION OF PHYSICS LETTERS, 714, 1-74 (2017).</ref>

<ref name="West:Eigenfactor"> Carl T. Bergstrom, Jevin D. West and Marc A. Wiseman, The Eigenfactor™ Metrics, Journal of Neuroscience, 28 (45) 11433-11434(2008). DOI: https://doi.org/10.1523/JNEUROSCI.0003-08.2008　.</ref>

<ref name="Boyack:Cluster"> Boyack, K. W., & Klavans, R. (2010). Co-citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately? Journal of the American Society for Information Science and Technology, 61(12), 2389–2404.</ref>

<ref name="Waltman:ClusterCWTS"> Waltman, L., & van Eck, N. J. (2012). A new methodology for constructing a publication-level classification system of science. Journal of the American Society for Information Science and Technology, 63(12), 2378–2392.</ref>

<ref name="Blei:LDA"> Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84.</ref>

<ref name="Glänzel:Cluster"> Glänzel, W., & Thijs, B. (2017). Using hybrid methods and `core documents’ for the representation of clusters and topics: The astronomy dataset. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2301-6　.</ref>

<ref name="Mikolov:word2vec"> Mikolov, Tomas; et al. "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781.</ref>

<ref name="Pennington:GloVe"> Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation.</ref>

<ref name="Doc2Vec"> https://radimrehurek.com/gensim/models/doc2vec.html, https://deeplearning4j.org/docs/latest/deeplearning4j-nlp-doc2vec .</ref>

<ref name="Leskovec:node2vec"> node2vec: Scalable Feature Learning for Networks. A. Grover, J. Leskovec. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016. </ref>

<ref name="Narin:linkage1"> Narin F, Hamilton K S, Olivastro D. Linkage between agency-supported research and patented industrial technology[J]. Research Evaluation, 1995, 5(3):183-187.</ref>

<ref name="Narin:linkage2"> Narin F, Hamilton K S, Olivastro D. The increasing linkage between U.S. technology and public science[J]. Research Policy, 1997, 26(3):317-330.</ref>

<ref name="Narin:linkage3"> Narin F, Olivastro D. Linkage between patents and papers: An interim EPO/US comparison[J]. Scientometrics, 1998, 41(1):51-59.</ref>

<ref name="Narin:Patent"> Narin F. Patent bibliometrics[J]. Scientometrics, 1994, 30(1):147-155.</ref>

<ref name="Narin:linkage4"> Narin F. Tracing the paths from basic research to economic impact[J]. F&M Scientist, 2012.</ref>

<ref name="Verbeek:linkage"> Verbeek A, Debackere K, Luwel M, et al. Linking science to technology: Using bibliographic references in patents to build linkage schemes[J]. Scientometrics, 2002, 54(3):399-420.</ref>

<ref name="Li:Linkage"> Li D., Azoulay P., Sampat B.N. The applied value of public investments in biomedical research[J]. Science, 2017, 356 78-81.</ref>

<ref name="GeneralIO"> Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics 10, 82-97(2016). Doi:10.1016/j.joi.2015.11.002. </ref>

<ref name="Zhu:Data"> Xiaodan Zhu, Peter Turney, Daniel Lemire & André Vellino, [[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]], Journal of the Association for Information Science and Technology, 66(2), 408, DOI: http://doi.org/10.1002/asi.23179 </ref>

<ref name="SemanticScholar"> Marco Valenzuela, Vu Ha and Oren Etzioni, [[:Category:Identifying Meaningful Citations|Identifying Meaningful Citations]], http://go.nature.com/2th2voa </ref>

<ref name="Clough:TR"> James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, [[:Category:Transitive reduction of citation networks|Transitive reduction of citation networks]], J Complex Netw (2015) 3 (2): 189-203. DOI: https://doi.org/10.1093/comnet/cnu039 </ref>

<ref name="Song:TopicCitation"> Munui Kim Injun Baek Min Song， Topic diffusion analysis of a weighted citation network in biomedical literature， JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960 </ref>

</references>

分类:IOFactor微扰计算

2018-07-13T06:59:04Z

Szs：

[[分类:广义投入产出分析]]
[[分类:郭金忠]]
[[分类:沈哲思]]
[[分类:吴金闪]]

IOFactor的定义是在投入产出矩阵<math>A</math>中去掉第<math>k</math>行和第<math>k</math>列得到<math>A^{\left(-k\right)}</math>，然后计算本征值和本征向量。每次重新开始计算本征值和本征向量比较耗资源。另外，还想从理论上看一下这个因子和PageRank等其他广义投入产出分析的指标的关系。于是，我们尝试了微扰计算。

<math>A^{\left(-k\right)}=A-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
也就是
<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>

<math>\left\langle v \right|</math>和<math>\left|u\right\rangle</math>分别是<math>A</math>的本征值为<math>\lambda</math>的左右本征向量。

<math>A^{\left(-k\right)}(|u\rangle+|\Delta u\rangle) = (\lambda + \Delta\lambda) (|u\rangle+|\Delta u\rangle)</math>

去掉k行k列后<math>\langle k|\Delta u\rangle=0</math>，可以将<math>|\Delta u\rangle=|u\rangle + |\delta\rangle - u_k|k\rangle</math>

左乘<math>\langle v|</math>，忽略2阶小量（<math>|\delta\rangle </math>和<math>\Delta A </math>都是小量，因此它们的乘积项就是高级小量），整理得到

<math>\Delta\lambda = \left(\langle v|\Delta A|u\rangle -\langle v|\Delta A|k\rangle \langle k|u\rangle\right)/(\langle v|u\rangle-\langle v|k\rangle\langle k|u\rangle)</math>

给定<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
,于是有

<math>\langle v|\Delta A|u\rangle=-v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k}</math>

<math>\langle v|\Delta A|k\rangle \langle k|u\rangle=-v_ku^k</math>

<math>IOF_k = -\Delta\lambda =(1-A^k_k)v_ku^k/(\langle v|u\rangle - v_ku^k)</math>

数值上的检验结果如下：

当取<math>\lambda=1</math>为最大本征值的时候，

[[文件:IOF_matrix_perturbation.png|600px]]

==微扰计算的应用==
在需要多次来做这个IOF_k的计算和比较的时候，可以考虑不去求解本征值方程而直接通过这个微扰公式来计算

==下一步工作==
把本征矢量的微扰也算出来，数值检验一下

分类:IOFactor微扰计算

2018-07-13T06:58:44Z

Szs：

[[分类:广义投入产出分析]]
[[分类:郭金忠]]
[[分类:沈哲思]]
[[分类:吴金闪]]

IOFactor的定义是在投入产出矩阵<math>A</math>中去掉第<math>k</math>行和第<math>k</math>列得到<math>A^{\left(-k\right)}</math>，然后计算本征值和本征向量。每次重新开始计算本征值和本征向量比较耗资源。另外，还想从理论上看一下这个因子和PageRank等其他广义投入产出分析的指标的关系。于是，我们尝试了微扰计算。

<math>A^{\left(-k\right)}=A-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
也就是
<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>

<math>\left\langle v \right|</math>和<math>\left|u\right\rangle</math>分别是<math>A</math>的本征值为<math>\lambda</math>的左右本征向量。

<math>A^{\left(-k\right)}(|u\rangle+|\Delta u\rangle) = (\lambda + \Delta\lambda) (|u\rangle+|\Delta u\rangle)</math>

去掉k行k列后<math>\langle k|\Delta u\rangle=0</math>，可以将<math>|\Delta u\rangle=|u\rangle + |\delta\rangle - u_k|k\rangle</math>

左乘<math>\langle v|</math>，忽略2阶小量（<math>|\delta\rangle </math>和<math>\Delta A </math>都是小量，因此它们的乘积项就是高级小量），整理得到

<math>\Delta\lambda = \left(\langle v|\Delta A|u\rangle -\langle v|\Delta A|k\rangle \langle k|u\rangle\right)/(\langle v|u\rangle-\langle v|k\rangle\langle k|u\rangle)</math>

给定<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
,于是有

<math>\langle v|\Delta A|u\rangle=-v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k}</math>

<math>\langle v|\Delta A|k\rangle \langle k|u\rangle=-v_ku^k</math>

<math>IOF_k = -\Delta\lambda =(1-A^k_k)v_ku^k/(\langlev|u\rangle - v_ku^k)</math>

数值上的检验结果如下：

当取<math>\lambda=1</math>为最大本征值的时候，

[[文件:IOF_matrix_perturbation.png|600px]]

==微扰计算的应用==
在需要多次来做这个IOF_k的计算和比较的时候，可以考虑不去求解本征值方程而直接通过这个微扰公式来计算

==下一步工作==
把本征矢量的微扰也算出来，数值检验一下

分类:IOFactor微扰计算

2018-07-13T06:58:23Z

Szs：

[[分类:广义投入产出分析]]
[[分类:郭金忠]]
[[分类:沈哲思]]
[[分类:吴金闪]]

IOFactor的定义是在投入产出矩阵<math>A</math>中去掉第<math>k</math>行和第<math>k</math>列得到<math>A^{\left(-k\right)}</math>，然后计算本征值和本征向量。每次重新开始计算本征值和本征向量比较耗资源。另外，还想从理论上看一下这个因子和PageRank等其他广义投入产出分析的指标的关系。于是，我们尝试了微扰计算。

<math>A^{\left(-k\right)}=A-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
也就是
<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>

<math>\left\langle v \right|</math>和<math>\left|u\right\rangle</math>分别是<math>A</math>的本征值为<math>\lambda</math>的左右本征向量。

<math>A^{\left(-k\right)}(|u\rangle+|\Delta u\rangle) = (\lambda + \Delta\lambda) (|u\rangle+|\Delta u\rangle)</math>

去掉k行k列后<math>\langle k|\Delta u\rangle=0</math>，可以将<math>|\Delta u\rangle=|u\rangle + |\delta\rangle - u_k|k\rangle</math>

左乘<math>\langle v|</math>，忽略2阶小量（<math>|\delta\rangle </math>和<math>\Delta A </math>都是小量，因此它们的乘积项就是高级小量），整理得到

<math>\Delta\lambda = \left(\langle v|\Delta A|u\rangle -\langle v|\Delta A|k\rangle \langle k|u\rangle\right)/(\langle v|u\rangle-\langle v|k\rangle\langle k|u\rangle)</math>

给定<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
,于是有

<math>\langle v|\Delta A|u\rangle=-v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k}</math>

<math>\langle v|\Delta A|k\rangle \langle k|u\rangle=-v_ku^k</math>

<math>IOF_k = -\Delta\lambda =(1-A^k_k)v_ku^k/(\langlev|u\rangle - v_ku^k</math>

数值上的检验结果如下：

当取<math>\lambda=1</math>为最大本征值的时候，

[[文件:IOF_matrix_perturbation.png|600px]]

==微扰计算的应用==
在需要多次来做这个IOF_k的计算和比较的时候，可以考虑不去求解本征值方程而直接通过这个微扰公式来计算

==下一步工作==
把本征矢量的微扰也算出来，数值检验一下

分类:广义投入产出分析

2018-06-13T11:03:39Z

Szs：/* 把PageRank算法看做广义投入产出分析 */

[[Category:研究项目]]
[[Category:研究思想和方法]]
[[Category:概念和书籍]]

在经济学Leontief投入产出分析和Google PageRank算法的基础上，我们提出来了[http://www.systemsci.org/jinshanw/2016/05/05/%E5%B9%BF%E4%B9%89%E6%8A%95%E5%85%A5%E4%BA%A7%E5%87%BA%E5%88%86%E6%9E%90%E6%96%B9%E6%B3%95/ 广义投入产出分析]（暂时见这个在[http://www.systemsci.org/jinshanw “吴金闪的工作和思考”]博客站点上的帖子）。

==Leontief投入产出分析==
原始的投入产出分析<ref name="Miller"/> 是用于分析经济产品或者经济部门或者说产业——由于数据获取的限制，部门或者说产业更经常被研究的主体，尽管思想上这个方法也可以用于产品的研究——之间的相互影响的。

===部门（产业）层次的投入产出表===
把整个经济分成<math>N</math>个部门，假设每一个部门仅仅生产一种产品，每一个部门可以从任何一个部门获得生产这个产品的原材料和劳动力。进出口实际上也可以看做是一个单独的部门。在这里，我们暂时忽略进出口。这样整个经济在一段时期内的经济生产关系就可以用以下的矩阵来代表，
<math>x=\left(x^{i}_{j}\right)_{N\times N}.</math>
其中<math>x^{i}_{j}</math>代表<math>i</math>部门对<math>j</math>部门的投入的产品的数量（实物投入产出表）或者价值（货币投入产出表）。

===产品生产（化学反应）层次的投入产出表===
假设有了产品层次的这张表，如果确实一个生产工艺仅仅产出一个产品，那么，所有的经济生产就包含在这个矩阵内了。当然，随着科学技术的进步，新的产品和新的生产工艺还会出现，因此，这张表仅仅是某个比较短的时期内的一张表，甚至原则上是某个时间点的一张表。当然，实际上，每一个生产工艺有可能有多个产出，因此，整体来说，产品生产就像化学反应，只不过可能场地、劳动力、生产设备、能源等等需要和原材料以及产出物一起放到这个投入产出表里面。对于这样的整个经济的生产工艺，实际上，需要另两个张量来描述，例如<math>L_{\alpha}^{j}</math>表示工艺<math>\alpha</math>需要产品<math>j</math>的数量或者价值，<math>R_{\alpha,j}</math>表示工艺<math>\alpha</math>产出的产品<math>j</math>的数量或者价值。也可以把两个张量合起来，用<math>S_{\alpha}^{j}</math>表示，用在数字前面增加一个“<math>+</math>”（正号）或者“<math>-</math>”（负号）来标记生产和需求。

这三个矩阵也可以看作是产品－工艺（或者反应物－反应方程）二分网的加权邻接矩阵。

===典型研究问题===
那么，有了这个完整的生产关系的描述之后，投入产出分析主要解决什么样的问题呢？第一个，当工艺水平不变的时候，如果人们对于某个产品的需求增加了，则，经济生产系统讲产生怎样的响应？

把第<math>N</math>个部门看作是最终消费者部门，把这个问题用数学的语言来说，就是，<math>y^{i}=x^{i}_{N}</math>有可能有一个可以预期的变化<math>\Delta y^{i}</math>（或者更一般的任意一个部门的变化，记为<math>\Delta　Y</math>），例如下一年人们需要更多的汽车，则矩阵的其他元素<math>x^{j}_{k}</math>将如何变化。记这个变化为<math>\Delta X</math>。我们希望得到一个<math>\Delta X</math> 和　<math>\Delta Y</math>之间的关系。

先从理念上来解决这个问题，再从数学上来解决。

为了有更多的汽车来满足最终消费者需求，经济生产体系首先要满足制造出来这么多额外的汽车的要求；接着为了生产这些汽车，经济生产体系需要生产这些汽车的原材料；接着，需要生产出来原材料的原材料；等等等等。在数学上，这就是

<math display="block">\Delta X = \Delta Y + B \Delta Y + BB \Delta Y + \cdots, </math>
其中<math>B</math>就是某个代表从产品计算出来原材料的矩阵。下面，我们来看这个<math>B</math>实际上可以如何定义。

定义<math>B^{i}_{j}=\frac{x^{i}_{j}}{X^{j}}</math>，其中<math>X^{j}=\sum_{i} x^{j}_{i}</math>表示部门<math>j</math>的总产出。因此，<math>B^{i}_{j}</math>表示没＝每生产一个产品<math>j</math>所需要的<math>i</math>产品的数量或者价值。于是，这个<math>B^{i}_{j}</math>看起来像一个生产工艺配方。这样的配方可以看做在一定时期内是不变的，或者其变化远远比产品的生产要慢。自然，这就是我们想要找到的矩阵<math>B</math>。

从数学上，我们也可以推导出来，<math>X^{i}=\sum_{j} x^{i}_{j}=\sum_{i}\frac{x^{i}_{j}}{X^{j}}X^{j} = \sum_{j} B^{i}_{j} X^{j}</math>，写成矩阵的形式也就是<math>X=BX</math>。现在我们把<math>X^{i}</math>分成<math>X^{1,2,\cdots,N-1}</math>和<math>X^{N}</math>并且扔掉后者，我们得到<math>X^{i\neq N} = \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + x^{i}_{N}= \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + Y^{i}</math>，写成矩阵的形式就是<math>X=B^{\left(-N\right)}X + Y</math>，也就是<math>X=\left(1-B^{\left(-N\right)}\right)^{-1}Y</math>。

定义<math>L_{B}=\left(1-B^{\left(-N\right)}\right)^{-1}</math>，称为Leontief矩阵，我们就得到了<math>X=L_{B}Y</math>。由于这是一个线性关系，于是<math>\Delta X=L_{B} \Delta Y</math>，这就是回答了我们一开始的问题：如果有一个最终需求上的可预期的波动，那么经济生产系统将如何响应。

有了这个典型问题的答案，我们就可以讨论各种进一步的问题，尤其是弹性和乘数。在那之前，我们来讨论几个理解上要注意的细节。

====注意总产出<math>X^{i}=\sum_{j} x^{i}_{j}</math>的定义====
它计算的是<math>i</math>部门的总产出，是把<math>i</math>到所有的<math>N</math>各部门的投入都计算进去的，而不是仅仅计算对前面的<math>N-1</math>个部门的投入，也就是，<math>X^{i}=\sum_{j=1}^{N} x^{i}_{j}</math>。

====为什么把最终消费者部门分出来====

在展开进一步讨论之前，我们稍微来说一下，为什么需要把最终消费者部门<math>N</math>独立出来。首先，在经济生产中，最终消费者部门的再生产（也就是劳动力本身的再生产）的时间尺度比较长，确实可以和其他生产分开。其次，劳动力的价值本身是一个难以度量的量，不是可以简单看做工人工资的。把部门<math>N</math>独立出来之后，<math>x^{N}_{i}</math>也不再需要直接出现在<math>B</math>矩阵里面了，因此<math>B</math>的每一个元素都能够很好地定义了。顺便，这个<math>x^{N}_{i}</math>是劳动力对于产业<math>i</math>的投入，被称为value-added。但是，其实，在一个总量守恒的系统里面，当我们已知所有的其他元素<math>x^{i}_{j}</math>的时候，<math>x^{N}_{i}</math>是可以算出来的。因此，第二个理由实际上不算理由。再次，也就是最重要的理由，经济学家相信，能够主动产生一个波动的，只能来自于最终消费者。其他的生产部门一旦技术矩阵<math>B</math>定了以后，就不会主动去产生波动了，而是被动地由于需求导致的波动。

可是，再仔细想一下，实际上，某些资源，例如石油有可能会产生独立的波动，并且这个波动还可能由于某些原因，仅仅直接影响对某几个部门的投入，也就是需要考虑<math>\Delta x^{l}_{m}</math>对产业的效果。于是，我们就需要对Leontief的投入产出分析做一些推广。关于这个推广，我们在目标外界投入产出分析再来讨论。

====乘数和弹性====

如果我们要考虑<math>y^{i}</math>上的小小的扰动（例如一个单位）对经济体系的响应的效果，则我们可以先计算出来这个扰动导致的<math>\Delta X = L \Delta Y</math>，接着把这些被扰动以后的<math>\Delta X</math>乘以某一个权重加起来。例如，权重都是1的时候，我们得到，<math>m_{i} = \sum_{j} \Delta X^{j} = \sum_{j} L^{j}_{i}</math>。这就叫做乘数效益：一个单位最终消费对于i产品的增加，将如何改变整个经济体系。

====产业重要性====
投入产出分析还可以用来衡量领域的重要性。一定程度上，前面的乘数和弹性就是一种重要性衡量。另外一种产业重要性的衡量方式是Hypothetical Extraction Method（HEM，假想地去掉某个领域的方法）。

====同时做实物和货币投入产出分析====
如果我们能够同时拿到实物形式和货币形式的两张投入产出表，我们能够做什么？这个问题我还没有想清楚，是不是和PageRank算法有关系，是不是能够一定程度上给一个产品内在价格以及价格动力学的描述？关于这个问题，Leontief和<ref name="Miller"/> 有深刻的讨论，还需要再去看一遍。

==目标外界投入产出分析==

这个想法非常简单，既然前面我们把最终消费者部门独立出来，放到方程的右边，那么，我们能不能把一般的部门拿出来放到方程的右边呢？对于通过守恒量补齐了value-added数据的投入产出表，或者说本来就是所有元素的值都有的投入产出表来说，这一点，技术上是能做到的。好，那道理上，能不能做，有没有意义？我们说，把最终消费者部门独立出来是因为我们认为它们能够产生独立的可预期的偏离，那么，是不是其他部门也能够产生独立的可预期的偏离呢？例如，石油输出组织决定以后就是不给做塑料袋的工厂提供原材料？这是有可能的。于是，我们就应该提出来一个把任意一个希望得到研究的产业独立出来放到外面去的研究方法。

至于具体的计算，完全和开放系统的投入产出一样，仅仅把右边的矢量从最终消费者部门替换成特定想要研究的部门。至于有了这个部门讨论哪些经济学问题，后续具体研究工作中再展开讨论。

==封闭系统的投入产出分析==

这个问题来自于这样的情景：如果系统完全没有一个可以独立出来放到右边的部门，或者我们不想把这样的东西拿出来放到右边，我们是不是还能够讨论这样的部门的重要性，同时考虑直接和间接重要性。那怎么分析？例如，当这个体系中的某个部门的生产力降低了以后，或者出现了扰动以后，所有经过这个部门加工的产品都会出现一些问题，然后进入其他部门，接着再一次回到这个部门（因为整体上是封闭的系统）之后还会再一次受影响。这样的影响如何衡量？

我们提出来一些可以尝试的分析方法，本身不一定就是最好的分析方法，但是这个问题还是要回答的。

我们自己的方法具体来说，就是本征矢量HEM。

==把PageRank算法看做广义投入产出分析==
定义<math>MF^{i}_{j}=\frac{x^{i}_{j}}{X^{i}}</math>，表示<math>i</math>的总产出当中，百分之多少进入了<math>j</math>部门。类似也可以定义<math>MB^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>，表示<math>j</math>收到的所有投入中，百分之多少来自于<math>i</math>部门。这两个分别称为向前和向后概率转移矩阵。

PageRank算法<ref name="PageRank"/>理论上可以看作是上面定义的概率转移矩阵的本征向量，也就是<math>MB \left|1_{MB}\right\rangle = \left|1_{MB}\right\rangle</math>，其中<math>1_{MB}</math>是<math>MB</math>的最大右本征值（1是本征值，并且是最大的本征值，这一点非常容易证明。例如通过证明最大左本征值<math>\left\langle 1_{MB}\right|=[1,1,\cdots]</math>是平庸的）。类似地<math>\left\langle 1_{MF}\right| MF = \left\langle 1_{MF}\right|</math>，是<math>MF</math>的最大左本征值（同样最大右本征值<math>\left|1_{MF}\right\rangle=[1,1,\cdots]^{T}</math>是平庸的）。

不过最大本征矢量的计算需要保证矩阵的最大本征值是非简併的，并且考虑到外界输入的问题——例如人们访问网页的时候有的时候追着超链接，有的时候会重新开始，有的时候总是从某些熟悉的网页开始——实际上PageRank算法计算的是如下的线性方程的解。当然，也是考虑到求线性方程的解可以更加算法效率更高的问题。
<math>P = \alpha MB P + \left(1-\alpha\right)E \Longrightarrow P = \left(1-\alpha MB\right)^{-1}\left(1-\alpha\right) E</math>。其中<math>E=\frac{1}{N}\left[1,1,\cdots\right]^{T}</math>代表随机重新开始浏览网页，或者某个代表用户特定使用习惯的<math>E_{0}</math>。前者就是目前通用的PageRank矢量，后者被称为个性化PageRank矢量。

有了这个概率转移矩阵，我们可以来看这个转移矩阵的稳定态，也就是其本征矢量。为了保证本征矢量的唯一性，有的时候需要加上一个很小的微扰项。将来我们还会发现，这个微扰项还可以当做外界来解释。于是，我们看到，在PageRank上，封闭系统的形式、（随机）开放系统的形式、目标外界开放系统的形式，得到了统一。

实际上PageRank的目标外界开放系统形式可以单独做一些研究，例如维持某个网站（部门）对其他部门的投入组合方式（或者需求组合方式）基本不变仅仅产生一个小小的改变的时候，其他各个网站（部门）的PageRank值或者某个总量会如何响应。

顺便，我们这里证明一个投入产出矩阵的本征向量和PageRank矩阵的本征向量的一一对应关系，从而更加深刻地说明，两个分析方法实际上是一样的，仅仅是计算出来的量的解释或者说具体意义上略有区别。

<math>\lambda_{B} \left\langle \lambda_{B} \right| \left. j \right\rangle =\sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle B^{i}_{j} = \sum_{i} \left\langle \lambda_{B} \right| \left. i　\right\rangle \frac{x^{i}_{j}}{X^{j}}</math>

<math>\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. j \right\rangle X^{j}=\sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i} \frac{x^{i}_{j}}{X^{i}} = \sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i} MF^{i}_{j}.</math>

于是，<math>\left\langle \lambda_{B} \right|=\sum_{j}\left\langle \lambda_{B} \right| \left. j \right\rangle \left\langle j \right|</math>是<math>B</math>的左本征向量，正好对应着<math>MF</math>的左本征向量<math>\left\langle \lambda_{MF} \right|=\sum_{j}\left\langle \lambda_{B} \right| \left. j \right\rangle X^{j}\left\langle j \right|</math>。同样于是，<math>\left| \lambda_{F} \right\rangle </math>是<math>F</math>的右本征向量，正好对应着<math>MB</math>的右本征向量<math>\left| \lambda_{MB} \right\rangle</math>。

问：'''这个本征向量在经济学上，到底什么意义？可以不管如何先在实际系统上算出来看看，对比一下这个本征向量和其他已有指标'''。

顺便，这个来源于网页排名的PageRank已经被用来给文章、期刊等排名，基于文章或者期刊的引用网络<ref name="Redner2"/><ref name="Redner"/><ref name="West"/>。其它考虑间接引用的评价算法可参见<ref name="Fragkiadaki"/>。

==向前（投入端）和向后（需求端）分析==
定义<math>F^{i}_{j}=\frac{x^{i}_{j}}{X_{i}}</math>，表示<math>i</math>平均每收到一个的其他部门的投入的时候，将会对<math>j</math>部门做出来多少投入。在这个意义上，我们把这个投入产出关系矩阵叫做向前分析（Forward）——产出关系。之前那个没生产一个<math>j</math>产品需要多少个<math>i</math>看做向后（Backward）——需求关系。

注意，在实物投入产出分析中，<math>X_{i} = \sum_{j} x^{j}_{i}</math>是不能加起来的——来自于不同产业的产品数量不能简单相加。因此，这个分析只能够在货币或者能量等意义下来做。

有了这个定义之后，同样，可以推导出来，<math>X=\left(1-F^{\left(-N\right)}\right)^{-1}Y</math>，其中<math>Y_{i}=x^{N}_{i}</math>，也就是最终消费者部门对<math>i</math>部门的劳动力投入或者说价值附加（value-added）投入。按照<ref name="Miller"/>的理解，<math>\Delta Y_{i}</math>也可以看做是投入到某个部门的劳动力价格的变化。因此，后续的<math>\Delta X</math>就表示这个劳动力价格变化在整个生产部门传播的效果。

为了表示两个矩阵的区别，有的时候，我们采用Einstein记号写作，
* <math>X^{a}=\left(1-B^{\left(-N\right)}\right)^{-1}Y^{a}</math>，向后投入产出分析
* <math>X_{a}=\left(1-F^{\left(-N\right)}\right)^{-1}Y_{a}</math>，向前投入产出分析

在向前和向后分析中，我们回答的典型问题有：给定消费者需求预期的整体经济响应，消费者对某个产品的需求的乘数效益，或者投入到某个部门的劳动力价格的变化的乘数效益，领域部门的重要性，产品或者能源税收造成的经济的响应，包含初级原材料、污染物、能源等环境因素的投入产出分析用来回答环境和生产互动。

==产品－技术二分网或者双层网上的投入产出分析==
同样的思想甚至技术用来讨论二分网或者双层网。当然，首先，可以直接把二分网和双层网当做一个大网络来用，也可以考虑更加一般的分析方法：例如从生产企业到产品，这样的网络。具体怎么做，还得继续研究。在科学计量学三层网络框架里面，这样的分析方法是非常重要的。

==组合溢出效益==
前面我们讨论了通过去掉某个部门对整体系统的影响，用同样的思路，我们可以讨论去掉两个或者几个部门，或者几个矩阵元素的影响，并且把这个影响和单独去掉这些部门的影响相比较，来看看是不是有组合溢出效益。例如在[[https://en.wikipedia.org/wiki/Flux_balance_analysis 流平衡分析（Flux Balance Analysis）]]中，我们可以看到两个基因的组合溢出效益——合起来的效果不等于两个分开效果的叠加，见下图<ref name="Orth"/>。先计算在去掉单个基因的影响，然后计算去掉任意一对合起来的影响，接着对比这个影响。图中蓝色越深表示影响越大。可以看到，对于一大群基因，任意和其他基因的组合都有比较严重的影响——也就是图中的成带状的图。这说明，对于这些基因，组合组合溢出效益基本不用考虑，去掉单独的那个已经影响很大，再去掉另一个基因不会产生严重的多的影响。但是，其中另外一些，只出现在孤立的地方——见图中那些孤立的蓝色点。这说明，单独去掉其中一个基因都没有太大的影响，但是，同时去掉两个则能够有很大的影响。

用广义投入产出分析研究系统的时候，都可以讨论一下这个组合溢出效益。

[[file: FBA_GeneKnockout.png]]

==相关研究工作==
# 从方法上对比原始投入产出分析、目标外界投入产出分析、封闭系统投入产出分析、PageRank分析、向前向后分析在概念和结果上的区别
# CO2排放<ref name="Davis"/><ref name="Feng"/>
# 世界贸易<ref name="Wenz"/>
# 房地产对中国经济的贡献,与国际的对比
# 金融业对中国经济的贡献,与国际的对比
# 旅游业对中国经济的贡献,与国际的对比
# 政府购买对中国经济的贡献,与国际的对比
# 中国产业结构也就是矩阵的变化的影响
# 建立产品层次的投入产出网络,做分析,而不是部门层次的,可以放开上面的第一个局限性。没有实际产品生产关系的数据,就拿化学反应的数据先做一个方法和可研究的问题的讨论。
# 科学研究领域之间、科学领域和技术部门之间的投入产出关系

==参考文献==
<references>
<ref name="Miller"> Miller, R., & Blair, P. (2009). Input–output analysis: Foundations and extensions (2nd ed.). Cambridge, UK: Cambridge University Press.</ref>
<ref name="Davis"> Davis S. & Caldeira K. (2010). Consumption-based accounting of CO2 emmissions. PNAS 107(12):5687-5692.</ref>
<ref name="Feng"> Feng K. et al. (2013). Outsourcing CO2 within China. PNAS 110(28):11654-11659.</ref>
<ref name="Wenz"> Leonie Wenz and Anders Levermann.(2016). Enhanced economic connectivity to foster heat stress-related losses. Science Advances Vol. 2, no. 6, e1501026.</ref>
<ref name="Orth"> Jeffrey D Orth, Ines Thiele & Bernhard Ø Palsson, What is flux balance analysis? Nature Biotechnology 28, 245–248 (2010).</ref>
<ref name="Redner"> Sergei Maslov and Sidney Redner (2008)， Promise and Pitfalls of Extending Google's PageRank Algorithm to Citation Networks, Journal of Neuroscience 29, 28 (44) 11103-11105(2008). DOI:10.1523/JNEUROSCI.0002-08.2008 . (http://www.jneurosci.org/content/28/44/11103)</ref>
<ref name="Redner2"> Chen P, Xie H, Maslov S, Redner S (2007), Finding scientific gems with Google. J Informetrics 1:8–15.</ref>
<ref name='Fragkiadaki'> Fragkiadaki E. and Evangelidis G. (2014), Review of the indirect citations paradigm: theory and practice of the assement of papers, authors and journals, Scientometrics 99:261-288 (2014). </ref>
<ref name="PageRank"> Brin S, Page L (1998) The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems 30:107–117. </ref>
<ref name="West"> J.D. West, T.C. Bergstrom, C. T. Bergstrom, The Eigenfactor Metrics: A network approach to assessing scholarly journals, College & Research Libraries 71(3): 236-244(2010), doi: 10.5860/0710236 </ref>
</references>

分类:广义投入产出分析

2018-06-13T11:02:20Z

Szs：/* 参考文献 */

[[Category:研究项目]]
[[Category:研究思想和方法]]
[[Category:概念和书籍]]

在经济学Leontief投入产出分析和Google PageRank算法的基础上，我们提出来了[http://www.systemsci.org/jinshanw/2016/05/05/%E5%B9%BF%E4%B9%89%E6%8A%95%E5%85%A5%E4%BA%A7%E5%87%BA%E5%88%86%E6%9E%90%E6%96%B9%E6%B3%95/ 广义投入产出分析]（暂时见这个在[http://www.systemsci.org/jinshanw “吴金闪的工作和思考”]博客站点上的帖子）。

==Leontief投入产出分析==
原始的投入产出分析<ref name="Miller"/> 是用于分析经济产品或者经济部门或者说产业——由于数据获取的限制，部门或者说产业更经常被研究的主体，尽管思想上这个方法也可以用于产品的研究——之间的相互影响的。

===部门（产业）层次的投入产出表===
把整个经济分成<math>N</math>个部门，假设每一个部门仅仅生产一种产品，每一个部门可以从任何一个部门获得生产这个产品的原材料和劳动力。进出口实际上也可以看做是一个单独的部门。在这里，我们暂时忽略进出口。这样整个经济在一段时期内的经济生产关系就可以用以下的矩阵来代表，
<math>x=\left(x^{i}_{j}\right)_{N\times N}.</math>
其中<math>x^{i}_{j}</math>代表<math>i</math>部门对<math>j</math>部门的投入的产品的数量（实物投入产出表）或者价值（货币投入产出表）。

===产品生产（化学反应）层次的投入产出表===
假设有了产品层次的这张表，如果确实一个生产工艺仅仅产出一个产品，那么，所有的经济生产就包含在这个矩阵内了。当然，随着科学技术的进步，新的产品和新的生产工艺还会出现，因此，这张表仅仅是某个比较短的时期内的一张表，甚至原则上是某个时间点的一张表。当然，实际上，每一个生产工艺有可能有多个产出，因此，整体来说，产品生产就像化学反应，只不过可能场地、劳动力、生产设备、能源等等需要和原材料以及产出物一起放到这个投入产出表里面。对于这样的整个经济的生产工艺，实际上，需要另两个张量来描述，例如<math>L_{\alpha}^{j}</math>表示工艺<math>\alpha</math>需要产品<math>j</math>的数量或者价值，<math>R_{\alpha,j}</math>表示工艺<math>\alpha</math>产出的产品<math>j</math>的数量或者价值。也可以把两个张量合起来，用<math>S_{\alpha}^{j}</math>表示，用在数字前面增加一个“<math>+</math>”（正号）或者“<math>-</math>”（负号）来标记生产和需求。

这三个矩阵也可以看作是产品－工艺（或者反应物－反应方程）二分网的加权邻接矩阵。

===典型研究问题===
那么，有了这个完整的生产关系的描述之后，投入产出分析主要解决什么样的问题呢？第一个，当工艺水平不变的时候，如果人们对于某个产品的需求增加了，则，经济生产系统讲产生怎样的响应？

把第<math>N</math>个部门看作是最终消费者部门，把这个问题用数学的语言来说，就是，<math>y^{i}=x^{i}_{N}</math>有可能有一个可以预期的变化<math>\Delta y^{i}</math>（或者更一般的任意一个部门的变化，记为<math>\Delta　Y</math>），例如下一年人们需要更多的汽车，则矩阵的其他元素<math>x^{j}_{k}</math>将如何变化。记这个变化为<math>\Delta X</math>。我们希望得到一个<math>\Delta X</math> 和　<math>\Delta Y</math>之间的关系。

先从理念上来解决这个问题，再从数学上来解决。

为了有更多的汽车来满足最终消费者需求，经济生产体系首先要满足制造出来这么多额外的汽车的要求；接着为了生产这些汽车，经济生产体系需要生产这些汽车的原材料；接着，需要生产出来原材料的原材料；等等等等。在数学上，这就是

<math display="block">\Delta X = \Delta Y + B \Delta Y + BB \Delta Y + \cdots, </math>
其中<math>B</math>就是某个代表从产品计算出来原材料的矩阵。下面，我们来看这个<math>B</math>实际上可以如何定义。

定义<math>B^{i}_{j}=\frac{x^{i}_{j}}{X^{j}}</math>，其中<math>X^{j}=\sum_{i} x^{j}_{i}</math>表示部门<math>j</math>的总产出。因此，<math>B^{i}_{j}</math>表示没＝每生产一个产品<math>j</math>所需要的<math>i</math>产品的数量或者价值。于是，这个<math>B^{i}_{j}</math>看起来像一个生产工艺配方。这样的配方可以看做在一定时期内是不变的，或者其变化远远比产品的生产要慢。自然，这就是我们想要找到的矩阵<math>B</math>。

从数学上，我们也可以推导出来，<math>X^{i}=\sum_{j} x^{i}_{j}=\sum_{i}\frac{x^{i}_{j}}{X^{j}}X^{j} = \sum_{j} B^{i}_{j} X^{j}</math>，写成矩阵的形式也就是<math>X=BX</math>。现在我们把<math>X^{i}</math>分成<math>X^{1,2,\cdots,N-1}</math>和<math>X^{N}</math>并且扔掉后者，我们得到<math>X^{i\neq N} = \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + x^{i}_{N}= \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + Y^{i}</math>，写成矩阵的形式就是<math>X=B^{\left(-N\right)}X + Y</math>，也就是<math>X=\left(1-B^{\left(-N\right)}\right)^{-1}Y</math>。

定义<math>L_{B}=\left(1-B^{\left(-N\right)}\right)^{-1}</math>，称为Leontief矩阵，我们就得到了<math>X=L_{B}Y</math>。由于这是一个线性关系，于是<math>\Delta X=L_{B} \Delta Y</math>，这就是回答了我们一开始的问题：如果有一个最终需求上的可预期的波动，那么经济生产系统将如何响应。

有了这个典型问题的答案，我们就可以讨论各种进一步的问题，尤其是弹性和乘数。在那之前，我们来讨论几个理解上要注意的细节。

====注意总产出<math>X^{i}=\sum_{j} x^{i}_{j}</math>的定义====
它计算的是<math>i</math>部门的总产出，是把<math>i</math>到所有的<math>N</math>各部门的投入都计算进去的，而不是仅仅计算对前面的<math>N-1</math>个部门的投入，也就是，<math>X^{i}=\sum_{j=1}^{N} x^{i}_{j}</math>。

====为什么把最终消费者部门分出来====

在展开进一步讨论之前，我们稍微来说一下，为什么需要把最终消费者部门<math>N</math>独立出来。首先，在经济生产中，最终消费者部门的再生产（也就是劳动力本身的再生产）的时间尺度比较长，确实可以和其他生产分开。其次，劳动力的价值本身是一个难以度量的量，不是可以简单看做工人工资的。把部门<math>N</math>独立出来之后，<math>x^{N}_{i}</math>也不再需要直接出现在<math>B</math>矩阵里面了，因此<math>B</math>的每一个元素都能够很好地定义了。顺便，这个<math>x^{N}_{i}</math>是劳动力对于产业<math>i</math>的投入，被称为value-added。但是，其实，在一个总量守恒的系统里面，当我们已知所有的其他元素<math>x^{i}_{j}</math>的时候，<math>x^{N}_{i}</math>是可以算出来的。因此，第二个理由实际上不算理由。再次，也就是最重要的理由，经济学家相信，能够主动产生一个波动的，只能来自于最终消费者。其他的生产部门一旦技术矩阵<math>B</math>定了以后，就不会主动去产生波动了，而是被动地由于需求导致的波动。

可是，再仔细想一下，实际上，某些资源，例如石油有可能会产生独立的波动，并且这个波动还可能由于某些原因，仅仅直接影响对某几个部门的投入，也就是需要考虑<math>\Delta x^{l}_{m}</math>对产业的效果。于是，我们就需要对Leontief的投入产出分析做一些推广。关于这个推广，我们在目标外界投入产出分析再来讨论。

====乘数和弹性====

如果我们要考虑<math>y^{i}</math>上的小小的扰动（例如一个单位）对经济体系的响应的效果，则我们可以先计算出来这个扰动导致的<math>\Delta X = L \Delta Y</math>，接着把这些被扰动以后的<math>\Delta X</math>乘以某一个权重加起来。例如，权重都是1的时候，我们得到，<math>m_{i} = \sum_{j} \Delta X^{j} = \sum_{j} L^{j}_{i}</math>。这就叫做乘数效益：一个单位最终消费对于i产品的增加，将如何改变整个经济体系。

====产业重要性====
投入产出分析还可以用来衡量领域的重要性。一定程度上，前面的乘数和弹性就是一种重要性衡量。另外一种产业重要性的衡量方式是Hypothetical Extraction Method（HEM，假想地去掉某个领域的方法）。

====同时做实物和货币投入产出分析====
如果我们能够同时拿到实物形式和货币形式的两张投入产出表，我们能够做什么？这个问题我还没有想清楚，是不是和PageRank算法有关系，是不是能够一定程度上给一个产品内在价格以及价格动力学的描述？关于这个问题，Leontief和<ref name="Miller"/> 有深刻的讨论，还需要再去看一遍。

==目标外界投入产出分析==

这个想法非常简单，既然前面我们把最终消费者部门独立出来，放到方程的右边，那么，我们能不能把一般的部门拿出来放到方程的右边呢？对于通过守恒量补齐了value-added数据的投入产出表，或者说本来就是所有元素的值都有的投入产出表来说，这一点，技术上是能做到的。好，那道理上，能不能做，有没有意义？我们说，把最终消费者部门独立出来是因为我们认为它们能够产生独立的可预期的偏离，那么，是不是其他部门也能够产生独立的可预期的偏离呢？例如，石油输出组织决定以后就是不给做塑料袋的工厂提供原材料？这是有可能的。于是，我们就应该提出来一个把任意一个希望得到研究的产业独立出来放到外面去的研究方法。

至于具体的计算，完全和开放系统的投入产出一样，仅仅把右边的矢量从最终消费者部门替换成特定想要研究的部门。至于有了这个部门讨论哪些经济学问题，后续具体研究工作中再展开讨论。

==封闭系统的投入产出分析==

这个问题来自于这样的情景：如果系统完全没有一个可以独立出来放到右边的部门，或者我们不想把这样的东西拿出来放到右边，我们是不是还能够讨论这样的部门的重要性，同时考虑直接和间接重要性。那怎么分析？例如，当这个体系中的某个部门的生产力降低了以后，或者出现了扰动以后，所有经过这个部门加工的产品都会出现一些问题，然后进入其他部门，接着再一次回到这个部门（因为整体上是封闭的系统）之后还会再一次受影响。这样的影响如何衡量？

我们提出来一些可以尝试的分析方法，本身不一定就是最好的分析方法，但是这个问题还是要回答的。

我们自己的方法具体来说，就是本征矢量HEM。

==把PageRank算法看做广义投入产出分析==
定义<math>MF^{i}_{j}=\frac{x^{i}_{j}}{X^{i}}</math>，表示<math>i</math>的总产出当中，百分之多少进入了<math>j</math>部门。类似也可以定义<math>MB^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>，表示<math>j</math>收到的所有投入中，百分之多少来自于<math>i</math>部门。这两个分别称为向前和向后概率转移矩阵。

PageRank算法<ref name="PageRank"/>理论上可以看作是上面定义的概率转移矩阵的本征向量，也就是<math>MB \left|1_{MB}\right\rangle = \left|1_{MB}\right\rangle</math>，其中<math>1_{MB}</math>是<math>MB</math>的最大右本征值（1是本征值，并且是最大的本征值，这一点非常容易证明。例如通过证明最大左本征值<math>\left\langle 1_{MB}\right|=[1,1,\cdots]</math>是平庸的）。类似地<math>\left\langle 1_{MF}\right| MF = \left\langle 1_{MF}\right|</math>，是<math>MF</math>的最大左本征值（同样最大右本征值<math>\left|1_{MF}\right\rangle=[1,1,\cdots]^{T}</math>是平庸的）。

不过最大本征矢量的计算需要保证矩阵的最大本征值是非简併的，并且考虑到外界输入的问题——例如人们访问网页的时候有的时候追着超链接，有的时候会重新开始，有的时候总是从某些熟悉的网页开始——实际上PageRank算法计算的是如下的线性方程的解。当然，也是考虑到求线性方程的解可以更加算法效率更高的问题。
<math>P = \alpha MB P + \left(1-\alpha\right)E \Longrightarrow P = \left(1-\alpha MB\right)^{-1}\left(1-\alpha\right) E</math>。其中<math>E=\frac{1}{N}\left[1,1,\cdots\right]^{T}</math>代表随机重新开始浏览网页，或者某个代表用户特定使用习惯的<math>E_{0}</math>。前者就是目前通用的PageRank矢量，后者被称为个性化PageRank矢量。

有了这个概率转移矩阵，我们可以来看这个转移矩阵的稳定态，也就是其本征矢量。为了保证本征矢量的唯一性，有的时候需要加上一个很小的微扰项。将来我们还会发现，这个微扰项还可以当做外界来解释。于是，我们看到，在PageRank上，封闭系统的形式、（随机）开放系统的形式、目标外界开放系统的形式，得到了统一。

实际上PageRank的目标外界开放系统形式可以单独做一些研究，例如维持某个网站（部门）对其他部门的投入组合方式（或者需求组合方式）基本不变仅仅产生一个小小的改变的时候，其他各个网站（部门）的PageRank值或者某个总量会如何响应。

顺便，我们这里证明一个投入产出矩阵的本征向量和PageRank矩阵的本征向量的一一对应关系，从而更加深刻地说明，两个分析方法实际上是一样的，仅仅是计算出来的量的解释或者说具体意义上略有区别。

<math>\lambda_{B} \left\langle \lambda_{B} \right| \left. j \right\rangle =\sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle B^{i}_{j} = \sum_{i} \left\langle \lambda_{B} \right| \left. i　\right\rangle \frac{x^{i}_{j}}{X^{j}}</math>

<math>\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. j \right\rangle X^{j}=\sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i} \frac{x^{i}_{j}}{X^{i}} = \sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i} MF^{i}_{j}.</math>

于是，<math>\left\langle \lambda_{B} \right|=\sum_{j}\left\langle \lambda_{B} \right| \left. j \right\rangle \left\langle j \right|</math>是<math>B</math>的左本征向量，正好对应着<math>MF</math>的左本征向量<math>\left\langle \lambda_{MF} \right|=\sum_{j}\left\langle \lambda_{B} \right| \left. j \right\rangle X^{j}\left\langle j \right|</math>。同样于是，<math>\left| \lambda_{F} \right\rangle </math>是<math>F</math>的右本征向量，正好对应着<math>MB</math>的右本征向量<math>\left| \lambda_{MB} \right\rangle</math>。

问：'''这个本征向量在经济学上，到底什么意义？可以不管如何先在实际系统上算出来看看，对比一下这个本征向量和其他已有指标'''。

顺便，这个来源于网页排名的PageRank已经被用来给文章、期刊等排名，基于文章或者期刊的引用网络<ref name="Redner2"/><ref name="Redner"/><ref name="West"/>。

==向前（投入端）和向后（需求端）分析==
定义<math>F^{i}_{j}=\frac{x^{i}_{j}}{X_{i}}</math>，表示<math>i</math>平均每收到一个的其他部门的投入的时候，将会对<math>j</math>部门做出来多少投入。在这个意义上，我们把这个投入产出关系矩阵叫做向前分析（Forward）——产出关系。之前那个没生产一个<math>j</math>产品需要多少个<math>i</math>看做向后（Backward）——需求关系。

注意，在实物投入产出分析中，<math>X_{i} = \sum_{j} x^{j}_{i}</math>是不能加起来的——来自于不同产业的产品数量不能简单相加。因此，这个分析只能够在货币或者能量等意义下来做。

有了这个定义之后，同样，可以推导出来，<math>X=\left(1-F^{\left(-N\right)}\right)^{-1}Y</math>，其中<math>Y_{i}=x^{N}_{i}</math>，也就是最终消费者部门对<math>i</math>部门的劳动力投入或者说价值附加（value-added）投入。按照<ref name="Miller"/>的理解，<math>\Delta Y_{i}</math>也可以看做是投入到某个部门的劳动力价格的变化。因此，后续的<math>\Delta X</math>就表示这个劳动力价格变化在整个生产部门传播的效果。

为了表示两个矩阵的区别，有的时候，我们采用Einstein记号写作，
* <math>X^{a}=\left(1-B^{\left(-N\right)}\right)^{-1}Y^{a}</math>，向后投入产出分析
* <math>X_{a}=\left(1-F^{\left(-N\right)}\right)^{-1}Y_{a}</math>，向前投入产出分析

在向前和向后分析中，我们回答的典型问题有：给定消费者需求预期的整体经济响应，消费者对某个产品的需求的乘数效益，或者投入到某个部门的劳动力价格的变化的乘数效益，领域部门的重要性，产品或者能源税收造成的经济的响应，包含初级原材料、污染物、能源等环境因素的投入产出分析用来回答环境和生产互动。

==产品－技术二分网或者双层网上的投入产出分析==
同样的思想甚至技术用来讨论二分网或者双层网。当然，首先，可以直接把二分网和双层网当做一个大网络来用，也可以考虑更加一般的分析方法：例如从生产企业到产品，这样的网络。具体怎么做，还得继续研究。在科学计量学三层网络框架里面，这样的分析方法是非常重要的。

==组合溢出效益==
前面我们讨论了通过去掉某个部门对整体系统的影响，用同样的思路，我们可以讨论去掉两个或者几个部门，或者几个矩阵元素的影响，并且把这个影响和单独去掉这些部门的影响相比较，来看看是不是有组合溢出效益。例如在[[https://en.wikipedia.org/wiki/Flux_balance_analysis 流平衡分析（Flux Balance Analysis）]]中，我们可以看到两个基因的组合溢出效益——合起来的效果不等于两个分开效果的叠加，见下图<ref name="Orth"/>。先计算在去掉单个基因的影响，然后计算去掉任意一对合起来的影响，接着对比这个影响。图中蓝色越深表示影响越大。可以看到，对于一大群基因，任意和其他基因的组合都有比较严重的影响——也就是图中的成带状的图。这说明，对于这些基因，组合组合溢出效益基本不用考虑，去掉单独的那个已经影响很大，再去掉另一个基因不会产生严重的多的影响。但是，其中另外一些，只出现在孤立的地方——见图中那些孤立的蓝色点。这说明，单独去掉其中一个基因都没有太大的影响，但是，同时去掉两个则能够有很大的影响。

用广义投入产出分析研究系统的时候，都可以讨论一下这个组合溢出效益。

[[file: FBA_GeneKnockout.png]]

==相关研究工作==
# 从方法上对比原始投入产出分析、目标外界投入产出分析、封闭系统投入产出分析、PageRank分析、向前向后分析在概念和结果上的区别
# CO2排放<ref name="Davis"/><ref name="Feng"/>
# 世界贸易<ref name="Wenz"/>
# 房地产对中国经济的贡献,与国际的对比
# 金融业对中国经济的贡献,与国际的对比
# 旅游业对中国经济的贡献,与国际的对比
# 政府购买对中国经济的贡献,与国际的对比
# 中国产业结构也就是矩阵的变化的影响
# 建立产品层次的投入产出网络,做分析,而不是部门层次的,可以放开上面的第一个局限性。没有实际产品生产关系的数据,就拿化学反应的数据先做一个方法和可研究的问题的讨论。
# 科学研究领域之间、科学领域和技术部门之间的投入产出关系

==参考文献==
<references>
<ref name="Miller"> Miller, R., & Blair, P. (2009). Input–output analysis: Foundations and extensions (2nd ed.). Cambridge, UK: Cambridge University Press.</ref>
<ref name="Davis"> Davis S. & Caldeira K. (2010). Consumption-based accounting of CO2 emmissions. PNAS 107(12):5687-5692.</ref>
<ref name="Feng"> Feng K. et al. (2013). Outsourcing CO2 within China. PNAS 110(28):11654-11659.</ref>
<ref name="Wenz"> Leonie Wenz and Anders Levermann.(2016). Enhanced economic connectivity to foster heat stress-related losses. Science Advances Vol. 2, no. 6, e1501026.</ref>
<ref name="Orth"> Jeffrey D Orth, Ines Thiele & Bernhard Ø Palsson, What is flux balance analysis? Nature Biotechnology 28, 245–248 (2010).</ref>
<ref name="Redner"> Sergei Maslov and Sidney Redner (2008)， Promise and Pitfalls of Extending Google's PageRank Algorithm to Citation Networks, Journal of Neuroscience 29, 28 (44) 11103-11105(2008). DOI:10.1523/JNEUROSCI.0002-08.2008 . (http://www.jneurosci.org/content/28/44/11103)</ref>
<ref name="Redner2"> Chen P, Xie H, Maslov S, Redner S (2007), Finding scientific gems with Google. J Informetrics 1:8–15.</ref>
<ref name='Fragkiadaki'> Fragkiadaki E. and Evangelidis G. (2014), Review of the indirect citations paradigm: theory and practice of the assement of papers, authors and journals, Scientometrics 99:261-288 (2014). </ref>
<ref name="PageRank"> Brin S, Page L (1998) The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems 30:107–117. </ref>
<ref name="West"> J.D. West, T.C. Bergstrom, C. T. Bergstrom, The Eigenfactor Metrics: A network approach to assessing scholarly journals, College & Research Libraries 71(3): 236-244(2010), doi: 10.5860/0710236 </ref>
</references>

分类:广义投入产出分析

2018-06-13T10:59:26Z

Szs：/* 参考文献 */

[[Category:研究项目]]
[[Category:研究思想和方法]]
[[Category:概念和书籍]]

在经济学Leontief投入产出分析和Google PageRank算法的基础上，我们提出来了[http://www.systemsci.org/jinshanw/2016/05/05/%E5%B9%BF%E4%B9%89%E6%8A%95%E5%85%A5%E4%BA%A7%E5%87%BA%E5%88%86%E6%9E%90%E6%96%B9%E6%B3%95/ 广义投入产出分析]（暂时见这个在[http://www.systemsci.org/jinshanw “吴金闪的工作和思考”]博客站点上的帖子）。

==Leontief投入产出分析==
原始的投入产出分析<ref name="Miller"/> 是用于分析经济产品或者经济部门或者说产业——由于数据获取的限制，部门或者说产业更经常被研究的主体，尽管思想上这个方法也可以用于产品的研究——之间的相互影响的。

===部门（产业）层次的投入产出表===
把整个经济分成<math>N</math>个部门，假设每一个部门仅仅生产一种产品，每一个部门可以从任何一个部门获得生产这个产品的原材料和劳动力。进出口实际上也可以看做是一个单独的部门。在这里，我们暂时忽略进出口。这样整个经济在一段时期内的经济生产关系就可以用以下的矩阵来代表，
<math>x=\left(x^{i}_{j}\right)_{N\times N}.</math>
其中<math>x^{i}_{j}</math>代表<math>i</math>部门对<math>j</math>部门的投入的产品的数量（实物投入产出表）或者价值（货币投入产出表）。

===产品生产（化学反应）层次的投入产出表===
假设有了产品层次的这张表，如果确实一个生产工艺仅仅产出一个产品，那么，所有的经济生产就包含在这个矩阵内了。当然，随着科学技术的进步，新的产品和新的生产工艺还会出现，因此，这张表仅仅是某个比较短的时期内的一张表，甚至原则上是某个时间点的一张表。当然，实际上，每一个生产工艺有可能有多个产出，因此，整体来说，产品生产就像化学反应，只不过可能场地、劳动力、生产设备、能源等等需要和原材料以及产出物一起放到这个投入产出表里面。对于这样的整个经济的生产工艺，实际上，需要另两个张量来描述，例如<math>L_{\alpha}^{j}</math>表示工艺<math>\alpha</math>需要产品<math>j</math>的数量或者价值，<math>R_{\alpha,j}</math>表示工艺<math>\alpha</math>产出的产品<math>j</math>的数量或者价值。也可以把两个张量合起来，用<math>S_{\alpha}^{j}</math>表示，用在数字前面增加一个“<math>+</math>”（正号）或者“<math>-</math>”（负号）来标记生产和需求。

这三个矩阵也可以看作是产品－工艺（或者反应物－反应方程）二分网的加权邻接矩阵。

===典型研究问题===
那么，有了这个完整的生产关系的描述之后，投入产出分析主要解决什么样的问题呢？第一个，当工艺水平不变的时候，如果人们对于某个产品的需求增加了，则，经济生产系统讲产生怎样的响应？

把第<math>N</math>个部门看作是最终消费者部门，把这个问题用数学的语言来说，就是，<math>y^{i}=x^{i}_{N}</math>有可能有一个可以预期的变化<math>\Delta y^{i}</math>（或者更一般的任意一个部门的变化，记为<math>\Delta　Y</math>），例如下一年人们需要更多的汽车，则矩阵的其他元素<math>x^{j}_{k}</math>将如何变化。记这个变化为<math>\Delta X</math>。我们希望得到一个<math>\Delta X</math> 和　<math>\Delta Y</math>之间的关系。

先从理念上来解决这个问题，再从数学上来解决。

为了有更多的汽车来满足最终消费者需求，经济生产体系首先要满足制造出来这么多额外的汽车的要求；接着为了生产这些汽车，经济生产体系需要生产这些汽车的原材料；接着，需要生产出来原材料的原材料；等等等等。在数学上，这就是

<math display="block">\Delta X = \Delta Y + B \Delta Y + BB \Delta Y + \cdots, </math>
其中<math>B</math>就是某个代表从产品计算出来原材料的矩阵。下面，我们来看这个<math>B</math>实际上可以如何定义。

定义<math>B^{i}_{j}=\frac{x^{i}_{j}}{X^{j}}</math>，其中<math>X^{j}=\sum_{i} x^{j}_{i}</math>表示部门<math>j</math>的总产出。因此，<math>B^{i}_{j}</math>表示没＝每生产一个产品<math>j</math>所需要的<math>i</math>产品的数量或者价值。于是，这个<math>B^{i}_{j}</math>看起来像一个生产工艺配方。这样的配方可以看做在一定时期内是不变的，或者其变化远远比产品的生产要慢。自然，这就是我们想要找到的矩阵<math>B</math>。

从数学上，我们也可以推导出来，<math>X^{i}=\sum_{j} x^{i}_{j}=\sum_{i}\frac{x^{i}_{j}}{X^{j}}X^{j} = \sum_{j} B^{i}_{j} X^{j}</math>，写成矩阵的形式也就是<math>X=BX</math>。现在我们把<math>X^{i}</math>分成<math>X^{1,2,\cdots,N-1}</math>和<math>X^{N}</math>并且扔掉后者，我们得到<math>X^{i\neq N} = \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + x^{i}_{N}= \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + Y^{i}</math>，写成矩阵的形式就是<math>X=B^{\left(-N\right)}X + Y</math>，也就是<math>X=\left(1-B^{\left(-N\right)}\right)^{-1}Y</math>。

定义<math>L_{B}=\left(1-B^{\left(-N\right)}\right)^{-1}</math>，称为Leontief矩阵，我们就得到了<math>X=L_{B}Y</math>。由于这是一个线性关系，于是<math>\Delta X=L_{B} \Delta Y</math>，这就是回答了我们一开始的问题：如果有一个最终需求上的可预期的波动，那么经济生产系统将如何响应。

有了这个典型问题的答案，我们就可以讨论各种进一步的问题，尤其是弹性和乘数。在那之前，我们来讨论几个理解上要注意的细节。

====注意总产出<math>X^{i}=\sum_{j} x^{i}_{j}</math>的定义====
它计算的是<math>i</math>部门的总产出，是把<math>i</math>到所有的<math>N</math>各部门的投入都计算进去的，而不是仅仅计算对前面的<math>N-1</math>个部门的投入，也就是，<math>X^{i}=\sum_{j=1}^{N} x^{i}_{j}</math>。

====为什么把最终消费者部门分出来====

在展开进一步讨论之前，我们稍微来说一下，为什么需要把最终消费者部门<math>N</math>独立出来。首先，在经济生产中，最终消费者部门的再生产（也就是劳动力本身的再生产）的时间尺度比较长，确实可以和其他生产分开。其次，劳动力的价值本身是一个难以度量的量，不是可以简单看做工人工资的。把部门<math>N</math>独立出来之后，<math>x^{N}_{i}</math>也不再需要直接出现在<math>B</math>矩阵里面了，因此<math>B</math>的每一个元素都能够很好地定义了。顺便，这个<math>x^{N}_{i}</math>是劳动力对于产业<math>i</math>的投入，被称为value-added。但是，其实，在一个总量守恒的系统里面，当我们已知所有的其他元素<math>x^{i}_{j}</math>的时候，<math>x^{N}_{i}</math>是可以算出来的。因此，第二个理由实际上不算理由。再次，也就是最重要的理由，经济学家相信，能够主动产生一个波动的，只能来自于最终消费者。其他的生产部门一旦技术矩阵<math>B</math>定了以后，就不会主动去产生波动了，而是被动地由于需求导致的波动。

可是，再仔细想一下，实际上，某些资源，例如石油有可能会产生独立的波动，并且这个波动还可能由于某些原因，仅仅直接影响对某几个部门的投入，也就是需要考虑<math>\Delta x^{l}_{m}</math>对产业的效果。于是，我们就需要对Leontief的投入产出分析做一些推广。关于这个推广，我们在目标外界投入产出分析再来讨论。

====乘数和弹性====

如果我们要考虑<math>y^{i}</math>上的小小的扰动（例如一个单位）对经济体系的响应的效果，则我们可以先计算出来这个扰动导致的<math>\Delta X = L \Delta Y</math>，接着把这些被扰动以后的<math>\Delta X</math>乘以某一个权重加起来。例如，权重都是1的时候，我们得到，<math>m_{i} = \sum_{j} \Delta X^{j} = \sum_{j} L^{j}_{i}</math>。这就叫做乘数效益：一个单位最终消费对于i产品的增加，将如何改变整个经济体系。

====产业重要性====
投入产出分析还可以用来衡量领域的重要性。一定程度上，前面的乘数和弹性就是一种重要性衡量。另外一种产业重要性的衡量方式是Hypothetical Extraction Method（HEM，假想地去掉某个领域的方法）。

====同时做实物和货币投入产出分析====
如果我们能够同时拿到实物形式和货币形式的两张投入产出表，我们能够做什么？这个问题我还没有想清楚，是不是和PageRank算法有关系，是不是能够一定程度上给一个产品内在价格以及价格动力学的描述？关于这个问题，Leontief和<ref name="Miller"/> 有深刻的讨论，还需要再去看一遍。

==目标外界投入产出分析==

这个想法非常简单，既然前面我们把最终消费者部门独立出来，放到方程的右边，那么，我们能不能把一般的部门拿出来放到方程的右边呢？对于通过守恒量补齐了value-added数据的投入产出表，或者说本来就是所有元素的值都有的投入产出表来说，这一点，技术上是能做到的。好，那道理上，能不能做，有没有意义？我们说，把最终消费者部门独立出来是因为我们认为它们能够产生独立的可预期的偏离，那么，是不是其他部门也能够产生独立的可预期的偏离呢？例如，石油输出组织决定以后就是不给做塑料袋的工厂提供原材料？这是有可能的。于是，我们就应该提出来一个把任意一个希望得到研究的产业独立出来放到外面去的研究方法。

至于具体的计算，完全和开放系统的投入产出一样，仅仅把右边的矢量从最终消费者部门替换成特定想要研究的部门。至于有了这个部门讨论哪些经济学问题，后续具体研究工作中再展开讨论。

==封闭系统的投入产出分析==

这个问题来自于这样的情景：如果系统完全没有一个可以独立出来放到右边的部门，或者我们不想把这样的东西拿出来放到右边，我们是不是还能够讨论这样的部门的重要性，同时考虑直接和间接重要性。那怎么分析？例如，当这个体系中的某个部门的生产力降低了以后，或者出现了扰动以后，所有经过这个部门加工的产品都会出现一些问题，然后进入其他部门，接着再一次回到这个部门（因为整体上是封闭的系统）之后还会再一次受影响。这样的影响如何衡量？

我们提出来一些可以尝试的分析方法，本身不一定就是最好的分析方法，但是这个问题还是要回答的。

我们自己的方法具体来说，就是本征矢量HEM。

==把PageRank算法看做广义投入产出分析==
定义<math>MF^{i}_{j}=\frac{x^{i}_{j}}{X^{i}}</math>，表示<math>i</math>的总产出当中，百分之多少进入了<math>j</math>部门。类似也可以定义<math>MB^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>，表示<math>j</math>收到的所有投入中，百分之多少来自于<math>i</math>部门。这两个分别称为向前和向后概率转移矩阵。

PageRank算法<ref name="PageRank"/>理论上可以看作是上面定义的概率转移矩阵的本征向量，也就是<math>MB \left|1_{MB}\right\rangle = \left|1_{MB}\right\rangle</math>，其中<math>1_{MB}</math>是<math>MB</math>的最大右本征值（1是本征值，并且是最大的本征值，这一点非常容易证明。例如通过证明最大左本征值<math>\left\langle 1_{MB}\right|=[1,1,\cdots]</math>是平庸的）。类似地<math>\left\langle 1_{MF}\right| MF = \left\langle 1_{MF}\right|</math>，是<math>MF</math>的最大左本征值（同样最大右本征值<math>\left|1_{MF}\right\rangle=[1,1,\cdots]^{T}</math>是平庸的）。

不过最大本征矢量的计算需要保证矩阵的最大本征值是非简併的，并且考虑到外界输入的问题——例如人们访问网页的时候有的时候追着超链接，有的时候会重新开始，有的时候总是从某些熟悉的网页开始——实际上PageRank算法计算的是如下的线性方程的解。当然，也是考虑到求线性方程的解可以更加算法效率更高的问题。
<math>P = \alpha MB P + \left(1-\alpha\right)E \Longrightarrow P = \left(1-\alpha MB\right)^{-1}\left(1-\alpha\right) E</math>。其中<math>E=\frac{1}{N}\left[1,1,\cdots\right]^{T}</math>代表随机重新开始浏览网页，或者某个代表用户特定使用习惯的<math>E_{0}</math>。前者就是目前通用的PageRank矢量，后者被称为个性化PageRank矢量。

有了这个概率转移矩阵，我们可以来看这个转移矩阵的稳定态，也就是其本征矢量。为了保证本征矢量的唯一性，有的时候需要加上一个很小的微扰项。将来我们还会发现，这个微扰项还可以当做外界来解释。于是，我们看到，在PageRank上，封闭系统的形式、（随机）开放系统的形式、目标外界开放系统的形式，得到了统一。

实际上PageRank的目标外界开放系统形式可以单独做一些研究，例如维持某个网站（部门）对其他部门的投入组合方式（或者需求组合方式）基本不变仅仅产生一个小小的改变的时候，其他各个网站（部门）的PageRank值或者某个总量会如何响应。

顺便，我们这里证明一个投入产出矩阵的本征向量和PageRank矩阵的本征向量的一一对应关系，从而更加深刻地说明，两个分析方法实际上是一样的，仅仅是计算出来的量的解释或者说具体意义上略有区别。

<math>\lambda_{B} \left\langle \lambda_{B} \right| \left. j \right\rangle =\sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle B^{i}_{j} = \sum_{i} \left\langle \lambda_{B} \right| \left. i　\right\rangle \frac{x^{i}_{j}}{X^{j}}</math>

<math>\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. j \right\rangle X^{j}=\sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i} \frac{x^{i}_{j}}{X^{i}} = \sum_{i} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i} MF^{i}_{j}.</math>

于是，<math>\left\langle \lambda_{B} \right|=\sum_{j}\left\langle \lambda_{B} \right| \left. j \right\rangle \left\langle j \right|</math>是<math>B</math>的左本征向量，正好对应着<math>MF</math>的左本征向量<math>\left\langle \lambda_{MF} \right|=\sum_{j}\left\langle \lambda_{B} \right| \left. j \right\rangle X^{j}\left\langle j \right|</math>。同样于是，<math>\left| \lambda_{F} \right\rangle </math>是<math>F</math>的右本征向量，正好对应着<math>MB</math>的右本征向量<math>\left| \lambda_{MB} \right\rangle</math>。

问：'''这个本征向量在经济学上，到底什么意义？可以不管如何先在实际系统上算出来看看，对比一下这个本征向量和其他已有指标'''。

顺便，这个来源于网页排名的PageRank已经被用来给文章、期刊等排名，基于文章或者期刊的引用网络<ref name="Redner2"/><ref name="Redner"/><ref name="West"/>。

==向前（投入端）和向后（需求端）分析==
定义<math>F^{i}_{j}=\frac{x^{i}_{j}}{X_{i}}</math>，表示<math>i</math>平均每收到一个的其他部门的投入的时候，将会对<math>j</math>部门做出来多少投入。在这个意义上，我们把这个投入产出关系矩阵叫做向前分析（Forward）——产出关系。之前那个没生产一个<math>j</math>产品需要多少个<math>i</math>看做向后（Backward）——需求关系。

注意，在实物投入产出分析中，<math>X_{i} = \sum_{j} x^{j}_{i}</math>是不能加起来的——来自于不同产业的产品数量不能简单相加。因此，这个分析只能够在货币或者能量等意义下来做。

有了这个定义之后，同样，可以推导出来，<math>X=\left(1-F^{\left(-N\right)}\right)^{-1}Y</math>，其中<math>Y_{i}=x^{N}_{i}</math>，也就是最终消费者部门对<math>i</math>部门的劳动力投入或者说价值附加（value-added）投入。按照<ref name="Miller"/>的理解，<math>\Delta Y_{i}</math>也可以看做是投入到某个部门的劳动力价格的变化。因此，后续的<math>\Delta X</math>就表示这个劳动力价格变化在整个生产部门传播的效果。

为了表示两个矩阵的区别，有的时候，我们采用Einstein记号写作，
* <math>X^{a}=\left(1-B^{\left(-N\right)}\right)^{-1}Y^{a}</math>，向后投入产出分析
* <math>X_{a}=\left(1-F^{\left(-N\right)}\right)^{-1}Y_{a}</math>，向前投入产出分析

在向前和向后分析中，我们回答的典型问题有：给定消费者需求预期的整体经济响应，消费者对某个产品的需求的乘数效益，或者投入到某个部门的劳动力价格的变化的乘数效益，领域部门的重要性，产品或者能源税收造成的经济的响应，包含初级原材料、污染物、能源等环境因素的投入产出分析用来回答环境和生产互动。

==产品－技术二分网或者双层网上的投入产出分析==
同样的思想甚至技术用来讨论二分网或者双层网。当然，首先，可以直接把二分网和双层网当做一个大网络来用，也可以考虑更加一般的分析方法：例如从生产企业到产品，这样的网络。具体怎么做，还得继续研究。在科学计量学三层网络框架里面，这样的分析方法是非常重要的。

==组合溢出效益==
前面我们讨论了通过去掉某个部门对整体系统的影响，用同样的思路，我们可以讨论去掉两个或者几个部门，或者几个矩阵元素的影响，并且把这个影响和单独去掉这些部门的影响相比较，来看看是不是有组合溢出效益。例如在[[https://en.wikipedia.org/wiki/Flux_balance_analysis 流平衡分析（Flux Balance Analysis）]]中，我们可以看到两个基因的组合溢出效益——合起来的效果不等于两个分开效果的叠加，见下图<ref name="Orth"/>。先计算在去掉单个基因的影响，然后计算去掉任意一对合起来的影响，接着对比这个影响。图中蓝色越深表示影响越大。可以看到，对于一大群基因，任意和其他基因的组合都有比较严重的影响——也就是图中的成带状的图。这说明，对于这些基因，组合组合溢出效益基本不用考虑，去掉单独的那个已经影响很大，再去掉另一个基因不会产生严重的多的影响。但是，其中另外一些，只出现在孤立的地方——见图中那些孤立的蓝色点。这说明，单独去掉其中一个基因都没有太大的影响，但是，同时去掉两个则能够有很大的影响。

用广义投入产出分析研究系统的时候，都可以讨论一下这个组合溢出效益。

[[file: FBA_GeneKnockout.png]]

==相关研究工作==
# 从方法上对比原始投入产出分析、目标外界投入产出分析、封闭系统投入产出分析、PageRank分析、向前向后分析在概念和结果上的区别
# CO2排放<ref name="Davis"/><ref name="Feng"/>
# 世界贸易<ref name="Wenz"/>
# 房地产对中国经济的贡献,与国际的对比
# 金融业对中国经济的贡献,与国际的对比
# 旅游业对中国经济的贡献,与国际的对比
# 政府购买对中国经济的贡献,与国际的对比
# 中国产业结构也就是矩阵的变化的影响
# 建立产品层次的投入产出网络,做分析,而不是部门层次的,可以放开上面的第一个局限性。没有实际产品生产关系的数据,就拿化学反应的数据先做一个方法和可研究的问题的讨论。
# 科学研究领域之间、科学领域和技术部门之间的投入产出关系

==参考文献==
<references>
<ref name="Miller"> Miller, R., & Blair, P. (2009). Input–output analysis: Foundations and extensions (2nd ed.). Cambridge, UK: Cambridge University Press.</ref>
<ref name="Davis"> Davis S. & Caldeira K. (2010). Consumption-based accounting of CO2 emmissions. PNAS 107(12):5687-5692.</ref>
<ref name="Feng"> Feng K. et al. (2013). Outsourcing CO2 within China. PNAS 110(28):11654-11659.</ref>
<ref name="Wenz"> Leonie Wenz and Anders Levermann.(2016). Enhanced economic connectivity to foster heat stress-related losses. Science Advances Vol. 2, no. 6, e1501026.</ref>
<ref name="Orth"> Jeffrey D Orth, Ines Thiele & Bernhard Ø Palsson, What is flux balance analysis? Nature Biotechnology 28, 245–248 (2010).</ref>
<ref name="Redner"> Sergei Maslov and Sidney Redner (2008)， Promise and Pitfalls of Extending Google's PageRank Algorithm to Citation Networks, Journal of Neuroscience 29, 28 (44) 11103-11105(2008). DOI:10.1523/JNEUROSCI.0002-08.2008 . (http://www.jneurosci.org/content/28/44/11103)</ref>
<ref name="Redner2"> Chen P, Xie H, Maslov S, Redner S (2007), Finding scientific gems with Google. J Informetrics 1:8–15.</ref>
<ref name="PageRank"> Brin S, Page L (1998) The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems 30:107–117. </ref>
<ref name="West"> J.D. West, T.C. Bergstrom, C. T. Bergstrom, The Eigenfactor Metrics: A network approach to assessing scholarly journals, College & Research Libraries 71(3): 236-244(2010), doi: 10.5860/0710236 </ref>
</references>

分类:汉字结构地图和汉语字词的矢量表示

2018-05-01T16:42:05Z

Szs：/* 参考文献 */

[[分类:机器学习]]
[[分类:吴金闪]]
[[分类:汉字网络]]
[[分类:语言研究]]
[[分类:系统科学和网络科学]]

==背景==
把语言的词汇表示成为意义上有联系的矢量形式，而不是简单的one-hot矢量（一个词代表空间的一个维度）。是大量后续自然语言处理的基础，无论从概念上还是从矢量空间的维数这个技术难度上。

Word2vec算法[https://en.wikipedia.org/wiki/Word2vec word2vec]<ref name="word2vec"/><ref name="word2vec2"/>，基于一个字上下文经常在一起出现的其他字的频率，可以用来发现词之间的语义联系，并用于解决自然语言处理的问题。在语音语言上，词的内部结构通常没有丰富的意义，基本上就是表示一个读音。但是，汉字是特殊的，其内部结构很多时候表示了含义上的联系。例如，妈、妹、姐、姑、奶都有“女”字旁，而且它们这几个字确实和“女”有联系。这个工作<ref name="Cao"/>的研究者就注意到了这个联系，从而把汉字打开用更加基本的结构笔画来发现汉字的含以上的联系。

在英语词汇的适量表示上，也有类似的拆分或者说直接粗暴的以n-gram为表示对象的word2vec研究<ref name="subword"/>。

这是这个工作的简短介绍<ref name="jaylin008"/>。实际上，这个工作在上面的思想上，走的更粗暴和极端——直接用笔画（被作者分成了五种）的n-gram来代表汉字——然后训练这些n-gram的矢量表示。当然，这个时候，真实的汉字的表示也就训练出来了——毕竟真实汉字不过就是这些笔画n-grams里面的一个。

==进一步研究==
进一步，自然可以来看，如果我们不按照笔画，而是按照我们已经建成的[[:分类:汉字网络|汉字网络]]的拆分方式——把一个字拆分成为直接联系的下一层结构——来训练，效果会怎样？

例如，首先，我们把原始的文本做一次转化，转化成每一个汉字都是下一级的子结构，例如照->火昭，但不是照->火口日刀，当然如果出现昭则做昭->日昭的替换。接着，在替换完成的文本上做以字为单位（或者以n-gram为单位）的word2vec完成矢量化。如果是以字为单位的，则文本中出现过的处于结构上最高层的字没有矢量表示（已经被拆掉了，在替换之后的文本中没有了），因此，还得想办法再一次得到这些最高层字的矢量。这个可以用简单矢量加法得到，或者用再一次运行针对这些字（相当于替换后文本中的词）的局部的word2vec。具体可以参考<ref name="components"/><ref name="characters"/>.

==参考文献==
<references>
<ref name="Cao">Shaosheng Cao, Wei Lu, Jun Zhou and Xiaolong Li, cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information, In Proceedings of AAAI 2018, http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf </ref>
<ref name="jaylin008">jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317 </ref>
<ref name="word2vec">T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. </ref>
<ref name="word2vec2">T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119. </ref>
<ref name="components">Jinxing Yu Xun Jian Hao Xin Yangqiu Song, Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components. EMNLP. http://www.aclweb.org/anthology/D17-1027</ref>
<ref name="characters">Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan, Joint Learning of Character and Word Embeddings. IJCAI. </ref>
<ref name="subword">Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information. </ref>
</references>

科研伦理

2018-03-14T00:16:32Z

Szs：

[[Category:科研经验]]

科研伦理贯彻在科研中的各个阶段。

PNAS在最新一期中刊发了关于作者贡献和责任的透明倡议。

==参考文献==
Marcia K. McNutt,et al, Transparency in authors' contributions and responsibilities to promote integrity in scientific publication. PNAS 2018 March, 115 (11) 2557-2560. https://doi.org/10.1073/pnas.1715374115

科研伦理

2018-03-14T00:15:22Z

Szs：创建页面，内容为“Category:科研经验科研伦理贯彻在科研中的各个阶段。 PNAS在最新一期中刊发了关于作者贡献和责任的透明倡议。 ==参考...”

[[Category:科研经验]]

科研伦理贯彻在科研中的各个阶段。

PNAS在最新一期中刊发了关于作者贡献和责任的透明倡议。

==参考文献==
Marcia K. McNutt,et al, Transparency in authors’ contributions and responsibilities to promote integrity in scientific publication. PNAS 2018 March, 115 (11) 2557-2560. https://doi.org/10.1073/pnas.1715374115

Paper writing

2018-03-13T02:28:56Z

Szs：/* 参考文献 */

[[Category:Ten simple rules]]

针对论文的写作提出的建议。

==参考文献==
Zhang W (2014) Ten Simple Rules for Writing Research Papers. PLoS Comput Biol 10(1): e1003453.doi:10.1371/journal.pcbi.1003453

Mensh B, Kording K (2017) Ten simple rules for structuring papers. PLoS Comput Biol 13(9): e1005619. https://doi.org/10.1371/journal.pcbi.1005619

Paper writing

2018-03-13T02:28:49Z

Szs：/* 参考文献 */

[[Category:Ten simple rules]]

针对论文的写作提出的建议。

==参考文献==
Zhang W (2014) Ten Simple Rules for Writing Research Papers. PLoS Comput Biol 10(1): e1003453.doi:10.1371/journal.pcbi.1003453
Mensh B, Kording K (2017) Ten simple rules for structuring papers. PLoS Comput Biol 13(9): e1005619. https://doi.org/10.1371/journal.pcbi.1005619

Paper writing

2018-03-13T02:26:19Z

Szs：创建页面，内容为“Category:Ten simple rules 针对论文的写作提出的建议。 ==参考文献== B. Mensh, K. Kording, Ten simple rules for structuring papers, PloS Computat...”

[[Category:Ten simple rules]]

针对论文的写作提出的建议。

==参考文献==
B. Mensh, K. Kording, Ten simple rules for structuring papers, PloS Computational Biology (2017) 13(9):e1005619. doi:10.1371/journal.pcbi.1005619

分类:Ten simple rules

2018-03-13T02:17:14Z

Szs：创建页面，内容为“Category:文献讨论 PloS Computational Biology会不定期地推出“Ten simple rules”文章，由相关的学者根据自己科研生活中的经验，...”

[[Category:文献讨论]]

PloS Computational Biology会不定期地推出“Ten simple rules”文章，由相关的学者根据自己科研生活中的经验，针对科研中的各个方面（包括论文写作、审稿、职业生涯、科研软件等）总结自己认为重要的10条建议，大家可以批判性地阅读学习。

==参考文献==
B. Mensh, K. Kording, Ten simple rules for structuring papers, PloS Computational Biology (2017) 13(9):e1005619. doi:10.1371/journal.pcbi.1005619

分类:Using noun phrases extraction for the improvement of hybrid clustering with text- and citation-based components

2018-03-08T07:01:45Z

Szs：

[[Category:文献讨论]]
[[Category:文章主题识别]]

本文讨论了用结合基于引用和基于自然语言处理两种方式来做文献社团划分（主题识别）的方法，发现效果，相较于使用biblio coupliing和single word相似性得到的结果有所提高。但这个结果是通过不同分辨下的层级结构方式判断的，而不是通过golden-standard判断。

==参考文献==
# Thijs, Bart and Glänzel, Wolfgang and Meyer, Martin S. (2015) Using noun phrases extraction for the improvement of hybrid clustering with text- and citation-based components. The example of “Information Systems Research”(http://ceur-ws.org/Vol-1384/paper4.pdf). In: Proc. of the Workshop Mining Scientific Papers: Computational Linguistics and Bibliometrics, 15th International Society of Scientometrics and Informetrics Conference (ISSI), Istanbul, Turkey, 29/6/2015, Istanbul

分类:数据集

2018-01-23T10:53:28Z

Szs：

数据集

科学计量学方面的数据集，除了大型综合型论文题录数据库[https://www.webofknowledge.com/ Web of Science] 和 [https://www.scopus.com/ Scopus]之外，我们还经常使用这些：

{| class="wikitable"
! 数据名称
! 数据描述
! 来源
|-
| APS data(截止2013) || 包含题目、作者、单位、发表时间、引用、PACS码 || APS官方[https://journals.aps.org/datasets 提供]
|-
| APS author disambiguation(截至2009) || Roberta Sinatra提供的APS处理重名后的数据 || [http://science.sciencemag.org/highwire/filestream/686254/field_highwire_adjunct_files/1/SupplementaryData.zip 下载]
|-
| APS单位识别数据(截至2013) || 经[http://abel.lis.illinois.edu/cgi-bin/mapaffil/search.pl MapAffil]处理得到的单位数据,包含机构,城市,国家信息 || [https://ischool.illinois.edu/people/faculty/vtorvik Vetle Torvik]提供
|-
| USPTO美国专利商标局专利数据(截至2016) || 包含题目、专利分类号、申请者、单位、引用 || [https://bulkdata.uspto.gov/ 下载]
|-
| EPO专利局专利数据(截至2016) || 包含题目、专利分类号、申请者、单位、引用 || [https://www.epo.org/searching-for-patents/helpful-resources/raw-data.html 下载]
|-
| SIPO中国国家知识产权局专利数据(不同频率更新，没有所有数据合集下载) || 包含题目、专利分类号、申请者、单位、引用 || [http://patdata.sipo.gov.cn/resource.html 下载]
|-
| JPO日本特许厅专利数据(每月更新，没有所有数据合集下载) || 包含题目、专利分类号、申请者、单位、引用 || [https://www.jpo.go.jp/torikumi_e/searchportal_e/classification.htm 下载]
|-
| Medline/PubMed题录数据(截至2016) || 包含题目、作者、杂志、MeSH标注、部分包括引用信息 || [https://www.nlm.nih.gov/databases/download/pubmed_medline.html 下载]
|-
| Medline/PubMed全文数据(仅部分有全文，截至2016) || PMC（PubMed核心库）全文 || [https://www.ncbi.nlm.nih.gov/pmc/tools/get-full-text/ 下载]
|-
| PubChem数据 || 包含化学反应物、反应、论文 || [https://pubchem.ncbi.nlm.nih.gov/ NIH PubChem网站] [ftp://ftp.ncbi.nlm.nih.gov/pubchem/ ftp下载]
|-
| NIH基金数据 || 包含NIH各个基金项目的编号，类别，主申请人，关键词，受资助文章等信息 || [https://federalreporter.nih.gov/FileDownload 下载]
|-
| SPIRES || 已经匹配好的NIH论文和基金数据库，Scientific Publication Information Retrieval & Evaluation System || [https://archives.nih.gov/asites/era/07-09-2015/nih_and_grantor_agencies/other/spires.cfm SPIRES]
|-
| NSF基金数据 || 包含NSF各个基金项目的编号、类别、申请人、摘要、资助金额和起止年限等信息 || [https://www.nsf.gov/awardsearch/download.jsp NSF download]
|-
| 历史学博士学位论文(截至2015) || 包含题目、作者、导师、单位 || 爬取于国家图书馆学位论文库
|-
| 历史学研究期刊论文 || 包含题目、作者、单位、摘要 || 知网
|-
| dblp数据 || 包含题目、作者、杂志、部分包括引用信息 || [http://dblp.uni-trier.de/xml/ 下载]
|-
| springer-nature数据 || 包含题目、作者、杂志、部分包括引用信息 || [https://github.com/springernature/scigraph/wiki springer-nature 提供]
|-
| Aminer Citation Network Dataset || 经过Aminer清洗好的文献引用数据，包含题目、作者、杂志、部分包括引用信息 || [https://cn.aminer.org/citation aminer提供]
|-
| 城市列表 || 包含城市、国家名称，经纬度位置，人口数等 || [http://download.geonames.org/export/dump/ Geoname提供]
|-
| 机构列表 || 包含各类机构，及机构位置，机构关系，机构类型等 || [https://www.grid.ac/ GRID提供]
|-
| 医学概念网络（Unified Medical Language System® (UMLS®)，本体论形式的） || 包含和MeSH相对应的概念和概念之间的关系，主要层次性关系 || [https://www.nlm.nih.gov/research/umls/licensedcontent/downloads.html 美国国家医学图书馆提供]
|-
| 数学论文题录数据 || 包含标题、作者、期刊和MSC标注 || [http://www.ams.org/mr-database Mathematical Reviews® (MathSciNet®)提供]
|-
| 经济学论文题录数据 || 包含标题、作者、期刊和JEL标注 || [https://www.aeaweb.org/econlit/ 美国经济学学会EconLit提供]
|-
| Wikidata || 把Wikipedia页面结构化得来的Ontology（概念网络，各种概念已经进过识别和结构化，例如学校的地址和经纬度） || [https://www.wikidata.org/ Wikidata]
|-
| YAGO || 把Wikipedia页面结构化得来的计算机科学的Ontology（概念网络） || [http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ YAGO]
|-
| DBpedia || 把Wikipedia页面结构化，并且和其他一些Ontology，例如Wordnet得来的Ontology（概念网络） || [http://wiki.dbpedia.org/Datasets DBpedia]
|-
| WordNet || 日常用语的Ontology（概念网络，主要上下级关系） || [https://wordnet.princeton.edu/ WordNet]
|-
| Influential references dataset || 作者自己标注的引文列表中对工作有直接实际影响的引文 || [http://lemire.me/citationdata/ Influential references dataset]
|-
| Astro Data Set || 从Web of Science输出的天文学论文的数据，用来发展和比较文献主题识别算法 || [http://www.topic-challenge.info TOPIC EXTRACTION CHALLENGE]
|-
| NBA投篮数据 || 从Kaggle“NBA shot logs”获得的NBA投篮时间序列数据：每个投篮的时间点、投者和所属球队、最近的防守者和所属球队 || [[file:NBA14-15.zip]]，[[文件:NBA16-17.zip]]
|}

[[Category:数据]]

分类:沈哲思

2018-01-22T16:43:24Z

Szs：

[[Category:研究者]]

沈哲思（Zhesi Shen），中科院文献情报中心博士后，
北京师范大学系统科学学院博士。
研究工作涉及。

Email: [mailto:zhesi.shen@live.com 给我发电子邮件]

学术主页：[[https://www.researchgate.net/profile/Zhesi_Shen 沈哲思在researchgate上的主页]]

博客：[[https://challenge19.github.io/ 呆思不呆]]

==2018年主要工作==
# 多样性和创新性衡量
# 科学专利关联分析
# 网络骨架，引文网络和一般网络，骨架的衡量和作用。
# 节点状态推断
# 多关系聚类分析

分类:Surprised by the Gambler’s and Hot Hand Fallacies

2018-01-10T08:41:26Z

Szs：/* 相关工作 */

[[Category:其他]]
[[Category:文献讨论]]

Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354

==Abstract==

We prove that a subtle but substantial bias exists in a standard measure of the conditional dependence of present outcomes on streaks of past outcomes in sequential data. The magnitude of this novel form of selection bias generally decreases as the sequence gets longer, but increases in streak length, and remains substantial for a range of sequence lengths often used in empirical work. The bias has important implications for the literature that investigates incorrect beliefs in sequential decision making---most notably the Hot Hand Fallacy and the Gambler's Fallacy. Upon correcting for the bias, the conclusions of prominent studies in the hot hand fallacy literature are reversed. The bias also provides a novel structural explanation for how belief in the law of small numbers can persist in the face of experience.

==总结和评论==
这篇李克强推荐给我神奇的文章讨论了这样一件事情：当我们重复扔上<math>N</math>次硬币的时候，我们做下面的一个记录——如果我们遇到了一个正面（H）就把下次的观测值记录下来；接着，在这个观测记录中，我们来计算正面的比例<math>p^{H}_{1}</math>，并且看这个比例是否接近硬币的内在概率<math>q^{H}</math>.

这个例子还可以推广成为连续观测到<math>k</math>次以后开始记录，再来计算<math>p^{H}_{k}</math>，然后和<math>q^{H}</math>比较。这里为了简单计，我们用<math>k=1</math>。

这个问题的背景是手热效益：是否连续投球成功以后成功率变高，或者反过来叫做赌徒的谬误：是否连续出现正面之后正面的概率变小。当然，实际问题中，前者更复杂一些，因为有可能确实会出现打出上风球于是球场气氛得到了改变，从而有可能改变了投球成功率。之前有理论和实际研究<ref name="GVT"/>表明理论上<math>p^{H}_{k}=q^{H}</math>，并且在篮球实际统计结果中确实不存在手热效益。

本文对之前的研究提出了挑战，认为：理论上<math>p^{H}_{k}\neq q^{H}</math>，并且实际上篮球实际统计结果中存在手热效益。

初看起来，如果这个结果是正确的，那么，不仅否定了之前文章的结果，还会对理论造成冲击：<math>p^{H}_{k}</math>不过就是一个条件概率，怎么会在独立事件（扔硬币）的条件下，不等于<math>q^{H}</math>？看起来实在太神奇了，意义太非凡了，也太不可能是正确的了！

仔细读了这篇文章<ref name="Miller:anti-GVT"/>以后，我发现，实际上，是统计方式的问题。当我们问“在这个观测记录中，正面的比例是多少”的时候，问题是没有清楚的定义的，存在两种理解。第一种，在一轮实验记录中——一轮的意思是<math>N</math>次结果的一个序列<math>x_{1}, x_{2}, \cdots, x_{N}</math>，做上面的规定好的统计。第二种，在很多很多轮的结果的集合中，也就是把一大堆<math>\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}</math>中来做上面规定好的统计。两者的答案可能是不一样的。以<math>k=1</math>为例，前者相当于在单次结果上来计算这个比例<math>\frac{HH}{HH+HT}</math>。如果后面还把这样的很多次结果做一个平均的话，实际上相当于计算<math>\left\langle\frac{HH}{HH+HT}\right\rangle</math>。后者相当于直接计算统计平均<math>\frac{\left\langle　HH\right\rangle}{\left\langle　HH+HT　\right\rangle}</math>。

也就是说第一种定义是<math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。<math>Ｓ^{*}</math>是为了把那些不产生记录，于是分母会变成0的样本剔除掉。

通常的条件概率，<math>q^{H}=P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>是固定<math>j</math>并且对于大样本求和的，也就是第二种意义下的计算，并且<math>j</math>是一个固定值。因此，出现第一种计算的结果理论上就不同，并不奇怪。甚至第二种计算，也不是和这个通常的条件概率是一样的。

在第二种计算下，我们关心<math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。不过，由于在这个情形下，每一个具体的<math>j</math>的情况下，这个比例都是<math>q^{H}</math>，于是算出来的比例仍然是<math>q^{H}</math>。

现在，搞清楚了理论上不同的值出现的情形和这些个情形的意义，那么，实际情况是如何做统计的呢？

一定程度上，如果统计是每一场球独立的结果计算，然后按照这个每一场球的结果来算整体的平均，那么，确实更加接近情形一，也就是理论上不等于<math>q^{H}</math>的情况。而对于观众来说，有可能确实是先从单场感受到这个手热的比例，然后，根据自己看的所有比赛的情况，在内心感受到了这些比例的平均。对于球员来说，可能也有这个现象。对于分析师来说，就没有了，他们会做基于所有场次的数据的分析。

因此，实际上，这篇文章的意义在于，揭示有些时候在某些场景下人的感受不是能够用某个数学上的定义来描述的，而有可能需要构造一个不同的定义，而不是作者所宣称的找到了一个普适的基于严格数学定义的条件概率的现象，并且以此为基础说明了gambler's fallacy的合理性。

如果把所有的结果放在一起再来统计，那么，就更加接近情形二，也就是理论上等于<math>q^{H}</math>的情况。

也就是说，这个结果仅仅是统计方式的差别带来的：如果人们讨论手热效益是每一场球的平均，那么，就应该用<ref name="Miller:anti-GVT"/>的计算；如果人们讨论手热效益实际上是大量的不同场的球的整体合起来的感觉的平均，则就应该用<ref name="GVT"/>的计算。

更深层次的原因：实际上，统计学永远考虑的是系综平均，而不是对样本平均：对于只扔一次就算一个样本，我们需要整体样本空间通过重复一样地来扔很多很多次来产生；对于某种顺序或者方式扔N轮算一个样本，我们还是需要重复这样的N轮很多很多次来产生样本空间。因此，让N变成无穷大的极限是没有统计学意义的，只有让系综里面系统的个数，也就是S变成无穷大才是统计学极限的意义。实际上，从概率理论上说，<math>p^{Sample}\left(H\right)_{1}</math>没有意义。足见对概念的正确理解是多么重要啊。当然实际上人们是如何来估计对热手效益的理解的，那是另一回事。

回到这个工作的意义：文章宣称他们的这个概率解释了为什么赌徒的谬误之类的直觉现象是有道理的。这是完全错误的。在赌徒的谬误的情况下，所对应着的计算应该是固定j之后的系综平均，也就是标准数学条件概率，因此，完全就应该是理论上的数学上的正确答案，而不是他们定义的条件概率。他们定义的条件概率仅仅会在按照他们的统计的情况下出现：先按照序列来计算比例，然后计算这个比例的系综平均。我把下一步工作的标题都取好了: hothand effect and gamblers' fallacy，distinguishing intuitive and mathematical definitions is the key.不过，后半部分的结论还得看实际数据按照两种计算得到的结果。

==Short summary in English==
# Given a coin with probability being head (H) is predetermined as <math>q^{H}</math>
# The usual mathematical conditional probability is defined as <math>P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, where <math>j</math> is fixed and we have <math>P\left(x_{j+1}=H|x_{j}=H\right)=q^{H}</math>. The key here is that <math>\sum_{s}</math> is performed all over the ensemble of sequences, but not on each sequence.
# Another definition can be <math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>. It can be proved that this definition leads to the same value with the above one.
# <ref name="Miller:anti-GVT"/> defines <math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, number of HH and HT are calculated on a single sequence first and do an average over the whole ensemble of sequences. Here <math>S^{*}</math> refers to the set of sequences where <math> \sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT >0 </math> to avoid <math>\frac{0}{0}</math>.
# It is not clear to me that which definition is used in <ref name="GVT"/>.
# Which one should be used in reality when people are talking about hot-hand effect? If averaging each game first and them do another average of a set of games with the previous average, then <math>p^{Sample}\left(H\right)_{1}</math> should be used. If otherwise records from all games are collected together first, then <math>p^{Ensemble}\left(H\right)_{1}</math> should be used.

==下一步工作==
把两种计算在原文的数据，或者更多的NBA数据<ref name='Piette:Data'/><ref name='SportVU:Data'/><ref name='Kaggle-NBA:Data'/>上，都实现一下，然后，跟这两篇文章的结果做一个对比。这样这个问题就完全澄清了。

The above explanation conceptually distinguishes the usual mathematical <math>P\left(x_{j+1}=H|x_{j}=H\right)</math>, <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>. It is clear and satisfying to me already. However, in order to indeed have a complete picture and provide an end-of-story answer to the original question about the hot-hand effect, one should go and collect the same data or a large data set and apply both <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>, and furthermore compare the results against those in <ref name="Miller:anti-GVT"/> and <ref name="GVT"/>.

==相关工作==
<ref name='Miller-cold'/>
<ref name='NBA'/>

==参考文献==
<references>
<ref name="GVT"> Gilovich, T., R. Vallone, and A. Tversky (1985): “The Hot Hand in Basketball: On the Misperception of Random Sequences,” Cognitive Psychology, 17, 295–314. </ref>
<ref name="Miller:anti-GVT"> Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354 </ref>
<ref name='Miller-cold'>Joshua B. Miller and Adam Sanjurjo. A Cold Shower for the Hot Hand Fallacy</ref>
<ref name='Piette:Data'>James Piette,Sathyanarayan Anand, Kai Zhang, Scoring and Shooting Abilities of NBA Players</ref>
<ref name='SportVU:Data'>https://github.com/rajshah4/BasketballData/tree/master/2016.NBA.Raw.SportVU.Game.Logs</ref>
<ref name='Kaggle-NBA:Data'>https://www.kaggle.com/wh0801/NBA-16-17-regular-season-shot-log,https://www.kaggle.com/dansbecker/nba-shot-logs</ref>
<ref name='NBA'>Andrew Bocskocsky, John Ezekowitz, and Carolyn Stein. The Hot Hand: A New Approach to an Old “Fallacy”</ref>
</references>

==附件：程序==
conditionalP.py

# http://www.bigphysics.org/index.php/%E5%88%86%E7%B1%BB:Surprised_by_the_Gambler%E2%80%99s_and_Hot_Hand_Fallacies
import random
L=1000000 #number of iterations
N=3 #length of sequences
records=0 # number of sequecens which leads to records, some for example TTT leads to no record
sample=0.0 #statistics final result for each sample sequence
ensemble=0.0 #statistics final result for whole ensemble
Psample = 0 #number of 1s in the records of per time sequence
Qsample = 0 #number of 0s in the records of per time sequence
Pensemble = 0 #number of 1s in the records of all time sequence
Qensemble = 0 #number of 1s in the records of all time sequence
flag = 0 #indicator of that fact that on the previous round r=1
step = 0 #number of iterations
r1=0 #value of r in the previous round
for trial in range(L):
Psample=0 #statistics per sequence
Qsample=0 #statistics per sequence
for i in range(N):
flag = 0
r = random.randint(0,1) #can be replaced with a better and specialized random number generator
if flag==1:
if r==1:
Psample=Psample+1
Pensemble=Pensemble+1 #statistics accumuated throughout the whole ensemble
else:
Qsample=Qsample+1
Qensemble=Qensemble+1 #statistics accumuated throughout the whole ensemble
flag=r
r1=r
if Psample>0 or Qsample>0: #in the case of no records generated this round, one need this condition to avoid 0/0
records=records+1
sample=sample+1.0*Psample/(1.0*Psample+1.0*Qsample)
ensemble=1.0*Pensemble/(1.0*Pensemble+1.0*Qensemble)

print("Psample=", sample/(1.0*records), "Pensemble=", ensemble)

运行结果：
Psample= 0.40503107107842035 Pensemble= 0.5001166990311979
前者接近5/12，后者接近1/2。

分类:Surprised by the Gambler’s and Hot Hand Fallacies

2018-01-10T08:41:08Z

Szs：/* 参考文献 */

[[Category:其他]]
[[Category:文献讨论]]

Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354

==Abstract==

We prove that a subtle but substantial bias exists in a standard measure of the conditional dependence of present outcomes on streaks of past outcomes in sequential data. The magnitude of this novel form of selection bias generally decreases as the sequence gets longer, but increases in streak length, and remains substantial for a range of sequence lengths often used in empirical work. The bias has important implications for the literature that investigates incorrect beliefs in sequential decision making---most notably the Hot Hand Fallacy and the Gambler's Fallacy. Upon correcting for the bias, the conclusions of prominent studies in the hot hand fallacy literature are reversed. The bias also provides a novel structural explanation for how belief in the law of small numbers can persist in the face of experience.

==总结和评论==
这篇李克强推荐给我神奇的文章讨论了这样一件事情：当我们重复扔上<math>N</math>次硬币的时候，我们做下面的一个记录——如果我们遇到了一个正面（H）就把下次的观测值记录下来；接着，在这个观测记录中，我们来计算正面的比例<math>p^{H}_{1}</math>，并且看这个比例是否接近硬币的内在概率<math>q^{H}</math>.

这个例子还可以推广成为连续观测到<math>k</math>次以后开始记录，再来计算<math>p^{H}_{k}</math>，然后和<math>q^{H}</math>比较。这里为了简单计，我们用<math>k=1</math>。

这个问题的背景是手热效益：是否连续投球成功以后成功率变高，或者反过来叫做赌徒的谬误：是否连续出现正面之后正面的概率变小。当然，实际问题中，前者更复杂一些，因为有可能确实会出现打出上风球于是球场气氛得到了改变，从而有可能改变了投球成功率。之前有理论和实际研究<ref name="GVT"/>表明理论上<math>p^{H}_{k}=q^{H}</math>，并且在篮球实际统计结果中确实不存在手热效益。

本文对之前的研究提出了挑战，认为：理论上<math>p^{H}_{k}\neq q^{H}</math>，并且实际上篮球实际统计结果中存在手热效益。

初看起来，如果这个结果是正确的，那么，不仅否定了之前文章的结果，还会对理论造成冲击：<math>p^{H}_{k}</math>不过就是一个条件概率，怎么会在独立事件（扔硬币）的条件下，不等于<math>q^{H}</math>？看起来实在太神奇了，意义太非凡了，也太不可能是正确的了！

仔细读了这篇文章<ref name="Miller:anti-GVT"/>以后，我发现，实际上，是统计方式的问题。当我们问“在这个观测记录中，正面的比例是多少”的时候，问题是没有清楚的定义的，存在两种理解。第一种，在一轮实验记录中——一轮的意思是<math>N</math>次结果的一个序列<math>x_{1}, x_{2}, \cdots, x_{N}</math>，做上面的规定好的统计。第二种，在很多很多轮的结果的集合中，也就是把一大堆<math>\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}</math>中来做上面规定好的统计。两者的答案可能是不一样的。以<math>k=1</math>为例，前者相当于在单次结果上来计算这个比例<math>\frac{HH}{HH+HT}</math>。如果后面还把这样的很多次结果做一个平均的话，实际上相当于计算<math>\left\langle\frac{HH}{HH+HT}\right\rangle</math>。后者相当于直接计算统计平均<math>\frac{\left\langle　HH\right\rangle}{\left\langle　HH+HT　\right\rangle}</math>。

也就是说第一种定义是<math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。<math>Ｓ^{*}</math>是为了把那些不产生记录，于是分母会变成0的样本剔除掉。

通常的条件概率，<math>q^{H}=P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>是固定<math>j</math>并且对于大样本求和的，也就是第二种意义下的计算，并且<math>j</math>是一个固定值。因此，出现第一种计算的结果理论上就不同，并不奇怪。甚至第二种计算，也不是和这个通常的条件概率是一样的。

在第二种计算下，我们关心<math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。不过，由于在这个情形下，每一个具体的<math>j</math>的情况下，这个比例都是<math>q^{H}</math>，于是算出来的比例仍然是<math>q^{H}</math>。

现在，搞清楚了理论上不同的值出现的情形和这些个情形的意义，那么，实际情况是如何做统计的呢？

一定程度上，如果统计是每一场球独立的结果计算，然后按照这个每一场球的结果来算整体的平均，那么，确实更加接近情形一，也就是理论上不等于<math>q^{H}</math>的情况。而对于观众来说，有可能确实是先从单场感受到这个手热的比例，然后，根据自己看的所有比赛的情况，在内心感受到了这些比例的平均。对于球员来说，可能也有这个现象。对于分析师来说，就没有了，他们会做基于所有场次的数据的分析。

因此，实际上，这篇文章的意义在于，揭示有些时候在某些场景下人的感受不是能够用某个数学上的定义来描述的，而有可能需要构造一个不同的定义，而不是作者所宣称的找到了一个普适的基于严格数学定义的条件概率的现象，并且以此为基础说明了gambler's fallacy的合理性。

如果把所有的结果放在一起再来统计，那么，就更加接近情形二，也就是理论上等于<math>q^{H}</math>的情况。

也就是说，这个结果仅仅是统计方式的差别带来的：如果人们讨论手热效益是每一场球的平均，那么，就应该用<ref name="Miller:anti-GVT"/>的计算；如果人们讨论手热效益实际上是大量的不同场的球的整体合起来的感觉的平均，则就应该用<ref name="GVT"/>的计算。

更深层次的原因：实际上，统计学永远考虑的是系综平均，而不是对样本平均：对于只扔一次就算一个样本，我们需要整体样本空间通过重复一样地来扔很多很多次来产生；对于某种顺序或者方式扔N轮算一个样本，我们还是需要重复这样的N轮很多很多次来产生样本空间。因此，让N变成无穷大的极限是没有统计学意义的，只有让系综里面系统的个数，也就是S变成无穷大才是统计学极限的意义。实际上，从概率理论上说，<math>p^{Sample}\left(H\right)_{1}</math>没有意义。足见对概念的正确理解是多么重要啊。当然实际上人们是如何来估计对热手效益的理解的，那是另一回事。

回到这个工作的意义：文章宣称他们的这个概率解释了为什么赌徒的谬误之类的直觉现象是有道理的。这是完全错误的。在赌徒的谬误的情况下，所对应着的计算应该是固定j之后的系综平均，也就是标准数学条件概率，因此，完全就应该是理论上的数学上的正确答案，而不是他们定义的条件概率。他们定义的条件概率仅仅会在按照他们的统计的情况下出现：先按照序列来计算比例，然后计算这个比例的系综平均。我把下一步工作的标题都取好了: hothand effect and gamblers' fallacy，distinguishing intuitive and mathematical definitions is the key.不过，后半部分的结论还得看实际数据按照两种计算得到的结果。

==Short summary in English==
# Given a coin with probability being head (H) is predetermined as <math>q^{H}</math>
# The usual mathematical conditional probability is defined as <math>P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, where <math>j</math> is fixed and we have <math>P\left(x_{j+1}=H|x_{j}=H\right)=q^{H}</math>. The key here is that <math>\sum_{s}</math> is performed all over the ensemble of sequences, but not on each sequence.
# Another definition can be <math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>. It can be proved that this definition leads to the same value with the above one.
# <ref name="Miller:anti-GVT"/> defines <math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, number of HH and HT are calculated on a single sequence first and do an average over the whole ensemble of sequences. Here <math>S^{*}</math> refers to the set of sequences where <math> \sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT >0 </math> to avoid <math>\frac{0}{0}</math>.
# It is not clear to me that which definition is used in <ref name="GVT"/>.
# Which one should be used in reality when people are talking about hot-hand effect? If averaging each game first and them do another average of a set of games with the previous average, then <math>p^{Sample}\left(H\right)_{1}</math> should be used. If otherwise records from all games are collected together first, then <math>p^{Ensemble}\left(H\right)_{1}</math> should be used.

==下一步工作==
把两种计算在原文的数据，或者更多的NBA数据<ref name='Piette:Data'/><ref name='SportVU:Data'/><ref name='Kaggle-NBA:Data'/>上，都实现一下，然后，跟这两篇文章的结果做一个对比。这样这个问题就完全澄清了。

The above explanation conceptually distinguishes the usual mathematical <math>P\left(x_{j+1}=H|x_{j}=H\right)</math>, <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>. It is clear and satisfying to me already. However, in order to indeed have a complete picture and provide an end-of-story answer to the original question about the hot-hand effect, one should go and collect the same data or a large data set and apply both <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>, and furthermore compare the results against those in <ref name="Miller:anti-GVT"/> and <ref name="GVT"/>.

==相关工作==
<ref name='Miller-cold'/>

==参考文献==
<references>
<ref name="GVT"> Gilovich, T., R. Vallone, and A. Tversky (1985): “The Hot Hand in Basketball: On the Misperception of Random Sequences,” Cognitive Psychology, 17, 295–314. </ref>
<ref name="Miller:anti-GVT"> Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354 </ref>
<ref name='Miller-cold'>Joshua B. Miller and Adam Sanjurjo. A Cold Shower for the Hot Hand Fallacy</ref>
<ref name='Piette:Data'>James Piette,Sathyanarayan Anand, Kai Zhang, Scoring and Shooting Abilities of NBA Players</ref>
<ref name='SportVU:Data'>https://github.com/rajshah4/BasketballData/tree/master/2016.NBA.Raw.SportVU.Game.Logs</ref>
<ref name='Kaggle-NBA:Data'>https://www.kaggle.com/wh0801/NBA-16-17-regular-season-shot-log,https://www.kaggle.com/dansbecker/nba-shot-logs</ref>
<ref name='NBA'>Andrew Bocskocsky, John Ezekowitz, and Carolyn Stein. The Hot Hand: A New Approach to an Old “Fallacy”</ref>
</references>

==附件：程序==
conditionalP.py

# http://www.bigphysics.org/index.php/%E5%88%86%E7%B1%BB:Surprised_by_the_Gambler%E2%80%99s_and_Hot_Hand_Fallacies
import random
L=1000000 #number of iterations
N=3 #length of sequences
records=0 # number of sequecens which leads to records, some for example TTT leads to no record
sample=0.0 #statistics final result for each sample sequence
ensemble=0.0 #statistics final result for whole ensemble
Psample = 0 #number of 1s in the records of per time sequence
Qsample = 0 #number of 0s in the records of per time sequence
Pensemble = 0 #number of 1s in the records of all time sequence
Qensemble = 0 #number of 1s in the records of all time sequence
flag = 0 #indicator of that fact that on the previous round r=1
step = 0 #number of iterations
r1=0 #value of r in the previous round
for trial in range(L):
Psample=0 #statistics per sequence
Qsample=0 #statistics per sequence
for i in range(N):
flag = 0
r = random.randint(0,1) #can be replaced with a better and specialized random number generator
if flag==1:
if r==1:
Psample=Psample+1
Pensemble=Pensemble+1 #statistics accumuated throughout the whole ensemble
else:
Qsample=Qsample+1
Qensemble=Qensemble+1 #statistics accumuated throughout the whole ensemble
flag=r
r1=r
if Psample>0 or Qsample>0: #in the case of no records generated this round, one need this condition to avoid 0/0
records=records+1
sample=sample+1.0*Psample/(1.0*Psample+1.0*Qsample)
ensemble=1.0*Pensemble/(1.0*Pensemble+1.0*Qensemble)

print("Psample=", sample/(1.0*records), "Pensemble=", ensemble)

运行结果：
Psample= 0.40503107107842035 Pensemble= 0.5001166990311979
前者接近5/12，后者接近1/2。

分类:数据集

2018-01-10T07:13:09Z

Szs：

数据集

科学计量学方面的数据集，除了大型综合型论文题录数据库[https://www.webofknowledge.com/ Web of Science] 和 [https://www.scopus.com/ Scopus]之外，我们还经常使用这些：

{| class="wikitable"
! 数据名称
! 数据描述
! 来源
|-
| APS data(截止2013) || 包含题目、作者、单位、发表时间、引用、PACS码 || APS官方[https://journals.aps.org/datasets 提供]
|-
| APS author disambiguation(截至2010) || Roberta Sinatra提供的APS处理重名后的数据 || [http://science.sciencemag.org/highwire/filestream/686254/field_highwire_adjunct_files/1/SupplementaryData.zip 下载]
|-
| APS单位识别数据(截至2013) || 经[http://abel.lis.illinois.edu/cgi-bin/mapaffil/search.pl MapAffil]处理得到的单位数据,包含机构,城市,国家信息 || [https://ischool.illinois.edu/people/faculty/vtorvik Vetle Torvik]提供
|-
| USPTO美国专利商标局专利数据(截至2016) || 包含题目、专利分类号、申请者、单位、引用 || [https://bulkdata.uspto.gov/ 下载]
|-
| EPO专利局专利数据(截至2016) || 包含题目、专利分类号、申请者、单位、引用 || [https://www.epo.org/searching-for-patents/helpful-resources/raw-data.html 下载]
|-
| SIPO中国国家知识产权局专利数据(不同频率更新，没有所有数据合集下载) || 包含题目、专利分类号、申请者、单位、引用 || [http://patdata.sipo.gov.cn/resource.html 下载]
|-
| JPO日本特许厅专利数据(每月更新，没有所有数据合集下载) || 包含题目、专利分类号、申请者、单位、引用 || [https://www.jpo.go.jp/torikumi_e/searchportal_e/classification.htm 下载]
|-
| Medline/PubMed题录数据(截至2016) || 包含题目、作者、杂志、MeSH标注、部分包括引用信息 || [https://www.nlm.nih.gov/databases/download/pubmed_medline.html 下载]
|-
| Medline/PubMed全文数据(仅部分有全文，截至2016) || PMC（PubMed核心库）全文 || [https://www.ncbi.nlm.nih.gov/pmc/tools/get-full-text/ 下载]
|-
| PubChem数据 || 包含化学反应物、反应、论文 || [https://pubchem.ncbi.nlm.nih.gov/ NIH PubChem网站] [ftp://ftp.ncbi.nlm.nih.gov/pubchem/ ftp下载]
|-
| NIH基金数据 || 包含NIH各个基金项目的编号，类别，主申请人，关键词，受资助文章等信息 || [https://federalreporter.nih.gov/FileDownload 下载]
|-
| SPIRES || 已经匹配好的NIH论文和基金数据库，Scientific Publication Information Retrieval & Evaluation System || [https://archives.nih.gov/asites/era/07-09-2015/nih_and_grantor_agencies/other/spires.cfm SPIRES]
|-
| NSF基金数据 || 包含NSF各个基金项目的编号、类别、申请人、摘要、资助金额和起止年限等信息 || [https://www.nsf.gov/awardsearch/download.jsp NSF download]
|-
| 历史学博士学位论文(截至2015) || 包含题目、作者、导师、单位 || 爬取于国家图书馆学位论文库
|-
| 历史学研究期刊论文 || 包含题目、作者、单位、摘要 || 知网
|-
| dblp数据 || 包含题目、作者、杂志、部分包括引用信息 || [http://dblp.uni-trier.de/xml/ 下载]
|-
| springer-nature数据 || 包含题目、作者、杂志、部分包括引用信息 || [https://github.com/springernature/scigraph/wiki springer-nature 提供]
|-
| Aminer Citation Network Dataset || 经过Aminer清洗好的文献引用数据，包含题目、作者、杂志、部分包括引用信息 || [https://cn.aminer.org/citation aminer提供]
|-
| 城市列表 || 包含城市、国家名称，经纬度位置，人口数等 || [http://download.geonames.org/export/dump/ Geoname提供]
|-
| 机构列表 || 包含各类机构，及机构位置，机构关系，机构类型等 || [https://www.grid.ac/ GRID提供]
|-
| 医学概念网络（Unified Medical Language System® (UMLS®)，本体论形式的） || 包含和MeSH相对应的概念和概念之间的关系，主要层次性关系 || [https://www.nlm.nih.gov/research/umls/licensedcontent/downloads.html 美国国家医学图书馆提供]
|-
| 数学论文题录数据 || 包含标题、作者、期刊和MSC标注 || [http://www.ams.org/mr-database Mathematical Reviews® (MathSciNet®)提供]
|-
| 经济学论文题录数据 || 包含标题、作者、期刊和JEL标注 || [https://www.aeaweb.org/econlit/ 美国经济学学会EconLit提供]
|-
| Wikidata || 把Wikipedia页面结构化得来的Ontology（概念网络，各种概念已经进过识别和结构化，例如学校的地址和经纬度） || [https://www.wikidata.org/ Wikidata]
|-
| YAGO || 把Wikipedia页面结构化得来的计算机科学的Ontology（概念网络） || [http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ YAGO]
|-
| DBpedia || 把Wikipedia页面结构化，并且和其他一些Ontology，例如Wordnet得来的Ontology（概念网络） || [http://wiki.dbpedia.org/Datasets DBpedia]
|-
| WordNet || 日常用语的Ontology（概念网络，主要上下级关系） || [https://wordnet.princeton.edu/ WordNet]
|-
| Influential references dataset || 作者自己标注的引文列表中对工作有直接实际影响的引文 || [http://lemire.me/citationdata/ Influential references dataset]
|-
| Astro Data Set || 从Web of Science输出的天文学论文的数据，用来发展和比较文献主题识别算法 || [http://www.topic-challenge.info TOPIC EXTRACTION CHALLENGE]
|-
| NBA投篮数据 || 从Kaggle“NBA shot logs”获得的NBA投篮时间序列数据：每个投篮的时间点、投者和所属球队、最近的防守者和所属球队 || [[file:NBA14-15.zip]]，[[文件:NBA16-17.zip]]
|}

[[Category:数据]]

分类:IOFactor微扰计算

2017-12-27T02:13:13Z

Szs：

[[分类:广义投入产出分析]]
[[分类:郭金忠]]
[[分类:沈哲思]]
[[分类:吴金闪]]

IOFactor的定义是在投入产出矩阵<math>A</math>中去掉第<math>k</math>行和第<math>k</math>列得到<math>A^{\left(-k\right)}</math>，然后计算本征值和本征向量。每次重新开始计算本征值和本征向量比较耗资源。另外，还想从理论上看一下这个因子和PageRank等其他广义投入产出分析的指标的关系。于是，我们尝试了微扰计算。

<math>A^{\left(-k\right)}=A-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
也就是
<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>

于是，按照一级微扰论<math>\Delta \lambda = \frac{\left\langle v \right|\Delta A\left|u\right\rangle}{\left\langle v \right|\left.u\right\rangle}</math>，本征值的微扰等于（考虑到分母用到了PageRank值<math>\left\langle v \right|\left.u\right\rangle=1</math>，可简单证明，见[[:分类:广义投入产出分析|广义投入产出分析]]）

<math>\Delta \lambda = \left\langle v \right|\left[-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|\right]\left|u\right\rangle</math>
其中，<math>\left\langle v \right|</math>和<math>\left|u\right\rangle</math>分别是<math>A</math>的本征值为<math>\lambda</math>的左右本征向量。
<math>\Delta \lambda = -v_{k}\left\langle k \right|A\left|u\right\rangle-\left\langle v \right|A\left|k\right\rangle u^{k} + v_{k}\left\langle k \right|A\left|k\right\rangle u^{k} = -v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k} </math>

所以，
<math>IOF_{k}=-\Delta \lambda = 2v_{k}u^{k}-v_{k}A^{k}_{k}u^{k}=\left( 2-A^{k}_{k}\right)v_{k}u^{k}</math>

这里的括号外面实际上是PageRank值。可以通过数值实验来检验一下。

=== 新的微扰推导 ===

<math>A^{\left(-k\right)}(|u\rangle+|\Delta u\rangle) = (\lambda + \Delta\lambda) (|u\rangle+|\Delta u\rangle)</math>

去掉k行k列后<math>\langle k|\Delta u\rangle=0</math>，可以将<math>|\Delta u\rangle=|u\rangle + |\delta\rangle - u_k|k\rangle</math>

左乘<math>\langle v|</math>，忽略2阶小量，整理得到

<math>\Delta\lambda = \left(\langle v|\Delta A|u\rangle -\langle v|\Delta A|k\rangle \langle k|u\rangle\right)/(\langle v|u\rangle-\langle v|k\rangle\langle k|u\rangle)</math>

给定<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
,于是有

<math>\langle v|\Delta A|u\rangle=-v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k}</math>

<math>\langle v|\Delta A|k\rangle \langle k|u\rangle=-v_ku^k</math>

<math>IOF_k = -\Delta\lambda =(1-A^k_k)v_ku^k</math>

数值上的检验：

[[文件:IOF_matrix_perturbation.png|600px]]

分类:IOFactor微扰计算

2017-12-27T02:09:45Z

Szs：

[[分类:广义投入产出分析]]
[[分类:郭金忠]]
[[分类:沈哲思]]
[[分类:吴金闪]]

IOFactor的定义是在投入产出矩阵<math>A</math>中去掉第<math>k</math>行和第<math>k</math>列得到<math>A^{\left(-k\right)}</math>，然后计算本征值和本征向量。每次重新开始计算本征值和本征向量比较耗资源。另外，还想从理论上看一下这个因子和PageRank等其他广义投入产出分析的指标的关系。于是，我们尝试了微扰计算。

<math>A^{\left(-k\right)}=A-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
也就是
<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>

于是，按照一级微扰论<math>\Delta \lambda = \frac{\left\langle v \right|\Delta A\left|u\right\rangle}{\left\langle v \right|\left.u\right\rangle}</math>，本征值的微扰等于（考虑到分母用到了PageRank值<math>\left\langle v \right|\left.u\right\rangle=1</math>，可简单证明，见[[:分类:广义投入产出分析|广义投入产出分析]]）

<math>\Delta \lambda = \left\langle v \right|\left[-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|\right]\left|u\right\rangle</math>
其中，<math>\left\langle v \right|</math>和<math>\left|u\right\rangle</math>分别是<math>A</math>的本征值为<math>\lambda</math>的左右本征向量。
<math>\Delta \lambda = -v_{k}\left\langle k \right|A\left|u\right\rangle-\left\langle v \right|A\left|k\right\rangle u^{k} + v_{k}\left\langle k \right|A\left|k\right\rangle u^{k} = -v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k} </math>

所以，
<math>IOF_{k}=-\Delta \lambda = 2v_{k}u^{k}-v_{k}A^{k}_{k}u^{k}=\left( 2-A^{k}_{k}\right)v_{k}u^{k}</math>

这里的括号外面实际上是PageRank值。可以通过数值实验来检验一下。

<math>A^{\left(-k\right)}(|u\rangle+|\Delta u\rangle) = (\lambda + \Delta\lambda) (|u\rangle+|\Delta u\rangle)</math>

去掉k行k列后<math>\langle k|\Delta u\rangle=0</math>，可以将<math>|\Delta u\rangle=|u\rangle + |\delta\rangle - u_k|k\rangle</math>

左乘<math>\langle v|</math>，忽略2阶小量，整理得到

<math>\Delta\lambda = \left(\langle v|\Delta A|u\rangle -\langle v|\Delta A|k\rangle \langle k|u\rangle\right)/(\langle v|u\rangle-\langle v|k\rangle\langle k|u\rangle)</math>

给定<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
,于是有

<math>\langle v|\Delta A|u\rangle=-v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k}</math>

<math>\langle v|\Delta A|k\rangle \langle k|u\rangle=-v_ku^k</math>

<math>IOF_k = -\Delta\lambda =(1-A^k_k)v_ku^k</math>

数值上的检验：

[[文件:IOF_matrix_perturbation.png|600px]]

文件:IOF matrix perturbation.png

2017-12-27T02:06:36Z

Szs：IOF_matrix_perturbation

IOF_matrix_perturbation

分类:IOFactor微扰计算

2017-12-26T08:20:00Z

Szs：

[[分类:广义投入产出分析]]
[[分类:郭金忠]]
[[分类:沈哲思]]
[[分类:吴金闪]]

IOFactor的定义是在投入产出矩阵<math>A</math>中去掉第<math>k</math>行和第<math>k</math>列得到<math>A^{\left(-k\right)}</math>，然后计算本征值和本征向量。每次重新开始计算本征值和本征向量比较耗资源。另外，还想从理论上看一下这个因子和PageRank等其他广义投入产出分析的指标的关系。于是，我们尝试了微扰计算。

<math>A^{\left(-k\right)}=A-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
也就是
<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>

于是，按照一级微扰论<math>\Delta \lambda = \frac{\left\langle v \right|\Delta A\left|u\right\rangle}{\left\langle v \right|\left.u\right\rangle}</math>，本征值的微扰等于（考虑到分母用到了PageRank值<math>\left\langle v \right|\left.u\right\rangle=1</math>，可简单证明，见[[:分类:广义投入产出分析|广义投入产出分析]]）

<math>\Delta \lambda = \left\langle v \right|\left[-\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|\right]\left|u\right\rangle</math>
其中，<math>\left\langle v \right|</math>和<math>\left|u\right\rangle</math>分别是<math>A</math>的本征值为<math>\lambda</math>的左右本征向量。
<math>\Delta \lambda = -v_{k}\left\langle k \right|A\left|u\right\rangle-\left\langle v \right|A\left|k\right\rangle u^{k} + v_{k}\left\langle k \right|A\left|k\right\rangle u^{k} = -v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k} </math>

所以，
<math>IOF_{k}=-\Delta \lambda = 2v_{k}u^{k}-v_{k}A^{k}_{k}u^{k}=\left( 2-A^{k}_{k}\right)v_{k}u^{k}</math>

这里的括号外面实际上是PageRank值。可以通过数值实验来检验一下。

<math>A^{\left(-k\right)}(|u\rangle+|\Delta u\rangle) = (\lambda + \Delta\lambda) (|u\rangle+|\Delta u\rangle)</math>

去掉k行k列后<math>\langle k|\Delta u\rangle=0</math>，可以将<math>|\Delta u\rangle=|u\rangle + |\delta\rangle - u_k|k\rangle</math>

左乘<math>\langle v|</math>，忽略2阶小量，整理得到

<math>\Delta\lambda = \left(\langle v|\Delta A|u\rangle -\langle v|\Delta A|k\rangle \langle k|u\rangle\right)/(\langle v|u\rangle-\langle v|k\rangle\langle k|u\rangle)</math>

给定<math>\Delta A = -\left|k\right\rangle\left\langle k \right|A-A\left|k\right\rangle\left\langle k \right| + \left|k\right\rangle\left\langle k \right|A\left|k\right\rangle\left\langle k \right|</math>
,于是有

<math>\langle v|\Delta A|u\rangle=-v_{k}u^{k}-v_{k}u^{k} + v_{k}A^{k}_{k}u^{k}</math>

<math>\langle v|\Delta A|k\rangle \langle k|u\rangle=-v_ku^k</math>

<math>IOF_k = -\Delta\lambda =(1-A^k_k)v_ku^k</math>

分类:Surprised by the Gambler’s and Hot Hand Fallacies

2017-12-16T15:22:22Z

Szs：/* =参考文献 */

[[Category:其他]]
[[Category:文献讨论]]

Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354

==Abstract==

We prove that a subtle but substantial bias exists in a standard measure of the conditional dependence of present outcomes on streaks of past outcomes in sequential data. The magnitude of this novel form of selection bias generally decreases as the sequence gets longer, but increases in streak length, and remains substantial for a range of sequence lengths often used in empirical work. The bias has important implications for the literature that investigates incorrect beliefs in sequential decision making---most notably the Hot Hand Fallacy and the Gambler's Fallacy. Upon correcting for the bias, the conclusions of prominent studies in the hot hand fallacy literature are reversed. The bias also provides a novel structural explanation for how belief in the law of small numbers can persist in the face of experience.

==总结和评论==
这篇李克强推荐给我神奇的文章讨论了这样一件事情：当我们重复扔上<math>N</math>次硬币的时候，我们做下面的一个记录——如果我们遇到了一个正面（H）就把下次的观测值记录下来；接着，在这个观测记录中，我们来计算正面的比例<math>p^{H}_{1}</math>，并且看这个比例是否接近硬币的内在概率<math>q^{H}</math>.

这个例子还可以推广成为连续观测到<math>k</math>次以后开始记录，再来计算<math>p^{H}_{k}</math>，然后和<math>q^{H}</math>比较。这里为了简单计，我们用<math>k=1</math>。

这个问题的背景是手热效益：是否连续投球成功以后成功率变高，或者反过来叫做赌徒的谬误：是否连续出现正面之后正面的概率变小。当然，实际问题中，前者更复杂一些，因为有可能确实会出现打出上风球于是球场气氛得到了改变，从而有可能改变了投球成功率。之前有理论和实际研究<ref name="GVT"/>表明理论上<math>p^{H}_{k}=q^{H}</math>，并且在篮球实际统计结果中确实不存在手热效益。

本文对之前的研究提出了挑战，认为：理论上<math>p^{H}_{k}\neq q^{H}</math>，并且实际上篮球实际统计结果中存在手热效益。

初看起来，如果这个结果是正确的，那么，不仅否定了之前文章的结果，还会对理论造成冲击：<math>p^{H}_{k}</math>不过就是一个条件概率，怎么会在独立事件（扔硬币）的条件下，不等于<math>q^{H}</math>？看起来实在太神奇了，意义太非凡了，也太不可能是正确的了！

仔细读了这篇文章<ref name="Miller:anti-GVT"/>以后，我发现，实际上，是统计方式的问题。当我们问“在这个观测记录中，正面的比例是多少”的时候，问题是没有清楚的定义的，存在两种理解。第一种，在一轮实验记录中——一轮的意思是<math>N</math>次结果的一个序列<math>x_{1}, x_{2}, \cdots, x_{N}</math>，做上面的规定好的统计。第二种，在很多很多轮的结果的集合中，也就是把一大堆<math>\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}</math>中来做上面规定好的统计。两者的答案可能是不一样的。以<math>k=1</math>为例，前者相当于在单次结果上来计算这个比例<math>\frac{HH}{HH+HT}</math>。如果后面还把这样的很多次结果做一个平均的话，实际上相当于计算<math>\left\langle\frac{HH}{HH+HT}\right\rangle</math>。后者相当于直接计算统计平均<math>\frac{\left\langle　HH\right\rangle}{\left\langle　HH+HT　\right\rangle}</math>。

也就是说第一种定义是<math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。<math>Ｓ^{*}</math>是为了把那些不产生记录，于是分母会变成0的样本剔除掉。

通常的条件概率，<math>q^{H}=P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>是固定<math>j</math>并且对于大样本求和的，也就是第二种意义下的计算，并且<math>j</math>是一个固定值。因此，出现第一种计算的结果理论上就不同，并不奇怪。甚至第二种计算，也不是和这个通常的条件概率是一样的。

在第二种计算下，我们关心<math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。不过，由于在这个情形下，每一个具体的<math>j</math>的情况下，这个比例都是<math>q^{H}</math>，于是算出来的比例仍然是<math>q^{H}</math>。

现在，搞清楚了理论上不同的值出现的情形和这些个情形的意义，那么，实际情况是如何做统计的呢？

一定程度上，如果统计是每一场球独立的结果计算，然后按照这个每一场球的结果来算整体的平均，那么，确实更加接近情形一，也就是理论上不等于<math>q^{H}</math>的情况。而对于观众来说，有可能确实是先从单场感受到这个手热的比例，然后，根据自己看的所有比赛的情况，在内心感受到了这些比例的平均。对于球员来说，可能也有这个现象。对于分析师来说，就没有了，他们会做基于所有场次的数据的分析。

因此，实际上，这篇文章的意义在于，揭示有些时候在某些场景下人的感受不是能够用某个数学上的定义来描述的，而有可能需要构造一个不同的定义，而不是作者所宣称的找到了一个普适的基于严格数学定义的条件概率的现象，并且以此为基础说明了gambler's fallacy的合理性。

如果把所有的结果放在一起再来统计，那么，就更加接近情形二，也就是理论上等于<math>q^{H}</math>的情况。

也就是说，这个结果仅仅是统计方式的差别带来的：如果人们讨论手热效益是每一场球的平均，那么，就应该用<ref name="Miller:anti-GVT"/>的计算；如果人们讨论手热效益实际上是大量的不同场的球的整体合起来的感觉的平均，则就应该用<ref name="GVT"/>的计算。

更深层次的原因：实际上，统计学永远考虑的是系综平均，而不是对样本平均：对于只扔一次就算一个样本，我们需要整体样本空间通过重复一样地来扔很多很多次来产生；对于某种顺序或者方式扔N轮算一个样本，我们还是需要重复这样的N轮很多很多次来产生样本空间。因此，让N变成无穷大的极限是没有统计学意义的，只有让系综里面系统的个数，也就是S变成无穷大才是统计学极限的意义。实际上，从概率理论上说，<math>p^{Sample}\left(H\right)_{1}</math>没有意义。足见对概念的正确理解是多么重要啊。当然实际上人们是如何来估计对热手效益的理解的，那是另一回事。

回到这个工作的意义：文章宣称他们的这个概率解释了为什么赌徒的谬误之类的直觉现象是有道理的。这是完全错误的。在赌徒的谬误的情况下，所对应着的计算应该是固定j之后的系综平均，也就是标准数学条件概率，因此，完全就应该是理论上的数学上的正确答案，而不是他们定义的条件概率。他们定义的条件概率仅仅会在按照他们的统计的情况下出现：先按照序列来计算比例，然后计算这个比例的系综平均。我把下一步工作的标题都取好了：gambler's fallacy can not be mathematically justified and existence of hot hand effects relies on definition.不过，后半部分的结论还得看实际数据按照两种计算得到的结果。

==Short summary in English==
# Given a coin with probability being head (H) is predetermined as <math>q^{H}</math>
# The usual mathematical conditional probability is defined as <math>P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, where <math>j</math> is fixed and we have <math>P\left(x_{j+1}=H|x_{j}=H\right)=q^{H}</math>. The key here is that <math>\sum_{s}</math> is performed all over the ensemble of sequences, but not on each sequence.
# Another definition can be <math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>. It can be proved that this definition leads to the same value with the above one.
# <ref name="Miller:anti-GVT"/> defines <math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, number of HH and HT are calculated on a single sequence first and do an average over the whole ensemble of sequences. Here <math>S^{*}</math> refers to the set of sequences where <math> \sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT >0 </math> to avoid <math>\frac{0}{0}</math>.
# It is not clear to me that which definition is used in <ref name="GVT"/>.
# Which one should be used in reality when people are talking about hot-hand effect? If averaging each game first and them do another average of a set of games with the previous average, then <math>p^{Sample}\left(H\right)_{1}</math> should be used. If otherwise records from all games are collected together first, then <math>p^{Ensemble}\left(H\right)_{1}</math> should be used.

==下一步工作==
把两种计算在原文的数据，或者更多的NBA数据上，都实现一下，然后，跟这两篇文章的结果做一个对比。这样这个问题就完全澄清了。

The above explanation conceptually distinguishes the usual mathematical <math>P\left(x_{j+1}=H|x_{j}=H\right)</math>, <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>. It is clear and satisfying to me already. However, in order to indeed have a complete picture and provide an end-of-story answer to the original question about the hot-hand effect, one should go and collect the same data or a large data set and apply both <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>, and furthermore compare the results against those in <ref name="Miller:anti-GVT"/> and <ref name="GVT"/>.

==相关工作==
<ref name='Miller-cold'/>
==参考文献=
<references>
<ref name="GVT"> Gilovich, T., R. Vallone, and A. Tversky (1985): “The Hot Hand in Basketball: On the Misperception of Random Sequences,” Cognitive Psychology, 17, 295–314. </ref>
<ref name="Miller:anti-GVT"> Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354 </ref>
<ref name='Miller-cold'>Joshua B. Miller and Adam Sanjurjo. A Cold Shower for the Hot Hand Fallacy</ref>
</references>

==附件：程序==
conditionalP.py

# http://www.bigphysics.org/index.php/%E5%88%86%E7%B1%BB:Surprised_by_the_Gambler%E2%80%99s_and_Hot_Hand_Fallacies
import random
L=1000000 #number of iterations
N=3 #length of sequences
records=0 # number of sequecens which leads to records, some for example TTT leads to no record
sample=0.0 #statistics final result for each sample sequence
ensemble=0.0 #statistics final result for whole ensemble
Psample = 0 #number of 1s in the records of per time sequence
Qsample = 0 #number of 0s in the records of per time sequence
Pensemble = 0 #number of 1s in the records of all time sequence
Qensemble = 0 #number of 1s in the records of all time sequence
flag = 0 #indicator of that fact that on the previous round r=1
step = 0 #number of iterations
r1=0 #value of r in the previous round
for trial in range(L):
Psample=0 #statistics per sequence
Qsample=0 #statistics per sequence
for i in range(N):
flag = 0
r = random.randint(0,1) #can be replaced with a better and specialized random number generator
if flag==1:
if r==1:
Psample=Psample+1
Pensemble=Pensemble+1 #statistics accumuated throughout the whole ensemble
else:
Qsample=Qsample+1
Qensemble=Qensemble+1 #statistics accumuated throughout the whole ensemble
flag=r
r1=r
if Psample>0 or Qsample>0: #in the case of no records generated this round, one need this condition to avoid 0/0
records=records+1
sample=sample+1.0*Psample/(1.0*Psample+1.0*Qsample)
ensemble=1.0*Pensemble/(1.0*Pensemble+1.0*Qensemble)

print("Psample=", sample/(1.0*records), "Pensemble=", ensemble)

运行结果：
Psample= 0.40503107107842035 Pensemble= 0.5001166990311979
前者接近5/12，后者接近1/2。

分类:Surprised by the Gambler’s and Hot Hand Fallacies

2017-12-16T15:22:05Z

Szs：

[[Category:其他]]
[[Category:文献讨论]]

Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354

==Abstract==

We prove that a subtle but substantial bias exists in a standard measure of the conditional dependence of present outcomes on streaks of past outcomes in sequential data. The magnitude of this novel form of selection bias generally decreases as the sequence gets longer, but increases in streak length, and remains substantial for a range of sequence lengths often used in empirical work. The bias has important implications for the literature that investigates incorrect beliefs in sequential decision making---most notably the Hot Hand Fallacy and the Gambler's Fallacy. Upon correcting for the bias, the conclusions of prominent studies in the hot hand fallacy literature are reversed. The bias also provides a novel structural explanation for how belief in the law of small numbers can persist in the face of experience.

==总结和评论==
这篇李克强推荐给我神奇的文章讨论了这样一件事情：当我们重复扔上<math>N</math>次硬币的时候，我们做下面的一个记录——如果我们遇到了一个正面（H）就把下次的观测值记录下来；接着，在这个观测记录中，我们来计算正面的比例<math>p^{H}_{1}</math>，并且看这个比例是否接近硬币的内在概率<math>q^{H}</math>.

这个例子还可以推广成为连续观测到<math>k</math>次以后开始记录，再来计算<math>p^{H}_{k}</math>，然后和<math>q^{H}</math>比较。这里为了简单计，我们用<math>k=1</math>。

这个问题的背景是手热效益：是否连续投球成功以后成功率变高，或者反过来叫做赌徒的谬误：是否连续出现正面之后正面的概率变小。当然，实际问题中，前者更复杂一些，因为有可能确实会出现打出上风球于是球场气氛得到了改变，从而有可能改变了投球成功率。之前有理论和实际研究<ref name="GVT"/>表明理论上<math>p^{H}_{k}=q^{H}</math>，并且在篮球实际统计结果中确实不存在手热效益。

本文对之前的研究提出了挑战，认为：理论上<math>p^{H}_{k}\neq q^{H}</math>，并且实际上篮球实际统计结果中存在手热效益。

初看起来，如果这个结果是正确的，那么，不仅否定了之前文章的结果，还会对理论造成冲击：<math>p^{H}_{k}</math>不过就是一个条件概率，怎么会在独立事件（扔硬币）的条件下，不等于<math>q^{H}</math>？看起来实在太神奇了，意义太非凡了，也太不可能是正确的了！

仔细读了这篇文章<ref name="Miller:anti-GVT"/>以后，我发现，实际上，是统计方式的问题。当我们问“在这个观测记录中，正面的比例是多少”的时候，问题是没有清楚的定义的，存在两种理解。第一种，在一轮实验记录中——一轮的意思是<math>N</math>次结果的一个序列<math>x_{1}, x_{2}, \cdots, x_{N}</math>，做上面的规定好的统计。第二种，在很多很多轮的结果的集合中，也就是把一大堆<math>\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}</math>中来做上面规定好的统计。两者的答案可能是不一样的。以<math>k=1</math>为例，前者相当于在单次结果上来计算这个比例<math>\frac{HH}{HH+HT}</math>。如果后面还把这样的很多次结果做一个平均的话，实际上相当于计算<math>\left\langle\frac{HH}{HH+HT}\right\rangle</math>。后者相当于直接计算统计平均<math>\frac{\left\langle　HH\right\rangle}{\left\langle　HH+HT　\right\rangle}</math>。

也就是说第一种定义是<math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。<math>Ｓ^{*}</math>是为了把那些不产生记录，于是分母会变成0的样本剔除掉。

通常的条件概率，<math>q^{H}=P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>是固定<math>j</math>并且对于大样本求和的，也就是第二种意义下的计算，并且<math>j</math>是一个固定值。因此，出现第一种计算的结果理论上就不同，并不奇怪。甚至第二种计算，也不是和这个通常的条件概率是一样的。

在第二种计算下，我们关心<math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。不过，由于在这个情形下，每一个具体的<math>j</math>的情况下，这个比例都是<math>q^{H}</math>，于是算出来的比例仍然是<math>q^{H}</math>。

现在，搞清楚了理论上不同的值出现的情形和这些个情形的意义，那么，实际情况是如何做统计的呢？

一定程度上，如果统计是每一场球独立的结果计算，然后按照这个每一场球的结果来算整体的平均，那么，确实更加接近情形一，也就是理论上不等于<math>q^{H}</math>的情况。而对于观众来说，有可能确实是先从单场感受到这个手热的比例，然后，根据自己看的所有比赛的情况，在内心感受到了这些比例的平均。对于球员来说，可能也有这个现象。对于分析师来说，就没有了，他们会做基于所有场次的数据的分析。

因此，实际上，这篇文章的意义在于，揭示有些时候在某些场景下人的感受不是能够用某个数学上的定义来描述的，而有可能需要构造一个不同的定义，而不是作者所宣称的找到了一个普适的基于严格数学定义的条件概率的现象，并且以此为基础说明了gambler's fallacy的合理性。

如果把所有的结果放在一起再来统计，那么，就更加接近情形二，也就是理论上等于<math>q^{H}</math>的情况。

也就是说，这个结果仅仅是统计方式的差别带来的：如果人们讨论手热效益是每一场球的平均，那么，就应该用<ref name="Miller:anti-GVT"/>的计算；如果人们讨论手热效益实际上是大量的不同场的球的整体合起来的感觉的平均，则就应该用<ref name="GVT"/>的计算。

更深层次的原因：实际上，统计学永远考虑的是系综平均，而不是对样本平均：对于只扔一次就算一个样本，我们需要整体样本空间通过重复一样地来扔很多很多次来产生；对于某种顺序或者方式扔N轮算一个样本，我们还是需要重复这样的N轮很多很多次来产生样本空间。因此，让N变成无穷大的极限是没有统计学意义的，只有让系综里面系统的个数，也就是S变成无穷大才是统计学极限的意义。实际上，从概率理论上说，<math>p^{Sample}\left(H\right)_{1}</math>没有意义。足见对概念的正确理解是多么重要啊。当然实际上人们是如何来估计对热手效益的理解的，那是另一回事。

回到这个工作的意义：文章宣称他们的这个概率解释了为什么赌徒的谬误之类的直觉现象是有道理的。这是完全错误的。在赌徒的谬误的情况下，所对应着的计算应该是固定j之后的系综平均，也就是标准数学条件概率，因此，完全就应该是理论上的数学上的正确答案，而不是他们定义的条件概率。他们定义的条件概率仅仅会在按照他们的统计的情况下出现：先按照序列来计算比例，然后计算这个比例的系综平均。我把下一步工作的标题都取好了：gambler's fallacy can not be mathematically justified and existence of hot hand effects relies on definition.不过，后半部分的结论还得看实际数据按照两种计算得到的结果。

==Short summary in English==
# Given a coin with probability being head (H) is predetermined as <math>q^{H}</math>
# The usual mathematical conditional probability is defined as <math>P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, where <math>j</math> is fixed and we have <math>P\left(x_{j+1}=H|x_{j}=H\right)=q^{H}</math>. The key here is that <math>\sum_{s}</math> is performed all over the ensemble of sequences, but not on each sequence.
# Another definition can be <math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>. It can be proved that this definition leads to the same value with the above one.
# <ref name="Miller:anti-GVT"/> defines <math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, number of HH and HT are calculated on a single sequence first and do an average over the whole ensemble of sequences. Here <math>S^{*}</math> refers to the set of sequences where <math> \sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT >0 </math> to avoid <math>\frac{0}{0}</math>.
# It is not clear to me that which definition is used in <ref name="GVT"/>.
# Which one should be used in reality when people are talking about hot-hand effect? If averaging each game first and them do another average of a set of games with the previous average, then <math>p^{Sample}\left(H\right)_{1}</math> should be used. If otherwise records from all games are collected together first, then <math>p^{Ensemble}\left(H\right)_{1}</math> should be used.

==下一步工作==
把两种计算在原文的数据，或者更多的NBA数据上，都实现一下，然后，跟这两篇文章的结果做一个对比。这样这个问题就完全澄清了。

The above explanation conceptually distinguishes the usual mathematical <math>P\left(x_{j+1}=H|x_{j}=H\right)</math>, <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>. It is clear and satisfying to me already. However, in order to indeed have a complete picture and provide an end-of-story answer to the original question about the hot-hand effect, one should go and collect the same data or a large data set and apply both <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>, and furthermore compare the results against those in <ref name="Miller:anti-GVT"/> and <ref name="GVT"/>.

==相关工作==
<ref name='Miller-cold'/>
==参考文献=
<references>
<ref name="GVT"> Gilovich, T., R. Vallone, and A. Tversky (1985): “The Hot Hand in Basketball: On the Misperception of Random Sequences,” Cognitive Psychology, 17, 295–314. </ref>
<ref name="Miller:anti-GVT"> Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354 </ref>
<ref name='Millera-cold'>Joshua B. Miller and Adam Sanjurjo. A Cold Shower for the Hot Hand Fallacy</ref>
</references>

==附件：程序==
conditionalP.py

# http://www.bigphysics.org/index.php/%E5%88%86%E7%B1%BB:Surprised_by_the_Gambler%E2%80%99s_and_Hot_Hand_Fallacies
import random
L=1000000 #number of iterations
N=3 #length of sequences
records=0 # number of sequecens which leads to records, some for example TTT leads to no record
sample=0.0 #statistics final result for each sample sequence
ensemble=0.0 #statistics final result for whole ensemble
Psample = 0 #number of 1s in the records of per time sequence
Qsample = 0 #number of 0s in the records of per time sequence
Pensemble = 0 #number of 1s in the records of all time sequence
Qensemble = 0 #number of 1s in the records of all time sequence
flag = 0 #indicator of that fact that on the previous round r=1
step = 0 #number of iterations
r1=0 #value of r in the previous round
for trial in range(L):
Psample=0 #statistics per sequence
Qsample=0 #statistics per sequence
for i in range(N):
flag = 0
r = random.randint(0,1) #can be replaced with a better and specialized random number generator
if flag==1:
if r==1:
Psample=Psample+1
Pensemble=Pensemble+1 #statistics accumuated throughout the whole ensemble
else:
Qsample=Qsample+1
Qensemble=Qensemble+1 #statistics accumuated throughout the whole ensemble
flag=r
r1=r
if Psample>0 or Qsample>0: #in the case of no records generated this round, one need this condition to avoid 0/0
records=records+1
sample=sample+1.0*Psample/(1.0*Psample+1.0*Qsample)
ensemble=1.0*Pensemble/(1.0*Pensemble+1.0*Qensemble)

print("Psample=", sample/(1.0*records), "Pensemble=", ensemble)

运行结果：
Psample= 0.40503107107842035 Pensemble= 0.5001166990311979
前者接近5/12，后者接近1/2。

分类:Surprised by the Gambler’s and Hot Hand Fallacies

2017-12-16T15:20:39Z

Szs：/* 参考文献 */

[[Category:其他]]
[[Category:文献讨论]]

Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354

==Abstract==

We prove that a subtle but substantial bias exists in a standard measure of the conditional dependence of present outcomes on streaks of past outcomes in sequential data. The magnitude of this novel form of selection bias generally decreases as the sequence gets longer, but increases in streak length, and remains substantial for a range of sequence lengths often used in empirical work. The bias has important implications for the literature that investigates incorrect beliefs in sequential decision making---most notably the Hot Hand Fallacy and the Gambler's Fallacy. Upon correcting for the bias, the conclusions of prominent studies in the hot hand fallacy literature are reversed. The bias also provides a novel structural explanation for how belief in the law of small numbers can persist in the face of experience.

==总结和评论==
这篇李克强推荐给我神奇的文章讨论了这样一件事情：当我们重复扔上<math>N</math>次硬币的时候，我们做下面的一个记录——如果我们遇到了一个正面（H）就把下次的观测值记录下来；接着，在这个观测记录中，我们来计算正面的比例<math>p^{H}_{1}</math>，并且看这个比例是否接近硬币的内在概率<math>q^{H}</math>.

这个例子还可以推广成为连续观测到<math>k</math>次以后开始记录，再来计算<math>p^{H}_{k}</math>，然后和<math>q^{H}</math>比较。这里为了简单计，我们用<math>k=1</math>。

这个问题的背景是手热效益：是否连续投球成功以后成功率变高，或者反过来叫做赌徒的谬误：是否连续出现正面之后正面的概率变小。当然，实际问题中，前者更复杂一些，因为有可能确实会出现打出上风球于是球场气氛得到了改变，从而有可能改变了投球成功率。之前有理论和实际研究<ref name="GVT"/>表明理论上<math>p^{H}_{k}=q^{H}</math>，并且在篮球实际统计结果中确实不存在手热效益。

本文对之前的研究提出了挑战，认为：理论上<math>p^{H}_{k}\neq q^{H}</math>，并且实际上篮球实际统计结果中存在手热效益。

初看起来，如果这个结果是正确的，那么，不仅否定了之前文章的结果，还会对理论造成冲击：<math>p^{H}_{k}</math>不过就是一个条件概率，怎么会在独立事件（扔硬币）的条件下，不等于<math>q^{H}</math>？看起来实在太神奇了，意义太非凡了，也太不可能是正确的了！

仔细读了这篇文章<ref name="Miller:anti-GVT"/>以后，我发现，实际上，是统计方式的问题。当我们问“在这个观测记录中，正面的比例是多少”的时候，问题是没有清楚的定义的，存在两种理解。第一种，在一轮实验记录中——一轮的意思是<math>N</math>次结果的一个序列<math>x_{1}, x_{2}, \cdots, x_{N}</math>，做上面的规定好的统计。第二种，在很多很多轮的结果的集合中，也就是把一大堆<math>\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}</math>中来做上面规定好的统计。两者的答案可能是不一样的。以<math>k=1</math>为例，前者相当于在单次结果上来计算这个比例<math>\frac{HH}{HH+HT}</math>。如果后面还把这样的很多次结果做一个平均的话，实际上相当于计算<math>\left\langle\frac{HH}{HH+HT}\right\rangle</math>。后者相当于直接计算统计平均<math>\frac{\left\langle　HH\right\rangle}{\left\langle　HH+HT　\right\rangle}</math>。

也就是说第一种定义是<math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。<math>Ｓ^{*}</math>是为了把那些不产生记录，于是分母会变成0的样本剔除掉。

通常的条件概率，<math>q^{H}=P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>是固定<math>j</math>并且对于大样本求和的，也就是第二种意义下的计算，并且<math>j</math>是一个固定值。因此，出现第一种计算的结果理论上就不同，并不奇怪。甚至第二种计算，也不是和这个通常的条件概率是一样的。

在第二种计算下，我们关心<math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。不过，由于在这个情形下，每一个具体的<math>j</math>的情况下，这个比例都是<math>q^{H}</math>，于是算出来的比例仍然是<math>q^{H}</math>。

现在，搞清楚了理论上不同的值出现的情形和这些个情形的意义，那么，实际情况是如何做统计的呢？

一定程度上，如果统计是每一场球独立的结果计算，然后按照这个每一场球的结果来算整体的平均，那么，确实更加接近情形一，也就是理论上不等于<math>q^{H}</math>的情况。而对于观众来说，有可能确实是先从单场感受到这个手热的比例，然后，根据自己看的所有比赛的情况，在内心感受到了这些比例的平均。对于球员来说，可能也有这个现象。对于分析师来说，就没有了，他们会做基于所有场次的数据的分析。

因此，实际上，这篇文章的意义在于，揭示有些时候在某些场景下人的感受不是能够用某个数学上的定义来描述的，而有可能需要构造一个不同的定义，而不是作者所宣称的找到了一个普适的基于严格数学定义的条件概率的现象，并且以此为基础说明了gambler's fallacy的合理性。

如果把所有的结果放在一起再来统计，那么，就更加接近情形二，也就是理论上等于<math>q^{H}</math>的情况。

也就是说，这个结果仅仅是统计方式的差别带来的：如果人们讨论手热效益是每一场球的平均，那么，就应该用<ref name="Miller:anti-GVT"/>的计算；如果人们讨论手热效益实际上是大量的不同场的球的整体合起来的感觉的平均，则就应该用<ref name="GVT"/>的计算。

更深层次的原因：实际上，统计学永远考虑的是系综平均，而不是对样本平均：对于只扔一次就算一个样本，我们需要整体样本空间通过重复一样地来扔很多很多次来产生；对于某种顺序或者方式扔N轮算一个样本，我们还是需要重复这样的N轮很多很多次来产生样本空间。因此，让N变成无穷大的极限是没有统计学意义的，只有让系综里面系统的个数，也就是S变成无穷大才是统计学极限的意义。实际上，从概率理论上说，<math>p^{Sample}\left(H\right)_{1}</math>没有意义。足见对概念的正确理解是多么重要啊。当然实际上人们是如何来估计对热手效益的理解的，那是另一回事。

回到这个工作的意义：文章宣称他们的这个概率解释了为什么赌徒的谬误之类的直觉现象是有道理的。这是完全错误的。在赌徒的谬误的情况下，所对应着的计算应该是固定j之后的系综平均，也就是标准数学条件概率，因此，完全就应该是理论上的数学上的正确答案，而不是他们定义的条件概率。他们定义的条件概率仅仅会在按照他们的统计的情况下出现：先按照序列来计算比例，然后计算这个比例的系综平均。我把下一步工作的标题都取好了：gambler's fallacy can not be mathematically justified and existence of hot hand effects relies on definition.不过，后半部分的结论还得看实际数据按照两种计算得到的结果。

==Short summary in English==
# Given a coin with probability being head (H) is predetermined as <math>q^{H}</math>
# The usual mathematical conditional probability is defined as <math>P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, where <math>j</math> is fixed and we have <math>P\left(x_{j+1}=H|x_{j}=H\right)=q^{H}</math>. The key here is that <math>\sum_{s}</math> is performed all over the ensemble of sequences, but not on each sequence.
# Another definition can be <math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>. It can be proved that this definition leads to the same value with the above one.
# <ref name="Miller:anti-GVT"/> defines <math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, number of HH and HT are calculated on a single sequence first and do an average over the whole ensemble of sequences. Here <math>S^{*}</math> refers to the set of sequences where <math> \sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT >0 </math> to avoid <math>\frac{0}{0}</math>.
# It is not clear to me that which definition is used in <ref name="GVT"/>.
# Which one should be used in reality when people are talking about hot-hand effect? If averaging each game first and them do another average of a set of games with the previous average, then <math>p^{Sample}\left(H\right)_{1}</math> should be used. If otherwise records from all games are collected together first, then <math>p^{Ensemble}\left(H\right)_{1}</math> should be used.

==下一步工作==
把两种计算在原文的数据，或者更多的NBA数据上，都实现一下，然后，跟这两篇文章的结果做一个对比。这样这个问题就完全澄清了。

The above explanation conceptually distinguishes the usual mathematical <math>P\left(x_{j+1}=H|x_{j}=H\right)</math>, <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>. It is clear and satisfying to me already. However, in order to indeed have a complete picture and provide an end-of-story answer to the original question about the hot-hand effect, one should go and collect the same data or a large data set and apply both <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>, and furthermore compare the results against those in <ref name="Miller:anti-GVT"/> and <ref name="GVT"/>.

==参考文献==
<references>
<ref name="GVT"> Gilovich, T., R. Vallone, and A. Tversky (1985): “The Hot Hand in Basketball: On the Misperception of Random Sequences,” Cognitive Psychology, 17, 295–314. </ref>
<ref name="Miller:anti-GVT"> Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354 </ref>
<ref name='Millera-cold'>Joshua B. Millera and Adam Sanjurjo. A Cold Shower for the Hot Hand Fallacy</ref>
</references>

==附件：程序==
conditionalP.py

# http://www.bigphysics.org/index.php/%E5%88%86%E7%B1%BB:Surprised_by_the_Gambler%E2%80%99s_and_Hot_Hand_Fallacies
import random
L=1000000 #number of iterations
N=3 #length of sequences
records=0 # number of sequecens which leads to records, some for example TTT leads to no record
sample=0.0 #statistics final result for each sample sequence
ensemble=0.0 #statistics final result for whole ensemble
Psample = 0 #number of 1s in the records of per time sequence
Qsample = 0 #number of 0s in the records of per time sequence
Pensemble = 0 #number of 1s in the records of all time sequence
Qensemble = 0 #number of 1s in the records of all time sequence
flag = 0 #indicator of that fact that on the previous round r=1
step = 0 #number of iterations
r1=0 #value of r in the previous round
for trial in range(L):
Psample=0 #statistics per sequence
Qsample=0 #statistics per sequence
for i in range(N):
flag = 0
r = random.randint(0,1) #can be replaced with a better and specialized random number generator
if flag==1:
if r==1:
Psample=Psample+1
Pensemble=Pensemble+1 #statistics accumuated throughout the whole ensemble
else:
Qsample=Qsample+1
Qensemble=Qensemble+1 #statistics accumuated throughout the whole ensemble
flag=r
r1=r
if Psample>0 or Qsample>0: #in the case of no records generated this round, one need this condition to avoid 0/0
records=records+1
sample=sample+1.0*Psample/(1.0*Psample+1.0*Qsample)
ensemble=1.0*Pensemble/(1.0*Pensemble+1.0*Qensemble)

print("Psample=", sample/(1.0*records), "Pensemble=", ensemble)

运行结果：
Psample= 0.40503107107842035 Pensemble= 0.5001166990311979
前者接近5/12，后者接近1/2。

分类:Surprised by the Gambler’s and Hot Hand Fallacies

2017-12-12T04:00:51Z

Szs：/* 附件：程序 */

[[Category:其他]]
[[Category:文献讨论]]

Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354

==Abstract==

We prove that a subtle but substantial bias exists in a standard measure of the conditional dependence of present outcomes on streaks of past outcomes in sequential data. The magnitude of this novel form of selection bias generally decreases as the sequence gets longer, but increases in streak length, and remains substantial for a range of sequence lengths often used in empirical work. The bias has important implications for the literature that investigates incorrect beliefs in sequential decision making---most notably the Hot Hand Fallacy and the Gambler's Fallacy. Upon correcting for the bias, the conclusions of prominent studies in the hot hand fallacy literature are reversed. The bias also provides a novel structural explanation for how belief in the law of small numbers can persist in the face of experience.

==总结和评论==
这篇李克强推荐给我神奇的文章讨论了这样一件事情：当我们重复扔上<math>N</math>次硬币的时候，我们做下面的一个记录——如果我们遇到了一个正面（H）就把下次的观测值记录下来；接着，在这个观测记录中，我们来计算正面的比例<math>p^{H}_{1}</math>，并且看这个比例是否接近硬币的内在概率<math>q^{H}</math>.

这个例子还可以推广成为连续观测到<math>k</math>次以后开始记录，再来计算<math>p^{H}_{k}</math>，然后和<math>q^{H}</math>比较。这里为了简单计，我们用<math>k=1</math>。

这个问题的背景是手热效益：是否连续投球成功以后成功率变高，或者反过来叫做赌徒的谬误：是否连续出现正面之后正面的概率变小。当然，实际问题中，前者更复杂一些，因为有可能确实会出现打出上风球于是球场气氛得到了改变，从而有可能改变了投球成功率。之前有理论和实际研究<ref name="GVT"/>表明理论上<math>p^{H}_{k}=q^{H}</math>，并且在篮球实际统计结果中确实不存在手热效益。

本文对之前的研究提出了挑战，认为：理论上<math>p^{H}_{k}\neq q^{H}</math>，并且实际上篮球实际统计结果中存在手热效益。

初看起来，如果这个结果是正确的，那么，不仅否定了之前文章的结果，还会对理论造成冲击：<math>p^{H}_{k}</math>不过就是一个条件概率，怎么会在独立事件（扔硬币）的条件下，不等于<math>q^{H}</math>？看起来实在太神奇了，意义太非凡了，也太不可能是正确的了！

仔细读了这篇文章<ref name="Miller:anti-GVT"/>以后，我发现，实际上，是统计方式的问题。当我们问“在这个观测记录中，正面的比例是多少”的时候，问题是没有清楚的定义的，存在两种理解。第一种，在一轮实验记录中——一轮的意思是<math>N</math>次结果的一个序列<math>x_{1}, x_{2}, \cdots, x_{N}</math>，做上面的规定好的统计。第二种，在很多很多轮的结果的集合中，也就是把一大堆<math>\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}</math>中来做上面规定好的统计。两者的答案可能是不一样的。以<math>k=1</math>为例，前者相当于在单次结果上来计算这个比例<math>\frac{HH}{HH+HT}</math>。如果后面还把这样的很多次结果做一个平均的话，实际上相当于计算<math>\left\langle\frac{HH}{HH+HT}\right\rangle</math>。后者相当于直接计算统计平均<math>\frac{\left\langle　HH\right\rangle}{\left\langle　HH+HT　\right\rangle}</math>。

也就是说第一种定义是<math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。<math>Ｓ^{*}</math>是为了把那些不产生记录，于是分母会变成0的样本剔除掉。

通常的条件概率，<math>q^{H}=P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>是固定<math>j</math>并且对于大样本求和的，也就是第二种意义下的计算，并且<math>j</math>是一个固定值。因此，出现第一种计算的结果理论上就不同，并不奇怪。甚至第二种计算，也不是和这个通常的条件概率是一样的。

在第二种计算下，我们关心<math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>。不过，由于在这个情形下，每一个具体的<math>j</math>的情况下，这个比例都是<math>q^{H}</math>，于是算出来的比例仍然是<math>q^{H}</math>。

现在，搞清楚了理论上不同的值出现的情形和这些个情形的意义，那么，实际情况是如何做统计的呢？

一定程度上，如果统计是每一场球独立的结果计算，然后按照这个每一场球的结果来算整体的平均，那么，确实更加接近情形一，也就是理论上不等于<math>q^{H}</math>的情况。

如果把所有的结果放在一起再来统计，那么，就更加接近情形二，也就是理论上等于<math>q^{H}</math>的情况。

也就是说，这个结果仅仅是统计方式的差别带来的：如果人们讨论手热效益是每一场球的平均，那么，就应该用<ref name="Miller:anti-GVT"/>的计算；如果人们讨论手热效益实际上是大量的不同场的球的整体合起来的感觉的平均，则就应该用<ref name="GVT"/>的计算。

更深层次的原因：实际上，统计学永远考虑的是系综平均，而不是对样本平均：对于只扔一次就算一个样本，我们需要整体样本空间通过重复一样地来扔很多很多次来产生；对于某种顺序或者方式扔N轮算一个样本，我们还是需要重复这样的N轮很多很多次来产生样本空间。因此，让N变成无穷大的极限是没有统计学意义的，只有让系综里面系统的个数，也就是S变成无穷大才是统计学极限的意义。实际上，从概率理论上说，<math>p^{Sample}\left(H\right)_{1}</math>没有意义。足见对概念的正确理解是多么重要啊。当然实际上人们是如何来估计对热手效益的理解的，那是另一回事。

回到这个工作的意义：文章宣称他们的这个概率解释了为什么赌徒的谬误之类的直觉现象是有道理的。这是完全错误的。在赌徒的谬误的情况下，所对应着的计算应该是固定j之后的系综平均，也就是标准数学条件概率，因此，完全就应该是理论上的数学上的正确答案，而不是他们定义的条件概率。他们定义的条件概率仅仅会在按照他们的统计的情况下出现：先按照序列来计算比例，然后计算这个比例的系综平均。我把下一步工作的标题都取好了：gambler's fallacy can not be mathematically justified and existence of hot hand effects relies on definition.不过，后半部分的结论还得看实际数据按照两种计算得到的结果。

==Short summary in English==
# Given a coin with probability being head (H) is predetermined as <math>q^{H}</math>
# The usual mathematical conditional probability is defined as <math>P\left(x_{j+1}=H|x_{j}=H\right)=\frac{\sum_{s} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s}x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, where <math>j</math> is fixed and we have <math>P\left(x_{j+1}=H|x_{j}=H\right)=q^{H}</math>. The key here is that <math>\sum_{s}</math> is performed all over the ensemble of sequences, but not on each sequence.
# Another definition can be <math>p^{Ensemble}\left(H\right)_{1}=\frac{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{s,j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>. It can be proved that this definition leads to the same value with the above one.
# <ref name="Miller:anti-GVT"/> defines <math>p^{Sample}\left(H\right)_{1}=\frac{1}{\sum_{s \in S^{*}}}\sum_{s\in S^{*}}\frac{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH}{\sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT}</math>, number of HH and HT are calculated on a single sequence first and do an average over the whole ensemble of sequences. Here <math>S^{*}</math> refers to the set of sequences where <math> \sum_{j} x^{s}_{j}x^{s}_{j+1}=HH,HT >0 </math> to avoid <math>\frac{0}{0}</math>.
# It is not clear to me that which definition is used in <ref name="GVT"/>.
# Which one should be used in reality when people are talking about hot-hand effect? If averaging each game first and them do another average of a set of games with the previous average, then <math>p^{Sample}\left(H\right)_{1}</math> should be used. If otherwise records from all games are collected together first, then <math>p^{Ensemble}\left(H\right)_{1}</math> should be used.

==下一步工作==
把两种计算在原文的数据，或者更多的NBA数据上，都实现一下，然后，跟这两篇文章的结果做一个对比。这样这个问题就完全澄清了。

The above explanation conceptually distinguishes the usual mathematical <math>P\left(x_{j+1}=H|x_{j}=H\right)</math>, <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>. It is clear and satisfying to me already. However, in order to indeed have a complete picture and provide an end-of-story answer to the original question about the hot-hand effect, one should go and collect the same data or a large data set and apply both <math>p^{Ensemble}\left(H\right)_{1}</math> and <math>p^{Sample}\left(H\right)_{1}</math>, and furthermore compare the results against those in <ref name="Miller:anti-GVT"/> and <ref name="GVT"/>.

==参考文献==
<references>
<ref name="GVT"> Gilovich, T., R. Vallone, and A. Tversky (1985): “The Hot Hand in Basketball: On the Misperception of Random Sequences,” Cognitive Psychology, 17, 295–314. </ref>
<ref name="Miller:anti-GVT"> Miller, Joshua Benjamin and Sanjurjo, Adam, Surprised by the Gambler's and Hot Hand Fallacies? A Truth in the Law of Small Numbers (November 15, 2016). IGIER Working Paper No. 552. Available at SSRN: https://ssrn.com/abstract=2627354 or http://dx.doi.org/10.2139/ssrn.2627354 </ref>
</references>

==附件：程序==
conditionalP.py

# http://www.bigphysics.org/index.php/%E5%88%86%E7%B1%BB:Surprised_by_the_Gambler%E2%80%99s_and_Hot_Hand_Fallacies
import random
L=1000000 #number of iterations
N=3 #length of sequences
records=0 # number of sequecens which leads to records, some for example TTT leads to no record
sample=0.0 #statistics final result for each sample sequence
ensemble=0.0 #statistics final result for whole ensemble
Psample = 0 #number of 1s in the records of per time sequence
Qsample = 0 #number of 0s in the records of per time sequence
Pensemble = 0 #number of 1s in the records of all time sequence
Qensemble = 0 #number of 1s in the records of all time sequence
flag = 0 #indicator of that fact that on the previous round r=1
step = 0 #number of iterations
r1=0 #value of r in the previous round
for trial in range(L):
Psample=0 #statistics per sequence
Qsample=0 #statistics per sequence
for i in range(N):
flag = 0
r = random.randint(0,1) #can be replaced with a better and specialized random number generator
if flag==1:
if r==1:
Psample=Psample+1
Pensemble=Pensemble+1 #statistics accumuated throughout the whole ensemble
else:
Qsample=Qsample+1
Qensemble=Qensemble+1 #statistics accumuated throughout the whole ensemble
flag=r
r1=r
if Psample>0 or Qsample>0: #in the case of no records generated this round, one need this condition to avoid 0/0
records=records+1
sample=sample+1.0*Psample/(1.0*Psample+1.0*Qsample)
ensemble=1.0*Pensemble/(1.0*Pensemble+1.0*Qensemble)

print("Psample=", sample/(1.0*records), "Pensemble=", ensemble)

运行结果：
Psample= 0.40503107107842035 Pensemble= 0.5001166990311979
前者接近5/12，后者接近1/2。

分类:沈哲思

2017-12-07T07:47:04Z

Szs：/* 2017年主要工作 */

[[Category:研究者]]

沈哲思（Zhesi Shen），北京师范大学系统科学学院博士研究生。
研究工作涉及。

Email: [mailto:zhesi.shen@live.com 给我发电子邮件]

学术主页：[[https://www.researchgate.net/profile/Zhesi_Shen 沈哲思在researchgate上的主页]]

博客：[[https://challenge19.github.io/ 呆思不呆]]

==2017年主要工作==
# 多样性和创新性衡量
# 科学专利关联分析
# 网络骨架，引文网络和一般网络，骨架的衡量和作用。
# 节点状态推断
# 多关系聚类分析

分类:沈哲思

2017-12-07T07:44:15Z

Szs：

[[Category:研究者]]

沈哲思（Zhesi Shen），北京师范大学系统科学学院博士研究生。
研究工作涉及。

Email: [mailto:zhesi.shen@live.com 给我发电子邮件]

学术主页：[[https://www.researchgate.net/profile/Zhesi_Shen 沈哲思在researchgate上的主页]]

博客：[[https://challenge19.github.io/ 呆思不呆]]

==2017年主要工作==
# Linkage，文章阅读，了解领域大概情况。
# 网络骨架，引文网络和一般网络，骨架的衡量和作用。
# 节点状态推断

分类:网络数据集

2017-12-05T03:26:43Z

Szs：

[[Category:数据]]

[[http://snap.stanford.edu/data/index.html Stanford Large Network Dataset Collection]]

[[http://www-personal.umich.edu/~mejn/netdata/ Network Data from Mark Newman]]

分类:网络数据集

2017-12-05T03:26:36Z

Szs：

[[Category:数据]]

[[http://snap.stanford.edu/data/index.html Stanford Large Network Dataset Collection]]
[[http://www-personal.umich.edu/~mejn/netdata/ Network Data from Mark Newman]]

分类:创新性度量

2017-12-04T02:55:10Z

Szs：/* 参考文献 */

[[Category:科学学]]
[[Category:沈哲思]]
[[Category:王洋]]

本项目主要研究如何衡量一篇文章的创新性和交叉科学性，以及这些性质和文章的其他属性的关联。其他属性可以包含文章的国家来源、被引用次数、参考文献数量、编辑等待时间、是否得到基金资助、作者年龄组合、作者领域组合、文章所在期刊等等。很多时候，新的概念、方法、结果或者解释来自于对已有的工作的新的融合。当然，也有的时候来自于对一个问题的深入的比较孤立的研究。因此，搞清楚每一个研究工作和之前的研究的关系有助于搞清楚这个工作的创新性到底在哪里。但是，一般的关系的挖掘是一个非常困难的问题。因此，把文章所研究的主要概念或者主要化学反应物拿出来，看看这些概念（反应物）和概念之间的联系（化学反应）是否在前人的工作中被研究过，应该大概可以描述创新性和交叉科学性。这就需要把研究工作放到概念和概念间关系网络、化学反应物和化学反应网络上去看。

为了获得概念和概念间关系网络、化学反应物和反应网络我们首先需要一个论文对应着什么概念和概念间关系，什么化学反应物和化学反应的基础数据。后者，有专门的数据库提供商在整理。前者有一部分已经有数据，例如PACS, JEL, MSC, MeSH等，同时也是一个正在展开研究的问题——“[[:Category:文章主题识别|文章主题识别]]”。

方法上，通过PACS等概念之间的层次性网络，加上，概念之间的共现网络，来定义交叉科学性和创新性。两者的区别就是，前者通过目前来说的最终的网络来计算，后者通过文章发表之前（可以使发表之前的某段时间，例如半年之前，也可以就是发表之前的那个时间点）的网络来计算。

计算了文章的交叉科学性和创新性，还可以来计算作者、期刊、领域的交叉科学性。这个时候有两种计算的方法，例如考虑整个集合，也就是作者或者期刊的所有的文章，当做一个整体的交叉科学性，也可以把这个集合里面所有的文章的交叉科学性做一个平均来计算。这样两种计算方式，实际上研究的侧面是不一样的。例如，集合当做整体的交叉性，由于涉及多个主题，可以很高，但是每篇文章的交叉性的平均很小。在这个意义下，我们管这个集合整体的交叉性为多样性。也就是说，一个框子里很有多种水果，叫做多样性；如果这个篮子里面的都是苹果梨、香蕉哈密瓜，则叫做交叉性。交叉性需要文章本身交叉起来，而不仅仅是文章来自多个领域。

具体交叉性（集合整体的多样性）和创新性的计算可以考虑用分布函数的熵，以及概念之间的路径的长短。

有了指标之后，需要做的关联分析有：交叉性、多样性和创新性和文章作者的属性，例如文章的被（文章和专利）引次数、基金是否支持、作者h指数、作者学术年龄（组合）、文章审稿时间、被综述文献引用次数，的关联等。

考虑到我们正在研究的[[:分类:科学中的代际流动性]]，另外一个有意思的问题，一旦有了这些指标之后，就是研究科学家的代际流动性：是不是“龙生龙，凤生凤，老鼠的儿子会打洞”在科学界也是普遍存在的？这里龙凤老鼠可以是科学家的某种表现指标，例如h-指数、文章总数、文章总被引次数、创新性、交叉性、多学科性等等。代际的含义首先可以是来自于不同时期（时间段）的人们，其次可以是明确地运用了学术传承关系（[[https://academictree.org/ 学术树项目]]，或者，[[https://www.genealogy.math.ndsu.nodak.edu/ 数学家传承关系项目]]）以后来做的代际研究。在[[https://en.wikipedia.org/wiki/Economic_mobility 经济学界一个类似的流动性]]就是分析，父代和子代之间在经济地位，例如总收入，上的关联性。

===参考文献===

# Stephan et al. Blinkered by bibliometrics. Nature (2017).
# Verhoeven, D., Bakker, J. & Veugelers, R. Measuring technological novelty with patent-based indicators. Research Policy 45, 707–723 (2016).
# Stephan, P. E., Veugelers, R. & Wang, J. Bias Against Novelty in Science: A Cautionary Tale for Users of Bibliometric Indicators. Social Science Electronic Publishing (2016).
# Kim, D., Cerigo, D. B., Jeong, H. & Youn, H. Technological novelty profile and invention’s future impact. EPJ Data Science 5, (2016).
# Bromham, L., Dinnage, R. & Hua, X. Interdisciplinary research has consistently lower funding success. Nature 534, 684–687 (2016).
# Boudreau, K., Guinan, E., Lakhani, K. R. & Riedl, C. Looking Across and Looking Beyond the Knowledge Frontier: Intellectual Distance, Novelty, and Resource Allocation in Science. Management Science 62, 2765–2783 (2016).
# Rzhetsky, A., Foster, J. G., Foster, I. T. & Evans, J. A. Choosing experiments to accelerate collective discovery. Proceedings of the National Academy of Sciences 112, 14569–14574 (2015).
# Lee, Y.-N., Walsh, J. P. & Wang, J. Creativity in scientific teams: Unpacking novelty and impact. Research Policy 44, 684–697 (2015).
# Karlovčec, M. & Mladenić, D. Interdisciplinarity of scientific fields and its evolution based on graph of project collaboration and co-authoring. Scientometrics 102, 433–454 (2015).
# Foster, J. G., Rzhetsky, A. & Evans, J. A. Tradition and Innovation in Scientists’ Research Strategies. American Sociological Review 80, (2015).
# Arts, S. & Veugelers, R. Technology familiarity, recombinant novelty, and breakthrough invention. Industrial and Corporate Change 24, 1215–1246 (2015).
# Uzzi, B., Mukherjee, S., Stringer, M. & Jones, B. Atypical Combinations and Scientific Impact. Science 342, 468–472 (2013).
# Barro, R. J., Helpman, E., Katz, L. F. & Schleifer, A. Recombinant Growth. Quarterly Journal of Economics 331–360 (1998).
# Rafos, I. & Meyer M. Diversity and network coherence as indicators of interdisciplinarity: case studies in bionanoscience. Scientometrics 82:263-287 (2010).
# Zhang L. & Rousseau R. Diversity of References as an Indicator of the Interdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account. JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY, 67(5):1257–1265, 2016. 引入了‘True' diversity的概念，利用effecive species number来衡量多样系。
# Leinster T. & Cobbold C. A. Measuring diversity: the importance of species similarity。 Ecology 93（3）：477-489 （2012）. 在多样系衡量中引入了种群相似性，给出了多种diversity到true diversity的转换关系。指出利用diversity profile（不同order下的diversity，不同order对于稀有物种和常见物种的重视程度是不同的）可以给出更丰富的多样性描述。在不同order下，不同系统的多样性可能会有非常不同的表现。
# Leydesdorff, L., & Rafols, I. (2011). Indicators of the interdisciplinarity of journals: Diversity, centrality, and citations. Journal of Informetrics, 5(1), 87–100.

分类:创新性度量

2017-12-04T02:41:24Z

Szs：/* 参考文献 */

分类:综述文摘

2017-12-04T02:12:55Z

Szs：

[[Category:科学学]]

综述文摘系统项目的目标是建立一个综述文章的收集整理评价推荐体系，也就是一个依赖于大量草根的综述文献的点评网。

综述文献在科学研究中具有非常特殊的地位。很多时候，一个初入门的研究者对领域的了解是从一篇这个领域的好的综述文章开始的。它可以提供一个这个领域的大概的发展情况，一个各个不同层次的文献的列表，并且对大量的原始文献有研究思路上的整理和研究工作的评价。一般来说，这个评价还经常是从整个领域整个学科的将来发展的角度来做的。因此，一个好的导师的作用，很多时候，就是给学生画一个这个领域的大概图像，读过和整理过这个领域的一大推文献，对于下一步哪些研究有价值并且可以做有一定的认识。至于在具体的计算分析写作等方面知道学生，其实是一个导师的次要功能。从这个角度来说，一个好的综述文献点评网，就是对导师的一个非常好的补充，有的时候甚至是替代。

按照一定的分类体系整理和收集综述文献不是太困难。评价需要依赖于大量的草根科学家。推荐方面，也需要开发或者运用一些算法。

分类:广义投入产出分析

2017-11-08T02:57:00Z

Szs：

[[Category:研究项目]]
[[Category:研究思想和方法]]

在经济学Leontief投入产出分析和Google PageRank算法的基础上，我们提出来了[http://www.systemsci.org/jinshanw/2016/05/05/%E5%B9%BF%E4%B9%89%E6%8A%95%E5%85%A5%E4%BA%A7%E5%87%BA%E5%88%86%E6%9E%90%E6%96%B9%E6%B3%95/ 广义投入产出分析]（暂时见这个在[http://www.systemsci.org/jinshanw “吴金闪的工作和思考”]博客站点上的帖子）。

==Leontief投入产出分析==
原始的投入产出分析<ref name="Miller"/> 是用于分析经济产品或者经济部门或者说产业——由于数据获取的限制，部门或者说产业更经常被研究的主体，尽管思想上这个方法也可以用于产品的研究——之间的相互影响的。

===部门（产业）层次的投入产出表===
把整个经济分成<math>N</math>个部门，假设每一个部门仅仅生产一种产品，每一个部门可以从任何一个部门获得生产这个产品的原材料和劳动力。进出口实际上也可以看做是一个单独的部门。在这里，我们暂时忽略进出口。这样整个经济在一段时期内的经济生产关系就可以用以下的矩阵来代表，
<math>x=\left(x^{i}_{j}\right)_{N\times N}.</math>
其中<math>x^{i}_{j}</math>代表<math>i</math>部门对<math>j</math>部门的投入的产品的数量（实物投入产出表）或者价值（货币投入产出表）。

===产品生产（化学反应）层次的投入产出表===
假设有了产品层次的这张表，如果确实一个生产工艺仅仅产出一个产品，那么，所有的经济生产就包含在这个矩阵内了。当然，随着科学技术的进步，新的产品和新的生产工艺还会出现，因此，这张表仅仅是某个比较短的时期内的一张表，甚至原则上是某个时间点的一张表。当然，实际上，每一个生产工艺有可能有多个产出，因此，整体来说，产品生产就像化学反应，只不过可能场地、劳动力、生产设备、能源等等需要和原材料以及产出物一起放到这个投入产出表里面。对于这样的整个经济的生产工艺，实际上，需要另两个张量来描述，例如<math>L_{\alpha}^{j}</math>表示工艺<math>\alpha</math>需要产品<math>j</math>的数量或者价值，<math>R_{\alpha,j}</math>表示工艺<math>\alpha</math>产出的产品<math>j</math>的数量或者价值。也可以把两个张量合起来，用<math>S_{\alpha}^{j}</math>表示，用在数字前面增加一个“<math>+</math>”（正号）或者“<math>-</math>”（负号）来标记生产和需求。

这三个矩阵也可以看作是产品－工艺（或者反应物－反应方程）二分网的加权邻接矩阵。

===典型研究问题===
那么，有了这个完整的生产关系的描述之后，投入产出分析主要解决什么样的问题呢？第一个，当工艺水平不变的时候，如果人们对于某个产品的需求增加了，则，经济生产系统讲产生怎样的响应？

把第<math>N</math>个部门看作是最终消费者部门，把这个问题用数学的语言来说，就是，<math>y^{i}=x^{i}_{N}</math>有可能有一个可以预期的变化<math>\Delta y^{i}</math>（或者更一般的任意一个部门的变化，记为<math>\Delta　Y</math>），例如下一年人们需要更多的汽车，则矩阵的其他元素<math>x^{j}_{k}</math>将如何变化。记这个变化为<math>\Delta X</math>。我们希望得到一个<math>\Delta X</math> 和　<math>\Delta Y</math>之间的关系。

先从理念上来解决这个问题，再从数学上来解决。

为了有更多的汽车来满足最终消费者需求，经济生产体系首先要满足制造出来这么多额外的汽车的要求；接着为了生产这些汽车，经济生产体系需要生产这些汽车的原材料；接着，需要生产出来原材料的原材料；等等等等。在数学上，这就是

<math display="block">\Delta X = \Delta Y + B \Delta Y + BB \Delta Y + \cdots, </math>
其中<math>B</math>就是某个代表从产品计算出来原材料的矩阵。下面，我们来看这个<math>B</math>实际上可以如何定义。

定义<math>B^{i}_{j}=\frac{x^{i}_{j}}{X^{j}}</math>，其中<math>X^{j}=\sum_{i} x^{j}_{i}</math>表示部门<math>j</math>的总产出。因此，<math>B^{i}_{j}</math>表示没＝每生产一个产品<math>j</math>所需要的<math>i</math>产品的数量或者价值。于是，这个<math>B^{i}_{j}</math>看起来像一个生产工艺配方。这样的配方可以看做在一定时期内是不变的，或者其变化远远比产品的生产要慢。自然，这就是我们想要找到的矩阵<math>B</math>。

从数学上，我们也可以推导出来，<math>X^{i}=\sum_{j} x^{i}_{j}=\sum_{i}\frac{x^{i}_{j}}{X^{j}}X^{j} = \sum_{j} B^{i}_{j} X^{j}</math>，写成矩阵的形式也就是<math>X=BX</math>。现在我们把<math>X^{i}</math>分成<math>X^{1,2,\cdots,N-1}</math>和<math>X^{N}</math>并且扔掉后者，我们得到<math>X^{i\neq N} = \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + x^{i}_{N}= \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + Y^{i}</math>，写成矩阵的形式就是<math>X=B^{\left(-N\right)}X + Y</math>，也就是<math>X=\left(1-B^{\left(-N\right)}\right)^{-1}Y</math>。

定义<math>L_{B}=\left(1-B^{\left(-N\right)}\right)^{-1}</math>，称为Leontief矩阵，我们就得到了<math>X=L_{B}Y</math>。由于这是一个线性关系，于是<math>\Delta X=L_{B} \Delta Y</math>，这就是回答了我们一开始的问题：如果有一个最终需求上的可预期的波动，那么经济生产系统将如何响应。

有了这个典型问题的答案，我们就可以讨论各种进一步的问题，尤其是弹性和乘数。在那之前，我们来讨论几个理解上要注意的细节。

====注意<math>X^{i}=\sum_{j} x^{i}_{j}</math>的定义====
它计算的是<math>i</math>部门的总产出，是把<math>i</math>到所有的<math>N</math>各部门的投入都计算进去的，而不是仅仅计算对前面的<math>N-1</math>个部门的投入，也就是，<math>X^{i}=\sum_{j=1}^{N} x^{i}_{j}</math>。

====为什么把最终消费者部门分出来====

在展开进一步讨论之前，我们稍微来说一下，为什么需要把最终消费者部门<math>N</math>独立出来。首先，在经济生产中，最终消费者部门的再生产（也就是劳动力本身的再生产）的时间尺度比较长，确实可以和其他生产分开。其次，劳动力的价值本身是一个难以度量的量，不是可以简单看做工人工资的。把部门<math>N</math>独立出来之后，<math>x^{N}_{i}</math>也不再需要直接出现在<math>B</math>矩阵里面了，因此<math>B</math>的每一个元素都能够很好地定义了。顺便，这个<math>x^{N}_{i}</math>是劳动力对于产业<math>i</math>的投入，被称为value-added。但是，其实，在一个总量守恒的系统里面，当我们已知所有的其他元素<math>x^{i}_{j}</math>的时候，<math>x^{N}_{i}</math>是可以算出来的。因此，第二个理由实际上不算理由。再次，也就是最重要的理由，经济学家相信，能够主动产生一个波动的，只能来自于最终消费者。其他的生产部门一旦技术矩阵<math>B</math>定了以后，就不会主动去产生波动了，而是被动地由于需求导致的波动。

可是，再仔细想一下，实际上，某些资源，例如石油有可能会产生独立的波动，并且这个波动还可能由于某些原因，仅仅直接影响对某几个部门的投入，也就是需要考虑<math>\Delta x^{l}_{m}</math>对产业的效果。于是，我们就需要对Leontief的投入产出分析做一些推广。关于这个推广，我们在目标外界投入产出分析再来讨论。

====乘数和弹性====

如果我们要考虑<math>y^{i}</math>上的小小的扰动（例如一个单位）对经济体系的响应的效果，则我们可以先计算出来这个扰动导致的<math>\Delta X = L \Delta Y</math>，接着把这些被扰动以后的<math>\Delta X</math>乘以某一个权重加起来。例如，权重都是1的时候，我们得到，<math>m_{i} = \sum_{j} \Delta X^{j} = \sum_{j} L^{j}_{i}</math>。这就叫做乘数效益：一个单位最终消费对于i产品的增加，将如何改变整个经济体系。

====产业重要性====
投入产出分析还可以用来衡量领域的重要性。一定程度上，前面的乘数和弹性就是一种重要性衡量。另外一种产业重要性的衡量方式是Hypothetical Extraction Method（HEM，假想地去掉某个领域的方法）。

====同时做实物和货币投入产出分析====
如果我们能够同时拿到实物形式和货币形式的两张投入产出表，我们能够做什么？这个问题我还没有想清楚，是不是和PageRank算法有关系，是不是能够一定程度上给一个产品内在价格以及价格动力学的描述？关于这个问题，Leontief和<ref name="Miller"/> 有深刻的讨论，还需要再去看一遍。

==目标外界投入产出分析==

==封闭系统的投入产出分析==

==把PageRank算法看做广义投入产出分析==
定义<math>MF^{i}_{j}=\frac{x^{i}_{j}}{X^{i}}</math>，表示<math>i</math>的总产出当中，百分之多少进入了<math>j</math>部门。类似也可以定义<math>MB^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>，表示<math>j</math>收到的所有投入中，百分之多少来自于<math>i</math>部门。这两个分别称为向前和向后概率转移矩阵。

有了这个概率转移矩阵，我们可以来看这个转移矩阵的稳定态，也就是其本征矢量。为了保证本征矢量的唯一性，有的时候需要加上一个很小的微扰项。将来我们还会发现，这个微扰项还可以当做外界来解释。

==向前和向后分析==
定义<math>F^{i}_{j}=\frac{x^{i}_{j}}{X_{i}}</math>，表示<math>i</math>平均每收到一个的其他部门的投入的时候，将会对<math>j</math>部门做出来多少投入。在这个意义上，我们把这个投入产出关系矩阵叫做向前分析（Forward）——产出关系。之前那个没生产一个<math>j</math>产品需要多少个<math>i</math>看做向后（Backward）——需求关系。

注意，在实物投入产出分析中，<math>X_{i} = \sum_{j} x^{j}_{i}</math>是不能加起来的——来自于不同产业的产品数量不能简单相加。因此，这个分析只能够在货币或者能量等意义下来做。

有了这个定义之后，同样，可以推导出来，<math>X=\left(1-F^{\left(-N\right)}\right)^{-1}Y</math>，其中<math>Y_{i}=x^{N}_{i}</math>，也就是最终消费者部门对<math>i</math>部门的劳动力投入或者说价值附加（value-added）投入。为了表示两个矩阵的区别，有的时候，我们采用Einstein记号写作，
* <math>X^{a}=\left(1-B^{\left(-N\right)}\right)^{-1}Y^{a}</math>，向后投入产出分析
* <math>X_{a}=\left(1-F^{\left(-N\right)}\right)^{-1}Y_{a}</math>，向前投入产出分析

在向前分析中，我们回答的典型问题有：价值附加的乘数效益

==产品－技术二分网或者双层网上的投入产出分析==

==相关研究工作==
CO2排放<ref name="Davis"/><ref name="Feng"/>，世界贸易<ref name="Wenz"/>

==参考文献==
<references>
<ref name="Miller"> Miller, R., & Blair, P. (2009). Input–output analysis: Foundations and extensions (2nd ed.). Cambridge, UK: Cambridge University Press.</ref>
<ref name="Davis"> Davis S. & Caldeira K. (2010). Consumption-based accounting of CO2 emmissions. PNAS 107(12):5687-5692.</ref>
<ref name="Feng"> Feng K. et al. (2013). Outsourcing CO2 within China. PNAS 110(28):11654-11659.</ref>
<ref name="Wenz"> Leonie Wenz and Anders Levermann.(2016). Enhanced economic connectivity to foster heat stress-related losses. Science Advances Vol. 2, no. 6, e1501026.</ref>

</references>

分类:广义投入产出分析

2017-11-08T02:55:22Z

Szs：/* 参考文献 */

[[Category:研究项目]]
[[Category:研究思想和方法]]

在经济学Leontief投入产出分析和Google PageRank算法的基础上，我们提出来了[http://www.systemsci.org/jinshanw/2016/05/05/%E5%B9%BF%E4%B9%89%E6%8A%95%E5%85%A5%E4%BA%A7%E5%87%BA%E5%88%86%E6%9E%90%E6%96%B9%E6%B3%95/ 广义投入产出分析]（暂时见这个在[http://www.systemsci.org/jinshanw “吴金闪的工作和思考”]博客站点上的帖子）。

==Leontief投入产出分析==
原始的投入产出分析<ref name="Miller"/> 是用于分析经济产品或者经济部门或者说产业——由于数据获取的限制，部门或者说产业更经常被研究的主体，尽管思想上这个方法也可以用于产品的研究——之间的相互影响的。

===部门（产业）层次的投入产出表===
把整个经济分成<math>N</math>个部门，假设每一个部门仅仅生产一种产品，每一个部门可以从任何一个部门获得生产这个产品的原材料和劳动力。进出口实际上也可以看做是一个单独的部门。在这里，我们暂时忽略进出口。这样整个经济在一段时期内的经济生产关系就可以用以下的矩阵来代表，
<math>x=\left(x^{i}_{j}\right)_{N\times N}.</math>
其中<math>x^{i}_{j}</math>代表<math>i</math>部门对<math>j</math>部门的投入的产品的数量（实物投入产出表）或者价值（货币投入产出表）。

===产品生产（化学反应）层次的投入产出表===
假设有了产品层次的这张表，如果确实一个生产工艺仅仅产出一个产品，那么，所有的经济生产就包含在这个矩阵内了。当然，随着科学技术的进步，新的产品和新的生产工艺还会出现，因此，这张表仅仅是某个比较短的时期内的一张表，甚至原则上是某个时间点的一张表。当然，实际上，每一个生产工艺有可能有多个产出，因此，整体来说，产品生产就像化学反应，只不过可能场地、劳动力、生产设备、能源等等需要和原材料以及产出物一起放到这个投入产出表里面。对于这样的整个经济的生产工艺，实际上，需要另两个张量来描述，例如<math>L_{\alpha}^{j}</math>表示工艺<math>\alpha</math>需要产品<math>j</math>的数量或者价值，<math>R_{\alpha,j}</math>表示工艺<math>\alpha</math>产出的产品<math>j</math>的数量或者价值。也可以把两个张量合起来，用<math>S_{\alpha}^{j}</math>表示，用在数字前面增加一个“<math>+</math>”（正号）或者“<math>-</math>”（负号）来标记生产和需求。

这三个矩阵也可以看作是产品－工艺（或者反应物－反应方程）二分网的加权邻接矩阵。

===典型研究问题===
那么，有了这个完整的生产关系的描述之后，投入产出分析主要解决什么样的问题呢？第一个，当工艺水平不变的时候，如果人们对于某个产品的需求增加了，则，经济生产系统讲产生怎样的响应？

把第<math>N</math>个部门看作是最终消费者部门，把这个问题用数学的语言来说，就是，<math>y^{i}=x^{i}_{N}</math>有可能有一个可以预期的变化<math>\Delta y^{i}</math>（或者更一般的任意一个部门的变化，记为<math>\Delta　Y</math>），例如下一年人们需要更多的汽车，则矩阵的其他元素<math>x^{j}_{k}</math>将如何变化。记这个变化为<math>\Delta X</math>。我们希望得到一个<math>\Delta X</math> 和　<math>\Delta Y</math>之间的关系。

先从理念上来解决这个问题，再从数学上来解决。

为了有更多的汽车来满足最终消费者需求，经济生产体系首先要满足制造出来这么多额外的汽车的要求；接着为了生产这些汽车，经济生产体系需要生产这些汽车的原材料；接着，需要生产出来原材料的原材料；等等等等。在数学上，这就是

<math display="block">\Delta X = \Delta Y + B \Delta Y + BB \Delta Y + \cdots, </math>
其中<math>B</math>就是某个代表从产品计算出来原材料的矩阵。下面，我们来看这个<math>B</math>实际上可以如何定义。

定义<math>B^{i}_{j}=\frac{x^{i}_{j}}{X^{j}}</math>，其中<math>X^{j}=\sum_{i} x^{j}_{i}</math>表示部门<math>j</math>的总产出。因此，<math>B^{i}_{j}</math>表示没＝每生产一个产品<math>j</math>所需要的<math>i</math>产品的数量或者价值。于是，这个<math>B^{i}_{j}</math>看起来像一个生产工艺配方。这样的配方可以看做在一定时期内是不变的，或者其变化远远比产品的生产要慢。自然，这就是我们想要找到的矩阵<math>B</math>。

从数学上，我们也可以推导出来，<math>X^{i}=\sum_{j} x^{i}_{j}=\sum_{i}\frac{x^{i}_{j}}{X^{j}}X^{j} = \sum_{j} B^{i}_{j} X^{j}</math>，写成矩阵的形式也就是<math>X=BX</math>。现在我们把<math>X^{i}</math>分成<math>X^{1,2,\cdots,N-1}</math>和<math>X^{N}</math>并且扔掉后者，我们得到<math>X^{i\neq N} = \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + x^{i}_{N}= \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + Y^{i}</math>，写成矩阵的形式就是<math>X=B^{\left(-N\right)}X + Y</math>，也就是<math>X=\left(1-B^{\left(-N\right)}\right)^{-1}Y</math>。

定义<math>L_{B}=\left(1-B^{\left(-N\right)}\right)^{-1}</math>，称为Leontief矩阵，我们就得到了<math>X=L_{B}Y</math>。由于这是一个线性关系，于是<math>\Delta X=L_{B} \Delta Y</math>，这就是回答了我们一开始的问题：如果有一个最终需求上的可预期的波动，那么经济生产系统将如何响应。

有了这个典型问题的答案，我们就可以讨论各种进一步的问题，尤其是弹性和乘数。在那之前，我们来讨论几个理解上要注意的细节。

====注意<math>X^{i}=\sum_{j} x^{i}_{j}</math>的定义====
它计算的是<math>i</math>部门的总产出，是把<math>i</math>到所有的<math>N</math>各部门的投入都计算进去的，而不是仅仅计算对前面的<math>N-1</math>个部门的投入，也就是，<math>X^{i}=\sum_{j=1}^{N} x^{i}_{j}</math>。

====为什么把最终消费者部门分出来====

在展开进一步讨论之前，我们稍微来说一下，为什么需要把最终消费者部门<math>N</math>独立出来。首先，在经济生产中，最终消费者部门的再生产（也就是劳动力本身的再生产）的时间尺度比较长，确实可以和其他生产分开。其次，劳动力的价值本身是一个难以度量的量，不是可以简单看做工人工资的。把部门<math>N</math>独立出来之后，<math>x^{N}_{i}</math>也不再需要直接出现在<math>B</math>矩阵里面了，因此<math>B</math>的每一个元素都能够很好地定义了。顺便，这个<math>x^{N}_{i}</math>是劳动力对于产业<math>i</math>的投入，被称为value-added。但是，其实，在一个总量守恒的系统里面，当我们已知所有的其他元素<math>x^{i}_{j}</math>的时候，<math>x^{N}_{i}</math>是可以算出来的。因此，第二个理由实际上不算理由。再次，也就是最重要的理由，经济学家相信，能够主动产生一个波动的，只能来自于最终消费者。其他的生产部门一旦技术矩阵<math>B</math>定了以后，就不会主动去产生波动了，而是被动地由于需求导致的波动。

可是，再仔细想一下，实际上，某些资源，例如石油有可能会产生独立的波动，并且这个波动还可能由于某些原因，仅仅直接影响对某几个部门的投入，也就是需要考虑<math>\Delta x^{l}_{m}</math>对产业的效果。于是，我们就需要对Leontief的投入产出分析做一些推广。关于这个推广，我们在目标外界投入产出分析再来讨论。

====乘数和弹性====

如果我们要考虑<math>y^{i}</math>上的小小的扰动（例如一个单位）对经济体系的响应的效果，则我们可以先计算出来这个扰动导致的<math>\Delta X = L \Delta Y</math>，接着把这些被扰动以后的<math>\Delta X</math>乘以某一个权重加起来。例如，权重都是1的时候，我们得到，<math>m_{i} = \sum_{j} \Delta X^{j} = \sum_{j} L^{j}_{i}</math>。这就叫做乘数效益：一个单位最终消费对于i产品的增加，将如何改变整个经济体系。

====产业重要性====
投入产出分析还可以用来衡量领域的重要性。一定程度上，前面的乘数和弹性就是一种重要性衡量。另外一种产业重要性的衡量方式是Hypothetical Extraction Method（HEM，假想地去掉某个领域的方法）。

====同时做实物和货币投入产出分析====
如果我们能够同时拿到实物形式和货币形式的两张投入产出表，我们能够做什么？这个问题我还没有想清楚，是不是和PageRank算法有关系，是不是能够一定程度上给一个产品内在价格以及价格动力学的描述？关于这个问题，Leontief和<ref name="Miller"/> 有深刻的讨论，还需要再去看一遍。

==目标外界投入产出分析==

==封闭系统的投入产出分析==

==把PageRank算法看做广义投入产出分析==
定义<math>MF^{i}_{j}=\frac{x^{i}_{j}}{X^{i}}</math>，表示<math>i</math>的总产出当中，百分之多少进入了<math>j</math>部门。类似也可以定义<math>MB^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>，表示<math>j</math>收到的所有投入中，百分之多少来自于<math>i</math>部门。这两个分别称为向前和向后概率转移矩阵。

有了这个概率转移矩阵，我们可以来看这个转移矩阵的稳定态，也就是其本征矢量。为了保证本征矢量的唯一性，有的时候需要加上一个很小的微扰项。将来我们还会发现，这个微扰项还可以当做外界来解释。

==向前和向后分析==
定义<math>F^{i}_{j}=\frac{x^{i}_{j}}{X_{i}}</math>，表示<math>i</math>平均每收到一个的其他部门的投入的时候，将会对<math>j</math>部门做出来多少投入。在这个意义上，我们把这个投入产出关系矩阵叫做向前分析（Forward）——产出关系。之前那个没生产一个<math>j</math>产品需要多少个<math>i</math>看做向后（Backward）——需求关系。

注意，在实物投入产出分析中，<math>X_{i} = \sum_{j} x^{j}_{i}</math>是不能加起来的——来自于不同产业的产品数量不能简单相加。因此，这个分析只能够在货币或者能量等意义下来做。

有了这个定义之后，同样，可以推导出来，<math>X=\left(1-F^{\left(-N\right)}\right)^{-1}Y</math>，其中<math>Y_{i}=x^{N}_{i}</math>，也就是最终消费者部门对<math>i</math>部门的劳动力投入或者说价值附加（value-added）投入。为了表示两个矩阵的区别，有的时候，我们采用Einstein记号写作，
* <math>X^{a}=\left(1-B^{\left(-N\right)}\right)^{-1}Y^{a}</math>，向后投入产出分析
* <math>X_{a}=\left(1-F^{\left(-N\right)}\right)^{-1}Y_{a}</math>，向前投入产出分析

在向前分析中，我们回答的典型问题有：价值附加的乘数效益

==产品－技术二分网或者双层网上的投入产出分析==

==参考文献==
<references>
<ref name="Miller"> Miller, R., & Blair, P. (2009). Input–output analysis: Foundations and extensions (2nd ed.). Cambridge, UK: Cambridge University Press.</ref>
<ref name="Davis"> Davis S. & Caldeira K. (2010). Consumption-based accounting of CO2 emmissions. PNAS 107(12):5687-5692.</ref>
<ref name="Feng"> Feng K. et al. (2013). Outsourcing CO2 within China. PNAS 110(28):11654-11659.</ref>
<ref name="Wenz"> Leonie Wenz and Anders Levermann.(2016). Enhanced economic connectivity to foster heat stress-related losses. Science Advances Vol. 2, no. 6, e1501026.</ref>

</references>

分类:广义投入产出分析

2017-11-08T02:54:36Z

Szs：

[[Category:研究项目]]
[[Category:研究思想和方法]]

在经济学Leontief投入产出分析和Google PageRank算法的基础上，我们提出来了[http://www.systemsci.org/jinshanw/2016/05/05/%E5%B9%BF%E4%B9%89%E6%8A%95%E5%85%A5%E4%BA%A7%E5%87%BA%E5%88%86%E6%9E%90%E6%96%B9%E6%B3%95/ 广义投入产出分析]（暂时见这个在[http://www.systemsci.org/jinshanw “吴金闪的工作和思考”]博客站点上的帖子）。

==Leontief投入产出分析==
原始的投入产出分析<ref name="Miller"/> 是用于分析经济产品或者经济部门或者说产业——由于数据获取的限制，部门或者说产业更经常被研究的主体，尽管思想上这个方法也可以用于产品的研究——之间的相互影响的。

===部门（产业）层次的投入产出表===
把整个经济分成<math>N</math>个部门，假设每一个部门仅仅生产一种产品，每一个部门可以从任何一个部门获得生产这个产品的原材料和劳动力。进出口实际上也可以看做是一个单独的部门。在这里，我们暂时忽略进出口。这样整个经济在一段时期内的经济生产关系就可以用以下的矩阵来代表，
<math>x=\left(x^{i}_{j}\right)_{N\times N}.</math>
其中<math>x^{i}_{j}</math>代表<math>i</math>部门对<math>j</math>部门的投入的产品的数量（实物投入产出表）或者价值（货币投入产出表）。

===产品生产（化学反应）层次的投入产出表===
假设有了产品层次的这张表，如果确实一个生产工艺仅仅产出一个产品，那么，所有的经济生产就包含在这个矩阵内了。当然，随着科学技术的进步，新的产品和新的生产工艺还会出现，因此，这张表仅仅是某个比较短的时期内的一张表，甚至原则上是某个时间点的一张表。当然，实际上，每一个生产工艺有可能有多个产出，因此，整体来说，产品生产就像化学反应，只不过可能场地、劳动力、生产设备、能源等等需要和原材料以及产出物一起放到这个投入产出表里面。对于这样的整个经济的生产工艺，实际上，需要另两个张量来描述，例如<math>L_{\alpha}^{j}</math>表示工艺<math>\alpha</math>需要产品<math>j</math>的数量或者价值，<math>R_{\alpha,j}</math>表示工艺<math>\alpha</math>产出的产品<math>j</math>的数量或者价值。也可以把两个张量合起来，用<math>S_{\alpha}^{j}</math>表示，用在数字前面增加一个“<math>+</math>”（正号）或者“<math>-</math>”（负号）来标记生产和需求。

这三个矩阵也可以看作是产品－工艺（或者反应物－反应方程）二分网的加权邻接矩阵。

===典型研究问题===
那么，有了这个完整的生产关系的描述之后，投入产出分析主要解决什么样的问题呢？第一个，当工艺水平不变的时候，如果人们对于某个产品的需求增加了，则，经济生产系统讲产生怎样的响应？

把第<math>N</math>个部门看作是最终消费者部门，把这个问题用数学的语言来说，就是，<math>y^{i}=x^{i}_{N}</math>有可能有一个可以预期的变化<math>\Delta y^{i}</math>（或者更一般的任意一个部门的变化，记为<math>\Delta　Y</math>），例如下一年人们需要更多的汽车，则矩阵的其他元素<math>x^{j}_{k}</math>将如何变化。记这个变化为<math>\Delta X</math>。我们希望得到一个<math>\Delta X</math> 和　<math>\Delta Y</math>之间的关系。

先从理念上来解决这个问题，再从数学上来解决。

为了有更多的汽车来满足最终消费者需求，经济生产体系首先要满足制造出来这么多额外的汽车的要求；接着为了生产这些汽车，经济生产体系需要生产这些汽车的原材料；接着，需要生产出来原材料的原材料；等等等等。在数学上，这就是

<math display="block">\Delta X = \Delta Y + B \Delta Y + BB \Delta Y + \cdots, </math>
其中<math>B</math>就是某个代表从产品计算出来原材料的矩阵。下面，我们来看这个<math>B</math>实际上可以如何定义。

定义<math>B^{i}_{j}=\frac{x^{i}_{j}}{X^{j}}</math>，其中<math>X^{j}=\sum_{i} x^{j}_{i}</math>表示部门<math>j</math>的总产出。因此，<math>B^{i}_{j}</math>表示没＝每生产一个产品<math>j</math>所需要的<math>i</math>产品的数量或者价值。于是，这个<math>B^{i}_{j}</math>看起来像一个生产工艺配方。这样的配方可以看做在一定时期内是不变的，或者其变化远远比产品的生产要慢。自然，这就是我们想要找到的矩阵<math>B</math>。

从数学上，我们也可以推导出来，<math>X^{i}=\sum_{j} x^{i}_{j}=\sum_{i}\frac{x^{i}_{j}}{X^{j}}X^{j} = \sum_{j} B^{i}_{j} X^{j}</math>，写成矩阵的形式也就是<math>X=BX</math>。现在我们把<math>X^{i}</math>分成<math>X^{1,2,\cdots,N-1}</math>和<math>X^{N}</math>并且扔掉后者，我们得到<math>X^{i\neq N} = \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + x^{i}_{N}= \sum_{j=1}^{N=1}B^{\left(-N\right)}^{i}_{j}X^{j} + Y^{i}</math>，写成矩阵的形式就是<math>X=B^{\left(-N\right)}X + Y</math>，也就是<math>X=\left(1-B^{\left(-N\right)}\right)^{-1}Y</math>。

定义<math>L_{B}=\left(1-B^{\left(-N\right)}\right)^{-1}</math>，称为Leontief矩阵，我们就得到了<math>X=L_{B}Y</math>。由于这是一个线性关系，于是<math>\Delta X=L_{B} \Delta Y</math>，这就是回答了我们一开始的问题：如果有一个最终需求上的可预期的波动，那么经济生产系统将如何响应。

有了这个典型问题的答案，我们就可以讨论各种进一步的问题，尤其是弹性和乘数。在那之前，我们来讨论几个理解上要注意的细节。

====注意<math>X^{i}=\sum_{j} x^{i}_{j}</math>的定义====
它计算的是<math>i</math>部门的总产出，是把<math>i</math>到所有的<math>N</math>各部门的投入都计算进去的，而不是仅仅计算对前面的<math>N-1</math>个部门的投入，也就是，<math>X^{i}=\sum_{j=1}^{N} x^{i}_{j}</math>。

====为什么把最终消费者部门分出来====

在展开进一步讨论之前，我们稍微来说一下，为什么需要把最终消费者部门<math>N</math>独立出来。首先，在经济生产中，最终消费者部门的再生产（也就是劳动力本身的再生产）的时间尺度比较长，确实可以和其他生产分开。其次，劳动力的价值本身是一个难以度量的量，不是可以简单看做工人工资的。把部门<math>N</math>独立出来之后，<math>x^{N}_{i}</math>也不再需要直接出现在<math>B</math>矩阵里面了，因此<math>B</math>的每一个元素都能够很好地定义了。顺便，这个<math>x^{N}_{i}</math>是劳动力对于产业<math>i</math>的投入，被称为value-added。但是，其实，在一个总量守恒的系统里面，当我们已知所有的其他元素<math>x^{i}_{j}</math>的时候，<math>x^{N}_{i}</math>是可以算出来的。因此，第二个理由实际上不算理由。再次，也就是最重要的理由，经济学家相信，能够主动产生一个波动的，只能来自于最终消费者。其他的生产部门一旦技术矩阵<math>B</math>定了以后，就不会主动去产生波动了，而是被动地由于需求导致的波动。

可是，再仔细想一下，实际上，某些资源，例如石油有可能会产生独立的波动，并且这个波动还可能由于某些原因，仅仅直接影响对某几个部门的投入，也就是需要考虑<math>\Delta x^{l}_{m}</math>对产业的效果。于是，我们就需要对Leontief的投入产出分析做一些推广。关于这个推广，我们在目标外界投入产出分析再来讨论。

====乘数和弹性====

如果我们要考虑<math>y^{i}</math>上的小小的扰动（例如一个单位）对经济体系的响应的效果，则我们可以先计算出来这个扰动导致的<math>\Delta X = L \Delta Y</math>，接着把这些被扰动以后的<math>\Delta X</math>乘以某一个权重加起来。例如，权重都是1的时候，我们得到，<math>m_{i} = \sum_{j} \Delta X^{j} = \sum_{j} L^{j}_{i}</math>。这就叫做乘数效益：一个单位最终消费对于i产品的增加，将如何改变整个经济体系。

====产业重要性====
投入产出分析还可以用来衡量领域的重要性。一定程度上，前面的乘数和弹性就是一种重要性衡量。另外一种产业重要性的衡量方式是Hypothetical Extraction Method（HEM，假想地去掉某个领域的方法）。

====同时做实物和货币投入产出分析====
如果我们能够同时拿到实物形式和货币形式的两张投入产出表，我们能够做什么？这个问题我还没有想清楚，是不是和PageRank算法有关系，是不是能够一定程度上给一个产品内在价格以及价格动力学的描述？关于这个问题，Leontief和<ref name="Miller"/> 有深刻的讨论，还需要再去看一遍。

==目标外界投入产出分析==

==封闭系统的投入产出分析==

==把PageRank算法看做广义投入产出分析==
定义<math>MF^{i}_{j}=\frac{x^{i}_{j}}{X^{i}}</math>，表示<math>i</math>的总产出当中，百分之多少进入了<math>j</math>部门。类似也可以定义<math>MB^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>，表示<math>j</math>收到的所有投入中，百分之多少来自于<math>i</math>部门。这两个分别称为向前和向后概率转移矩阵。

有了这个概率转移矩阵，我们可以来看这个转移矩阵的稳定态，也就是其本征矢量。为了保证本征矢量的唯一性，有的时候需要加上一个很小的微扰项。将来我们还会发现，这个微扰项还可以当做外界来解释。

==向前和向后分析==
定义<math>F^{i}_{j}=\frac{x^{i}_{j}}{X_{i}}</math>，表示<math>i</math>平均每收到一个的其他部门的投入的时候，将会对<math>j</math>部门做出来多少投入。在这个意义上，我们把这个投入产出关系矩阵叫做向前分析（Forward）——产出关系。之前那个没生产一个<math>j</math>产品需要多少个<math>i</math>看做向后（Backward）——需求关系。

注意，在实物投入产出分析中，<math>X_{i} = \sum_{j} x^{j}_{i}</math>是不能加起来的——来自于不同产业的产品数量不能简单相加。因此，这个分析只能够在货币或者能量等意义下来做。

有了这个定义之后，同样，可以推导出来，<math>X=\left(1-F^{\left(-N\right)}\right)^{-1}Y</math>，其中<math>Y_{i}=x^{N}_{i}</math>，也就是最终消费者部门对<math>i</math>部门的劳动力投入或者说价值附加（value-added）投入。为了表示两个矩阵的区别，有的时候，我们采用Einstein记号写作，
* <math>X^{a}=\left(1-B^{\left(-N\right)}\right)^{-1}Y^{a}</math>，向后投入产出分析
* <math>X_{a}=\left(1-F^{\left(-N\right)}\right)^{-1}Y_{a}</math>，向前投入产出分析

在向前分析中，我们回答的典型问题有：价值附加的乘数效益

==产品－技术二分网或者双层网上的投入产出分析==

==参考文献==
<references>
<ref name="Miller"> Miller, R., & Blair, P. (2009). Input–output analysis: Foundations and extensions (2nd ed.). Cambridge, UK: Cambridge University Press.</ref>
<ref name="Davis"> Davis S. & Caldeira K. (2010). Consumption-based accounting of CO2 emmissions. PNAS 107(12):5687-5692.</ref>
<ref name="Feng"> Feng K. et al. (2013). Outsourcing CO2 within China. PNAS 110(28):11654-11659.</ref>
<ref> Leonie Wenz and Anders Levermann.(2016). Enhanced economic connectivity to foster heat stress-related losses. Science Advances Vol. 2, no. 6, e1501026.</ref>

</references>

分类:APS题录

2017-07-27T01:48:13Z

Szs：

[[Category:数据]]

APS题录是指[[http://www.aps.org/ 美国物理学会]]期刊所发表的文章的标题、作者、作者地址、摘要、期刊、卷期页、[[https://journals.aps.org/PACS PACS]]分类号等信息。

最近，美国物理学会开始建设一个叫做[[https://physh.aps.org/ PhySH - Physics Subject Headings]]（物理词汇体系）的东西，并且用这个体系来描述文章。

已经申请得到的最新数据为aps2015，共577870条，数据为json文件，包含以下记录：
{| class="wikitable"
! 关键词
! 涵盖比例
! 描述
|-
| id || 1.0 || 文章的DOI号，例如‘10.1103/PhysRevLett.115.267207’
|-
| publisher || 1.0 || 出版社 "APS"
|-
| identifiers || 1.0 || 文章识别码 {"doi":"10.1103/PhysRevLett.115.267207"}
|-
| title || 1.0 || 文章标题
|-
| journal || 1.0 || 所发表的杂志，例如‘{"id":"PRL","abbreviatedName":"Phys. Rev. Lett.","name":"Physical Review Letters"}’
|-
| articleType || 0.997329849274 || 文章类型 "article"
|-
| rights || 1.0 || 版权信息
|-
| volume || 1.0 || 卷号
|-
| issue || 1.0 || 期号
|-
| authors || 1.0 || 包含作者和单位信息 [{"type":"Person","name":"N. Abe","firstname":"N.","surname":"Abe","affiliationIds":["a1"]}]
|-
| date || 1.0 || 发表日期 "2015-12-29"
|-
| pageStart || 1.0 || 起始页
|-
| pageEnd || 0.5235191306 || 终止页
|-
| numPages || 0.981205115337 || 页数
|-
| affiliations || 0.973838406562 || 单位信息 [{"id":"a3","name":"Institute for Solid State Physics, University of Tokyo, Kashiwa 277-8581, Japan"}]
|-
| tocSection || 0.741185733816 ||
|-
| seqnum || 0.5235191306
|-
| hasArticleId || 0.4764808694
|-
| classificationSchemes || 0.00161108899926
|}

分类:San Francisco DORA

2017-07-26T05:49:18Z

Szs：创建空白页面

分类:引用骨架挖掘

2017-07-07T04:45:13Z

Szs：

[[Category:科学学]]

引用骨架挖掘就是指从所有的引用关系中，发现，真正的基础性，代表知识传递、融合的那些引用。引用是科学学中最重要的关系之一（其他还有作者-论文“写作”关系、论文-主题“工作在”关系）。一篇文章的引用次数就好像是一个产品在经济系统里面的价格。但是，由于学科引用传统等差异，各个学科的并不能直接相比较，也就是需要一个汇率转换。另外，很多时候，引用表示“我已经看过这个文献”，而不一定是“它是我这个工作的基础”。因此，如何把引用骨架识别出来就成了一个科学学研究的基本问题。

引用骨架挖掘的问题可以表达成给每一条引用边一个权重的问题。从某一篇施引文献p开始，例如，目前常用的不区分的方式就是给它的引文同样的权重，也就是<math>\left[1,1,\cdots,1\right]</math>。施引方归一就是给它们这样的区中<math>\frac{1}{r_{p}}\left[1,1,\cdots,1\right]</math>，其中<math>r_{p}</math>就是p的总参考文献数量。还有的研究者主张（缺参考文献）按照引文在文章中出现的总次数来给权重，例如，<math>\frac{1}{r_{p}}\left[c_1,c_2,\cdots,c_{r_{p}}\right]</math>。还有的研究者提出来需要考虑在哪里引用，以及施引文章和被引文章之间的某种相似性（见<ref name="Zhu:Data" />的引文）。那么，问题来了，有没有一个综合考虑这些因素找出来哪些因素最管用，并且更进一步做好这样一个识别骨架的算法和产品的呢？<ref name="SemanticScholar" />

或者，能不能换一个思路，在给权重和不给权重的引文网络上，做一下边的某种权重算法，例如把[[https://en.wikipedia.org/wiki/PageRank PageRank]]放在边上，这样来进一步区别边呢？

另一个方法是通过压缩引文网络的边，最好能够只保留有学术影响意义的引文。这样的保留方式有很多中，比如，仅仅保留到最早的文献的引用（这个相当于<ref name="Clough:TR" />里面的Transitive Reduction（保连通性删边?）），仅仅保留到最晚的文献的引用，甚至考虑机器学习的自动特征提取<ref name="Zhu:Data" />。更多的关于<ref name="Zhu:Data" />可能的进一步研究，见[[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]]。

另一个关键问题是，判断那种算法的结果最好的标准是什么？文献<ref name="Zhu:Data" />收集了一个作者自己标注哪些引用是有实质学术影响的引用的数据，可以供进一步中暂时当做判断标准研究使用，见[[:Category:数据集|数据集]]。

==参考文献==
<references>
<ref name="Zhu:Data"> Xiaodan Zhu, Peter Turney, Daniel Lemire & André Vellino, [[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]], Journal of the Association for Information Science and Technology, 66(2), 408, DOI: http://doi.org/10.1002/asi.23179 </ref>
<ref name="SemanticScholar"> Marco Valenzuela, Vu Ha and Oren Etzioni, [[:Category:Identifying Meaningful Citations|Identifying Meaningful Citations]], http://go.nature.com/2th2voa </ref>
<ref name="Clough:TR">James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, [[:Category:Transitive reduction of citation networks|Transitive reduction of citation networks]], J Complex Netw (2015) 3 (2): 189-203. DOI: https://doi.org/10.1093/comnet/cnu039 </ref>
</references>

分类:Identifying Meaningful Citations

2017-07-07T04:44:17Z

Szs：创建页面，内容为“Category:文献讨论 Category:引用骨架挖掘 Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa...”

[[Category:文献讨论]]
[[Category:引用骨架挖掘]]

Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa

== Abstract ==
We introduce the novel task of identifying important citations in scholarly literature, i.e., citations that indicate that the cited work is used or extended in the new effort. We believe this task is a crucial component in algorithms that detect and follow research topics and in methods that measure the quality of publications. We model this task as a supervised classification problem at two levels of detail: a coarse one with classes (important vs. non-important), and a more detailed one with four importance classes. We annotate a dataset of approximately 450 citations with this information, and release it publicly. We propose a supervised classification approach that addresses this task with a battery of features that range from citation counts to where the citation appears in the body of the paper, and show that, our approach achieves a precision of 65% for a recall of 90%.

== 总结和评论 ==

这篇文章用机器学习的算法来解决关键引文的问题：有一些引文是真正的工作基础，有一些仅仅是大背景或者勉强的引用，如何区分它们。

具体来说，这篇文章用监督学习，将引用分为两大类(重要和非重要)，更进一步分为4个层次。除考虑了直接引用外，还考虑了非显示引用(比如引用的算法名称、人名等)，其它特征与[[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]]采用的特征类似。在结果上，直接引用的数量是非常有效的特征。

分类:数据集

2017-07-03T00:26:07Z

Szs：

数据集

科学计量学方面的数据集，除了大型综合型论文题录数据库[https://www.webofknowledge.com/ Web of Science] 和 [https://www.scopus.com/ Scopus]之外，我们还经常使用这些：

{| class="wikitable"
! 数据名称
! 数据描述
! 来源
|-
| APS data(截止2013) || 包含题目、作者、单位、发表时间、引用、PACS码 || APS官方[https://journals.aps.org/datasets 提供]
|-
| APS author disambiguation(截至2010) || Roberta Sinatra提供的APS处理重名后的数据 || [http://science.sciencemag.org/highwire/filestream/686254/field_highwire_adjunct_files/1/SupplementaryData.zip 下载]
|-
| APS单位识别数据(截至2013) || 经[http://abel.lis.illinois.edu/cgi-bin/mapaffil/search.pl MapAffil]处理得到的单位数据,包含机构,城市,国家信息 || [https://ischool.illinois.edu/people/faculty/vtorvik Vetle Torvik]提供
|-
| USPTO美国专利商标局专利数据(截至2016) || 包含题目、专利分类号、申请者、单位、引用 || [https://bulkdata.uspto.gov/ 下载]
|-
| EPO专利局专利数据(截至2016) || 包含题目、专利分类号、申请者、单位、引用 || [https://www.epo.org/searching-for-patents/helpful-resources/raw-data.html 下载]
|-
| SIPO中国国家知识产权局专利数据(不同频率更新，没有所有数据合集下载) || 包含题目、专利分类号、申请者、单位、引用 || [http://patdata.sipo.gov.cn/resource.html 下载]
|-
| JPO日本特许厅专利数据(每月更新，没有所有数据合集下载) || 包含题目、专利分类号、申请者、单位、引用 || [https://www.jpo.go.jp/torikumi_e/searchportal_e/classification.htm 下载]
|-
| Medline/PubMed题录数据(截至2016) || 包含题目、作者、杂志、MeSH标注、部分包括引用信息 || [https://www.nlm.nih.gov/databases/download/pubmed_medline.html 下载]
|-
| Medline/PubMed全文数据(仅部分有全文，截至2016) || PMC（PubMed核心库）全文 || [https://www.ncbi.nlm.nih.gov/pmc/tools/get-full-text/ 下载]
|-
| PubChem数据 || 包含化学反应物、反应、论文 || [https://pubchem.ncbi.nlm.nih.gov/ NIH PubChem网站] [ftp://ftp.ncbi.nlm.nih.gov/pubchem/ ftp下载]
|-
| NIH基金数据 || 包含NIH各个基金项目的编号，类别，主申请人，关键词，受资助文章等信息 || [https://federalreporter.nih.gov/FileDownload 下载]
|-
| SPIRES || 已经匹配好的NIH论文和基金数据库，Scientific Publication Information Retrieval & Evaluation System || [https://archives.nih.gov/asites/era/07-09-2015/nih_and_grantor_agencies/other/spires.cfm SPIRES]
|-
| NSF基金数据 || 包含NSF各个基金项目的编号、类别、申请人、摘要、资助金额和起止年限等信息 || [https://www.nsf.gov/awardsearch/download.jsp NSF download]
|-
| 历史学博士学位论文(截至2015) || 包含题目、作者、导师、单位 || 爬取于国家图书馆学位论文库
|-
| 历史学研究期刊论文 || 包含题目、作者、单位、摘要 || 知网
|-
| dblp数据 || 包含题目、作者、杂志、部分包括引用信息 || [http://dblp.uni-trier.de/xml/ 下载]
|-
| springer-nature数据 || 包含题目、作者、杂志、部分包括引用信息 || [https://github.com/springernature/scigraph/wiki springer-nature 提供]
|-
| Aminer Citation Network Dataset || 经过Aminer清洗好的文献引用数据，包含题目、作者、杂志、部分包括引用信息 || [https://cn.aminer.org/citation aminer提供]
|-
| 城市列表 || 包含城市、国家名称，经纬度位置，人口数等 || [http://download.geonames.org/export/dump/ Geoname提供]
|-
| 机构列表 || 包含各类机构，及机构位置，机构关系，机构类型等 || [https://www.grid.ac/ GRID提供]
|-
| 医学概念网络（Unified Medical Language System® (UMLS®)，本体论形式的） || 包含和MeSH相对应的概念和概念之间的关系，主要层次性关系 || [https://www.nlm.nih.gov/research/umls/licensedcontent/downloads.html 美国国家医学图书馆提供]
|-
| 数学论文题录数据 || 包含标题、作者、期刊和MSC标注 || [http://www.ams.org/mr-database Mathematical Reviews® (MathSciNet®)提供]
|-
| 经济学论问题录数据 || 包含标题、作者、期刊和JEL标注 || [https://www.aeaweb.org/econlit/ 美国经济学学会EconLit提供]
|-
| Wikidata || 把Wikipedia页面结构化得来的Ontology（概念网络，各种概念已经进过识别和结构化，例如学校的地址和经纬度） || [https://www.wikidata.org/ Wikidata]
|-
| YAGO || 把Wikipedia页面结构化得来的计算机科学的Ontology（概念网络） || [http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ YAGO]
|-
| DBpedia || 把Wikipedia页面结构化，并且和其他一些Ontology，例如Wordnet得来的Ontology（概念网络） || [http://wiki.dbpedia.org/Datasets DBpedia]
|-
| WordNet || 日常用语的Ontology（概念网络，主要上下级关系） || [https://wordnet.princeton.edu/ WordNet]
|-
| Influential references dataset || 作者自己标注的引文列表中对工作有直接实际影响的引文 || [http://lemire.me/citationdata/ Influential references dataset]
|-
| Astro Data Set || 从Web of Science输出的天文学论文的数据，用来发展和比较文献主题识别算法 || [http://www.topic-challenge.info TOPIC EXTRACTION CHALLENGE]
|}

[[Category:数据]]