Test

来自Big Physics

 




二态系统的量子力学





吴金闪

image[math]\displaystyle{ \mbox{\Huge }[/math]+[math]\displaystyle{ } }[/math]image [math]\displaystyle{ \mbox{\Huge }[/math]=[math]\displaystyle{ } }[/math] image [math]\displaystyle{ {\left|}\leftarrow_{x} {\right\rangle}+ {\left|}\rightarrow_{x} {\right\rangle}= \sqrt{2}{\left|}\uparrow_{z} {\right\rangle} }[/math]

物理学家给这个世界寻找合适的数学结构
打开一扇通往量子的世界的门
不学太多的具体知识,能做深入思考吗?
Teach Less, Learn More


献给

[l]0.3

[l]0.25 我的母亲黄云弟

致谢

本书在内容和思想上受到的《Quantum Mechanics – a modern development》、的《高等量子力学》、的量子力学课程、的高等量子力学课程非常大的影响。在这里一并对这些深刻地影响了我对量子力学的理解的老师致谢。除了真实课堂,本书的逻辑结构很大程度上还受的《Feynman物理学讲义》第三卷的影响,可惜没有能坐在的课堂里。

感谢阅读了本书的原稿并提出很多有意义的建议的师长尤其是、,感谢我在编写和使用本书的过程中学习我的《量子力学》课程的北京师范大学的本科生研究生,以及迫使我必须用更加简单的实验和语言来展示量子力学魅力的我的公众报告的公众和中小学生听众。

感谢对本书中的几乎每一句话的推敲,内容选择和结构安排上的批判性和建设性建议,提供的部分习题,以及参与听课、答疑,并对具体教学环节的指导。我记得很多次的讨论,需要从手机换成座机,需要从晚间延续到半夜。我记得很多次的争论,我声音提高面红耳赤,裴老师——尽管保持冷静——却也寸步不让。经过这些讨论和争论,再加上教学上的实验,有的时候我们能够达成一致的意见,有的时候就只能尊重保持各自的意见。 我想裴老师是一个得道的“师者”——这个学生都毕业这么多年了,仍然需要负责给这个学生传道授业解惑。

感谢我的孩子们,吴逸兮和吴立心,你们给我很多的学习和教学上的启发。感谢我的夫人冯倩对于我做各种探索的支持。感谢我的岳母姚书君对孩子们的悉心照顾,使得我有更多的时间来做这些探索并完成本书。

本书的电子版可以从网页“吴金闪的书们”找到。如果你是实体书的读者,需要输入网址的话,它是:http://www.systemsci.org/jinshanw/books。

前言

通常的量子力学书籍从波函数开始讲起,需要比较多的背景知识和比较高的数学技能。然而,其在提高读者对量子力学的理解上,往往比较有限。很多时候,需要等到高等量子力学的课程中,用算符和向量的语言重新认识量子力学之后,读者才能形成对量子力学的一定的理解。最后,通过阅读研究性论文或文集,例如的《Speakable and Unspeakable in Quantum Mechanics》,以及的《Mathematical Foundations of Quantum Mechanics》、的《The Principles of Quantum Mechanics》、的《Principles of Quantum Mechanics》等强调量子力学基础的书籍,加上偏重量子力学基础的量子信息书籍,例如和的《Quantum Computation and Quantum Information》,以及的《Lecture Notes for Physics 229: Quantum Information and Computation》[1]之后,才能对量子力学形成比较完整的认识,了解其主要特点和可能的问题(或者说和经典世界的一般认识有严重冲突的地方,不一定是问题)。

同时,也有很少的量子力学书籍从最简单的开始介绍量子力学的最核心和最基本的理论,例如的《Feynman物理学讲义第三卷》、的《Quantum Mechanics: a morden development》[2]、的《Modern Quantum Mechanics》。不过,《Feynman物理学讲义第三卷》主要关注核心,讨论的内容比较有限,尤其没有深入讨论量子力学的基础的问题、测量的问题等等量子态的叠加性所带来的量子力学理解上的问题。后两者包含的内容又实在非常多。

因此,写一本用最简单的方法,来交代清楚量子力学的核心概念,能够帮助学生形成对量子力学的理解的书,就成了作者很长时间的梦想。一方面是上面提到的责任感的驱动,另一方面是作者曾经在三个学校跟物理学家、数学家,其中包含、等对量子力学有深刻的理解的老师,学习过[math]\displaystyle{ 6 }[/math]门量子力学和[math]\displaystyle{ 3 }[/math]门量子场论课程,自认为对量子力学的认识和学习有独到之处。再加上跟裴寿镛老师一起做过一点点关于量子力学基础——隐变量理论的可能性——的工作,认为对量子力学和经典力学的区别有相当深刻的认识,也做过一点量子博弈——把在经典硬币上的翻转游戏推广到自旋的转动的游戏——方面基础的工作,就自认为有一定的基础来跟大家分享对量子力学的认识和理解。还有一个原因是我认为不管是不是物理学专业的学生都需要学习量子力学,但是没有必要学太多除了对量子力学的理解之外的具体知识。正好,北京师范大学系统科学学院的本科生们给我提供了用我的新讲授方式来实践的机会。于是,就有了本书的初稿。选好例子又避开太多的具体知识,还要能够促进对量子力学的思考和理解,是一件困难的事情。不过,我很开心,我自认为,沿着在《Feynman物理学讲义第三卷》的思路,我找到了一个好的解决方式。

着眼于增加对量子力学和量子世界的理解,本书最主要的目的就是说清楚经典系统的行为和量子系统的行为的差别和联系,然后比较经典力学和量子力学的异同。在尽量说清楚这个主题的同时,通过从量子系统的行为来构建量子理论的过程来体现数学和物理的关系,从而促进读者对什么是科学的理解:批判性思维在科学中的地位,观察和实验在科学中的地位,科学和数学的关系,可证伪性和可验证性的关系等。在学习方法上,本书非常强调对概念的深刻理解——所谓理解就是把握这个概念与其他概念之间的关系并且联系到实际应用或者实验。因此,也希望本书的读者在阅读和学习本书之后,在学习方法上也有所得,学会做理解型学习,而不是记忆型学习——做到“知其然,知其所以然,知其所以所以然”。也就是,明白本书主要说了什么(What),怎么说的(How),为什么说这些、为什么这样说(Why),以及还要问理解这些对我来说意味(Meaningful)着什么、读者“我”是否喜欢这样的选择和阐述方式。我称之为问题。本书对数学物理的基础和计算细节要求都不太高,但是对于“问到底”的精神对于不断地挑战自己思考的深度有非常高的要求。本书原则上对读者没有专业的限制,只要是甚至曾经是理科的学生老师而且善于思考,愿意了解量子系统的奇妙之处还愿意挑战自己的理解和思考,都可以来尝试阅读本书,而且有所收获。但是,警告:本书不是一本容易阅读的书,尤其在思考的深入程度上。

从结构上,见[math]\displaystyle{ \ref{fig:QuantumBook} }[/math],本书分成几个部分:第一部分,什么是科学,量子系统的奇怪行为(实验),和这些行为的可能数学模型的尝试;第二部分,线性空间的矢量和算符、Dirac符号,概率论和以Hamiltonian描述的经典力学;第三部分,量子系统的状态、测量和状态的演化;第四、五部分,量子纠缠和纠缠在量子信息上的应用。从整体思路上,第一部分是发展量子理论的动机,而第三部分是量子理论的核心。其它的,第二部分是数学物理基础,有基础的读者可以快速略读;第四、五部分主要用于开阔一下眼界,了解一下量子信息和量子博弈。同时,最后这一部分也强调一下纠缠在应用上的特殊意义,尽管其本质,将来读了这些章节之后可以看见,还是量子态的叠加原理。整本书,有一个主题贯穿始终,能不能用没有状态叠加原理的数学形式,来描述量子系统的行为,或者说,为什么量子系统的行为需要满足叠加原理的数学形式来描述。

文件:QuantumBook
caption 本书的体系结构和大多数书不太一样,对于为什么量子系统的理论形式必须是基于矢量叠加原理的量子力学做了很多的讨论。因此,量子系统的实验行为部分在本书里面也占了很大的篇幅,而理论部分从“密度分布函数”到“密度矩阵”的转变以及转变的原因占了核心的地位。通过这样的结构,我们希望读者除了了解量子力学是什么之外,还能够思考为什么量子力学会这样并对此形成一定的理解。图中的下半部分是一个总结,请读者把它和上半部分联系起来,比如通过思考“例如”的关系:“数学结构”——“例如”——“矢量空间”。

[fig:QuantumBook]

希望读者在学习完了本书之后,第一,了解量子系统的行为以及行为和满足状态叠加原理的数学形式之间的关系;第二,思考和建立初步的对物理学(或者说科学)和数学的关系的认识;第三,学会通过阅读其它书籍和文献在核心概念的基础上自学的方法,以及提升自学的意愿。如果还能够对基于批判性思维和系联性思考的理解型学习有比较好的体会,就是额外有所得了。

科学家,尤其是物理学家,其主要目的就是给实际的世界提供一个可计算的可证伪的[3]理想模型,通过对这个理想模型做计算,人们能够得到实际世界的行为。为什么我们要学习量子力学呢?除了量子力学很有用——它是所有的半导体材料背后的理论(因此你的手机、电脑等依赖于它),它也是所有的化学反应背后的理论,现在它已经被广泛地应用于药物设计等等等等之外,对一个追求智力上深刻的愉悦或者是真正企图理解自然界的行为的人来说,根本的是因为原则上量子力学是所有(微观)客体运动变化的理论基础,并且量子客体的行为超过了我们的大脑所熟悉的直观的经典力学的世界能够解释的范畴。相对论对日常经验的突破是同时的相对性,量子力学对于日常经验的突破更大。这门课程的任务就是呈现给你这个突破是什么。这个突破我称之为一扇门:量子力学是一扇打开你用不同的眼光看世界的门。不打开这样一扇门,你的人生就是不完整的。至于打开之后是否就完整了,另说。

打开这扇门之后,看到了不同的现象,给物理对象找到了不同的数学结构,我们会产生如何来理解这样的数学结构的问题,以及这样的数学结构能够告诉我们什么新的没有想到过没有看见过没有计算出来过的现象。因此,除了量子力学本身,和打开一扇门的作用,学习量子力学还能够深刻地体会到什么是科学,科学与现实,科学与数学的关系。

下面的所有的具体内容,都是围绕着以上这个学习目的——我称之为“量子力学的大图景”,包括这是一扇什么样的门、打开这一扇门的意义、对什么是科学的认识(现实和数学结构的关系、数学结构的理解、理论的应用预测和检验)——来选择、设计和展开的。

在这个第一部分里,我们主要通过介绍几个量子系统的实验及其可能的经典力学的解释来展示:量子系统的实验结果经典理论不能解释。然后,我们还会稍微探索一下一个能够解释量子系统的实验现象的理论的数学结构有什么要求,这个数学结构的特殊之处。

本书第一部分推荐参考书:的《物理学讲义第三卷》,的《Quantum Mechanics – a morden development》。的小册子《QED: The Strange Theory of Light and Matter》也非常值得一看。有兴趣得读者还可以看一下的《Speakable and Unspeakable in Quantum Mechanics》。不过更合适的阅读这本书的时间点是在你差不多理解了本书的第[Chap:Bell]章之后。 各个章节有它们自己的推荐阅读材料。

量子系统的实验

[Chap:Exp] 在这一章里面, 我们将介绍一些典型的量子系统的行为,然后告诉大家用经典的粒子的理论(确定性或者随机性的)或者波的理论()——两者的背后都是,不能解释这些实验结果。

介绍量子系统的实验之前,我们来讨论三个经典对象——水槽中的水波的、进入相机镜头的光波和一把不太可靠的枪射出来的——后者是一个理想实验。在讨论量子系统的行为的时候,这里我们用的是以及关于偏振(自旋)的实验。实际上,Feynman说过如下意思的话,量子力学的一切奇妙之处就在双缝实验。因此,所有的这些实验实际上展示的都是一样的:量子系统的行为到底在什么方面和经典系统的行为不一样,而后者可以通过经典粒子或者波的力学来解释。不过,我们将展示的各个实验确实还是会有每个实验容易理解和不容易理解的地方,相互可以补充,更好地启发你的思考,或者说更好地把你逼入思想的墙角。必须经历过这个被逼入墙角的过程,将来才能够对量子力学的理论体系为什么可以成为量子系统的数学模型有更好的体会,也了解“问题”所在。

所有的实验,我们都会企图用经典波或者经典粒子的理论来解释观测到的现象。在这里要注意,实际上经典介质波本质上还是经典粒子的理论:经典波实际上是一大群联系在一起的粒子的整体行为,两者背后都是Newton力学。我们还会讨论一些经典粒子和经典波都不能解释的现象。因此,在下面的实验中我们主要关心这个实验能否由经典波来解释,还是经典粒子来解释,还是两者都不能解释。

经典粒子和经典波的实验

[]:一个较大的水槽,表面上有一个振动的小球。小球的振动形成的水波被一个固定的木板挡住,只能通过木板上的两个小孔传到木板的另一侧。观察另一侧的水波的行为,我们可以看到有的地方振动的幅度很小,有的地方比较大。这个与单独打开一个小孔的时候不一样。单独开一个小孔的时候,如果不是看的范围很远以至于遇到容器壁或者衰减的太厉害的话,各个距离相同的点的振动幅度差不多,也就是成圆形散发的波动。打开两个小孔以后看到的有的地方振动幅度加强(与单个小孔的情形相比,图中明亮的条纹)有的地方减弱(图中比较暗的条纹)的现象就叫做。整体还是呈圆形往外扩散,但是,条纹出现了强弱交替。如[math]\displaystyle{ \ref{fig:waterwave} }[/math]所示。

文件:Young Diffraction.png
caption 来自于不同驱动源(A点,B点)的波在水槽里面的任意一点的效果都需要把来自于AB两点的矢量叠加。这个叠加产生了我们见到的相对稳定的明暗交替的波纹。图片转引自wikipedia的“氏干涉”条目[4]

[fig:waterwave]

是这样解释的。木板另一侧的任何一个点受两个振动源——也就是那两个小孔——驱动。由于波的传播不是粒子真的沿着波的传播方向上在传波,而是每个粒子在做来回往复的振动,因此,当同时受多个驱动源驱动的时候,自然其运动就是把多个源传过来的振动方式相叠加(如[math]\displaystyle{ \ref{fig:classicalwavesum} }[/math]所示):在[math]\displaystyle{ t }[/math]时刻,第一个小孔传过来的振动希望[math]\displaystyle{ x }[/math]这个点的位置在[math]\displaystyle{ z_{1}\left(x, t\right) }[/math],第二个小孔传过来的振动希望[math]\displaystyle{ x }[/math]这个点的位置在[math]\displaystyle{ z_{2}\left(x, t\right) }[/math],那么合起来自然就是 [math]\displaystyle{ \begin{aligned} z\left(x, t\right)=z_{1}\left(x, t\right)+z_{2}\left(x, t\right).\end{aligned} }[/math] 注意到[math]\displaystyle{ z_{i}\left(x, t\right) }[/math]是类似于[math]\displaystyle{ A\cos{2\pi\left(\frac{x}{\lambda} + \omega t + \phi_{0}\right)} }[/math]余弦函数,所以上式经过三角函数和差化积([math]\displaystyle{ \cos{\left(\alpha\right)}+\cos{\left(\beta\right)}=2\cos{\left(\frac{\alpha-\beta}{2}\right)}\cos{\left(\frac{\alpha+\beta}{2}\right)} }[/math])实际上就会成为一个不依赖于时间只依赖于位置的慢变部分和一个依赖于时间和位置的快变部分。其中这个慢变部分可以看成是快变部分的振幅,而这个振幅只依赖于位置。观察到的振动幅度的大小就是这个慢变部分的体现。在这个解释中,黑体字的部分是非常重要的,也是自然的——其背后是力的矢量叠加和Newton定律。但是,如果我们的运动实际上就是粒子本身在沿着波传播的方向传播,例如光波,情况就不一样了,黑体字部分就不对了。以后我们还会仔细来考虑光波的干涉是如何解释的。暂时我们把光波也可以看作是在空间每一个点上有一个矢量这样的经典波的数学模型,因此上面的解释在水波和光波上都可以用。将来我们再讨论光波这样的可以看做一个个粒子在沿着光波传播的方向传播的波的干涉问题。

fig:fig:

[fig:classicalwavesum]

经典的波是:一个点的介质的运动影响邻近点的介质的运动。一般来说介质点本身并不随着振动传播而传播开去。于是,如果有一个点的介质收到多个邻近点(不管在相同还是不同方向上)的振动的影响,那么其效果自然就是这些影响的叠加。这个叠加是Newton定律和力的叠加的结果。下面要讨论的光波和电子波等不再是介质波而是:一个个的小个体在振动传播的方向上传播开去,它们不需要额外的介质来承担这样的运动。于是,一个粒子带动旁边的粒子运动这样的图景就不再适用了,一个波分成两束或者多束这样的图景也就不再适用了。至于我们如何肯定这样的小个体在传播过程中是否还是把自己分裂成很多份到了被观测的时候再一次合起来的问题,我们将来再讨论。在这里,我们假设总是可以用一个在当前能量尺度上已经不能再裂开的粒子来做我们的实验,而且实际上,我们可以随时在实验的任何一个中间步骤通过探测器来检查这些粒子在运动过程中是否还是一个整体或者说分成好几个部分[5]

文件:GlassReflect.eps
caption 光子经过一块玻璃,可以在玻璃的两个界面上发生反射和透射。那么从第一个界面出来的光就可能是第一次反射形成的,也可能是第一个界面和第二个界面反射并且在第一个界面透射以后形成的。这样互斥事件形成的光能够相互抵消吗?如果不能,我们给相机镜头镀膜——这里把膜看作新的一层玻璃——干什么?

[fig:GlassReflect]

[相机镜头上的贴膜形成的光的现象]:镜头上的贴膜就是让光尽可能多地通过镜头之前的膜而不是被这个膜反射太多,然后,也降低在膜和镜头——可以是玻璃或者塑胶——之间的反射。现在,我们来关心前半部分——如[math]\displaystyle{ \ref{fig:GlassReflect} }[/math]所示的光过膜的两个界面——的过程。为了简单起见,我们用Feynman在《QED: The Strange Theory of Light and Matter》中的光过玻璃的例子——把光过贴膜改成光过玻璃。概念上两者没有区别。

为什么通过这样一个两个界面的反射就会增加光的透射呢?我们知道在每一个界面上都有一部分光被反射出去,那么也就是说,不增加这样一层额外的镀膜应该有更多的光进入到镜头。是这样吗?如果不是这样的话,从第一个界面反射的光肯定是以某种方式与从第二个界面反射的光相互抵消从而降低了反射出去的部分。那么这个相消的过程是如何发生的呢?经典波动力学给出了如下的解释。

考虑两列从太阳或者某个远处的单一光源(于是近似看成平行入射光)过来的光波,一列经过一次反射,另一列经过两次反射一次透射以后遇到一起。既然遇到一起,那么就相当于两列光波在同时驱动相遇的这个点的振动,于是也需要把两者叠加起来。于是,我们就得到了与水波的干涉数学上完全相同的表达式,于是结果也相同。在这个解释中,把光波看成是两个部分分开传播然后相遇——也就是同时到达某点——是非常重要的,矢量相加也是非常重要的。

小结一下,经典波动力学对于干涉的解释要么依赖于一个点的粒子的振动状态同时受多个驱动力驱动,要么依赖于一个波可以分成多个波然后让这个多个波相遇,从而相当于一个点的振动同时受多个驱动力驱动。同时受多个驱动导致了状态的叠加关系,而状态的叠加关系形成了干涉。可以想见,如果我们需要考虑一个整个空间中的任何时刻,都仅存在一个粒子的情况,那么上面的解释就有可能会出问题。这个时候,在一个点上的粒子受其它粒子驱动的情形不能用了,一个波分成多个再合起来的情形也不能用了。以后我们将讨论这样的整个空间只有一个粒子的令人困惑的情形。

下面我们再运用光的偏振来做另一个同样——将来考虑单粒子以后——让人困惑的实验。光是横波,振动方程和传播方向垂直,因此在三维空间中可以分解成两个正交的振动方向。因此,光实际上有传播和偏振两个自由度。在这里,我们主要关注偏振这个内部自由度。片是一个非常有意思的仪器:其内部有一个由制作偏振片的材料和方式决定的特定方向,通过偏振片的光其振动方向必然和这个内部方向一致。那部分振动方向不一致的光,就被完全挡住了。至于如何实现以及实现这样的选择的机理是什么,我们不关心。为了以后语言上的方便,我们称透过去的光为“”光,被挡住的为“”光。在物理上,是否这个被挡住确实是由于反射还是什么其他物理过程,在此我们不讨论。

文件:Dirac3Polar
caption (a).光过两块平行偏振片(透过)。(b).光两块垂直偏振片(挡住)。(c).光过三块偏振片——最前最后两块相互垂直,中间的偏振片处于前后两者之间的某一角度(透过)。

[fig:Dirac3Polar]

[]:找三块完全相同的偏振片来做如[math]\displaystyle{ \ref{fig:Dirac3Polar} }[/math]所示的三个实验。先拿其中的两块做实验[math]\displaystyle{ A }[/math]:一手拿一块偏振片,把两块偏振片完全平行地放在面前,透过镜片看物体。观察是否能够看到东西,还是基本不能透光?再拿这两块做实验[math]\displaystyle{ B }[/math]:一手拿一块偏振片,把两块偏振片垂直地放在面前,透过镜片看物体。观察是否能够看到东西,还是基本不能透光?接着取出第三块镜片,做实验[math]\displaystyle{ C }[/math]:把第三块镜片以某个角度——与之前的镜片都不平行——插入到实验[math]\displaystyle{ B }[/math]的两块之间(这时候你可能需要别人帮忙)。观察是否能够看到东西,还是基本不能透光?

实验结果是:[math]\displaystyle{ A }[/math]通过两个平行镜片看物体,基本上没变(光的强度有变化,但是能够清楚地看到镜片之后的物体);[math]\displaystyle{ B }[/math]通过两个垂直镜片看物体,基本上看不到镜片之后的物体;[math]\displaystyle{ C }[/math]增加一个镜片以后,之前不能看到的镜片之后的物体又能够看到了。

文件:Polarizer.jpg
caption 这个偏振片专门是开发了做教具的,非常便宜。

[fig:Polarizer]

这个(将来我们会看到的)量子效应如此显著的实验,竟然是可以在家里做的,只要购买三个偏振片,例如偏振墨镜或者如[math]\displaystyle{ \ref{fig:Polarizer} }[/math]的教具。

的解释:第一块镜片选择让某一属性——其实是光子的特定偏振方向(例如硬币的向上态)——的粒子通过。如果第二块允许的方向完全与第一块平行,则光子不会再次被挡住——其性质已经是能够通过的状态(例如向上的硬币),直接通过。如果第二块允许的方向完全与第一块垂直,则光子被挡住——其性质正好就是能够通过的状态的互补状态(例如向下的硬币),完全不能通过。于是,我们了解了两个垂直的方向的光子正好就象向上和向下的硬币的关系一样。这个时候,我们再来增加第三块镜片。由于第一块和第三块——之前的第二块,已经把所有的可能都挡住了,因此,无论在中间如何改变光子(或者说硬币)的状态,都不可能有通过的光子。因此,经典粒子的模型不能解释这个实验。

为了强调这个实验多么的神奇不可理解,我经常用下面的类比:有一个屋子有两个门。前门只允许男人通过(进入这个屋子),后门只允许女人通过(出这个屋子)。于是,在假设全世界只有男人和女人的前提下,没有人能够通过这个屋子——我们在后面观察不到人。这个时候,屋子里面增加了一道门,然后,我们就能够看到有人通过这个屋子了。这个是不可能的事情。屋子里面的那道门难道可以把男人变成女人,而且是本质上就变了而不仅仅是打扮成女人?我们称这个实验为“经典的”。

的解释:光波经过偏振片的过程可以用一个矢量投影来描述[math]\displaystyle{ A_{r}=\vec{A}\cdot \hat{r} }[/math],其中[math]\displaystyle{ \vec{A} }[/math]是入射光子的状态,[math]\displaystyle{ \hat{r} }[/math]是镜片的方向,而且经过镜片之后的偏振状态是[math]\displaystyle{ \hat{r} }[/math],强度是[math]\displaystyle{ {\left|}A_{r} {\right|}^{2} }[/math]。我们先不问这个经典波过偏振片的理论是从哪里来的,也不问为什么透过的光的强度和这个投影的计算有关系。于是,经过第一块镜片——记为[math]\displaystyle{ x }[/math]方向——之后,光子的状态就是[math]\displaystyle{ \hat{x} }[/math]。如果第二块允许的方向完全与第一块平行,则光子不会再次被挡住——[math]\displaystyle{ 1=\hat{x}\cdot \hat{x} }[/math][math]\displaystyle{ 100\% }[/math]完全直接通过。如果第二块允许的方向完全与第一块垂直——记为[math]\displaystyle{ y }[/math]方向——[math]\displaystyle{ 0=\hat{x}\cdot \hat{y} }[/math],光子完全被挡住。如果有第三块镜片——记为[math]\displaystyle{ xy }[/math]平面上的某个角度[math]\displaystyle{ \theta }[/math][math]\displaystyle{ \theta\neq 0, \frac{\pi}{2} }[/math])的方向,则通过前两块镜片的几率不为零, [math]\displaystyle{ \begin{aligned} \hat{x} \cdot \hat{r_{\theta}} =\cos{\left(\theta\right)}\neq 0.\end{aligned} }[/math] 过了中间那个镜片之后,其状态为[math]\displaystyle{ \hat{r_{\theta}} }[/math],于是过最后那个镜片的几率也不为零, [math]\displaystyle{ \begin{aligned} \hat{r_{\theta}}\cdot \hat{y} =\sin{\left(\theta\right)} \neq 0.\end{aligned} }[/math] 我们看到经典粒子不能解释实验现象,但是经典波似乎通过矢量投影——通过[math]\displaystyle{ \hat{r} }[/math]方向的出射光是[math]\displaystyle{ \hat{r} }[/math]方向的偏振,其强度是[math]\displaystyle{ {\left|}A_{r} {\right|}^{2} }[/math],其中[math]\displaystyle{ A_{r}=\vec{A}\cdot \hat{r} }[/math]——能够解释这个实验的现象。

实际上,确实可以运用经典的绳子上的波来实现这个实验。

[]:一根伸展开的绳子,记绳子伸展方向为[math]\displaystyle{ z }[/math]方向,水平和竖直方向分别为[math]\displaystyle{ x }[/math][math]\displaystyle{ y }[/math]方向。我们抖动绳子的一端,观察绳子另外一端的振动。当绳子上没有任何其他东西的时候,基本上主动的一端如何抖动则被动的一端就如何振动。现在我们来加上几个狭缝,如[math]\displaystyle{ \ref{fig:StringWave} }[/math](c):这些狭缝在一个方向上限制振动传播到狭缝的另一面(绳子在那个方向上遇到边界),而允许另外一个方向上的振动传播到狭缝的另一面。我们作如[math]\displaystyle{ \ref{fig:StringWave} }[/math](a)和(b)的实验,[math]\displaystyle{ A }[/math]:第一个狭缝沿着[math]\displaystyle{ x }[/math]方向,第二个沿着[math]\displaystyle{ y }[/math]方向;[math]\displaystyle{ B }[/math]:在实验[math]\displaystyle{ A }[/math]的基础上,再中间插入一个沿着[math]\displaystyle{ x-y }[/math]平面[math]\displaystyle{ 45^{0} }[/math]方向的斜着的狭缝。

文件:ThreeGate1.jpg
caption (a).绳子上的波过两个垂直狭缝(挡住)。(b).绳子上的波过三个狭缝——最前最后两个相互垂直,中间的狭缝处于前后两者之间的某一角度(透过)。(c).实验用的火钳,非常便宜。
文件:ThreeGate2.jpg
caption (a).绳子上的波过两个垂直狭缝(挡住)。(b).绳子上的波过三个狭缝——最前最后两个相互垂直,中间的狭缝处于前后两者之间的某一角度(透过)。(c).实验用的火钳,非常便宜。
文件:FireClam.jpg
caption (a).绳子上的波过两个垂直狭缝(挡住)。(b).绳子上的波过三个狭缝——最前最后两个相互垂直,中间的狭缝处于前后两者之间的某一角度(透过)。(c).实验用的火钳,非常便宜。

[fig:StringWave]

在这里狭缝实际上就是“绳子波的偏振器”。在我们的实验中实际上我们用了如[math]\displaystyle{ \ref{fig:StringWave} }[/math](c)的一个烧火的钳子来当做这个偏振器。我们看到了相同的实验现象。其实,和偏振片相对应的实验[math]\displaystyle{ A }[/math]现象也是一样的。那么,是否能够用相同的理论模型来解释呢?

经典波的解释:上面关于Dirac光过三个偏振片的经典波的解释完全就解释了这个绳子上的波过三个狭缝的实验。在那里最关键的就是经典波的情形下矢量投影 [math]\displaystyle{ \begin{aligned} A_{r}=\vec{A}\cdot \hat{r} {\label{eq:ClassicalSuperposition}}\end{aligned} }[/math] 当一个原来在某一个方向上的振动企图通过这个绳子偏振器的时候,可以想见大约矢量投影公式[math]\displaystyle{ \left(\ref{eq:ClassicalSuperposition}\right) }[/math]还是正确的:振动方向和强度合起来是一个矢量,当其中某一个方向的振动受到限制从而只能够在另一个方向振动的时候,其在能够振动方向上的强度大约应该是通过在那个振动方向上做一个投影来得到。于是,[math]\displaystyle{ A, B, C }[/math]的实验现象就得到了解释。

这个时候,我们可能觉得,光的行为,跟绳子上的波差不多。这个时候,我们利用绳子的模型再来思考,矢量投影公式[math]\displaystyle{ \left(\ref{eq:ClassicalSuperposition}\right) }[/math]到底表示了什么含义。绳子上紧密与小缝相连的那个点的振动,受到小缝所在的点的驱动,本来应该是随着驱动点大概在同一个方向上运动。但是,当受狭缝限制以后,只能那个狭缝允许的方向上的振动被激发起来。这个时候,我们必须依赖于绳子上有很多个点,每个点都是一个可以做振动的物体这个事实,加上Newton定律,来理解矢量投影公式[math]\displaystyle{ \left(\ref{eq:ClassicalSuperposition}\right) }[/math]的含义。

于是,在这个实验和解释中,我们看到:第一,矢量投影确实解释了实验现象;第二,矢量投影的含义依赖于多个可被激发出振动的小单元来理解,而这个理解的基础是Newton定律。然而,当将来在下一节中,我们考虑单个光子的传播的时候,它不再是介质上的波了,不能用Newton定律通过介质上的点的相互作用力导致传播导致矢量性来解释了。于是,第三,经典波动力学不能解释单光子的Dirac光过三个偏振片的实验。更多的讨论见下一节[6]。由于经典波理论能够解释以上实验行为的原因在于经典波满足叠加关系或者矢量投影,可分解,可叠加,我们可以自然地猜测,没准,这个叠加关系和矢量投影的数学结构,也就是状态的数学描述是矢量这一点,将来在量子系统的理论里面,也会保持下来。

现在,我们再来看另一个的例子。

文件:TwoSlit Bullet.eps
caption 子弹经过两个小孔。孔间距为[math]\displaystyle{ d }[/math],档板和屏幕之间的间距是[math]\displaystyle{ L }[/math]。机枪覆盖仰角是[math]\displaystyle{ \theta }[/math]。后面的两个图是结果示意图。分别是两个小孔独自的结果和合起来的结果。在这里实际上我们忽略了一个“重新归一化”的计算细节,例如实际上应该是整体上除以[math]\displaystyle{ 2 }[/math]也就是[math]\displaystyle{ \frac{1}{2}\left(P_{1} + P_{2}\right) }[/math]

[fig:TwoSlit_Bullet]

[]:如[math]\displaystyle{ \ref{fig:TwoSlit_Bullet} }[/math]所示,一把准确度有问题的固定好的机枪在点射同一个地方,但是由于准确度有问题,射出的子弹以一定的概率[math]\displaystyle{ p }[/math][math]\displaystyle{ \left(1-p\right) }[/math])到达目标上(下)方[math]\displaystyle{ \frac{d}{2} }[/math]的地方。然后,在[math]\displaystyle{ \pm\frac{d}{2} }[/math]的地方各有一个奇怪的小缝,这个小缝会把这个子弹在比较小的仰角[math]\displaystyle{ \theta_{0} }[/math]的范围内以均匀(为简单计,我门假设打到屏上以后,子弹在一个小范围内均匀分布)的概率弹射到距离[math]\displaystyle{ L }[/math]之外的屏幕上。每一个打在屏幕上的子弹会在屏幕上留下一个荧光的斑点。实验中,我们观察屏幕上子弹留下的痕迹。

我们通过分析单个小缝的结果然后组合两个小缝的行为来分析这个实验。对于过第一个(第二个)缝然后出来的子弹,其在屏幕上形成的痕迹以[math]\displaystyle{ \frac{d}{2} }[/math][math]\displaystyle{ -\frac{d}{2} }[/math])处为中心宽度为[math]\displaystyle{ 2L\tan{\left(\theta_{0}\right)} }[/math]。当[math]\displaystyle{ 2L\tan{\left(\theta_{0}\right)}\lt d }[/math]的时候,两个斑点没有重叠的部分。就是分散的两个独立的斑点。可以想见,当[math]\displaystyle{ 2L\tan{\left(\theta_{0}\right)}\gt d }[/math]的时候,在中间重叠的部分,由于能够获得来自于任意一条缝的子弹,其概率是两者之和[math]\displaystyle{ \begin{aligned} P\left(z\right) = P\left(z{\left|}\frac{d}{2}{\right.}\right)P(\frac{d}{2}) + P\left(z{\left|}-\frac{d}{2}{\right.}\right)P(-\frac{d}{2}). \end{aligned} }[/math] 我们不知道这个实验是不是真的做过,如果做过小缝的行为是不是接近实验中的实际情况。但是,通过经典概率论的(有的地方两个缝过来的子弹都能到,有的地方只能接收到一个缝过来的子弹)我们可以得到如下的大致结果,而且这个结果有一个重要的特征:在任意一个小缝的子弹辐射范围内,在两个小缝的情况下仍然有子弹的痕迹。如果小缝的行为比我们假设的简单情况复杂,例如均匀性的假设会不太对,实际的轨迹就会不完全一样,但是这个特征是不变的。一个随机变量的平均值只能够取值于其所有的可能取值之间,不能比其中最小的还要小。

单个电子或者单个光子的实验

上一节,我们提到,对于介质上的波,由于Newton定律的成立,并且可以考虑多个点的运动对某个点的驱动,矢量叠加关系和矢量投影能够解释上一节中提到的干涉现象,但是,在整个空间只有一个粒子并且没有介质的情况下,它们的成立的基础——介质上的粒子通过满足Newton定律的力来影响相互运动——似乎就没有了。另一方面,概率叠加原理——一个事件有多种互斥情况发生的可能,则其整体效果是这些不同可能的叠加——不需要多粒子的图像,粒子一个一个过去的事件,仍然可以用概率叠加原理来描述。其所需要的仅仅是粒子的行为的多种可能,而不是多个粒子——多个粒子之间相互作用之类的。但是,这个概率叠加原理又不能展现出来矢量叠加关系和相干性:单缝情况下就有粒子到达的地方在打开双缝的情况下竟然会没有粒子到达。现在,我们来看一下量子系统的真实实验的结果。在这里,我们确实考虑在整个空间只有一个粒子的情况。我们来看看概率叠加原理能不能解释实验结果。

fig:fig:

[fig:TwoSlit_Electron]

文件:TwoSlit.eps
caption 基于[math]\displaystyle{ \theta }[/math]角范围内均匀出射的干涉现象示意图。(a)来自于一个单电子电子枪的电子经过一个障碍物隔开的两个小缝,到达屏幕上。考虑通过其中一个小缝的结果和同时打开两个缝的结果的差别:有的地方变得几乎没有电子到达,有的地方电子到达的几率变得非常大。而不仅仅是概率叠加。联系到[math]\displaystyle{ \ref{fig:TwoSlit_Bullet} }[/math],在那里是遵循概率叠加的子弹。在这里实际上我们同样忽略了一个“重新归一化”的计算细节。

[fig:TwoSlit]

[电子的双缝干涉实验]:如[math]\displaystyle{ \ref{fig:TwoSlit_Electron} }[/math]所示,一个电子射线枪,射出与上面的情况完全相同的子弹——电子(其中,小缝的行为可能不是子弹的理想实验中的均匀分布的情况),我们观察电子在屏幕上留下的痕迹。我们发现,见[math]\displaystyle{ \ref{fig:TwoSlit_Electron} }[/math]中的实验结果和[math]\displaystyle{ \ref{fig:TwoSlit} }[/math]中的示意图,在某些地方——在一个小缝就能辐射到的范围内的某些地方,当两个小缝都打开的时候——电子几乎没有留下痕迹。

我们发现了一个新的特征:两个小缝都打开以后,电子打到某些地方的几率比任何一个小缝独自打开的时候都小。回到豌豆射手的类比,这个现象就好像是说,有的地方一个豌豆射手就能够做到射击覆盖,但是当增加一个豌豆射手的时候,那个地方反而不在射击范围之内了。这是不可思议的事情。这样的话,你玩植物大战僵尸游戏的时候就要更加小心了。

看起来,好像是,过两个小缝的电子之间存在着某种相互作用。但是,我们可以让电子枪点射,每次只能够射出一个电子。这样的话,相互作用的解释都非常不可能了。在整个我们关心的空间,每时每刻只有一个电子存在,它跟谁相互作用?还有一种可能:一个电子也能够象经典波(例如前面的光波或者水波)一样以某种方式劈开两半,然后同时过双缝,从而实现自己跟自己相互作用。我们不能否认这个可能性。一个简单的检验方法就是在两个小缝的地方各自放置一个探测器,然后看一下是否在某一个时刻可以在两个探测器上同时都探测到半个电子。实际上,这个实验对于光子的情形是做过的,我们从来没有探测到过半个光子或者两个光子。将来我们会知道,这个额外的探测器有可能带来一个额外的问题:先经过小缝然后再探测器以后的电子的状态有可能就不再是原来仅仅经过小缝而不经过探测器的状态了。因此真的靠这个额外的探测器来回答电子如何过两个小缝是有问题的。不过,在这里,我们关心的事情不是电子如何过双缝,而是是否电子在有的时候会分开两半。或者说,我们把整个空间看作是很多很多个小缝合起来的,难道说电子都需要分成这么多个部分?电子又如何知道需要分成几个部分呢?所以分成几个部分一起过去的假说是不太合理的。当然,我们面对的对象是有独特行为的量子客体,我们不清楚哪些不合理是可以接受的。如果我们没有任何其它方式可以建立电子行为的数学模型和物理图景,那么不合理之处也是必须接受的。

幸好,我们还有别的选择。我们沿着这个想法继续走下去:电子在这个过程中没有与任何其他的东西发生未知的相互作用,除了电子从电子枪里面发射出来,然后在小缝处发生有可能是复杂的——但是行为是完全已知的——相互作用之外。例如之前我们所假设的在某个角度之内均匀出射,这个均匀出射(或者其他的概率分布的出射)是如何产生的我们暂时不管。也就是说,在仅有上(下)方小缝打开的时候,电子的痕迹如[math]\displaystyle{ \ref{fig:TwoSlit} }[/math][math]\displaystyle{ {\left|}\psi_{1} {\right|}^{2} }[/math][math]\displaystyle{ {\left|}\psi_{2} {\right|}^{2} }[/math])所示——实际的图样可以和这个“在各自小孔对应的范围内均匀分布”的图样不一样,跟小缝的细节有关——但是,在两个小缝都打开的时候,成了[math]\displaystyle{ \ref{fig:TwoSlit} }[/math]中的[math]\displaystyle{ {\left|}\psi_{1} +\psi_{2} {\right|}^{2} }[/math]的样子。关键就是:这个图中的[math]\displaystyle{ {\left|}\psi_{1} +\psi_{2} {\right|}^{2} }[/math]绝对不是和[math]\displaystyle{ p {\left|}\psi_{1} {\right|}^{2} + \left(1-p\right){\left|}\psi_{2} {\right|}^{2} }[/math]这样的概率叠加能够得到的,包含任意的[math]\displaystyle{ p }[/math]——概率性叠加永远也不会出叠加以后的值比叠加之前的值都小的情况。经典粒子的力学,甚至允许概率的经典力学,不能解释电子的双缝干涉现象。经典的波的力学,当考虑电子每次都是完整的一个而且是仅有一个的时候,也不能解释电子的干涉行为。如何理解这个现象?

其实,我们也可以控制前面那个光过玻璃的实验,让光的强度足够小[7],以至于任何时刻,如果测量的话,整个光路中不会有一个以上的光的能量单位(将来我们会知道这个能量单位就叫做光子,现在我们就先在最小能量单位的意义上用这个名词)。这个时候,我们同样发现,基于把光波分成几份再合起来的经典波动力学的解释也不能用了。如何在单光子的情形下解释光子过玻璃然后反射部分相互抵消的现象?任何时刻,唯一的一个光子过第一个界面的时候可能反射也可能折射,第一种情况发生了反射,反射光就开始跑路了,注意光子跑得很快的,故事暂时结束。第二种情况,发生了折射,然后遇到第二个界面,假设这次发生了反射,光子又回到第一个界面,接着发生了折射。这些过程是需要时间的。这个时候,第一种情况下的光子,可能都已经跑到月球了。经典波动力学的数学表达式——注意——是能够解释干涉现象的,就是理解上需要把光波分成多个部分然后同时到达,而这一点,考虑单个光子的时候我们做不到。除非单个光子也是分成好多个部分来过玻璃的。我们说了,这个可能性以及加探测器来检验这一点的问题,以后再讨论。

现在,我们再按照经典粒子的图景来描述一下这个光子过玻璃的实验。我们总共只有一个光子,按照子弹的力学过程,第一个界面发生反射的可能性如果实现了,这个光子就跑掉了。然后在第二个界面可能再发生反射,于是透射的光波应该是两次反射之后剩下的那部分。也就是说光子发生透射的概率是在两个界面上都发生了折射,于是透射率是[math]\displaystyle{ 0.96 \times 0.96 \approx 0.92 }[/math]。然而,我们的透射率大于[math]\displaystyle{ 0.92 }[/math]可以接近[math]\displaystyle{ 0.99 }[/math]的实验结果告诉我们,这两种可能一定要通过某种方式相互影响。可是,怎么相互影响呢?整个空间只有一个光子,如果第二种情形发生,那么第一种情形就不会发生:光子如果在第一个面就被反射了,怎么会在第二个面再一次被反射呢?因此,就算我们“理论上”想把这两种情形叠加起来,两种根本不会同时发生的事情要相互影响,也不行啊。我们仅仅能够按照经典概率论把两种可能的结果按照概率加起来。于是,不会出现被反射掉的光比其中任何一个都要小的情况。

经典粒子的力学和经典波的力学都不能解释这个光子过玻璃的实验。如何理解这个现象?

同样地,当我们考虑单光子过三个偏振片实验的时候,我们的矢量投影的基础——一个单元的受限振动由前一个单元驱动——就没有了。这个时候逼迫我们考虑完整的单个的光子的通过或者被挡住的行为。让我们跟着这个光子开始旅程:首先经过第一个偏振片,假设没有被挡住,那么它的偏振状态肯定是[math]\displaystyle{ x }[/math]方向。接着,如果遇到[math]\displaystyle{ y }[/math]方向的偏振片自然就完全被挡住了,如果遇到[math]\displaystyle{ x }[/math]方向的偏振片自然就完全过去了。关键是遇到[math]\displaystyle{ \theta \neq 0,\frac{\pi}{2} }[/math]的时候怎么办?我们知道为了能够解释实验结果,我们需要在这个时候用矢量投影。可是这里的矢量投影好象是在说,就算一个已经被投影成为[math]\displaystyle{ x }[/math]方向分量的状态,里面竟然有[math]\displaystyle{ \theta }[/math]方向的分量,而那个被投影成为[math]\displaystyle{ \theta }[/math]方向的分量的状态,则竟然也还有[math]\displaystyle{ y }[/math]方向的分量。将来我们会看见,这个——“一个看起来单纯一个方向的矢量,竟然,可以看作其它方向的矢量的叠加(也就是有那些方向的分量)”——是量子系统的理论的特征,就算对于单个粒子。这个正是状态的叠加原理。

下面,我们再用两个类似的实验,来展示量子客体的行为的独特性。

可以把光子以一定的概率反射或者透射。这里为了简单计,我们把反射和透射的几率设定为[math]\displaystyle{ 0.5 }[/math]。在我们后面的习题中,我们会用到这样的仪器。光子(也称作极化分束器、偏振分束镜等)是一个能够根据光的偏振状态来决定让光透射方向的仪器。这个仪器有一个内部的方向,这个方向是由制作该仪器的材料决定的。我们知道光波是横波,有两个可能的与传播方向垂直的振动方向。一般地,一个光波的电场分量可以写做,指定传播方向为[math]\displaystyle{ \hat{z} }[/math]方向, [math]\displaystyle{ \begin{aligned} \vec{A} = A_{0}\cos{\left(kz-\omega t+\phi_{0}\right)}\hat{x} + A_{1}\cos{\left(kz-\omega t+\phi_{1}\right)}\hat{y}.\end{aligned} }[/math] 其中[math]\displaystyle{ \hat{x}, \hat{y} }[/math]就是与[math]\displaystyle{ \hat{z} }[/math]方向垂直的平面内的两个正交的方向矢量。我们这里不妨就把[math]\displaystyle{ \hat{x} }[/math]指定成偏振分束器的内部方向。这个时候我们让上面的一般的沿着[math]\displaystyle{ \hat{z} }[/math]方向传播的光经过这个分束镜,我们就会发发现[math]\displaystyle{ \hat{x} }[/math]方向的光从一个角度透射过了这个分束镜,而[math]\displaystyle{ \hat{y} }[/math]方向的光从另外一个角度从这个分束镜透射了(或者当是偏振片的时候是反射、完全挡住。这个如何实现的细节在这里不重要):偏振分束器与其内部方向相同的光,与其内部方向垂直的光[8]。当然,如果让经过[math]\displaystyle{ \hat{x} }[/math]方向分束镜透射的光再经过一个[math]\displaystyle{ \hat{x} }[/math]方向分束镜,那么这个光会完全透射过去。注意,如果让一个透射过[math]\displaystyle{ \hat{x} }[/math]分束镜的光当遇到另一面[math]\displaystyle{ \hat{y} }[/math] 向分束镜的时候,它会被完全反射,因为这个时候振动方向为[math]\displaystyle{ \hat{x} }[/math]的光在后者看来正好是它的内部方向的垂直方向。下面,我们要用这样的偏振分束器来做一个有趣的实验。

文件:QMPBS.eps
caption 光子which-way实验装置示意图。其中最后一步把两个不同路径来的光又合起来然后进入偏振分束器在实验中需要一个额外的仪器来完成。在这个示意图里面我们只需了解能够做到这样的合起来就可以了。注意偏振分束器的内部方向和图中的仪器的摆放方向不是一个东西。

[fig:QMPBS]

[光子which-way实验]:如[math]\displaystyle{ \ref{fig:QMPBS} }[/math]所示,一个光子经过第一面内部方向为[math]\displaystyle{ 45^{0} }[/math](见图中所示的坐标系)偏振分束器之后,只允许透射光过去,反射光被完全挡住。然后这个光子继续经过一个[math]\displaystyle{ 0^{0} }[/math]的偏振分束器。经过这个分束器的光子可能走两条路径。不管走哪一条,它都会被反射会到同一个位置(右下角),然后被引入到第三个内部方向为[math]\displaystyle{ 45^{0} }[/math]偏振分束器。问:分束器之后的探测器[math]\displaystyle{ D_{T} }[/math][math]\displaystyle{ D_{R} }[/math]上都会有接收到光子的可能吗?

这个实验的结果[9]是只有[math]\displaystyle{ D_{T} }[/math]上有光子到达。 [exp:photonwhichway]

每次只打出一个光子,因此把光子分成很多份的经典波动力学的解释是不能用的。我们来看看经典粒子的力学加上概率论的解释。一方面,经过[math]\displaystyle{ 45^{0} }[/math]方向的分束镜以后的光子经过[math]\displaystyle{ 0^{0} }[/math]方向的分束镜分开可能的两条路径。然后每一条路径又被反射合起来,所以看起来这个[math]\displaystyle{ 0^{0} }[/math]方向的分束镜的效果完全被两个反射镜消掉了。于是,在到达最后一个[math]\displaystyle{ 45^{0} }[/math]方向分束镜的时候,光子的状态与刚刚出第一个[math]\displaystyle{ 45^{0} }[/math]方向分束镜的时候一样。于是,在最后的[math]\displaystyle{ 45^{0} }[/math]的分束镜上完全通过没有反射,只有[math]\displaystyle{ D_{T} }[/math]可以接收到光子。另一方面,我们可以问经过[math]\displaystyle{ 0^{0} }[/math]的偏振分束器之后,光子是从哪一条路径过去的。这个时候,如果我们假设光子是从上面的路径过去的,代表[math]\displaystyle{ 0^{0} }[/math]方向的偏振态。于是,这个偏振态遇到最后一个[math]\displaystyle{ 45^{0} }[/math]方向的偏振分束器会在两个可能的方向上[math]\displaystyle{ D_{T} }[/math][math]\displaystyle{ D_{R} }[/math]有输出(尽管可能每次还是仅仅输出在一个方向上,多次合起来就会有两个可能)。同样的,如果我们假设光子是从下面的路经过去的,也就是[math]\displaystyle{ 90^{0} }[/math]的状态,也是两个可能的输出。于是,按照概率叠加原理,这个事情的发生有两种可能——从上面或者是从下面的路径过去的,于是整个事件的结果就是这两个可能的概率平均。既然两者单独来说,[math]\displaystyle{ D_{T} }[/math][math]\displaystyle{ D_{R} }[/math]上都可能有输出,那么,必然,其概率平均的结果是[math]\displaystyle{ D_{T} }[/math][math]\displaystyle{ D_{R} }[/math]上都有输出。可是,我们的实验结果是只有[math]\displaystyle{ D_{T} }[/math]能够接收到光子,而且前面第一个逻辑也给出这样的结果。这个现象怎么解释?我们的后一种解释哪里错了?我们区分光子可能走的两条路径,这件事情错了?

尽管我们已经强调经典波动力学的图景——由于需要把光波分成几个部分然后让这几个部分同时到达——在这里是不能用的,我们仍然把经典波动力学的解释写在下面,提供一个更清楚的说明。这个说明是针对学习过光学的读者来写的。我们直接利用数学表达式来更好地说明白。经过一个偏振分束器以后光子的偏振状态是[math]\displaystyle{ \vec{A}_{1}=A_{0}\cos{\left(45^{0}\right)}\hat{V}+A_{0}\sin{\left(45^{0}\right)}\hat{H} }[/math],然后在经过第二个偏振分束器之后,路径[math]\displaystyle{ 1 }[/math]上的光子的状态是[math]\displaystyle{ \vec{A}_{2}^{(1)}=A_{0}\cos{\left(45^{0}\right)}\hat{V} }[/math],同时路径[math]\displaystyle{ 2 }[/math]上的光子的状态是[math]\displaystyle{ \vec{A}_{2}^{(2)}=A_{0}\sin{\left(45^{0}\right)}\hat{H} }[/math]。经过两面反射镜到达第三面分束镜之前的状态是[math]\displaystyle{ \vec{A}_{3}=A_{0}\cos{\left(45^{0}\right)}\hat{V}+A_{0}\sin{\left(45^{0}\right)}\hat{H}=\vec{A}_{1} }[/math],也就是[math]\displaystyle{ 45^{0} }[/math]的偏振态。于是,最后完全通过第三个分束器。注意,这里在做把分开以后的光又合其来的运算的时候,我们默认的思考是:每一条路径上都走了一部分的光,于是把两个部分的光合起来自然就是两个代表其状态的矢量加起来;或者是每一条路径代表了对同时到达的那个点的振动的一种驱动方式,于是两种驱动方式的效果就是把两者的代表矢量叠加起来。这里,我们非常清楚地看见了分开两部分又同时到达的一个默认的物理图景。换句话说,对于矢量[math]\displaystyle{ \vec{A}_{1} }[/math]的解释,我们默认是多个光子的整体矢量形式,其中的一部分遇到分束器以后可以走路径[math]\displaystyle{ 1 }[/math]于是成了状态为[math]\displaystyle{ \hat{V} }[/math]的光子,另外的走路径[math]\displaystyle{ 2 }[/math]于是成了状态为[math]\displaystyle{ \hat{H} }[/math]的光子。也就是说我们假设这些个光状态的矢量描述是多光子的状态,或者说一团光的状态,而这个一大团的光可以看作是一部分由路径1驱动,一部分由路径2驱动,于是整体的状态是两个驱动的效果的叠加。这个基于经典多源驱动的波的多光子图景是很容易接受的,可以不加思考地接受的。

在我们前面所展示的实验中,利用单光子来做实验就是挑战的这个多光子图景。也就是说,上面的基于经典波动力学的解释结果与实验符合,但是不能用于描述我们的单光子实验。经典概率论倒是可以用在单光子上,可又不能给出和实验结果一致的理论结果。两个理论都不对,怎么办?新的理论应该长什么样?在我们构造能够解释这些现象的理论之前,我们再来看一个电子的类似的实验。

文件:SternGerlach2
caption 来自于和的自旋示意图。图片来自于Wikipedia页面https://en.wikipedia.org/wiki/Stern-Gerlach_experiment。

[fig:SternGerlach]

文件:SG.eps
caption 自旋经过一个Stern-Gerlach装置——其内部就是一个磁场——之后挡住向下的输出,这样从装置出来的状态就是第一个装置的向上方向。接着让这个输出的自旋再一次经过同样方向的装置——得到仅有一个向上的输出结果。

[fig:SGSzSz]

有一种如[math]\displaystyle{ \ref{fig:SternGerlach} }[/math]所示的叫做的仪器(其内部主要是某个方向的一个磁场,不过现在我们不关心这个仪器的细节)有一个内部方向(其实由其内部的磁场决定,这个方向就好像是偏振片的内部方向一样),会按照电子的状态来改变经过这个仪器的电子的运动方向。这一点就好像是光子偏振分束器一样。例如,通常一束电子过这个仪器之后会在屏幕上产生两个斑点。这就是著名的。我们把上(下)方的斑点对应的路径称为向上(下)态的路径(以后我们会知道,实际上这个“上下”的命名不太准确,是倒过来的,应该是“下上”。不过,在这里无所谓)。如果我们把其中的一个方向的路径盖住,自然我们就得到一个斑点——对应着没有盖住的那条路径。现在,我们把两个内部方向相同的这样的仪器连起来,如[math]\displaystyle{ \ref{fig:SGSzSz} }[/math],我们发现,向上态的路径经过第二个仪器之后还是向上态的。也就是说,这个向上态,看起来好像是经过这个仪器之后不变的状态——我们称其为这个仪器的本征态。向下态也是本征态。这个仪器以及这个电子在这个实验中的现象基本上可以通过一个随机硬币来解释。一个一般的硬币可能向上也可能向下,所以把这样的实验重复很多次以后,我们可以得到两个斑点。如果我们通过把向下的路径挡住来把向上的硬币挑出来,然后再让它进入仪器,自然只能得到向上的路径的斑点。这个不奇怪。

我们把电子的向上和向下态成为电子的自旋状态。我们已经看到电子具有空间和自旋两个自由度。在这里,我们主要关注电子的自旋自由度。

通过前面自旋的两个实验——原始的自旋通过单个磁场和两个同方向磁场的实验,我们已经看到,只需要把自旋看做一个具有两个离散状态的硬币,就可以理解这个实验。有的人喜欢这样说,原始的Stern-Gerlach实验证明了我们需要量子力学来描述这个世界。还有人的认为的实验、现象和的黑体辐射公式也证明了我们需要量子力学来描述这个世界。当然,从量子力学发展的历史来说,这三个实验确实大大推动了量子力学的发展。但是,从是否真的体现了什么是量子性——完全不同于经典粒子和经典波的量子性,也就是状态的矢量叠加原理——对于描述这个世界的必要性来说,三个实验都是不够的。可以说,这三个实验揭示了:描述世界需要离散变量,而没有到达一定要矢量叠加原理的层次。Stern-Gerlach实验表明同一束粒子出来可以分裂成两束,而且是分开的两束,因此后面肯定对应着一个两状态的变量。光电效益表明光子的能量是一份一份的,在保持光子的频率相同的条件下增加光子的数量也就是光强度,不能激发光电效益。原则上,可以做出来这样的实验:每次出射一个某种频率的光子(不再可分的光的最小单位),只要频率合适,仍然可以激发光电效益。于是,光子的能量,从这个实验我们推断,应该看做是一份一份的。黑体辐射对实验现象的解释依赖于把光子的能量([math]\displaystyle{ E }[/math])看成一份一份并且和频率([math]\displaystyle{ \nu }[/math])的函数关系是[math]\displaystyle{ E=h\nu }[/math],加上热平衡分布([math]\displaystyle{ p\left(E\right)=\frac{1}{Z}e^{-\beta E} }[/math][10],就有了的黑体辐射公式。其中的[math]\displaystyle{ h }[/math]称为。从连续的能量、连续的状态到离散的能量、离散的状态这一步的跳跃是非常具有创造性的,因此,这三个实验在量子力学的发展过程中的意义是非常大的。但是,它们离真正说明“状态的矢量叠加原理”的必要性还有很远。[11]

现在,我们来做一些稍微更有趣的实验,用来显示引入“状态的矢量叠加原理”的必要性。

文件:SG SzSx.eps
caption 电子过两个不同方向磁场实验装置示意图,先过[math]\displaystyle{ z }[/math]方向,接着[math]\displaystyle{ x }[/math]方向。

[fig:SG_SzSx]

[电子自旋过两个Stern-Gerlach仪器]:我们让[math]\displaystyle{ \hat{z} }[/math]方向的仪器出来的向上态的电子经过一个内部方向为[math]\displaystyle{ \hat{x} }[/math]方向的仪器,如[math]\displaystyle{ \ref{fig:SG_SzSx} }[/math],打到屏幕上。问:屏上有一个还是两个斑点? [Exp:SG_SzSx]

我们让从内部方向为[math]\displaystyle{ \hat{z} }[/math]方向的仪器出来的向上态的电子经过一个内部方向为[math]\displaystyle{ \hat{x} }[/math]方向的仪器,我们发现我们还是会得到两个斑点,而且单次实验只能得到一个斑点。甚至把[math]\displaystyle{ x }[/math]方向换成是一个不是[math]\displaystyle{ \hat{z} }[/math]的一般的方向[math]\displaystyle{ \hat{r}\left(\theta,\phi\right) }[/math]也行,结果也一样:一般来说多次实验的结果是两个斑点,但是每次单次实验只能得到两个斑点中的一个。注意,是两个分开的斑点,不是整个区域弥散开来的。这个特征很重要。一会儿,我们要用这个[math]\displaystyle{ \hat{z} }[/math]方向向上的电子过[math]\displaystyle{ \hat{x} }[/math]方向的仪器还会得到两个斑点的事实来做下面的实验。

注意,根据前一个实验的结果,在任何方向[math]\displaystyle{ \hat{r} }[/math](只要[math]\displaystyle{ \hat{r}\neq \pm \hat{z} }[/math])上做实验,我们都得到两个结果,记为[math]\displaystyle{ {\left|}\uparrow_{\hat{r}} {\right)} }[/math][math]\displaystyle{ {\left|}\downarrow_{\hat{r}} {\right)} }[/math]状态,分别对应落点在屏幕上部和下部的两个实验结果[12]

这个的实验结果还是有两个输出。这件事情非常非常地不平庸:一个处于[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math]的电子,其状态如果从[math]\displaystyle{ \hat{x} }[/math]方向来看,竟然,仍然包含两种可能[math]\displaystyle{ {\left|}\uparrow_{x} {\right)} }[/math][math]\displaystyle{ {\left|}\downarrow_{x} {\right)} }[/math]。这一点,我们粗略的记作, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z} {\right)}= {\left|}\uparrow_{x} {\right)}\oplus {\left|}\downarrow_{x} {\right)}. {\label{eq:SGsuper}}\end{aligned} }[/math] 关于这个 [math]\displaystyle{ \oplus }[/math]的运算,这里,仅仅是“某种方式合起来”[13]的非常粗糙的意思。将来我们会看见,这个运算有两种可能的形式:概率叠加和矢量叠加。类似地,我们可以把实验装置的顺序倒过来,先[math]\displaystyle{ x }[/math]然后[math]\displaystyle{ z }[/math]方向,或者我们把参考系的方向重新定义一下([math]\displaystyle{ x }[/math]叫做新的[math]\displaystyle{ z }[/math][math]\displaystyle{ z }[/math]叫做新的[math]\displaystyle{ x }[/math]),我们得到 [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{x} {\right)}= {\left|}\uparrow_{z} {\right)}\oplus {\left|}\downarrow_{z} {\right)}.\end{aligned} }[/math] 现在建立了这个状态之间的关系之后,我们来看下一个实验。

文件:SG SzSxSz.eps
caption 电子过三个方向磁场实验装置示意图,先过[math]\displaystyle{ z }[/math]方向,接着[math]\displaystyle{ x }[/math]方向,然后[math]\displaystyle{ z }[/math]方向。

[fig:SG_SzSxSz]

[电子自旋过三个Stern-Gerlach仪器]:如[math]\displaystyle{ \ref{fig:SG_SzSxSz} }[/math]所示,我们让[math]\displaystyle{ \hat{z} }[/math]方向的仪器出来的向上态的电子经过一个内部方向为[math]\displaystyle{ \hat{x} }[/math]方向的仪器。出来的向上态的电子再次经过[math]\displaystyle{ \hat{z} }[/math]方向的仪器,打到屏幕上。问:屏上有一个还是两个斑点? [Exp:SG_SzSxSz]

这个的实验结果还是有两个输出。这件事情非常非常非常地不平庸:一个[math]\displaystyle{ \hat{z} }[/math]方向向下态先被挡住的电子,经过[math]\displaystyle{ \hat{x} }[/math]的某种操作——其实就是挡住[math]\displaystyle{ x }[/math]方向的向下态(向上态结果也一样),竟然,再次出现了[math]\displaystyle{ \hat{z} }[/math]方向向下态的可能。关于这个实验到底有多么不可思议,我们在Dirac的光过三个偏振片的实验中已经讨论。在此不再重复,仅再一次提一下结论:试验结果强烈暗示有可能[math]\displaystyle{ {\left|}\uparrow_{x} {\right)} }[/math]态里面包含[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math][math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math]态,以及反过来[math]\displaystyle{ {\left|}\downarrow_{z} {\right)} }[/math]态里面包含[math]\displaystyle{ {\left|}\uparrow_{x} {\right)} }[/math][math]\displaystyle{ {\left|}\downarrow_{x} {\right)} }[/math]态,而且这个包含很可能是突破经典概率论的。我们再来看另一个实验。

文件:SG WhichWay.eps
caption 电子which-way实验装置示意图

[fig:SG_WhichWay]

[电子自旋which-way实验]:这个理想实验来自于的《Quantum Mechanics – a modern development》。如[math]\displaystyle{ \ref{fig:SG_WhichWay} }[/math]所示,我们让[math]\displaystyle{ \hat{z} }[/math]方向的仪器出来的向上态的电子经过一个内部方向为[math]\displaystyle{ \hat{x} }[/math]方向的仪器,然后不打到屏幕上,而是通过另外一个神奇的仪器(就像光的反射镜)把可能已经分开成[math]\displaystyle{ \hat{x} }[/math]两个方向的电子重新又合在一起,然后再经过一个[math]\displaystyle{ \hat{z} }[/math]方向的仪器打在屏上。问:屏上有一个还是两个斑点? [Exp:SG_WhichWay]

每次只打出一个电子,因此把电子分成很多份的经典波动力学的解释是不能用的。我们来看看经典粒子的力学加上概率论的解释。一方面,经过[math]\displaystyle{ \hat{z} }[/math]方向仪器以后的电子经过[math]\displaystyle{ \hat{x} }[/math]方向的仪器分开可能的两条路径然后每一条路径又被反射合起来,所以看起来这个[math]\displaystyle{ \hat{x} }[/math]方向的仪器的效果完全被两个反射镜消掉了,于是在到达最后一个[math]\displaystyle{ \hat{z} }[/math]方向仪器的时候,电子的状态与刚刚出第一个[math]\displaystyle{ \hat{z} }[/math]方向仪器的时候一样,也就是向上态。于是,只有一个斑点。

另一方面,如果要问经过[math]\displaystyle{ \hat{x} }[/math]方向的仪器之后,电子是从哪一条路径过去的。这个时候,如果我们假设电子是从上面的路径过去的,代表[math]\displaystyle{ \hat{x} }[/math]方向的向上状态,于是,这个状态遇到最后一个[math]\displaystyle{ \hat{z} }[/math]方向的仪器会产生两个斑点。同样的,如果我们假设电子是从下面的路经过去的,代表[math]\displaystyle{ \hat{x} }[/math]方向的向下状态,将来也是两个斑点。于是,按照概率叠加原理,这个事情的发生有两种可能——从上面或者是从下面的路径过去的,于是整个事件的结果就是这两个可能的概率平均。既然两者都给出两个斑点,那么,必然,其概率平均也给出两个斑点。

可是,我们的实验结果是只有一个斑点,而且前面第一个逻辑也给出一个斑点的解释。这个现象怎么解释?我们的后一种解释哪里错了?

单光子过玻璃的实验,单光子过三块偏振片,单电子的双缝干涉实验,单光子which-way实验,单电子自旋which-way实验,都告诉我们:第一、把波看成是分成多份经过不同路径又同时到达某处的解释有问题;第二、——其中我们假定粒子选择了哪一条路径来走,然后加上概率论的互斥事件概率可加性——的预期与实验不符合。第一个可能的出路,我们可以修改概率论的互斥事件概率可加性。以后我们会看到,这个互斥事件可加性是概率论的核心。我们需要尽可能的保留它:它在经典的时候确实是正确的,而且很容易理解——一件事情有不同的发生方式,那么其结果可以看成是所有方式的结果的某种叠加。第二个可能是我们需要放弃粒子选择了某一条路径这个概念。那么,是否可以替换成光子同时走了所有的路径呢?我们做的是单个粒子的实验,粒子也总是一个一个地被测到,没有测到过半个光子或者半个电子。粒子需要分开好多份一起走这个图景和测量的结果不符合。另外,如果我们假设粒子在测量之前分成许多份,那么测量的时候,在探测到的位置就要求发生某种奇怪的事情,导致其他部分的粒子瞬间到被测量的位置集合。这一点也是很难理解的:被测量到这件事情瞬间传给粒子的已经分开的所有的部分,并且一定意义上这些已经分开的部分在瞬时合回来。

也就是说,第一、粒子确实选择了某一条路径而不是同时走所有路径,尽管我们在观测之前不知道走了那一条路径,或者换一个表达方式:在任何时刻任何地方测量粒子,得到的结果都是这个地方测到了或者没有测到一个完整的粒子;第二、粒子的状态是粒子在所有可能路径——而不是某一个路径——上的某种平均或者某种取和,而且这种取和不能是概率性叠加。这个时时刻刻走一条路径和所有路径的非概率性叠加的矛盾并不在“一条”和“所有”上面,而是在“一条”和“所有的非概率性叠加”上面。我们已经看到,对于经典的随机子弹,注意是随机的子弹,其在任何时刻走的是“一条”路径,并且观测结果与“所有”的路径的结果的概率性叠加不矛盾。现在,我们需要提供一种数学模型,能够解决上面的这个“一条”和“所有的非概率性叠加”之间的矛盾,从而解决建立一个对量子粒子被测量的时候的行为的可计算的模型的问题。这个答案就是下面,在本书的第三部分里面。在那里,我们要学习和讨论的目前主流量子力学的理论框架,然后用来解释这一章里面所有没有得到解释的单粒子的“干涉”现象。

作业

阅读的《教育的目的》、的《教的更少,学得更多》和和的《如何读一本书》,写下阅读体会。 本书仅提供量子力学核心概念里面的核心概念,主要是启发读者的思考,以及给读者准备进一步学习的基础的。按照这个设计,本书把大量的内容都放在了读者的自学上面,提供了相应的参考书和论文。因此,学会看书、学会思考,在这里非常重要。阅读报告要包含:总结(说了什么、怎么说的、为什么说这个这么说)、评价(我觉得对吗)、结合自身经验的体会(我喜欢吗,对我有什么意义),也就是问好这四个问题,目的是显示:我看了,我想了,还有点收获。形式上,读书报告要包含文字和。有关概念的内容请从《教的更少,学得更多》中学习。

阅读Feynman的《Feynman 物理学讲义》第三卷,前三章,写一个报告。这个和本书的讲法类似。实际上本书的整体逻辑结构很大程度上受《Feynman物理学讲义》第三卷的启发,尽管本书对于密度矩阵、矢量空间、概率论的处理还是比较独特和有新意的。这些异同以及这样做的原因通过阅读和比较这两本书能够有更深刻的体会。希望学习本书的读者能够明白本书内容、内容之间的逻辑关系,同时还明白为什么选择这些内容和这样来呈现它们之间的逻辑关系。我称之为“知其然,知其所以然,知其所以所以然”。这也是我在《教的更少,学得更多》一书里面提出来的学习方法。另外,本书的习题不多,大部分习题都是为了进一步学习设计的,有比较深远的意义的。请做题的时候多思考。

搜索 “Sidney 量子力学讲座 ” ,听完,写一个报告。听不懂没关系,以后我们还要听很多遍,本课程的任务就是让你听懂这个讲座。

搜索 “Stanford大学量子力学公开课 ” ,听完第一次,写一个报告。听不懂没关系,以后我们还要听很多遍,本课程的任务就是让你听懂这个课程。

本章小结

经典的介质上的波由于有介质粒子之间的相互作用和Newton定律的存在,可以看作一束分成多束,并且波的叠加原理或者波矢量的分解原理成立。经典的粒子的状态满足概率叠加原理。然而,波的矢量叠加或者分解不能用于解释没有介质的单个粒子的行为,粒子的概率叠加原理也不能给出与上面所讨论的一系列实验结果一致的结果:单光子过玻璃的实验,单光子过三块偏振片,单电子的双缝干涉实验,单光子which-way实验,单电子自旋which-way实验。于是,我们要寻找一个能够解释这些实验的理论,同时如果能够建立起来这样的理论,我们要问如何来理解这个理论,这个理论是否能够给出来其他的可实验检验的结果,并且进一步取做实验检验这些结果。

矢量叠加和分解原理能够形式上解释量子系统的行为提示我们我们需要构造的理论模型应该包含这样的数学,只不过,其基础不再是Newton定律。那我们的理论应该什么样呢?这样的理论看起来不能去问粒子到底走那一条路径然后做概率叠加。也就是数学上,象波——可以做矢量跌价:这样的理论包含类似于公式[math]\displaystyle{ \left(\ref{eq:SGsuper}\right) }[/math]这样的关系——某一个量的给定状态可以看作另外一个量的几个给定状态的和;物理上又能够用于单个粒子。我们将沿着这个方向做进一步的探索。

做为一个用概念地图来总结和整理知识的例子,这里,我们在[math]\displaystyle{ \ref{fig:QMChapter1} }[/math]中提供一张关于这一章主要内容的概念地图,以及在[math]\displaystyle{ \ref{fig:doubleslit} }[/math]中的一张双缝实验的概念地图。注意,对知识的思考、理解和组织是概念地图反映的主要内容,而不是知识本身。也正是因为这个原因,以后的章节中,我们将不再提供概念地图,而是希望读者自己来思考和整理。更多的关于概念地图和概念地图思维方式、概念地图学习方法、概念地图方法和教学体系,请参考吴金闪的《教的更少,学得更多》。

文件:QMChapter1.eps
caption 为了让读者体会如何用概念地图来辅助做知识的深入思考、理解和组织,整理了这一章的主要内容。

[fig:QMChapter1]

文件:Doubleslit.eps
caption 关于双缝干涉这个实验的拥有更多细节的概念地图。

[fig:doubleslit]

物理世界的数学模型

[Chap:PhysicsModels] 物理学,甚至整个科学的目标就是让我们的理念中的世界,心智中的世界符合物理的真实的世界。所谓符合物理的真实的世界就是构造一套简单的规则通过这些规则的操作给出与现实世界相符的结果。这一套规则本身是否能够得到验证,也就是说这套规则本身是不是就是世界运行的规则,不是科学关心的问题。这一套规则是否能够被我们的心智认可、理解、欣赏,也不是科学关心的问题。相符是不是就是可验证性呢?一般来说理论模型是不可以直接验证的,而且就算前面的[math]\displaystyle{ 10000 }[/math]个实验都相符,逻辑上也不能推断出来第[math]\displaystyle{ 10001 }[/math]个实验肯定也相符,于是就算通过计算得到的结果和实验相符,也很难说一个理论得到了验证。为了更好地来表述这个概念,提出了的说法。可证伪性就是指,我们的规则原则上允许不成立,而且一旦这个规则不成立,则相应的操作可以导出与这套规则成立的情况下不同的结果。如果这些规则不成立的情况下导出的结果被发现了,就称一个规则被证伪了。称为“科学”的规则就是原则上可以被证伪但是目前为止还没有被证伪的一套能够给出与现实世界相符的结果的规则。在实际科学研究中,用“和实验相符”粗糙地来代替“可证伪性”往往就够了。以后我们就简单地用“相符”。如果一定要在相符的前提下再提出一个更高的标准,可以认为是。简单性就是如果有两个理论,一个简单(可以指的是规则本身更少,操作更简单)一个复杂,我们优先选择简单的理论;简单性也可以指如果有两套规则,在一套规则下,很多事情都能够通过一套理论来解释,而在另一套规则下,需要更多的理论来解释更多的事情,那么我们选择更加普适的理论。简单性还可以指系统性——用尽可能少的假设(公理)做为理论体系的基础来建立整个理论体系。

这样的一套规则往往是用数学的语言和结构描述的一套规则,称为数学模型。有的时候可能一套规则看起来用的不是数学的语言,但是实际上仍然是数学的结构,例如的电磁场后来就被做了等价的数学化。我们已经看到,量子世界的现象,尽管有的表现很像经典硬币(过[math]\displaystyle{ \hat{z} }[/math]方向的Stern-Gerlach装置的电子),有的表现很象经典的波(过玻璃的光的经典波动力学解释),但是却不能够通过这些经典的对象来理解。实际上,我们在这里表达的意思是:这些量子的现象不能通过经典粒子背后的数学模型与经典波背后的数学模型来解释。那么,首先,我们来看一下什么是经典粒子和经典波后面的数学模型。

由于在下面的几节中我们会使用第二部分的数学符号和物理概念,请在继续阅读之前学习或者浏览本书的第二部分“数学物理学上的准备”。对于已经熟悉概率论、经典力学和Dirac符号的读者,可以直接阅读本章剩下的部分。或者,请读者先相信我们的这一章结论——量子系统的行为非常难以用经典理论来描述,然后跳过本章剩下的部分,将来等学习完了第二部分甚至第三部分以后,再回来挑战这一部分。

警告:初次思考本章剩余部分里面的问题的读者一般情况下会觉得这些问题比较难比较抽象。

经典世界的确定性的数学模型

经典粒子的状态以及状态变化的数学模型非常简单,就是一个平直的连续的欧几里德空间中的一个点[math]\displaystyle{ \left(x_{1},x_{2},x_{3}\right) }[/math],以及这个点随着时间——时间[math]\displaystyle{ t }[/math]是独立于一切之外的均匀流逝的——的变化。为了描述这个空间中的点,我们可以利用坐标系。原则上坐标系和距离有可能是不统一的,但是欧氏空间的直角坐标系就是利用距离来定义的,或者说坐标值之间的差的绝对值正好就是距离, [math]\displaystyle{ \begin{aligned} d_{PQ} = \sqrt{\sum_{i}\left(x^{P}_{i}-x^{Q}_{i}\right)^{2}}.\end{aligned} }[/math] 时间也是, [math]\displaystyle{ \begin{aligned} t_{PQ} = \sqrt{\left(t^{P}-t^{Q}\right)^{2}}.\end{aligned} }[/math] 于是,一个经典粒子的状态的完整的描述就成了一段时间内的[math]\displaystyle{ \vec{r}\left(t\right)=\sum_{i}x_{i}\left(t\right)\hat{e}^{i} }[/math]——这段时间内的一条轨迹。

实际上,还存在着另外一种完整描述经典粒子状态的方式,就是同时确定某一个时间点[math]\displaystyle{ t_{0} }[/math]的位置和速度[math]\displaystyle{ \left(\vec{r}\left(t_{0}\right),\dot{\vec{r}}\left(t_{0}\right)\right) }[/math]。有的时候这个组合也被替换成为确定一个时间点的位置和动量[math]\displaystyle{ \left(\vec{r}\left(t_{0}\right),\vec{p}\left(t_{0}\right)\right) }[/math],其中[math]\displaystyle{ \vec{p}=m\vec{v}=m\dot{\vec{r}} }[/math]。这种描述相对于前者——[math]\displaystyle{ \vec{r}\left(t\right) }[/math]——有很大的好处:前者需要确定整个时间段的整个轨道,后者只需要确定一个时间点[math]\displaystyle{ t_{0} }[/math]的状态。之所以我们能够做样做是因为经典粒子的运动方程——Newton方程是一个二阶微分方程,于是可以转变成为两个一阶方程,并且在由位置和动量构成的相空间内轨道不相交。

一般而言,状态的含义是当前时刻的而不是一段时间的。因此,我们更加喜欢前面两种状态表述中的第二种,采用一个时刻的位置和动量来代表系统的状态,而且这个状态还决定了这个系统的过去和将来。

如果我们对这样的一个经典粒子做测量的话,测量的图景非常简单。首先,我们需要确定一个测量的量[math]\displaystyle{ O }[/math],例如位置坐标、速度、能量等等。这些可以测量的量都是前面的位置和动量这两个基本量的函数。因此,这里我们就以位置坐标的某一个分量的测量为例[math]\displaystyle{ O=x }[/math]。接着,我们需要有一个测量仪器[math]\displaystyle{ A }[/math],这个仪器能够根据位置的不同而得到不同的读数。也就是说,这个仪器与所测量的状态之间可以建立某种关联[math]\displaystyle{ A_{x} = A\left(x\right) }[/math]。这个关联的建立本质上也应该是一个物理过程,但是我们在这里不再关心这个具体的物理过程,仅仅当作抽象的一个关联。最后,我们通过观察仪器上的读数[math]\displaystyle{ A_{x^{*}} }[/math]来确定所测量的量的值[math]\displaystyle{ O=x^{*} }[/math]。例如,如果映射[math]\displaystyle{ A\left(x^{*}\right) }[/math]可逆,则通过[math]\displaystyle{ A^{-1}\left(A_x^{*}\right) }[/math]我们得到[math]\displaystyle{ x^{*} }[/math]

于是,我们发现,在测量之前,系统的被观测量的值是[math]\displaystyle{ x^{*} }[/math],在测量之后是[math]\displaystyle{ x^{*} }[/math],测量得到的值也是[math]\displaystyle{ x^{*} }[/math]。我们对这个“测量”过程的“理解”感到满意,因为看起来这真的就是一个测量:不改变系统的被观测量的状态,仅仅是得到这个被观测量的值,测量的之前之后都一样。在实际实验中,这样的完全不改变被侧量值的测量也是做得到的,尽管有的时候也会引起被测量值的一个小小的改变。后者不是原理上要求这样,仅仅是受到技术上的可能性的制约。通常通过把被测量量耦合到另外一个可以改变和破坏的自由度上去,通过观察代表那个自由度的变量的取值,我们是可以做到完全不影响被测量量的。你可能觉得所有的测量都应该满足上面的观测之前的量、观测所得记录和观测之后的量之间的关系,因此觉得上面的讨论没有必要。把这个疑虑先放在脑子里,我们很快就会回到这个问题。

现在我们已经讨论了经典粒子的状态和状态的测量的数学模型。为了完整地建立经典粒子的数学模型,其实我们还需要讨论经典粒子是如何演化的。不过,如何理解演化相对来说是一个平庸的问题。这里就不详细展开了。简单来说,就是粒子受到外界对它的影响或者作用,在这个影响下,粒子的状态[math]\displaystyle{ \left(\vec{r},\vec{p}\right) }[/math]会发生变化。在影响因素和如何变化之间应该存在着一个关系,这个关系通常就叫做运动方程,例如Newton方程, [math]\displaystyle{ \begin{aligned} \left(\vec{r}\left(t_{0}\right),\vec{p}\left(t_{0}\right)\right) \xrightarrow[]{\text{Newton Equation}} \left(\vec{r}\left(t\right),\vec{p}\left(t\right)\right).\end{aligned} }[/math] Newton方程的具体形式暂时我们不关心。

波动力学的图景是建立在上面这个经典粒子的状态和测量的图景的基础上的。经典波实际上是一系列粒子的运动的整体表现,例如[math]\displaystyle{ \vec{r}_{1}\left(t\right), \vec{r}_{2}\left(t\right), \cdots, \vec{r}_{N}\left(t\right) }[/math],以及从有限[math]\displaystyle{ N }[/math]个离散脚标变成连续的脚标[math]\displaystyle{ \vec{r}\left(x,t\right) }[/math]。每一个在[math]\displaystyle{ x }[/math]点的粒子仅仅在它自己的平衡位置附近运动,不会沿着波的方向传播。波传播的不是粒子而是振动的状态,称为相位——把一个周期的振动看作一个[math]\displaystyle{ 2\pi }[/math]的弧度,把其中任何一个点的振动状态对应于一个[math]\displaystyle{ \theta\in\left[0,2\pi\right] }[/math]。然后就是这个[math]\displaystyle{ \theta }[/math]角的状态在沿着波传播——一般情况下写成[math]\displaystyle{ \vec{r}\left(x,t\right) = \vec{A}\cos{\left(\theta\left(x,t\right)\right)} }[/math]。有的时候[math]\displaystyle{ \theta\left(x,t\right)=kx+\omega t }[/math]。例如,波谷的时候就相当于[math]\displaystyle{ \theta=\pi }[/math],波峰的时候就相当于[math]\displaystyle{ \theta=0 }[/math],然后这些波峰和波谷就可以沿着波传播。对于波上的任何一个单个的粒子来说,状态以及状态测量的问题自然就完全回到了上面的已经建立的单个粒子的状态和状态测量的物理图景。演化问题稍微复杂一点,因为这个时候,周围的粒子对这个“单个”粒子是有相互作用的。于是,其演化方程——称为波动方程,尽管实际上还是Newton方程,会出现看起来与Newton方程不一样的自己的独特的形式。 [math]\displaystyle{ \begin{aligned} \vec{r}\left(x,t_{0}\right) \xrightarrow[]{\text{Wave Equation (Newton Equation)}} \vec{r}\left(x,t\right).\end{aligned} }[/math] 波动方程的具体形式暂时我们不关心。

对于这样的一个波来说,如果存在两个波源一起来驱动某个点——例如一条绳子的两端同时被两个人拿着然后上下振动——那么自然这个点的运动模式是两个源独立传播过来那个振动状态的叠加。具体来说,就是在特定的时刻[math]\displaystyle{ t^{*} }[/math]在这个特定的点[math]\displaystyle{ x^{*} }[/math]上的粒子的状态满足 [math]\displaystyle{ \begin{aligned} \vec{r}\left(x^{*},t^{*}\right) = \vec{A}_{1}\cos{\left(\theta_{1}\left(x^{*},t^{*}\right)\right)} + \vec{A}_{2}\cos{\left(\theta_{2}\left(x^{*},t^{*}\right)\right)}. {\label{eq:WaveSuperPosition}}\end{aligned} }[/math] 这个称为波的叠加原理——实际上是不同的源驱动的波引起的同一个粒子的振动状态的位置矢量的叠加。这个叠加的物理基础是力的叠加和Newton定律:从 [math]\displaystyle{ \begin{aligned} \vec{F}= \vec{F}_{1}+\vec{F}_{2},\end{aligned} }[/math] 得到 [math]\displaystyle{ \begin{aligned} \vec{a}= \vec{a}_{1}+\vec{a}_{2}.\end{aligned} }[/math] 于是,对于同一个点同一个初始条件,我们得到公式[math]\displaystyle{ \left(\ref{eq:WaveSuperPosition}\right) }[/math]

注意,这个叠加就好像是你的妈妈给你[math]\displaystyle{ A_{1} }[/math]的零花钱,你的爸爸再给你[math]\displaystyle{ A_{2} }[/math]的零花钱,合起来你得到的的零花钱是[math]\displaystyle{ A_{1}+A_{2} }[/math]。这个加法不代表这两件事情——妈妈给你钱和爸爸给你钱——可以加起来,也不代表这两份钱——例如两张十元的纸币(两张十元的纸币加起来肯定不是一张二十元纸币)——可以加起来,仅仅是钱的数值可以加起来。如果有一天,有人告诉你,这两张十块钱真的可以加起来,加起来以后得到一张钱,而且这张钱的面值是三块或者一百块,那么,你会觉得这个不是世界疯了就是那个这样告诉你的人疯了。而不久以后我们就要遇到这样的加法了:一个左边缺了一点的苹果加上一个右边缺了一点的苹果,竟然成了一个香蕉,竟然可以加起来。这就是本书封面图的来源。

有了这个基于位置矢量的数值的叠加原理的波的叠加原理,这个叠加之后的状态的点的测量就回到了单个粒子的测量的问题。所以,确定性的经典粒子和经典波的状态、状态的测量、状态的演化的数学模型就都归结到这一节一开始的时候我们介绍的图景:状态是欧氏空间的点,测量是一个状态、测量量、仪器和仪器读数这几个东西相互关联的过程——这个过程中,理论上,测量前后不改变被测量量的状态仅仅读出被测量量的值,演化就是状态的变化与系统内部各个部分之间相互影响以及外界对系统的影响的联系。

经典世界的随机性的数学模型

上一节,我们讨论了确定性经典粒子和经典波的状态、测量和状态演化的数学模型。这一节,我们来讨论随机性的经典粒子的数学模型。

让我们从一个简单的事件的数学模型开始:什么是一个色子的数学模型?对于一个色子,我们通常只关心其向上的面的状态,也就是那个向上的数字。我们知道这个数字必然是[math]\displaystyle{ \left\{1,2,3,4,5,6\right\}\triangleq \Omega }[/math]之一。于是,我们知道了这个状态构成一个集合。然后,对于这个色子,在现实中,我们可以问各种各样的问题,例如状态是[math]\displaystyle{ 1 }[/math]的几率是多少。这个时候几率的含义往往是指,统计上,如果扔很多很多次,合起来看出现的频率。我们还可以问状态是奇数的几率是多少。其实,我们可以问任何一个[math]\displaystyle{ \Omega }[/math]的子集所代表的事件出现的几率是多少这样的问题。于是,我们发现,我们感兴趣的有关色子的“事件”实际上就是[math]\displaystyle{ \Omega }[/math]的所有子集的集合[math]\displaystyle{ \left\{A{\left|}{\right.}A\subseteq \Omega \right\}\triangleq\mathcal{T} }[/math]。进一步,我们关心的问题则是这样的事件[math]\displaystyle{ A }[/math]的几率是多少,也就是一个从[math]\displaystyle{ \mathcal{T} }[/math][math]\displaystyle{ \left[0,1\right] }[/math]的映射,其把任何一个[math]\displaystyle{ A }[/math]对应到一个[math]\displaystyle{ 0,1 }[/math]之间的数字[math]\displaystyle{ P\left(A\right) }[/math]

在这里,我们首先把有关色子的状态所有的问题数学化了。接着,我们要寻找这个数学问题的数学答案。然后,我们还可以接着问这个色子的进一步的问题,例如,如果这个色子的状态发生变化,如何用数学模型描述这个变化,以及如何找到这个变化发生的物理原因。后面的这个问题,我们暂时不讨论。在此,我们仅回答如何表述状态和如何形式上描述测量,也就是说,我们要给定一套规则,这套规则能够计算任意事件[math]\displaystyle{ A }[/math]的几率[math]\displaystyle{ P\left(A\right) }[/math]。我们说这个答案非常简单,就是对于[math]\displaystyle{ \Omega }[/math]中的任意元素[math]\displaystyle{ \omega }[/math],先给定所有的[math]\displaystyle{ P\left(\left\{\omega\right\}\right) }[/math],然后对于任意的集合[math]\displaystyle{ A }[/math],我们按照如下规则计算:[math]\displaystyle{ P\left(A\right)=\sum_{\omega \in A} P\left(\left\{\omega\right\}\right) }[/math]。对于我们的理想的色子,我们取[math]\displaystyle{ P\left(\left\{\omega\right\}\right)=\frac{1}{6}, \forall \omega \in \Omega }[/math]。如果你对以上关于色子的概率模型的集合论语言非常不熟悉,请参考本书第[Chap:CPT]章,或者的《概率论导引》或者的《伊藤清概率论》。

总结一下,对于理想的色子——这个色子可能与真实世界的色子略有区别,不过这个区别可以通过修正下面的具体的数字来反映——我们的数学模型非常简单, [math]\displaystyle{ \begin{aligned} P\left(A\right)=\sum_{\omega \in A} P\left(\left\{\omega\right\}\right), \forall A \subseteq \Omega; P\left(\left\{\omega\right\}\right)=\frac{1}{6}, \forall \omega \in \Omega. {\label{eq:die}}\end{aligned} }[/math] 或者运用我们将要在第[Chap:CPT]章中学习到的密度矩阵的语言, [math]\displaystyle{ \begin{aligned} P\left(A\right)=tr\left(\hat{A}\rho^{c}\right), \hat{A}=\sum_{\omega\in A}{\left|}\omega{\right\rangle}{\left\langle}\omega{\right|}, \rho^{c} = \frac{1}{6}\sum_{\omega=1}^{6}{\left|}\omega{\right\rangle}{\left\langle}\omega{\right|}.\end{aligned} }[/math] 例如,当[math]\displaystyle{ A={\left|}1{\right\rangle}{\left\langle}1{\right|} }[/math]的时候,我们问的是事件“色子状态是面[math]\displaystyle{ 1 }[/math]向上”的几率是多少。于是,按照一般概率论的语言, [math]\displaystyle{ \begin{aligned} P\left(1\right)=\sum_{\omega \in \left\{1\right\}} P\left(\left\{\omega\right\}\right)=\frac{1}{6},\end{aligned} }[/math] 或者按找密度矩阵的语言 [math]\displaystyle{ \begin{aligned} P\left({\left|}1{\right\rangle}{\left\langle}1{\right|}\right)=tr\left({\left|}1{\right\rangle}{\left\langle}1{\right|}\rho^{c}\right)={\left\langle}1{\right|}\rho^{c} {\left|}1{\right\rangle}= \frac{1}{6}.\end{aligned} }[/math]

更一般地,如果你需要测量一个可观测量[math]\displaystyle{ O }[/math],它是核心是一个[math]\displaystyle{ \omega }[/math]的函数[math]\displaystyle{ O\left(\omega\right) }[/math](例如根据色子的每一面的值你可以赢得不同数量的钱),那么,按照通常概率论的语言 [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= \sum_{\omega}O\left(\omega\right)P\left(\left\{\omega\right\}\right),\end{aligned} }[/math] 或者相应地按照密度矩阵的语言, [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= tr\left(\hat{O}\rho^{c}\right), \hat{O}=\sum_{\omega} O\left(\omega\right){\left|}\omega{\right\rangle}{\left\langle}\omega{\right|}.\end{aligned} }[/math] 一句话,色子的状态就是 [math]\displaystyle{ \begin{aligned} \rho^{c} = \frac{1}{6}\sum_{\omega=1}^{6}{\left|}\omega{\right\rangle}{\left\langle}\omega{\right|}, {\label{eq:rhodie}}\end{aligned} }[/math] 可观测量是算符(例如前面的[math]\displaystyle{ \hat{A} }[/math][math]\displaystyle{ \hat{O} }[/math]),然后,观测以后得到的结果就按照 [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= tr\left(\hat{O}\rho^{c}\right) {\label{eq:CPTtrace}}\end{aligned} }[/math] 来计算。

如果你问我“你怎么知道公式[math]\displaystyle{ \left(\ref{eq:die}\right) }[/math]或者等价的公式[math]\displaystyle{ \left(\ref{eq:rhodie}\right) }[/math] 这个数学描述就是色子的本质”,我拒绝回答。我仅仅能够告诉你,利用这个数学结构计算出来的任何结果,都可以通过实验的检验。如果你问我“你是否喜欢这个色子的数学模型”,我也拒绝回答。我还是仅仅能够告诉你,利用这个数学结构计算出来的任何结果,都可以通过实验的检验。

当然,我们的数学模型在几个层次都允许这个描述不成立的规则,例如,我们可以破坏公式[math]\displaystyle{ \left(\ref{eq:die}\right) }[/math]的后半部分,允许[math]\displaystyle{ P\left(\left\{\omega\right\}\right)\neq \frac{1}{6} }[/math]。这个时候,我们需要实验证据来证明这个色子的行为其实更符合在这些新的不等于[math]\displaystyle{ \frac{1}{6} }[/math]的数字下面得到的结果。如果成立,那么,我们放弃[math]\displaystyle{ P\left(\left\{\omega\right\}\right)=\frac{1}{6} }[/math]。这样的话,我们的模型的细节被证伪了,我们修改,但是整个把概率结构作为色子的行为的描述的数学框架还是对的。破坏[math]\displaystyle{ P\left(\left\{\omega\right\}\right)=\frac{1}{6} }[/math]还有别的方法,就是[math]\displaystyle{ P\left(\left\{\omega\right\}\right) }[/math]不再是一个简单的数了,整个就不能用实数来表达了。实际上,一种这样的修改就是考虑[math]\displaystyle{ \Omega }[/math]是一个连续集合而不是离散元素的集合。这个修改,如果我们色子的行为确实需要也是可以的。注意,到此为止,我门一直保留了公式[math]\displaystyle{ \left(\ref{eq:die}\right) }[/math]的前半部分,有关取和的部分,当然必要的时候可以成为积分。

我们也可以破坏公式[math]\displaystyle{ \left(\ref{eq:die}\right) }[/math]的前半部分,允许[math]\displaystyle{ P\left(A\right)\neq \sum_{\omega \in A} P\left(\left\{\omega\right\}\right) }[/math]。这个修改的含义是,在我们保持[math]\displaystyle{ P\left(\left\{\omega\right\}\right) }[/math]是一个简单的实数的前提下,我们的事件集合的概率不再是集合中每一种可能的事件的概率的和了。这样的修改在色子这个现实世界的物体上,是不可理解的。这个修改实际上就破换了整个概率论的核心——互斥事件的加法是概率论这个数学结构的基本公理之一。当然,如果我们的“色子”的行为确实不能够由前面的公式[math]\displaystyle{ \left(\ref{eq:die}\right) }[/math]数学模型描述,也不能在更一般的允许[math]\displaystyle{ P\left(\left\{\omega\right\}\right) }[/math]取值的数学模型描述,也不能由仅保留公式[math]\displaystyle{ \left(\ref{eq:die}\right) }[/math]的前半部分,把后半部分整个抛弃然后用连续变量来代替的更更一般的理论来描述,那么,我们也可以突破整个概率论的描述框架。不过,迄今为止,对于色子,我们总是可以保留整体框架,最多修改一下[math]\displaystyle{ P\left(\left\{\omega\right\}\right) }[/math]的取值,就可以描述其行为了。

讨论了状态和状态的测量之后,我们再来讨论一下测量后状态和状态的演化。首先,测量后状态,当测量值为[math]\displaystyle{ O^{*} }[/math]的时候,根据[math]\displaystyle{ \omega^{*}=O^{-1}\left(O^{*}\right) }[/math],为 [math]\displaystyle{ \begin{aligned} \rho^{c}_{af} = {\left|}\omega^{*}{\right\rangle}{\left\langle}\omega^{*}{\right|}= {\left|}O^{*}{\right\rangle}{\left\langle}O^{*}{\right|}.\end{aligned} }[/math] 其次演化的过程肯定是从一个密度矩阵到另一个密度矩阵的映射, [math]\displaystyle{ \begin{aligned} \rho^{c}\left(t\right) = L\left(t,t_{0}\right)\rho^{c}\left(t_{0}\right).\end{aligned} }[/math] 其中[math]\displaystyle{ L\left(t,t_{0}\right) }[/math]由外界对这个系统的相互作用以及这个系统的内部结构来决定。例如,在概率论和随机过程的课程里面,我们可能学到过概率转移矩阵, [math]\displaystyle{ \begin{aligned} P\left(t\right) = M\left(t,t_{0}\right) P\left(t_{0}\right).\end{aligned} }[/math] 这里,运用密度矩阵的语言(见本书第[Chap:CPT]章),有可能我们可以把演化过程表达成为 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(t\right) = U\left(t,t_{0}\right)\rho^{c}\left(t_{0}\right)U^{\dag}\left(t,t_{0}\right).\end{aligned} }[/math]

下面举一个硬币翻转的例子来展示状态、状态的演化,测量和测量后状态。

[硬币翻转的动力学过程的密度矩阵描述] :有一个硬币每一个单位时间以后都会被翻转。写下这个动力学过程的普通概率论形式和密度矩阵形式的表达式。假设我们测量硬币的正面还是反面,然后当是硬币正面的时候赋值为[math]\displaystyle{ 1 }[/math](得到一个单位的钱),反之为[math]\displaystyle{ -1 }[/math]。写下这个测量的算符,测量值和测量后状态。

硬币的状态可以采用两种表示方法,概率矢量 [math]\displaystyle{ \begin{aligned} P = \left[\begin{array}{c}p\\1-p\end{array}\right],\end{aligned} }[/math] 或者概率矩阵, [math]\displaystyle{ \begin{aligned} \rho^{c} = \left[\begin{array}{cc}p & 0 \\ 0 & 1-p\end{array}\right]. {\label{eq:CoinBeforeMeasurement}}\end{aligned} }[/math] 翻转操作是算符 [math]\displaystyle{ \begin{aligned} X = \left[\begin{array}{cc}0 & 1 \\ 1 & 0\end{array}\right].\end{aligned} }[/math] 翻转过程可以表示为 [math]\displaystyle{ \begin{aligned} P\left(t+1\right) = XP\left(t\right),\end{aligned} }[/math] 或者 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(t+1\right) = X\rho^{c}\left(t\right)X^{\dag}.\end{aligned} }[/math] 测量的可观测量是算符 [math]\displaystyle{ \begin{aligned} Z = \left[\begin{array}{cc}1 & 0 \\ 0 & -1\end{array}\right],\end{aligned} }[/math] 相当于 [math]\displaystyle{ \begin{aligned} \hat{Z} = 1\cdot {\left|}\uparrow{\right\rangle}{\left\langle}\uparrow {\right|}+ \left(-1\right)\cdot {\left|}\downarrow{\right\rangle}{\left\langle}\downarrow {\right|}.\end{aligned} }[/math] [math]\displaystyle{ {\left|}\uparrow{\right\rangle}{\left\langle}\uparrow {\right|} }[/math][math]\displaystyle{ {\left|}\downarrow{\right\rangle}{\left\langle}\downarrow {\right|} }[/math]分别代表正面和反面。对于这个可观测量,有两个可能的观测值[math]\displaystyle{ 1 }[/math][math]\displaystyle{ -1 }[/math],其概率分别为 [math]\displaystyle{ \begin{aligned} P_{\uparrow} = tr\left(\rho^{c}{\left|}\uparrow{\right\rangle}{\left\langle}\uparrow {\right|}\right)=p, \/ P_{\downarrow} = tr\left(\rho^{c}{\left|}\downarrow{\right\rangle}{\left\langle}\downarrow {\right|}\right)=1-p.\end{aligned} }[/math] 所以测量的平均值是, [math]\displaystyle{ \begin{aligned} z=1p+\left(-1\right)\left(1-p\right) = 2p-1 = tr\left(\hat{Z}\rho^{c}\right).\end{aligned} }[/math] 当我们观测到测量值的状态——例如[math]\displaystyle{ -1 }[/math]——的时候,测量后状态是 [math]\displaystyle{ \begin{aligned} \rho^{c}_{af} = {\left|}\downarrow{\right\rangle}{\left\langle}\downarrow {\right|}. {\label{eq:CoinAfterMeasurement}}\end{aligned} }[/math]

这个就是作为经典随机对象的硬币的数学模型的所有的内涵。讨论完了色子和硬币这两个具体的模型,我们顺便指出,确定性的经典系统也可以采用概率模型来描述——只不过,这个时候,任何时候的分布函数就是一个[math]\displaystyle{ \delta }[/math]分布:只在一个状态上取值,其它地方的概率取值都是[math]\displaystyle{ 0 }[/math]。这个就好像是或者一样。因此,通常认为,经典世界的数学模型的底线就是概率模型:有一个基本事件集合,这个集合的部分子集构成一个事件集合,然后从事件集合到[math]\displaystyle{ \left[0,1\right] }[/math]有一个映射,这个映射遵循互斥事件的加法规则。其实,还有几个其它的要求,请参阅概率论的公理体系,也可以参考本书第[Chap:CPT]章的概率论部分。

或者用密度矩阵的语言,经典世界的数学模型就是:状态是一个对角的密度矩阵[math]\displaystyle{ \rho^{c} }[/math],可观测量是对角的算符[math]\displaystyle{ \hat{O} }[/math],测量得到的平均值就是按照公式[math]\displaystyle{ \left(\ref{eq:CPTtrace}\right) }[/math]计算的到的[math]\displaystyle{ tr\left(\rho^{c}\hat{O}\right) }[/math],观测到可观测量某一个值[math]\displaystyle{ o^{*} }[/math]的几率是[math]\displaystyle{ tr\left(\rho^{c}{\left|}o^{*} {\right\rangle}{\left\langle}o^{*} {\right|}\right) }[/math],当观测到这个具体的值之后,系统的观测后状态是[math]\displaystyle{ {\left|}o^{*}{\right\rangle}{\left\langle}o^{*} {\right|} }[/math]。一句话来概括:测量之前是[math]\displaystyle{ \rho^{c} }[/math](如果测量[math]\displaystyle{ O }[/math],可能得到多个结果),当测量得到的值是[math]\displaystyle{ o^{*} }[/math]的时候,测量之后的状态是[math]\displaystyle{ {\left|}o^{*}{\right\rangle}{\left\langle}o^{*} {\right|} }[/math];如果需要考虑演化,则[math]\displaystyle{ \rho^{c}\left(t\right)=L\left(t, t_{0}\right)\rho^{c}\left(t_{0}\right) }[/math]。对于随机客体,测量前后状态至少数学形式上看起来可以不同,例如公式[math]\displaystyle{ \left(\ref{eq:CoinBeforeMeasurement}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:CoinAfterMeasurement}\right) }[/math]。这一点和经典确定性客体的数学模型不一样。不过,上面的数学模型可以统一描述确定性和随机的客体的状态、测量和演化。

有了这个确定性的和随机性的经典世界的数学模型,我们来看一看能不能构建一个量子世界的数学模型,让我们的数学结构能够描述量子系统的行为,包含典型的上一章介绍过的所有的量子实验的结果。

理论描述的目标:前后两次测量的关联

[sec:Classical_r1r2Final]

第[Chap:Exp]章,我们已经展示了通常的经典粒子和经典波的理论都不能解释量子系统的行为。现在我们来尝试构造各种更加一般的经典理论,只要满足经典理论的底线——还是一个概率论理论——的经典理论,看看能不能有这样的理论可以解释量子行为。

我们希望找到一个数学模型来解释的现象是这样的。第一步,制备一个特定的状态:让自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置然后挡住向下的方向,仅仅让向上的方向出来的自旋进入下一步实验。第二步,做这个状态的[math]\displaystyle{ \hat{r}_{1} }[/math]方向的测量:让自旋接着经过一个[math]\displaystyle{ \hat{r} }[/math]方向Stern-Gerlach装置然后看看向上还是向下能够接收到自旋,记录单次的结果和多次以后的统计平均。第三步,再做这个从[math]\displaystyle{ \hat{r}_{1} }[/math]出来的自旋的[math]\displaystyle{ \hat{r}_{2} }[/math]方向的测量:让自旋接着经过一个[math]\displaystyle{ \hat{r}_{2} }[/math]方向Stern-Gerlach装置然后看看向上还是向下能够接收到自旋,记录单次的结果和多次以后的统计平均。

这个里面其实有一些技术问题,例如经过[math]\displaystyle{ \hat{r}_{1} }[/math]被测量的自旋如何再次被在[math]\displaystyle{ \hat{r}_{2} }[/math]方向上测量,多少次才是足够多次以至于可以来计算统计平均。但是,在这里,我们假设这些技术问题总是可以解决的,而不关心它们。这个多次制备同样的系统来做同样的测量并计算均值的过程被称为系综测量。系综就是多个相同的系统的集合的意思。我们用系综测量来区分再次测量——对于已经完成第一次测量的系统再一次在前一次测量结束之后的系统状态上马上做再一次的测量。用系综测量和再次测量这两个术语比用含义稍微模糊一点的重复测量要好。

将来构造出来的理论必须能够描述的实验结果是这样的。经过[math]\displaystyle{ \hat{r}_{1} }[/math]方向的测量给出来的结果是,单次测量的结果要么向上(记为[math]\displaystyle{ s_{\hat{r}_{1}}=1 }[/math])要么向下(记为[math]\displaystyle{ s_{\hat{r}_{1}}=-1 }[/math]),多次统计平均得到向上和向下的几率分别是[math]\displaystyle{ p_{\uparrow_{\hat{r}_{1}}}= \frac{1+\hat{z}\cdot \hat{r}_{1}}{2}, p_{\downarrow_{\hat{r}_{1}}}= \frac{1-\hat{z}\cdot \hat{r}_{1}}{2} }[/math],也就是 [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}} {\right\rangle}= \hat{z}\cdot \hat{r}_{1}, \mbox{ } s_{\hat{r}_{1}}=\pm 1. {\label{eq:r1measure}}\end{aligned} }[/math] 再做[math]\displaystyle{ \hat{r}_{2} }[/math]方向的测量,如果之前测量得到的是[math]\displaystyle{ s_{\hat{r}_{1}}=1 }[/math],那么给出来的结果是,单次测量的结果要么向上(记为[math]\displaystyle{ s_{\hat{r}_{2}}=1 }[/math])要么向下(记为[math]\displaystyle{ s_{\hat{r}_{2}}=-1 }[/math]),多次统计平均得到向上和向下的几率分别是[math]\displaystyle{ p_{\uparrow_{\hat{r}_{2}}}= \frac{1+\hat{r}_{1}\cdot \hat{r}_{2}}{2}, p_{\downarrow_{\hat{r}_{1}}}= \frac{1-\hat{r}_{1}\cdot \hat{r}_{2}}{2} }[/math],也就是 [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{2}} {\right\rangle}= \hat{r}_{1}\cdot \hat{r}_{2}, \mbox{ } s_{\hat{r}_{2}}=\pm 1. {\label{eq:r2measure1}}\end{aligned} }[/math] 如果之前测量得到的是[math]\displaystyle{ s_{\hat{r}_{1}}=-1 }[/math],那么给出来的结果是,单次测量的结果要么向上(记为[math]\displaystyle{ s_{\hat{r}_{2}}=1 }[/math])要么向下(记为[math]\displaystyle{ s_{\hat{r}_{2}}=-1 }[/math]),多次统计平均得到向上和向下的几率分别是[math]\displaystyle{ p_{\uparrow_{\hat{r}_{2}}}= \frac{1-\hat{r}_{1}\cdot \hat{r}_{2}}{2}, p_{\downarrow_{\hat{r}_{2}}}= \frac{1+\hat{r}_{1}\cdot \hat{r}_{2}}{2} }[/math],也就是 [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{2}} {\right\rangle}= -\hat{r}_{1}\cdot \hat{r}_{2}, \mbox{ } s_{\hat{r}_{2}}=\pm 1. {\label{eq:r2measure2}}\end{aligned} }[/math] 把上面的两种情况合起来,计算一下关联函数([math]\displaystyle{ {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= p_{\uparrow_{\hat{r}_{1}}}1\times \hat{r}_{1}\cdot \hat{r}_{2} + p_{\downarrow_{\hat{r}_{1}}}\left(-1\right)\times\left(-\hat{r}_{1}\cdot \hat{r}_{2}\right) }[/math]),我们得到, [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= \hat{r}_{1}\cdot \hat{r}_{2}, \mbox{ } s_{\hat{r}_{1}}s_{\hat{r}_{2}}=\pm 1. {\label{eq:r1r2}}\end{aligned} }[/math] 注意到公式[math]\displaystyle{ \left(\ref{eq:r1measure}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:r2measure1}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:r2measure2}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:r1r2}\right) }[/math]之间具有内部相似性(例如,公式[math]\displaystyle{ \left(\ref{eq:r1measure}\right) }[/math]左边默认了[math]\displaystyle{ s_{z}=1 }[/math]公式[math]\displaystyle{ \left(\ref{eq:r2measure2}\right) }[/math]左边默认了[math]\displaystyle{ s_{\hat{r}_2}=-1 }[/math]),它们可以统一表达成 [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= \hat{r}_{1}\cdot \hat{r}_{2}, \mbox{ } s_{\hat{r}_{i}}=\pm 1. {\label{eq:r1r2Final}}\end{aligned} }[/math] 这个结果涵盖了上面的初次测量的一次和系综测量的结果,也就是公式[math]\displaystyle{ \left(\ref{eq:r1measure}\right) }[/math],以及再次测量的一次和系综测量的结果,也就是公式[math]\displaystyle{ \left(\ref{eq:r2measure1}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:r2measure2}\right) }[/math]。因此,我们所谓的构造一个理论模型希望能够解释量子系统的行为,就是指公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]。注意,在这个统一公式的过程中,我们还把制备的过程——先让系统通过[math]\displaystyle{ z }[/math]方向,选择向上的进入实验——和后面的测量[math]\displaystyle{ \hat{r}_{1} }[/math]逻辑上等同了起来。

注意,对于已经学习过算符形式的量子力学的读者,这里[math]\displaystyle{ s_{\hat{r}_{1}}, s_{\hat{r}_{2}} }[/math]仅仅表示做[math]\displaystyle{ \hat{r}_{1}, \hat{r}_{2} }[/math]方向得到的测量结果的值([math]\displaystyle{ \pm 1 }[/math]),而不是这个方向的自旋算符。因此,[math]\displaystyle{ s_{\hat{r}_{1}}s_{\hat{r}_{2}} }[/math]也仅仅表示两个测量得到的值的乘积而不是两个算符的乘积。将来我们可以验算(见习题[math]\displaystyle{ \ref{hw:s1s2} }[/math]),如果是算符,公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]是不成立的。

我们所谓的构造一个理论模型就是给出来制备或者测量结束以后的状态的数学表达以及应该对这些状态做什么样的数学计算才能够得到测量的结果也就是公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math],例如这样的形式理论, [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= \sum_{s_{\hat{r}_{1}}=\pm 1, s_{\hat{r}_{2}}=\pm 1} s_{\hat{r}_{1}}s_{\hat{r}_{2}}\rho\left(s_{\hat{r}_{1}}|0\right)\rho\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right). {\label{eq:classicalr1r2}}\end{aligned} }[/math] 其中[math]\displaystyle{ \rho\left(s_{\hat{r}_{1}}|0\right) }[/math]是给定某个初始状态[math]\displaystyle{ 0 }[/math]以后的[math]\displaystyle{ s_{\hat{r}_{1}} }[/math]的分布函数,[math]\displaystyle{ \rho\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right) }[/math]是给定第一次测量结果是[math]\displaystyle{ s_{\hat{r}_{2}} }[/math]以后的[math]\displaystyle{ s_{\hat{r}_{2}} }[/math]的分布函数。用密度矩阵的语言,上式可以写成, [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= \sum_{s_{\hat{r}_{1}}=\pm 1, s_{\hat{r}_{2}}=\pm 1} s_{\hat{r}_{1}}s_{\hat{r}_{2}}{\left\langle}s_{\hat{r}_{1}} {\right|}\hat{\rho}\left(0\right) {\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{2}} {\right|}\hat{\rho}\left(s_{\hat{r}_{1}}\right){\left|}s_{\hat{r}_{2}} {\right\rangle}. {\label{eq:classicalr1r2_DM}}\end{aligned} }[/math] 现在我们的目标就是写下来经典密度矩阵[math]\displaystyle{ \hat{\rho}\left(0\right) }[/math][math]\displaystyle{ \hat{\rho}\left(s_{\hat{r}_{1}}\right) }[/math]的显式表达式来或者证明不可能写下来这样的经典密度矩阵。

很容易可以证明[math]\displaystyle{ \hat{\rho}\left(s_{\hat{r}_{1}}\right) }[/math]必然依赖于[math]\displaystyle{ s_{\hat{r}_{1}} }[/math],否则,我们就会得到 [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= {\left\langle}s_{\hat{r}_{1}}{\right\rangle}{\left\langle}s_{\hat{r}_{2}} {\right\rangle},\end{aligned} }[/math] 而这个和实验不相符。这个说明前一次测量的结果改变了状态,而后一次测量的结果依赖于这个改变。这样才造成前后两次的关联。

将来在[math]\displaystyle{ \ref{sec:Quantum_r1r2Final} }[/math]我们会看到,量子力学是能够给出来这些情况下的状态的描述以及应该做什么样的计算来得到公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]的,见公式[math]\displaystyle{ \left(\ref{eq:Quantum_r1r2Final}\right) }[/math]。在那里([math]\displaystyle{ \ref{sec:Quantum_r1r2Final} }[/math])我们还将会对这个形式上的理论做进一步的讨论。

这个前后两次测量的关联性非常重要。这一章的主题相当于是讨论满足这个关联性的经典理论的可能性。将来在第[Chap:Bell]章中,我们将对这个可能性做另外一个角度的讨论。在那里前后两次测量的关联被替换成两个“纠缠在一起”的自旋的关联。

除了直接把[math]\displaystyle{ s_{\hat{r}_{1}}, s_{\hat{r}_{2}} }[/math]当做随机变量的经典理论,提出来还有可能可以考虑一个更复杂的“”——[math]\displaystyle{ s_{\hat{r}_{1}}, s_{\hat{r}_{2}} }[/math]不直接是随机变量,它们是更基本的随机变量(记为[math]\displaystyle{ \lambda_{1}, \lambda_{2} }[/math])的函数。沿着这个思路,公式[math]\displaystyle{ \left(\ref{eq:classicalr1r2_DM}\right) }[/math]可以成为, [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}= \int\int d\lambda_{1} d\lambda_{2} s\left(\hat{r}_{1}, \lambda_{1}\right)s\left(\hat{r}_{2}, \lambda_{2}\right){\left\langle}\lambda_{1} {\right|}\hat{\rho}\left(0\right) {\left|}\lambda_{1} {\right\rangle}{\left\langle}\lambda_{2} {\right|}\hat{\rho}\left(\lambda_{1}\right){\left|}\lambda_{2} {\right\rangle}. {\label{eq:HVT}}\end{aligned} }[/math] 原则上,我们也需要讨论是否可以构建出来公式[math]\displaystyle{ \left(\ref{eq:HVT}\right) }[/math]中的[math]\displaystyle{ \hat{\rho}\left(0\right), \hat{\rho}\left(\lambda_{1}\right) }[/math]来得到公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]。其中[math]\displaystyle{ s\left(\hat{r}_{1}, \lambda_{1}\right) }[/math]表示对这个随机变量做了[math]\displaystyle{ \hat{r}_{1} }[/math]方向的测量,得到结果是[math]\displaystyle{ s\left(\hat{r}_{1}, \lambda_{1}\right)\in \pm 1 }[/math],以及相应的随机变量在这个实现的样本中的取值是[math]\displaystyle{ \lambda_{1} }[/math]

讨论这个问题有两种方式:第一、构造出来这样的符合公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]的理论,然后讨论这个理论是否可以接受;第二、证明这样的理论在某些合理的要求下不可能符合公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]。这一章我们先尝试前者,在第[Chap:Bell]章我们来讨论后者。

量子系统的确定性经典理论的尝试

首先,我们来看一下概率理论的特殊情况——确定性的经典理论——是否能够描述量子系统的行为。所谓确定性在这里就是每时每刻系统的密度矩阵,或者说密度分布函数,都是一个[math]\displaystyle{ \delta }[/math]函数:仅在某一个状态上取值,几率为[math]\displaystyle{ 1 }[/math],其它可能的状态的取值几率都为[math]\displaystyle{ 0 }[/math]。我们以Stern-Gerlach装置的一系列实验为例。我们来看看一个未知状态的自旋通过[math]\displaystyle{ z }[/math]方向的磁场之后向上的那个状态的数学模型是什么?也就是取公式[math]\displaystyle{ \left(\ref{eq:classicalr1r2_DM}\right) }[/math]中的[math]\displaystyle{ 0 }[/math]状态为[math]\displaystyle{ z }[/math]方向向上,然后想办法写下来[math]\displaystyle{ \hat{\rho}\left(s_{z}=1\right) }[/math]。或者说,我们取[math]\displaystyle{ s_{\hat{r}_{1}}=1, \hat{r}_{1}=\hat{z} }[/math],然后我们想写下来[math]\displaystyle{ \hat{\rho}\left(s_{z}=1\right) }[/math]。首先,我们认为这个时候自旋的状态是明确的(不表示是确定性的,仅仅表示不管什么形式,这个形式是已经给定的),客观的,记为状态[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math]。数学形式到底怎样,我们暂时不知道。这个状态就在那里,不管是否被测量,不管被测量的可观测量是什么。这个客观性要求是可以被挑战的。但是,我们暂时不打算放弃这个客观性要求。

为什么[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math]是明确的呢?因为如果我们对这个状态再做一个[math]\displaystyle{ z }[/math]方向自旋的测量(让这个自旋再一次进入一个[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置),我们得到的结果是确定的,还是得到而且仅得到一个向上方向上的斑点。这个结果是可重复的,而且你可以尝试改变很多很多的其他条件来测试是否这个状态还依赖于其它未知变量。只要你保证自旋先从第一个[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置的向上方向出来(挡住向下的),那么当这个自旋再一次进入第二个[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置的时候,它还是从向上方向出来。按照我们经典世界的物理模型,这个自旋的[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math],就应该是 [math]\displaystyle{ \begin{aligned} \rho \triangleq {\left|}\uparrow_{z} {\right)}= {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}.\end{aligned} }[/math] 如果量子系统的行为就是这样的话,那么我们用确定性的经典力学就可以描述量子系统了,也就没有量子力学了。

幸好,或者不幸的是,量子系统的行为比这个远远复杂。我们说的量子系统的行为在这里指的是行为上符合公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math][math]\displaystyle{ \hat{r}_{1}=\hat{z} }[/math]。我们希望写下来从[math]\displaystyle{ \hat{z} }[/math]向上方向出来以后进入[math]\displaystyle{ \hat{r}_{2} }[/math]之前的状态的数学描述。其实连具体的那些概率的数值我们都不太关心,主要关心定性上有几个输出。

如果我们让这个[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math]的自旋进入一个[math]\displaystyle{ x }[/math]方向的Stern-Gerlach装置,我们发现这个时候会出现两个可能性,而且每一次单次的实验只能得到一个斑点,多次合起来以后得到两个斑点。得到这两个斑点中的任意一个的频率是一样的。这个就好像是一个完全随机的硬币一样,而硬币的状态的数学模型是 [math]\displaystyle{ \begin{aligned} \rho^{c} = p{\left|}\uparrow{\right\rangle}{\left\langle}\uparrow {\right|}+ \left(1-p\right){\left|}\downarrow{\right\rangle}{\left\langle}\downarrow {\right|}.\end{aligned} }[/math] 于是,从测量的结果来看,就算是对于一个明确的状态,[math]\displaystyle{ {\left|}\uparrow_{z} {\right)} }[/math],我们需要放弃确定性的理论,而转投随机性的理论。例如, [math]\displaystyle{ \begin{aligned} \rho = p{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ \left(1-p\right){\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}.\end{aligned} }[/math] 注意到之前我们用[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z}{\right|} }[/math]来表示这个状态,于是看起来 [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= p{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ \left(1-p\right){\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}.\end{aligned} }[/math] 实际上这个[math]\displaystyle{ x }[/math]方向可以任意取,实验都会得到两个可能的结果,只不过概率[math]\displaystyle{ p }[/math]的值依赖于所选择的方向。因此,这个关系需要对任何两个方向都对。这个可能吗? [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= p_{\hat{r}}{\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}+ \left(1-p_{\hat{r}}\right){\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}.\end{aligned} }[/math] 尤其是如果我们取[math]\displaystyle{ z }[/math]方向向下当作进入[math]\displaystyle{ x }[/math]方向的光子的状态,也会得到[math]\displaystyle{ x }[/math]方向两个方向都有斑点,并且几率一样,也就是 [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= p{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ \left(1-p\right){\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}, \\ {\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|}= p{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ \left(1-p\right){\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}.\end{aligned} }[/math] 这个可能吗?向上态就是向下态?将来在量子系统的量子力学模型里面我们会看到以上两行公式确实很像但是又不一样,同时和实验现象相符。目前的结果会导致看起来 [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= {\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|}。\end{aligned} }[/math] 这个可能吗?这里的[math]\displaystyle{ z }[/math]方向完全可以是任意方向。基于我们观察到有可能向上也有可能向下的两个方向的输出,我们想构建一个理论的目标也是将来给出一个某实验得到向上还是向下的结果。也就是说向上或者向下这两个方向的状态在我们的理论中是一定要区分的。如果我们沿着这个思路继续走下去,例如把[math]\displaystyle{ x }[/math]方向向上或者向下的状态相同代入到[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= p{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ \left(1-p\right){\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|} }[/math]里面,我们还会得到[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= {\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|} }[/math]。也就是任意方向的向上状态都相同。加上前面已经得到的某方向向上和向下状态相同,于是,任意方向任意状态都相同。这个可能吗?简单地说,给定[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|} }[/math],对两者做测量得到的结果不一样;给定[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|} }[/math][math]\displaystyle{ {\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|} }[/math],其结果也不一样。因此,这是不可能的。

上面的讨论是否说明了量子系统的确定性经典理论的不可能,同时,随机性的经典理论也不可能呢?

在回答这个问题之前,我们先停下来思考一下对经典随机性的认识角度:纯随机还是伪随机。实际上抛在空中以后落下来的硬币的状态,如果我们知道所有的信息——初始状态、空气阻力等等等等,其状态是可以通过经典力学计算出来的。因此,硬币的随机性实际上是一个本质上确定性的系统在信息不完全的条件下的有效形式,而不是最终形式。那么,是否上面这个形式上的随机性理论的要求,实际上也是由于信息不完全导致的呢?相信是这样的——“上帝不掷色子”。我们实验者看到了“色子”那是因为我们掌握的信息还不够充分。

也就是说,一个形式上的经典随机性理论,完全可能是一个经典确定性理论的信息不完全的时候的表现。实际上我们确实可以接受(或者不接受)这个“信念”。如果我们接受这个信念,那么关于量子系统的确定性的经典理论的寻求直接就成了“寻找一个形式上随机性的经典理论”。这个量子系统的随机性的经典理论的可能性就是我们下一节的主题,实际上这个可能性也是量子力学的研究的问题。如果你不接受这个信念,那么就把量子系统的确定性理论和量子系统的纯随机理论当作两个完全不同的可能的理论形式好了。在这个意义上,我们前面的讨论——给定确定的状态[math]\displaystyle{ \rho={\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|} }[/math]的情况下,测量得到的值和测量之后的状态可能是两个随机出现的结果([math]\displaystyle{ {\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|} }[/math][math]\displaystyle{ {\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|} }[/math])的一个——表明,量子系统的确定性理论是不可能的。同时,从实验结果推测出来[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}={\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|} }[/math]也表明,如果我们的事件集合仅仅有[math]\displaystyle{ \left\{{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}, {\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|}\right\} }[/math],那么,随机的经典理论也是不可能描述量子系统的行为的。于是,至少,我们需要考虑更复杂的时间集合,例如[math]\displaystyle{ \left\{{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}, {\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x}{\right|}, \cdots, {\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}}{\right|}, {\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}, \cdots\right\} }[/math]以及[math]\displaystyle{ \left\{{\left|}s_{x}\cdots s_{\hat{r}} \cdots{\right\rangle}{\left\langle}s_{x}\cdots s_{\hat{r}} \cdots{\right|}\right\} }[/math]。其中[math]\displaystyle{ s_{\hat{r}}=\pm 1 }[/math]

关于量子力学是否能够由确定性理论描述的问题,除了企图构造出这样的理论之外,我们还可以从另一个角度来讨论:确定性的理论必须满足什么特征,这些特征是否被量子系统的行为所遵循。这个等到在第[Chap:Bell]章讨论的时候再来讨论。在一篇Physics Today的科普性文章“Is the Moon There When Nobody Looks? Reality and the Quantum Theory”里面提供了另外一个经典确定性理论不可能描述量子系统的行为的证明:他设计了一个理想实验,构造了一个确定性经典模型,然后证明了无论这个经典模型的规则细节怎样,其理论结果永远不可能与其构造的理想实验相符。这是一篇非常值得一看的文章。然而,以后我们会看到,量子理论却能够得到与理想实验一致的结果。

量子系统的随机性经典理论的尝试

这一节我们来尝试构造量子系统的形式上的随机性的经典理论。我们已经看到:形式上,量子系统的行为,如果要用经典理论来描述,是要求随机性的经典理论的,确定性理论是不够的。当然,另外一方面,形式上的随机性的经典理论可以是本质上确定性的经典理论在信息不完全的条件下的表现。所以,在这个“信念”下,这一节的主题就是上一节的主题。

我们还是以Stern-Gerlach装置的一系列实验为例。首先,我们来看看一个未知状态的自旋通过[math]\displaystyle{ z }[/math]方向的磁场之后向上的那个状态的数学模型是什么。对于这个状态,我们知道如果让它通过另一个[math]\displaystyle{ z }[/math]方向的磁场,则它还是向上。于是,按照我们对于硬币的经验,这个状态应该是, [math]\displaystyle{ \begin{aligned} \rho^{c,z}_{0} = {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}. {\label{eq:1sz}}\end{aligned} }[/math] 这里,我们把通过这个仪器以后向上的就称为向上态[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|} }[/math]。上一节我们已经提到,对于这个再一次通过[math]\displaystyle{ z }[/math]方向磁场的实验,这个数学模型就够了。测量的结果、测量后状态都能够很好的描述。

现在,我们让这个自旋通过[math]\displaystyle{ x }[/math]方向的磁场,而不是[math]\displaystyle{ z }[/math]方向的磁场。结果是我们已经了解的:有且仅有向上和向下两个可能。于是,我们自然想到实际上[math]\displaystyle{ \rho^{c}_{0} }[/math]应该是 [math]\displaystyle{ \begin{aligned} \rho^{c,x}_{0} = \frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right). {\label{eq:1sx}}\end{aligned} }[/math]

如何让一个密度矩阵既满足公式[math]\displaystyle{ \left(\ref{eq:1sz}\right) }[/math]又满足公式[math]\displaystyle{ \left(\ref{eq:1sx}\right) }[/math]呢?一种可能就是, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= \frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right).\end{aligned} }[/math] 关于这个关系如何导致——“任意方向的任意状态都相同”——的结果,我们在上一节已经讨论过。而这样的一个数学结果,肯定和实验不相符,和构建理论模型的目的不相符。我们构建量子系统的数学模型的目的就是为了对于给定的实验制备流程得到的状态能够写下来一个状态的数学表示,并且从这个表示能够做计算得到这个状态经过某个给定测量仪器得到的结果。现在,连某方向向上态和向下态数学上都不能区分了,怎么可能将来预测出来经过仪器以后是向上还是向下输出呢?因此,在这里,我们不再讨论这样的数学形式。但是,要注意,将来的量子系统的量子力学数学形式,却和这个数学形式非常像, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}= \frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}+ \Delta\right), \\ {\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|}= \frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}- \Delta\right).\end{aligned} }[/math] 就是后面这个额外的“[math]\displaystyle{ \Delta }[/math]”解决了所有的问题,也是我们所要学习的量子理论的核心。在学习这个额外的“[math]\displaystyle{ \Delta }[/math]”之前,我们继续量子系统的经典理论的可能性的探索。

另一种可能是,要么 [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \left[{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right] + \left[\frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right)\right]. {\label{eq:1sum}}\end{aligned} }[/math] 要么 [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \left[{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right] \cdot \left[\frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right)\right]. {\label{eq:1prod}}\end{aligned} }[/math]

前者假设两个不同的方向的状态是互斥事件,于是整体的概率分布函数等于各自的概率分布函数之和;后者假设两个不同的方向的状态是两个相互独立的变量,于是联合分布函数等于独立分布函数的乘积。第一种情况相当于假设我们的基本事件集合是[math]\displaystyle{ \left\{{\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}, {\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x}{\right|}, \cdots, {\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}}{\right|}, {\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}, \cdots\right\} }[/math]。第二种情况相当于假设我们的基本事件集合是[math]\displaystyle{ \left\{{\left|}s_{x}\cdots s_{\hat{r}} \cdots{\right\rangle}{\left\langle}s_{x}\cdots s_{\hat{r}} \cdots{\right|}\right\} }[/math]。对于第一种,实际上我们需要重新归一化。不过这个技术问题,这里,我们就假设总是可以简单处理的。

互斥构造

现在,我们来看看基于互斥事件的公式[math]\displaystyle{ \left(\ref{eq:1sum}\right) }[/math]是否能够解释实验结果。按照经典概率论,对于形如公式[math]\displaystyle{ \left(\ref{eq:1sum}\right) }[/math]的概率分布函数的测量可以得到所有的可能结果:这里包含[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|} }[/math][math]\displaystyle{ {\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|} }[/math],以及[math]\displaystyle{ {\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|} }[/math]。也就是说,我们不能够再确定测量自旋的某一个方向——“我想测量自旋的[math]\displaystyle{ x }[/math]方向”,而是只能够做这样的测量:“我想测量一个自旋”。这一点与我们的实验是不相符的。在实验中,我们可以选择哪一个方向来测量。

做一个类比。这个问题就好像是一个硬币本来有正反面、颜色、形状等等等等的各种属于不同的空间的属性。现在,有一个硬币它的正反面、颜色、形状都是同等地位的在同一个空间中的属性,那么你自然就不能够在提出这样的问题:“我想测量这个硬币的颜色到底是绿的还是红的”,而仅仅能够题这样的问题:“我想测量这个硬币”。可是这个神奇的硬币竟然能够知道你的真实的企图,在你想测量颜色的时候给你颜色,形状的时候形状。看起来好像这个硬币和观测者的意识之间建立了某种联系[14]

当然,你可以说,正是由于你选择了哪一个方向来测量,你选择了某种类型的仪器,而这个自旋通过跟这个被选择了的仪器相互作用,了解了“你的真实的想测量的方向”。于是,通过某种方式,“你的意识”跟实验结果建立了关联。尽管我们非常反对把实验者的意识和物理对象关联起来(因为我们希望物理对象的状态还是一个客观量),但是我们不能直接否定这个基本上不可证伪的理论。对于这样的辩护,一个实用主义的物理学家只能继续问你,所选择的仪器如何与自旋的状态建立起来的关联,从而实现了这个试验结果呢?一个完整的理论必须能够回答这个问题。当然,你也可以耍赖,说,这个问题现在还回答不了,但是每次这个未知的机制总是能够发挥作用。由于这个机制的问题没有给出答案,也暂时不可证伪。让我们暂时允许这样的理论,继续思考下去。

这样的一个仪器在经典随机理论的框架之内是可以实现的,而且非常简单:把真正希望测量的那部分信息识别出来,把识别不出来的其它的信息扔掉。在硬币的例子上,你可以设计一个仪器,这个仪器只能够识别颜色,如果其它的可能状态过来了,这个仪器就显示一个探测不到的状态。也就是说,这个仪器只对颜色——这个反映真实测量意图的变量——敏感。这个仪器的缺陷是有的时候我们会得到得不到信号的结果。而且这个得不到信号的结果出现的概率由原始的公式[math]\displaystyle{ \left(\ref{eq:1sum}\right) }[/math]的概率分布函数决定。

现在,我们来看一看这个测不到信号的结果出现的几率。到现在为止,我们仅仅讨论了[math]\displaystyle{ z }[/math]方向和[math]\displaystyle{ x }[/math]方向的测量,现在我们来讨论[math]\displaystyle{ y }[/math]方向和任意[math]\displaystyle{ \hat{r}\left(\theta,\phi\right) }[/math]方向的测量。为了满足[math]\displaystyle{ y }[/math]方向测量的结果(可能是两个结果,等几率,每一次单次的测量仅得到一个结果),我们需要修改公式[math]\displaystyle{ \left(\ref{eq:1sum}\right) }[/math]为, [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \left[{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right] + \left[\frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right)\right] + \left[\frac{1}{2}\left({\left|}\uparrow_{y}{\right\rangle}{\left\langle}\uparrow_{y} {\right|}+{\left|}\downarrow_{y}{\right\rangle}{\left\langle}\downarrow_{y} {\right|}\right)\right].\end{aligned} }[/math] 现在,我们来归一化这个分布函数, [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \frac{1}{3}\left[{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right] + \left[\frac{1}{6}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right)\right] + \left[\frac{1}{6}\left({\left|}\uparrow_{y}{\right\rangle}{\left\langle}\uparrow_{y} {\right|}+{\left|}\downarrow_{y}{\right\rangle}{\left\langle}\downarrow_{y} {\right|}\right)\right].\end{aligned} }[/math] 于是当我们用测量[math]\displaystyle{ z }[/math]方向的仪器做侧量的时候,我们有[math]\displaystyle{ \frac{2}{3} }[/math]的几率得不到任何信号。可是,在我们的实验当中,这样的事情从来没有出现过。[math]\displaystyle{ \frac{2}{3} }[/math]是一个很大的几率,不可能和实验误差混在一起区分不开。

这个问题还会成为一个更大的问题。为了满足[math]\displaystyle{ \hat{r}\left(\theta,\phi\right) = \sin{\theta}\cos{\phi}\hat{i} + \sin{\theta}\sin{\phi}\hat{j} + \cos{\theta}\hat{k} }[/math]方向的测量(可能是两个结果,向上的几率是[math]\displaystyle{ \frac{1+\cos{\theta}}{2} }[/math]向下的几率是[math]\displaystyle{ \frac{1-\cos{\theta}}{2} }[/math],每一次单次的测量仅得到一个结果),我们是否需要再把这个[math]\displaystyle{ \hat{r} }[/math]方向的分布函数添加到公式[math]\displaystyle{ \left(\ref{eq:1sum}\right) }[/math]里面呢?

是否可以把[math]\displaystyle{ \hat{r}\left(\theta,\phi\right) }[/math]方向的测量看作是三个独立方向[math]\displaystyle{ x }[/math][math]\displaystyle{ y }[/math][math]\displaystyle{ z }[/math]的测量的结合呢?从平均值上来说,可以, [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma_{\hat{r}}{\right\rangle}= \sin{\theta}\cos{\phi}{\left\langle}\sigma_{x}{\right\rangle}+\sin{\theta}\sin{\phi}{\left\langle}\sigma_{x}{\right\rangle}+\cos{\theta}{\left\langle}\sigma_{z}{\right\rangle}= \cos{\theta}.\end{aligned} }[/math] 但是,这样的话,单次测量的结果可能是 [math]\displaystyle{ \begin{aligned} \pm\sin{\theta}\cos{\phi} \pm\sin{\theta}\sin{\phi} +\cos{\theta} \neq \pm 1.\end{aligned} }[/math] 所以,必须把所有的[math]\displaystyle{ \hat{r} }[/math]方向的分布函数添加到公式[math]\displaystyle{ \left(\ref{eq:1sum}\right) }[/math]里面,也就是说, [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \sum_{\hat{r}\left(\theta,\phi\right)}\rho^{c}\left(\theta,\phi\right), {\label{eq:exclusive}}\end{aligned} }[/math] 其中 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(\theta,\phi\right) = \frac{1+\cos{\theta}}{2}{\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}+\frac{1-\cos{\theta}}{2}{\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}.\end{aligned} }[/math]

如果你这个时候再来做一个归一化的话,任何一个单独的[math]\displaystyle{ \rho\left(\theta,\phi\right) }[/math]都是无穷小,也就是说,如果你用一个测量[math]\displaystyle{ z }[/math]方向的仪器做侧量,绝大多数的情况下得不到任何信号。这一点我们从来都没有在实验上观察到过。

因此,除非有经典概率论之外的数学结构或者是让自旋了解实验者的意识的未知的机制——除非你写下来这个机制的数学模型,要不然相当于把量子系统的数学模型的问题转化成为这个机制的数学模型的问题。看起来,基于互斥事件构造起来的经典理论公式[math]\displaystyle{ \left(\ref{eq:exclusive}\right) }[/math]不能描述量子系统的行为。还有没有其它的可能的经典理论呢?

独立构造

现在,我们来看看基于独立事件的公式[math]\displaystyle{ \left(\ref{eq:1prod}\right) }[/math]是否能够解释实验结果。按照经典概率论,对于两个独立变量[math]\displaystyle{ x_{1},x_{2} }[/math]的联合分布函数[math]\displaystyle{ \rho\left(x_{1},x_{2}\right)=\rho^{1}\left(x_{1}\right)\rho^{2}\left(x_{2}\right) }[/math],我们有 [math]\displaystyle{ \begin{aligned} {\left\langle}A^{1}\left(x_{1}\right) {\right\rangle}= \iint dx_{1}dx_{2}A^{1}\left(x_{1}\right)\rho\left(x_{1},x_{2}\right)\notag \\ = \int dx_{1} A^{1}\left(x_{1}\right)\rho^{1}\left(x_{1}\right)\int dx_{2}\rho^{2}\left(x_{2}\right) \notag \\ = \int dx_{1} A^{1}\left(x_{1}\right)\rho^{1}\left(x_{1}\right).\end{aligned} }[/math] 用密度矩阵的语言,这个就是 [math]\displaystyle{ \begin{aligned} {\left\langle}A^{1}{\right\rangle}= tr^{1,2}\left(A^{1}\otimes I^{2}\rho^{1}\otimes\rho^{2}\right) = tr^{1}\left(A^{1}\rho^{1}\right).\end{aligned} }[/math] 这里[math]\displaystyle{ I^2 }[/math]是第二个变量所在的空间的单位矩阵,[math]\displaystyle{ \otimes }[/math]表示矩阵或者是算符的直积。独立变量的联合分布保留了每一个变量自己的分布函数的所有的性质。于是,我们发现,公式[math]\displaystyle{ \left(\ref{eq:1prod}\right) }[/math]能够同时解释我们的两个不同方向上的实验结果。这个结果也是符合经典随机粒子的经验的。这里的[math]\displaystyle{ z }[/math]方向和[math]\displaystyle{ x }[/math]方向就好像是硬币的正反面和硬币的颜色一样是两个独立的变量。只要各自的分布函数满足各自的测量的结果的要求,那么整体来看必然是与所有的联合起来的实验结果一致的。

实际上,除了[math]\displaystyle{ x }[/math]方向和[math]\displaystyle{ z }[/math]方向,我们还需要考虑至少[math]\displaystyle{ y }[/math]方向,于是公式[math]\displaystyle{ \left(\ref{eq:1prod}\right) }[/math]应该成为如下的形式, [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \left[{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right] \cdot \left[\frac{1}{2}\left({\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}+{\left|}\downarrow_{x}{\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right)\right]\cdot \left[\frac{1}{2}\left({\left|}\uparrow_{y}{\right\rangle}{\left\langle}\uparrow_{y} {\right|}+{\left|}\downarrow_{y}{\right\rangle}{\left\langle}\downarrow_{y} {\right|}\right)\right].\end{aligned} }[/math] 是不是还需要包含其它方向,例如任意的[math]\displaystyle{ \hat{r} }[/math]方向呢?答案是需要。上面的密度矩阵的隐含假设是物理量[math]\displaystyle{ \sigma_{x} }[/math][math]\displaystyle{ \sigma_{y} }[/math][math]\displaystyle{ \sigma_{z} }[/math]是独立的,于是测量例如[math]\displaystyle{ \sigma_{x} }[/math]的时候, [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma_{x} {\right\rangle}= tr\left(\rho^{c}_{0}\sigma_{x}\otimes I^{y} \otimes I^{z}\right) = {tr\left(\rho^{c,x}_{0}\sigma_{x}\right)}.\end{aligned} }[/math] 类似的,如果测量[math]\displaystyle{ \sigma_{y} }[/math]的话, [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma_{y} {\right\rangle}= tr\left(\rho^{c}_{0}I^{x}\otimes \sigma_{y} \otimes I^{z}\right) = {tr\left(\rho^{c,y}_{0}\sigma_{y}\right)}.\end{aligned} }[/math] 对于任意一个方向的Stern-Gerlach装置的测量,我们需要做到单次测量必然是向上或者相下态的一个,多次测量得到两个斑点。于是,我们希望得到类似的, [math]\displaystyle{ \begin{aligned} \rho^{c,\hat{r}}_{0} =\left(\frac{1+\cos{\theta}}{2}{\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}+\frac{1-\cos{\theta}}{2}{\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}\right). {\label{eq:1sr}}\end{aligned} }[/math] 其中,概率[math]\displaystyle{ \frac{1\pm\cos{\theta}}{2} }[/math]的选取是为了保证(这一点量子系统的实验是符合的) [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma_{\hat{r}} {\right\rangle}= \sin{\theta}\cos{\phi}{\left\langle}\sigma_{x} {\right\rangle}+ \sin{\theta}\sin{\phi}{\left\langle}\sigma_{y} {\right\rangle}+ \cos{\theta}{\left\langle}\sigma_{z} {\right\rangle}= \cos{\theta}.\end{aligned} }[/math] 为了实现这个公式[math]\displaystyle{ \left(\ref{eq:1sr}\right) }[/math],我们不得不让 [math]\displaystyle{ \begin{aligned} \rho^{c}_{0} = \prod_{\hat{r}} \rho^{c}_{0}\left(\theta,\phi\right),\end{aligned} }[/math] 其中, [math]\displaystyle{ \begin{aligned} \rho^{c}\left(\theta,\phi\right)_{0} = \frac{1+\cos{\theta}}{2}{\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}+\frac{1-\cos{\theta}}{2}{\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}.\end{aligned} }[/math] 也就是说,我们把各个方向上的测量都看成是这个自旋的独立的属性。这样至少看起来对于所有的可能的测量就没有问题了。

现在我们来考虑让这个系统再经过一次测量,例如先过[math]\displaystyle{ z }[/math]方向挡住向下的部分,然后再过[math]\displaystyle{ x }[/math]方向挡住向下的部分,然后再让这部分的自旋经过一个[math]\displaystyle{ \hat{r} }[/math]方向的测量。按照经典概率论,对于一个变量的测量不改变其它独立变量的分布。做一个类比,考虑两个独立的随机硬币的状态,测量其中一个,另一个的状态的分布函数不会改变。于是我们猜测,经过第二次测量(先[math]\displaystyle{ z }[/math][math]\displaystyle{ x }[/math])以后的状态应该是, [math]\displaystyle{ \begin{aligned} \rho^{c}_{1} = \rho^{c}_{1}\left(z\right)\cdots \rho^{c}_{2}\left(x\right) \cdots\rho^{c}_{0}\left(\theta,\phi\right),\end{aligned} }[/math] 也就是说,其他的方向上都不变,但是[math]\displaystyle{ z }[/math][math]\displaystyle{ x }[/math]方向上成了新的形式, [math]\displaystyle{ \begin{aligned} \rho^{c}_{1}\left(z\right)={\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}, \mbox{ } \rho^{c}_{2}\left(x\right)={\left|}\uparrow_{x}{\right\rangle}{\left\langle}\uparrow_{x} {\right|}.\end{aligned} }[/math]

这个时候,如果我们再来测量这个状态的[math]\displaystyle{ \hat{r} }[/math]方向。第一,[math]\displaystyle{ \hat{r} }[/math]就是[math]\displaystyle{ x }[/math]方向,结论是“只能得到向上”,符合实验结果。如果[math]\displaystyle{ \hat{r} }[/math]就是[math]\displaystyle{ z }[/math]方向,因为[math]\displaystyle{ \rho^{c}_{1}\left(z\right)={\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|} }[/math],结论是“只能得到向上”,与实验结果不相符。于是,我们发现,这个时候,其实[math]\displaystyle{ \rho^{c}_{1}\left(z\right)=\frac{1}{2}{\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z} {\right|}+ \frac{1}{2}{\left|}\downarrow_{z}{\right\rangle}{\left\langle}\downarrow_{z} {\right|} }[/math]才能得到与实验相符的结果。也就是说,当测量[math]\displaystyle{ x }[/math]方向的时候,本来应该独立的[math]\displaystyle{ z }[/math]方向的随机变量的分布函数变了。同理,同时其他的所有的[math]\displaystyle{ \hat{r} }[/math]方向的随机变量都要作相应的变化。

这个是什么样的独立变量的独立分布函数呀?测量“符合独立分布的独立变量”中的一个,其它的都会发生改变!测量后状态成了一个“神奇的世界”的代名词。测量后状态不再是经典概率论里面的图景:一个随机变量的测量后状态就是观测到的测量结果对应着的状态。 我们被迫构造出一个这样的理论:一个系统的测量后状态不再是得到的观测值对应的状态,仅仅是一个这样的状态——它能够保证如果你再做一次任何方向上的测量,这个状态给出来的理论结果与实验结果相符。也就是说,在这个理论框架里面,测量以后系统是什么状态这个问题不是一个好问题,我们仅仅能够问:测量以后,如果我们再一次测量(同样的方向或者不同的方向),我们得到的结果是什么?当然,一个这样的理论也可以是一个可证伪的科学的理论。可是,这样一个把测量后状态的图景都破坏的理论,把分布函数中的所假设的独立变量的独立性都在测量中波坏的理论,是什么样的一个理论呀?

我们之所以尝试构造一个能够解释量子系统的行为的经典理论,是因为我们觉得经典理论,包含确定性的和随机性的经典理论,是一个我们能够理解的,觉得舒服的理论。可是,如果这个理论需要我们放弃经典理论中的那些能够理解的部分,例如状态是客观的,与观测者的意识没有关系,测量后状态就是简单地测量结果对应的状态,我们为什么还一定要追寻一个量子系统的经典理论呢?一个测量以后系统的状态不再是所观测到的状态,不在满足独立变量的测量互不干扰的理论,还是我们希望得到的理论吗?

为什么我们在这里仅仅考虑互斥构造和独立构造——在这里不管哪一种构造各个方向的相对地位一样,是否还应该考虑各个方向上原则上就相对地位不一样的构造?这是物理学的另外一个不愿意轻易突破的理念:各个方向是平权的。不过,退一万步,如果突破它就能够得到一个量子系统的经典理论,我想还是有物理学家愿意这样做的。

作业

阅读W.I.B. Beveridge的 《科学研究的艺术》(《The Art of Scientific Investigation》),写下阅读体会。

阅读Gowers T.的《数学-牛津通识读本》(《Mathematics: A Very Short Introduction》),写下阅读体会。

阅读R. Feynman的《物理定律的特性》(《The Character of Physical Law》),写下阅读体会。

阅读A. Einstein和L. Infeld的《物理学的进化》(《The Evolution of Physics: The Growth of Ideas From Early Concepts to Relativity and Quanta》) ,写下阅读体会。

通过Google和Wikipedia来了解和学习以下的一个主题,写一份学习报告:随机数生成器、博弈论、量子远程传态、量子多世界解释、量子力学的其它解释。学会自己寻找材料来学习,甚至自己寻找主题来学习,是研究性学习非常重要的一步。本书在很多地方匆匆而过,当然也在很多地方非常深入,需要你自己学习的地方非常多。Google和Wikipedia是好朋友。

公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]出发,反推出来以下状态的几率:[math]\displaystyle{ p\left(s_{2}|s_{1}=1\right) }[/math],它表示已知[math]\displaystyle{ s_{1}=1 }[/math]的时候,[math]\displaystyle{ s_{2} }[/math]的可能取值和相应的几率。这个问题从另外一个角度证明了公式公式[math]\displaystyle{ \left(\ref{eq:r1measure}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:r2measure1}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:r2measure2}\right) }[/math]实际上都包含在公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]中。

本章小结

由于本章的内容代表了非常深入的思考,这个思考的细节也有很多转折,我们这里提供一个比较详细的小结,而且把几个重要的公式和结论也都重新写在这里。在本章里面,我们企图给自旋的状态构建一个经典的数学模型。所谓经典的就是遵循经典概率论的随机的或者确定性的。这个数学模型需要对各个方向的单次和再次——这里再次指的是对已经测量了一次的自旋做再一次的测量而不是重新制备和测量另一个自旋,后者我们称为系综测量——给出和实验相符的结果,也就是公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]

为了找到这样的一个理论,最关键的事情是写下来密度矩阵[math]\displaystyle{ \hat{\rho}\left(s_{\hat{r}_{1}}\right) }[/math]或者说密度分布函数[math]\displaystyle{ {\left\langle}s_{\hat{r}_{2}} {\right|}\hat{\rho}\left(s_{\hat{r}_{1}}\right) {\left|}s_{\hat{r}_{2}} {\right\rangle} }[/math]使得按照经典概率分布的平均值公式[math]\displaystyle{ \left(\ref{eq:classicalr1r2_DM}\right) }[/math]的计算得到公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]的结果。注意,这里这些经典密度矩阵或者叫做密度分布函数都是对角的。其中[math]\displaystyle{ s_{\hat{r}_{1}} }[/math]的含义是,对[math]\displaystyle{ \hat{r}_{1} }[/math]方向的自旋状态做测量并且得到测量值为[math]\displaystyle{ s_{\hat{r}_{1}}\in \pm 1 }[/math]。因此,[math]\displaystyle{ \hat{\rho}\left(s_{\hat{r}_{1}}\right) }[/math]是这样的测量和测量结果以后的状态。

对于这个可能性,首先我们发现确定性的经典理论的问题归结为随机性的经典理论的问题:第一、量子系统的形式上的确定性的理论是不可能的;第二、本质上确定性的经典理论可以是由于信息不完全导致的经典随机理论。然后,我们讨论了量子系统的经典随机理论的可能性。我们发现,如果考虑某一个方向的测量,那么硬币的数学模型,就能够很好地描述量子系统。但是,当量子系统面对再次测量(需要同时符合单次测量和多次平均的得到的结果)的时候,尤其是再一次测量的方向和本次测量的方向不一样的时候,硬币的数学模型就不能用了。

因此,我们拓展了的硬币的经典理论,把各个方向的状态看作互斥事件或者是独立事件。对于测量了[math]\displaystyle{ \hat{r}_{1} }[/math]并且得到[math]\displaystyle{ s_{\hat{r}_{1}} \in \pm 1 }[/math]其中之一的情况,互斥和独立两种方式构造了这个分布函数分别是 [math]\displaystyle{ \begin{aligned} \rho^{c} = \frac{1}{\mathcal{N}}\sum_{\hat{r}_{2}} \rho^{c}\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right), {\label{eq:classicalsum}}\end{aligned} }[/math][math]\displaystyle{ \begin{aligned} \rho^{c} = \prod_{\hat{r}_{2}} \rho^{c}\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right), {\label{eq:classicalprod}}\end{aligned} }[/math] 其中 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right) = \frac{1+s_{\hat{r}_{1}}\hat{r}_{2} \cdot \hat{r}_{1}}{2}{\left|}\uparrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}_{2}} {\right|}+\frac{1-s_{\hat{r}_{1}}\hat{r}_{2} \cdot \hat{r}_{1}}{2}{\left|}\downarrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}_{2}} {\right|}. {\label{eq:classicalrho}}\end{aligned} }[/math] 自然对于更一般的情况,如果测量了[math]\displaystyle{ \hat{r}_{1} }[/math]并且得到[math]\displaystyle{ s_{\hat{r}_{1}} \in \pm 1 }[/math]的两个结果都进入下一步实验,则数学描述需要做一个概率性叠加,也就是, [math]\displaystyle{ \begin{aligned} \rho^{c}\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right) = \rho^{c}\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}=1\right)p_{s_{\hat{r}_{1}}=1} + \rho^{c}\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}=-1\right)p_{s_{\hat{r}_{1}}=-1}.\end{aligned} }[/math] 但是,这样的密度分布函数我们发现:第一、对于互斥构造,实验者将不能主动选择特定的观测方向,除非自旋能够有某种方法知道实验者的意图,否则只能够得到所有的可能的[math]\displaystyle{ \hat{r}_{2} }[/math]中的一个。于是如果从满足实验者的意愿观测方向来说,会出现大多数时候观测不到想要的观测方向的事情。这一点在实验上没有观察到过。实际实验中,实验者总是可以选择特定的方向来观测的,而且观测到某个值的成功几率不是非常小,尽管也有观测不到结果的时候[15]。此外,在互斥构造中归一化常数[math]\displaystyle{ \mathcal{N} }[/math]的取值也是一个问题。第二、对于独立构造,竟然会出现测量这些独立变量中的一个并且得到测量值会改变其他“独立”的变量的分布函数的事情。这样的约定好的独立变量,数学形式上也表现为独立变量的变量在测量的过程中相互影响,是基本不可以接受的事情。第三、自旋算符之间的代数关系 [math]\displaystyle{ \begin{aligned} \sigma_{\hat{r}}=\sin{\theta}\cos{\phi}\sigma_{x} + \sin{\theta}\sin{\phi}\sigma_{y} + \cos{\theta}\sigma_{z}\end{aligned} }[/math] 也被这两个理论破坏了,各个方向上的自旋必须当做经典的互斥或者独立随机变量。因此,这两种密度矩阵的形式都不是好的经典理论的形式。于是,我们初步得到结论:经典理论看起来基本上不能解释量子系统的行为。

那么,还有没有其它的除了互斥构造和独立构造之外的可能的经典理论呢?当然可以有。但是,这样的理论就相当于假设这个物理世界的各个方向其实是有差别的。这一点,基本上是不可以接受的。

量子力学是量子系统的行为的数学模型。我们将来也需要来看一看是否这个理论保留了状态的客观性,保留了测量后状态与测量前状态的简单的联系,来看一看是否量子系统需要了解实验者的意识。我们的目标是建立一个尽量保持经典随机理论——甚至经典确定性理论——的各种数学结构的并且尽可能简单的理论。具体来说,这些数学结构和简单图景包含:状态的数学描述是什么,可观测量的数学描述是什么,测量的结果(单次测量和多次平均)是什么,测量以后的状态是什么,状态如何演化。量子系统的行为指的是本书第[Chap:Exp]章中的典型实验的结果——本质上就是单个粒子通过一个仪器(偏振片、Stern-Gerlach装置等)或者多个仪器各种干涉现象,或者以单个自旋的测量为例,就是公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]。满足这个要求的量子理论的细节见第[Chap:Static]章[math]\displaystyle{ \ref{sec:Quantum_r1r2Final} }[/math]

另外,除了理论上构造出来这个经典密度矩阵,然后讨论这个理论的可接受性,还有一种方式来讨论量子系统的经典理论的可能性:证明一个所有的一定条件下的经典理论都必须满足的结论,然后检验量子系统的行为是否满足这个条件。在第[Chap:Bell]章要介绍的Bell定理或者说就沿着这样的方式展开讨论。我们认为,这两种方式是互补的。

我们将来在第[Chap:Bell]章[math]\displaystyle{ \ref{sec:NonLocal} }[/math]还会看到我们构造的这个互斥随机变量和独立随机变量的理论还有另外一个的问题——非定域性。也就是说,即使如果你愿意接受一个具有上面提到的这么多问题的数学模型作为量子系统的理论,那么,它还有非定域性的问题:大概来说就是两个遥远的不同系统上的测量之间单次的结果各自应该是独立的——没有信息能够相互交流来建立起来这个关联。我们将来还会看到这个定域性的更准确的数学形式的表达。顺便,既然我们提到定域性的问题,我们将仅仅讨论和展示前面所构造的经典理论的“非定域性”,而不是将来要构建的量子系统的量子力学的非定域性。

一句话总结一下:尽管不能完全否定,但是看起来用经典理论描述量子系统非常地不可能。因此本章的真正目的,除了讨论一个量子系统的经典描述的可能性这个问题本身之外,其实,是为了回答为什么我们需要新的数学理论来描述量子系统的行为,从而为了学习量子系统的量子力学做准备。

为了构造能够描述上一部分中的量子系统的行为的数学模型——将来我们称之为量子力学或者量子理论,我们需要做一些数学和物理上的准备。这个准备包含矢量空间、概率论和经典力学。矢量空间是将来量子理论的核心。概率论是将来的量子理论的经典对应,或者说,量子理论就是经典概率论的一种拓展。通过经典力学的学习,我们可以了解用Hamiltonian来描述物理系统的方式。另外,抽象矢量记号——Dirac符号将会是我们以后的模型使用的主要的数学语言,也要在这里先学习一下。此外,对经典概率和经典随机客体的测量的理解也是一个问题:单个硬币是随机的吗?在学习的时候要注意这些内容和将来的内容之间的联系,也要思考有助于深刻理解这些内容的问题。

这一部分的主要参考书,的《力学》,的《高等量子力学》,的《高等量子力学》。的《概率论导引》也非常值的一看。

二维空间的线性代数:Dirac符号、抽象算符与表象

为了学习量子系统的数学模型,我们需要一点点数学上的准备。这里,数学上的准备分成两个层次,计算上和理解上的。在本章中,我们会把计算上的数学内容控制在非常简单的二维矩阵和二维矢量的运算上。但是,对于这些矩阵和矢量的理解要比通常的线性代数高很多,需要接触到一点点近世代数的内容。当然,我们会企图把整个概念上比较复杂的部分都尽量地通过二维空间的形式来讨论。

另一方面,在本章中,我们会讨论数学和物理学,数学和科学的关系,以及在理解这个关系的基础上如何学习数学。

这一部分的推荐阅读材料是和的《物理学的进化(The Evolution of Physics)》、的《物理定律的本性(The Character of Physical Law)》、的《科学研究的艺术(The Art of Scientific Investigation)》、的《数学是什么(Mathematics: A Very Short Introduction)》、的《线性代数应该这样学(Linear Algebra Done Right)》。前四本是关于什么是物理学和什么是科学,以及科学和数学之间的关系的。后一本是线性代数方面的具体知识的。其主要关注点在于线性空间的矢量和算符,和本书的思路类似,跟大多数线性代数的书不一样,值得推荐。学有余力的还可以参考的《高等量子力学》的第一章。

数学是现实世界的结构和思维的语言

数学本质上是对事物之间的联系的描述。事物通常用集合以及集合里面的元素来描述。而元素之间的关系,有的时候也称作结构,则通过映射来描述。把数学理解成结构的语言,而不仅仅是一堆运算规则,对于创造和使用数学是非常有意义的。例如,我们从小就会计算“[math]\displaystyle{ 1+1=2 }[/math]”,“一个苹果加上一个苹果等于两个苹果”。看起来,我们是在做“苹果的加法”。我们来仔细看一看,我们在计算什么东西的加法。定义一个苹果的集合[math]\displaystyle{ P }[/math],为简单计,我们假设总数是有限个,但是是一个很大的数。所谓映射,就是把一个集合中的元素与另外一个集合中的元素联系起来。现在,我们猜测,“一个苹果加上一个苹果等于两个苹果”,是集合[math]\displaystyle{ P\otimes P }[/math][math]\displaystyle{ P }[/math]的映射(需要两个来自于[math]\displaystyle{ P }[/math]的元素,得到一个[math]\displaystyle{ P }[/math]里面的元素)。真的是这样吗?我们得到的结果,也就是“两个苹果”,是集合[math]\displaystyle{ P }[/math]中的元素吗?注意,集合[math]\displaystyle{ P }[/math]的元素是一个又一个的苹果,尽管颜色大小酸甜等都可以不一样,甚至有一个特大的苹果可以等于两个其中的小的苹果那么大,但是,两个苹果绝对不是集合[math]\displaystyle{ P }[/math]中的元素。也就是说,我们实际上,不是在计算苹果的加法。

实际上,我们计算的是苹果的数量的加法。从集合[math]\displaystyle{ P }[/math]开始,构造一个[math]\displaystyle{ P }[/math]的所有子集的集合——幂集[math]\displaystyle{ \mathcal{T}=\left\{Q|Q\subseteq P\right\} }[/math]。这个时候我们发现,取[math]\displaystyle{ \mathcal{T} }[/math]中的元素[math]\displaystyle{ t_{1} }[/math][math]\displaystyle{ t_{2} }[/math],如果[math]\displaystyle{ t_{1}\cap t_{2}=\phi }[/math],也就是不相交没有共同的元素,则[math]\displaystyle{ t=t_{1}\cup t_{2} }[/math]必然是[math]\displaystyle{ \mathcal{T} }[/math]中的元素,也就是[math]\displaystyle{ t\in \mathcal{T} }[/math],并且,如果定义集合的大小,也就是集合中元素的个数,[math]\displaystyle{ {\left|}t {\right|} }[/math],我们发现 [math]\displaystyle{ \begin{aligned} {\left|}t {\right|}= {\left|}t_{1} {\right|}+ {\left|}t_{2} {\right|}.\end{aligned} }[/math] 这个才是我们计算的加法。也就是说,加法是定义在苹果集合[math]\displaystyle{ P }[/math]的幂集上的计算,并且只考虑集合大小这个特性。或者说,苹果的加法实际上在计算苹果集合[math]\displaystyle{ P }[/math]的子集的并的运算,并且要求用来计算的子集没有交集。简答地说,“苹果的加法”是没有共同元素的“集合的并运算”,而不是直接在苹果集合上的运算——我们不能把两个苹果相加得到另一个苹果

通过上面这个例子,我们看到,第一,集合和映射的语言可以把问题说清楚;第二,苹果之间不存在直接的加法,通常的加法实际上是集合的并运算;第三,数学是描述事物之间关系的语言。关于数学的这个理解——数学是对事物的关系的描述(事物就是集合,关系就是映射),对于我们以后的学习是非常重要的。

在这里,为了强调数学是对事物之间的关系和结构的描述,我们再来讨论另外一个例子:矢量加法。中学物理我们就学习过矢量的叠加和分解。我们知道位移、速度、加速度和力是矢量。现在,我们来思考一下,为什么我们需要矢量这个数学对象来描述位移、速度、加速度和力这些物理概念,同时我们也思考一下这个问题:位置是不是矢量。首先,在运动问题中,我们注意到运动物体不仅有速度的大小,还有速度的方向。在某些力的作用下,速度的方向可以发生改变,例如拉着一根绳子转一个小球。而且,更进一步,速度的大小和方向的改变,和力的大小和方向有联系。于是,我们就发现,需要强度和方向两个变量来描述位移、速度、加速度和力这些物理量。我们暂时称这样的一个东西为“矢量”,将来我们看一看它是不是真的是满足矢量运算——例如矢量加法——的矢量。这个“矢量”暂时记作[math]\displaystyle{ \left(r, \theta\right) }[/math]。其中前者表示强度,后者表示方向——实际上可以是多个变量,例如用多个角度来表示[math]\displaystyle{ 3 }[/math]维空间的矢量。那下一步,就是看这样的数学对象的集合上面可以定义什么操作。以位移“矢量”为例,我们可以把前后两个的位移合起来讨论合起来的位移。以力“矢量”为例,我们可以讨论同时作用在一个物体上的两个力的效果,看其是否等于这两个力各自的效果的叠加。经过物理学的观察和实验,我们发现,前后两个时间段的位移合起来确实还是位移,同时作用在物体上的两个力的效果可以看成一个合力的效果,而这个合成遵循平行四边形法则——也就是矢量的各个方向上的分量可以相互加起来,但是,不是上面的两个坐标[math]\displaystyle{ r }[/math][math]\displaystyle{ \theta }[/math]的值直接加起来。这个“矢量”的分量形式(注意不一定是坐标形式)加起来的操作,以后我们会看到,正好就是矢量空间的矢量的加法。因此,矢量就成了位移、速度、加速度和力这些物理量的数学模型。

现在,我们来讨论第二个问题:位置是不是矢量。给定一个位置,给定一个新的位置,我们能够通过一个自然——也就是和某种我们所感兴趣的物理过程直接相关——的运算,得到一个新的位置吗?例如一个处于平面上[math]\displaystyle{ \left(x_{p},y_{p}\right) }[/math]位置的[math]\displaystyle{ P }[/math]点,和一个处于平面上[math]\displaystyle{ \left(x_{q},y_{q}\right) }[/math]位置的[math]\displaystyle{ Q }[/math]点,用某种方式加起来,会给我们一个处于例如平面上某个[math]\displaystyle{ \left(x,y\right) }[/math][math]\displaystyle{ R }[/math]点吗?你可能会觉得[math]\displaystyle{ R }[/math][math]\displaystyle{ \left(x_{p}+x_{q},y_{p}+y_{q}\right) }[/math]点很自然。其实,如果是这样我们计算的是从原点开始的两个“位移矢量”的加法而不是两个“位置矢量”的加法。实际上,对于位置来说,它只有坐标,连矢量都不是,更何况加法。至少,在考虑物体运动的范围内,我们完全没有对应着这种运算的物理过程。回到前面的苹果集合上加法的例子——加法实际上不是定义在苹果上,而是苹果集合的幂集,而且仅考虑幂集元素(也就是原始苹果集合的子集)的大小,现在我们发现位置这个集合上的加法运算也不是定义在位置集合上的,而是定义在位移集合上的。

物理学家,或者更一般地来说,科学家(甚至数学家),学习数学,要注意思考数学概念提出的动机、数学概念的实例、数学定理在物理或者现实中的含义。从创造性地使用数学结构和创造数学结构目的来说,了解数学结构提出的动机和一些实例是很有好处的。

从分量形式的矢量和矩阵到抽象矢量和算符,Dirac符号

我们先来复习一下实数作为元素的线性代数,然后学习Dirac符号,接着用Dirac符号来学习复数作为元素的线性代数。真正从集合映射开始来学习矢量和对偶矢量已经超出本书的范围。有兴趣的学习者可以参考喀兴林的《高等量子力学》,以及吴金闪的《系统科学导引》。

实数域上的分量形式的矩阵和矢量,复习

通常的线性代数课程定义矩阵就是一个由数字——通常是实数——排成[math]\displaystyle{ M }[/math][math]\displaystyle{ N }[/math]列的方块。对于这个方块,我们可以计算行列式,我们可以定义这个方块之间的乘法、加法和数乘。方块和列向量之间的乘法是方块和方块之间乘法的一个特例。这里我们重复一下这种方块形式的运算的定义。现在这些定义看起来好像是需要死记硬背的。先不要着急,将来我们会更加清楚其中的道理。对于数字方块[math]\displaystyle{ A=(A_{ij})_{M\times N} }[/math][math]\displaystyle{ B=(B_{ij})_{N\times L} }[/math],我们定义其乘法得到的方块为: [math]\displaystyle{ \begin{aligned} \left(AB\right)_{ij} = \sum_{k=1}^{N}A_{ik}B_{kj}.\end{aligned} }[/math] 如果要计算乘法必须要求左边矩阵的列数等于右边矩阵的行数。而且,通过这个定义我们就看到,一对能够做[math]\displaystyle{ AB }[/math]乘积的矩阵不一定能够做[math]\displaystyle{ BA }[/math]乘积。所以,一般地来说,矩阵乘法是不可交换的。甚至当两个矩阵都是同样维数的方阵的时候也是这样。为了描述这种不可交换的关系,我们有关于对易子的定义, [math]\displaystyle{ \begin{aligned} \left[A, B\right] = AB-BA.\end{aligned} }[/math] [math]\displaystyle{ \left[A,B\right] }[/math]称为矩阵[math]\displaystyle{ A }[/math][math]\displaystyle{ B }[/math]的对易子。 如果要计算矩阵加法,那么这两个矩阵必须有同样的行数和列数, [math]\displaystyle{ \begin{aligned} \left(A+B\right)_{ij} = A_{ij}+B_{ij}.\end{aligned} }[/math] 数乘的定义非常简单,一个矩阵[math]\displaystyle{ A }[/math]和一个实数[math]\displaystyle{ a }[/math]的乘积定义如下, [math]\displaystyle{ \begin{aligned} \left(aA\right)_{ij} = aA_{ij}.\end{aligned} }[/math] 基本的定义仅包含乘法、加法和数乘。如果这部分不是复习,那么,请回去先学习线性代数再来学习本书,或者继续——如果你认为你已经准备好了接受挑战,本书的内容也是自足的。

由于在以后我们的讨论中我们基本上只关心方阵,所以,在不加说明的时候,以下的部分说到矩阵的时候就是指[math]\displaystyle{ N\times N }[/math]的方阵。相应的,在提到矢量的时候,一般指的是[math]\displaystyle{ N }[/math]个实数排成一列的列向量。有的时候,我们也用左矢量,或者行向量的语言。它们就是[math]\displaystyle{ N }[/math]个数字排成一行的那个东西。对于一个行向量来说,其维数是[math]\displaystyle{ 1\times N }[/math],所以只能够乘在一个[math]\displaystyle{ N\times N }[/math]矩阵的左边。这就是为什么它还被叫做左向量。同样的原因,列向量有的时候也被称作右矢量。

两个右矢量可以讨论它们的点积或者叫做内积,定义如下, [math]\displaystyle{ \begin{aligned} \left(u,v\right) = \sum_{j}u_{j}v_{j} \triangleq u^{T}v. {\label{eq:dotproduct}}\end{aligned} }[/math] 这个矢量的转置的定义就是把一个列矢量的元素按顺序排成一个行矢量,或者反过来。这个转置也可以定义在矩阵上, [math]\displaystyle{ \begin{aligned} (A^{T})_{ij} = A_{ji}.\end{aligned} }[/math] 可以证明[math]\displaystyle{ \left(AB\right)^{T}=B^{T}A^{T} }[/math]。一个数,也就是[math]\displaystyle{ 1\times 1 }[/math]的矩阵的转置就是它自己。 如果两个矢量的内积为零,则我们称这两个矢量相互正交。一组两两相互正交的矢量可以用来作为这个空间的基矢。

在我们后面的计算中,我们偶尔会用到矩阵的行列式。这里我们仅仅给出[math]\displaystyle{ 2\times 2 }[/math]矩阵的行列式的定义, [math]\displaystyle{ \begin{aligned} \det{\left[\begin{array}{cc} A_{11} & A_{12} \\ A_{21} & A_{22}\end{array}\right]} = A_{11}A_{22}-A_{12}A_{21}.\end{aligned} }[/math]

这一节,我们复习了矩阵(包含矩阵的特例——行矢量和列矢量)的乘法、加法、数乘、转置的定义,以及右矢量的内积,还有[math]\displaystyle{ 2\times 2 }[/math]方阵的行列式。

Dirac符号

在线性代数的课程里面,我们通常把一个形如[math]\displaystyle{ \left[\begin{array}{c}a \\ b \\ c\end{array}\right] }[/math]的列矢量称为矢量。在多元微积分或者矢量微积分里面,我们也常常把一个位置矢量写作[math]\displaystyle{ \vec{r} = \left[\begin{array}{c}x \\ y \\ z\end{array}\right] }[/math],然后我们说[math]\displaystyle{ x }[/math]是这个矢量[math]\displaystyle{ \vec{r} }[/math][math]\displaystyle{ x }[/math]方向上的分量。有的时候,我们也把这个关系写作, [math]\displaystyle{ \begin{aligned} \vec{r} = x\hat{i} + y\hat{j} + z\hat{k}.\end{aligned} }[/math] 在后面的表达式里面,[math]\displaystyle{ \hat{i} }[/math][math]\displaystyle{ \hat{j} }[/math][math]\displaystyle{ \hat{k} }[/math]是矢量,[math]\displaystyle{ x }[/math][math]\displaystyle{ y }[/math][math]\displaystyle{ z }[/math]是数,[math]\displaystyle{ x\hat{i} }[/math]表示一个数乘。这个时候,理解上是有所不一样的:[math]\displaystyle{ \left[\begin{array}{c}x \\ y \\ z\end{array}\right] }[/math]不再是矢量,而是[math]\displaystyle{ \vec{r} }[/math]这个矢量在[math]\displaystyle{ \left\{\hat{i}, \hat{j}, \hat{k}\right\} }[/math]这三个矢量构成的基矢下的分量。在这样一个理解下,很自然地我们就可以讨论,如果存在另外一套不一样的基矢[math]\displaystyle{ \left\{\hat{e}_{1},\hat{e}_{2},\hat{e}_{3}\right\} }[/math],那么我们自然可以通过代入[math]\displaystyle{ \hat{i} }[/math](同时也需要[math]\displaystyle{ \hat{j}, \hat{k} }[/math])在新的基矢[math]\displaystyle{ \left\{\hat{e}_{1},\hat{e}_{2},\hat{e}_{3}\right\} }[/math]下的表达式——形如[math]\displaystyle{ \hat{i}=s^{1}_{1}\hat{e}_{1}+s^{1}_{2}\hat{e}_{2}+s^{1}_{3}\hat{e}_{3} }[/math],从而得到矢量[math]\displaystyle{ \vec{r} }[/math]在新的基矢下的分量形式。这样,我们自然就完成了基矢转换的过程。

我们说这样的一个对矢量的理解是非常重要的:[math]\displaystyle{ \left[\begin{array}{c}x \\ y \\ z\end{array}\right] }[/math]不再是矢量,[math]\displaystyle{ x\hat{i} + y\hat{j} + z\hat{k} }[/math]才是矢量。为了节省空间,以后我们把列矢量写作行矢量的转置,例如 [math]\displaystyle{ \left[x, y, z\right]^{T} }[/math][math]\displaystyle{ \left[x, y, z\right]^{T} }[/math]仅仅是抽象矢量[math]\displaystyle{ \vec{r} }[/math]在某一套基矢——这里是[math]\displaystyle{ \left\{\hat{i}, \hat{j}, \hat{k}\right\} }[/math]——下的分量形式。在这里,“抽象”的含义是,我们不能写出它的一般表达式,我们也想象不出来,除非给我们一组基矢。也就是说,更一般地来说,[math]\displaystyle{ \hat{i} }[/math]以及[math]\displaystyle{ \hat{j} }[/math][math]\displaystyle{ \hat{k} }[/math]的含义可以是位置矢量、速度矢量、力矢量,也可以是更一般的矢量。例如,函数可以看作矢量,在那里,一定条件下三角函数可以看作基矢。这就是Fourier级数和Fourier变换背后的数学结构。

为了在一般的矢量空间,而不仅仅是三维实空间矢量,做这个分量形式和抽象矢量的区分,我们引入。我们把上面的表达式写成, [math]\displaystyle{ \begin{aligned} {\left|}r {\right\rangle}= x {\left|}i {\right\rangle}+ y {\left|}j {\right\rangle}+ z {\left|}k {\right\rangle},\end{aligned} }[/math] 也就是把所有的带着矢量符号的东西都用半个括号(叫做ket,右括号)来代替。类似的,行向量[math]\displaystyle{ \left[x, y, z\right]^{T} }[/math]就可以记为 [math]\displaystyle{ \begin{aligned} {\left\langle}r {\right|}= x {\left\langle}i {\right|}+ y {\left\langle}j {\right|}+ z {\left\langle}k {\right|}.\end{aligned} }[/math] 其中[math]\displaystyle{ {\left\langle}r {\right|} }[/math]被称为左矢量(bra,左括号)。在这里,转置是一个从右矢量到左矢量的线性映射。具体[math]\displaystyle{ {\left\langle}i {\right|} }[/math]等的含义是什么,我们一会儿会回来讨论。在这里,我们仅仅就是换了一套记号。将来,我们会发现这套记号有额外的好处,但是目前阶段,就是使得我们的表达式写起来更复杂一点。为了让大家早点熟悉这个记号,下面所有的讨论,我们都将采用Dirac符号。

利用Dirac符号的左矢和右矢,我们可以把公式[math]\displaystyle{ \left(\ref{eq:dotproduct}\right) }[/math]中的点积改写成, [math]\displaystyle{ \begin{aligned} \left(u,v\right) = u^{T}v = {\left\langle}u {\left.}{\right|}v {\right\rangle}.\end{aligned} }[/math] 同样的,当这个点积为零的时候,我们称矢量[math]\displaystyle{ {\left|}u {\right\rangle} }[/math][math]\displaystyle{ {\left|}v {\right\rangle} }[/math]相互正交。

矩阵的谱展开,Dirac符号与抽象矢量

我们假设我们的读者从线性代数已经学到了本征值和本征向量的计算。一个矩阵[math]\displaystyle{ A }[/math]的右本征向量[math]\displaystyle{ v }[/math]的定义是满足下面这个表达式的非零向量, [math]\displaystyle{ \begin{aligned} A v = \lambda v \Longleftrightarrow A {\left|}v {\right\rangle}= \lambda {\left|}v {\right\rangle}. \end{aligned} }[/math] 这个方程也可以被写作 [math]\displaystyle{ \begin{aligned} \left(A -\lambda\right) v = 0 \Longleftrightarrow \left(A -\lambda\right) {\left|}v {\right\rangle}= 0.\end{aligned} }[/math] 于是,这个方程有非零解的条件是 [math]\displaystyle{ \begin{aligned} \det{\left(A -\lambda I\right)} = 0.\end{aligned} }[/math] 这里[math]\displaystyle{ I }[/math]表示对角的而且对角元素都是[math]\displaystyle{ 1 }[/math]的单位矩阵。我们假设我们的读者能够计算任意一个对称的元素为实数的[math]\displaystyle{ 2\times 2 }[/math]的矩阵的本征值和本征向量。

这一节我们从本征矢量开始证明一个关于矩阵本征矢量的最重要的的定理。下一节,我们会讨论矩阵和左矢量的抽象含义。再一次强调,我们的计算都很简单,但是我们寻求的对于概念的理解是不简单的。

假设我们已经得到了一个实对称[math]\displaystyle{ 2\times 2 }[/math]矩阵[math]\displaystyle{ A }[/math]的本征值[math]\displaystyle{ \alpha }[/math]和本征向量[math]\displaystyle{ {\left|}\alpha {\right\rangle} }[/math],我们知道,这样的本征值[math]\displaystyle{ \alpha }[/math]最多就两个,因为相应的行列式的方程是二阶的,最多有两个根。我们要证明的是当两个根不一样的时候,相应的两个本征矢量相互正交。很容易就能证明,当两个根一样的时候,这个矩阵[math]\displaystyle{ A }[/math]就是单位矩阵的常数倍,[math]\displaystyle{ A=\alpha I }[/math][16]。对于这个特殊情况,我们只能够得到一个重根本征值,本征向量的计算也会有点小问题(任意二维矢量都是这个矩阵的本征向量)。我们把这种特殊情况叫做简并本征值。为了以后使用方便,这个时候本征向量的通常的选择方法是选择任意两个相互正交的矢量。现在,我们来证明这个重要的定理。

实对称矩阵[math]\displaystyle{ A^{T}=A }[/math]的不同本征值对应的本征向量相互正交。

假设[math]\displaystyle{ N }[/math]维实对称矩阵[math]\displaystyle{ A }[/math][math]\displaystyle{ A^{T}=A }[/math],的本征值集合为[math]\displaystyle{ \left\{\alpha_{j}\right\} }[/math],相应的本征向量集合为[math]\displaystyle{ \left\{{\left|}\alpha_{j} {\right\rangle}\right\} }[/math]。对于这个集合中的任何一个元素[math]\displaystyle{ {\left|}\alpha_{j} {\right\rangle} }[/math],我们有[math]\displaystyle{ A{\left|}\alpha_{j} {\right\rangle}= \alpha_{j} {\left|}\alpha_{j} {\right\rangle} }[/math]。于是, [math]\displaystyle{ \begin{aligned} \alpha_{j}{\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}= {\left\langle}\alpha_{i} {\left|}A {\right|}\alpha_{j}{\right\rangle}= \left({\left\langle}\alpha_{j} {\left|}A^{T} {\right|}\alpha_{i}{\right\rangle}\right)^{T} \notag \\ = \left({\left\langle}\alpha_{j} {\left|}A {\right|}\alpha_{i}{\right\rangle}\right)^{T} = \left(\alpha_{i}{\left\langle}\alpha_{j} {\left|}\right. \alpha_{i}{\right\rangle}\right)^{T} = \alpha_{i}{\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}\notag \\ \Longrightarrow \left(\alpha_{i}-\alpha_{j}\right){\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}=0.\end{aligned} }[/math] 因此,要么[math]\displaystyle{ \alpha_{i}=\alpha_{j} }[/math],要么[math]\displaystyle{ {\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}=0 }[/math]也就是[math]\displaystyle{ {\left|}\alpha_{i} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\alpha_{j}{\right\rangle} }[/math]两个矢量正交。

其实,我们还可以证明实对称矩阵的本征值必然是实数,不会是复数。不过,这个留到我们介绍复数域上的矩阵的时候再来证明。有了本征矢量的正交性,对于我们的下一步讨论就够用了。

在以上的证明过程中,我们用到了转置的性质,[math]\displaystyle{ \left({\left\langle}\alpha_{i} {\left|}A {\right|}\alpha_{j}{\right\rangle}\right)^{T}= {\left\langle}\alpha_{j} {\left|}A^{T} {\right|}\alpha_{i}{\right\rangle} }[/math]。严格说来,这一条是需要我们先证明的。我们能够这么做是因为在通常的线性代数中[math]\displaystyle{ \left(u^{T}Av\right)^{T}=v^{T}A^{T}u }[/math]。实际上,这个逻辑是不完全正确的。既然我们希望建立抽象矢量而不是分量形式的矢量的概念,那么,分量形式的矢量和矩阵的公式就不应该在这里使用。然而,如果我们真的要从头开始建立抽象矢量的概念,我们需要花很大的精力,从矢量和矢量空间的抽象定义开始。这当然也是可行的,但是一般来说会等到更高级的量子力学和代数的课程里面。在这里,我们的目的和思路比较简单,我们希望读者学习完了这个部分之后从概念上懂得抽象矢量和分量形式的区别,但是也要看见以前所学的分量形式的计算都是对的,而且明白为什么是对的。所以,有的时候我们通过分量形式的公式来猜测抽象形式的公式的形式是没有问题的。如果真的希望采用严格的证明,我们需要先定义矢量(右矢量)空间和对偶矢量(左矢量)空间,以及把矢量空间上的算符对应到对偶矢量空间上的算符。

对于任意一个非零矢量[math]\displaystyle{ {\left|}u {\right\rangle} }[/math],我们总是可以做一个归一化,[math]\displaystyle{ {\left|}\tilde{u} {\right\rangle}= \frac{{\left|}u {\right\rangle}}{\sqrt{{\left\langle}u {\left.}{\right|}u {\right\rangle}}} }[/math],于是[math]\displaystyle{ {\left\langle}\tilde{u} {\left.}{\right|}\tilde{u} {\right\rangle}=1 }[/math]。从现在开始,我们把本征矢量就看做既相互正交又自己归一的一个矢量集合。有了这个矢量集合,我们来探讨把这个集合作为基矢,我们如何来表达其他的矢量。对于本征值出现多重根,也就是简并的情况,我们假设已经通过某种方式选择了两个相互正交的矢量来作为基矢。所以,以后我们不再区分是否出现多重根。也就是说,通过求解某个矩阵本征值和本征向量的方法,我们已经得到了一组[math]\displaystyle{ N }[/math]个正交归一的矢量,[math]\displaystyle{ N }[/math]就是矩阵所在的矢量空间的维数。这样的一组矢量的集合也被称为完备的正交归一基矢,其中的矢量的两两之间的内积满足 [math]\displaystyle{ \begin{aligned} {\left\langle}\beta {\left|}{\right.}\alpha {\right\rangle}= \delta_{\alpha,\beta}.\end{aligned} }[/math] 其中的[math]\displaystyle{ \delta_{\alpha,\beta} }[/math]是, [math]\displaystyle{ \begin{aligned} \delta_{\alpha,\beta} = \begin{cases} 1 & \mbox{if } \alpha=\beta \\ 0 & \mbox{otherwise} \end{cases}.\end{aligned} }[/math] 我们从这里开始。

给定一组完备的正交归一基矢的[math]\displaystyle{ \left\{{\left|}\alpha {\right\rangle}\right\} }[/math],矢量空间中的任意矢量[math]\displaystyle{ {\left|}u {\right\rangle} }[/math]可以按照如下方式展开, [math]\displaystyle{ \begin{aligned} {\left|}u {\right\rangle}= \sum_{\alpha} u_{\alpha}{\left|}\alpha {\right\rangle},\end{aligned} }[/math] 而且, [math]\displaystyle{ \begin{aligned} u_{\alpha} = {\left\langle}\alpha {\right|}{\left.}u {\right\rangle}.\end{aligned} }[/math]

证明非常简单,第一部分,[math]\displaystyle{ {\left|}u {\right\rangle} }[/math]是这个[math]\displaystyle{ N }[/math]维空间中的一个矢量,[math]\displaystyle{ \left\{{\left|}\alpha {\right\rangle}\right\} }[/math]是相互正交的,也就是线性无关的[math]\displaystyle{ N }[/math]个矢量,于是必然这个[math]\displaystyle{ N+1 }[/math]个矢量不可能线性无关。所以有了第一个表达式。然后,我们把这个表达式的两边与矢量[math]\displaystyle{ {\left|}\beta {\right\rangle} }[/math]做内积,于是 [math]\displaystyle{ \begin{aligned} {\left\langle}\beta {\left|}{\right.}u {\right\rangle}= {\left\langle}\beta {\right|}\sum_{\alpha} u_{\alpha}{\left|}\alpha {\right\rangle}= \sum_{\alpha} u_{\alpha}{\left\langle}\beta {\left|}{\right.}\alpha {\right\rangle}= \sum_{\alpha} u_{\alpha}\delta_{\alpha,\beta} = u_{\beta}.\end{aligned} }[/math]

有了这个定理,我们来看一下,左矢量的作用。左矢量[math]\displaystyle{ {\left\langle}\alpha {\right|} }[/math]的第一个作用是把一个矢量[math]\displaystyle{ {\left|}u {\right\rangle} }[/math]对应的在[math]\displaystyle{ {\left|}\alpha {\right\rangle} }[/math]上的分量[math]\displaystyle{ u_{\alpha} }[/math]取出来。它把一个矢量映射成为一个数。特别地,当我们的[math]\displaystyle{ {\left|}u {\right\rangle}={\left|}\alpha {\right\rangle} }[/math]的时候,得到的数是[math]\displaystyle{ 1 }[/math]。从这个意义上说,左矢量[math]\displaystyle{ {\left\langle}\alpha {\right|} }[/math]就好像是右矢量[math]\displaystyle{ {\left|}\alpha {\right\rangle} }[/math]的一个镜像。左矢量的这两条性质:从矢量空间到数的映射,右矢量的镜像,是非常重要的性质。以后,我们经常会利用这两条性质来理解其它的数学对象。

现在,我们就用这个理解来看看矩阵到底是什么。考虑一个有两个正交归一基矢这样构成的对象[math]\displaystyle{ M_{\alpha\beta} = {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]。我们来看看[math]\displaystyle{ M_{\alpha\beta} }[/math]作用到任意一个矢量上得到什么。 [math]\displaystyle{ \begin{aligned} M_{\alpha\beta} {\left|}u {\right\rangle}= {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}\sum_{j} u_{j}{\left|}j {\right\rangle}= u_{\beta} {\left|}\alpha {\right\rangle}.\end{aligned} }[/math] 这个结果的含义是[math]\displaystyle{ M_{\alpha\beta} }[/math]把一个矢量[math]\displaystyle{ {\left|}u {\right\rangle} }[/math][math]\displaystyle{ \beta }[/math]分量[math]\displaystyle{ u_{\beta} }[/math]单独拿出来,然后把这个分量转动了一个方向作为[math]\displaystyle{ \alpha }[/math]方向上的分量。也就是说,[math]\displaystyle{ M_{\alpha\beta} }[/math]是一个把右矢量变成另一个右矢量的映射,而且这个映射看起来像是转动,或者更严格一点说,转动的一部分。这样的一个把右矢量变成另一个右矢量的映射,叫做算符。

接着,我们来看一下这样一个算符是什么:[math]\displaystyle{ \hat{A} = \sum_{\alpha,\beta}A_{\alpha\beta}{\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]。其中[math]\displaystyle{ A_{\alpha\beta} }[/math]是实数。这个对象就是相当于一堆[math]\displaystyle{ {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]的线性组合,也就是把好多个[math]\displaystyle{ {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]加起来。自然,它还是一个把右矢量变成另一个右矢量的映射,而且是“转动”。 [math]\displaystyle{ \begin{aligned} \hat{A} {\left|}u {\right\rangle}= \sum_{\alpha,\beta}A_{\alpha\beta}{\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}\sum_{j} u_{j}{\left|}j {\right\rangle}= \sum_{\alpha,\beta} A_{\alpha\beta}u_{\beta} {\left|}\alpha {\right\rangle},\end{aligned} }[/math] 也就是说, [math]\displaystyle{ \begin{aligned} \left(\hat{A} u\right)_{\alpha} = \sum_{\beta} A_{\alpha\beta}u_{\beta}.\end{aligned} }[/math] 这个正好就是矩阵与矢量的乘法的定义,如果记[math]\displaystyle{ v=Au }[/math],则[math]\displaystyle{ v_{\alpha} = \sum_{\beta} A_{\alpha\beta}u_{\beta} }[/math]。从这里,我们看到,所谓矩阵就是这个算符[math]\displaystyle{ \hat{A} }[/math]的在完备正交归一基矢集合[math]\displaystyle{ \left\{{\left|}\alpha {\right\rangle}\right\} }[/math]下展开的系数。于是,我们把[math]\displaystyle{ {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]看作算符,然后把[math]\displaystyle{ A_{\alpha\beta} }[/math]看作这些算符相互叠加起来的系数,记作 [math]\displaystyle{ \begin{aligned} \hat{A} = \sum_{\alpha,\beta}A_{\alpha\beta}{\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}.\end{aligned} }[/math] 就好像我们不再把[math]\displaystyle{ \left[x,y,z\right]^{T} }[/math]看作矢量,而是看做矢量[math]\displaystyle{ {\left|}r {\right\rangle} }[/math]在某套基矢下的分量一样,我们不再把矩阵[math]\displaystyle{ \left(A_{ij}\right)_{N\times N} }[/math]看作一个矩阵算符,而是看作算符[math]\displaystyle{ \hat{A} }[/math]在某套基矢下的分量形式。特别地,我们来看一看单位矩阵,或者说不变算符[math]\displaystyle{ \hat{I} }[/math]的展开形式, [math]\displaystyle{ \begin{aligned} \left(\hat{I} u\right)_{\alpha} = u_{\alpha} \Longrightarrow I_{\alpha\beta} = \delta_{\alpha\beta},\end{aligned} }[/math] 于是 [math]\displaystyle{ \begin{aligned} \hat{I} = \sum_{\alpha,\beta}\delta_{\alpha\beta}{\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}= \sum_{\alpha}{\left|}\alpha {\right\rangle}{\left\langle}\alpha{\right|}.\end{aligned} }[/math] 最后这个表达式非常重要,有一个专门的名字,叫做完全性关系。

把抽象的矢量和矩阵算符与排成一列的数字和排成一个方块的数字之间的区别开来,是我们这一节最重要的目标。我们是通过运用Dirac符号和左矢量来达到这个目的的。没有Dirac符号和左矢量的帮助,我们很难说清楚两者之间的区别和联系。同时,我们学习了谱展开的一些关键概念:对称矩阵的不同本征值对应的本征向量相互正交,通过对于简并本征值的特殊处理之后可以构成完备的正交归一基矢。利用这组基矢以及这组基矢的完全性关系,我们可以得到各个抽象矢量和抽象算符在这组基矢下的分量形式。在得到分量形式之后,以前在线性代数课程中学到过的所有的运算都是正确的有效的。也就是说,在这个意义——线性代数的矢量和矩阵是抽象矢量和算符在某一套给定的基矢下的分量形式——上,认为列矢量是矢量,一个方块的数字是矩阵,没有问题。

没有抽象矢量记号之前,矢量的定义是从坐标变换下的分量的变换形式定义的,说坐标变换下分量不变叫做标量,分量如何变化的叫作矢量,如何如何变化的叫做张量。这当然,也是正确的定义。但是,就好像你识别出一个朋友的脸,你肯定不是通过他/她的脸如何变化来识别的,而是通过某些内在特征来识别的。有了这个记号,我们终于可以说:矢量在坐标变换下是不变的,标量和张量在坐标变换下也是不变的,改变的仅仅是分量形式。这个抽象矢量记号对于我们后面的内容非常重要,所有的矢量将来都会写成这个抽象形式。只有这样,我们认为,才能够形成足够深刻的认识:矢量不是数,数仅仅是矢量在某坐标系下的分量形式。

因此,这个部分的学习目的不是学到新的计算,而是学到新的理解。这个不是很容易。请试着不依赖于任何一套基矢给我一个矢量。如果你觉得左矢量不太好直观想象举例子,那么,右矢量其实同样不太好直观想象举例子,矩阵也是一样的。

复数域上的抽象矢量与抽象矩阵算符

前面,我们讨论了实数域上的矢量和矩阵的加法、乘法、数乘、点积、转置、本征值和本征向量、抽象形式与分量形式的关系,现在我们来平行地讨论复数域上的矢量和矩阵的加法、乘法、数乘、点积、转置、本征值和本征向量、抽象形式与分量形式的关系。同样地,我们先学会计算,这个简单的任务,然后来讨论对于这些计算的理解。

复数域上的矩阵和矢量运算

加法、乘法、数乘的定义完全一样。我们仅给出不一样的点积的定义。这个时候通常称为内积。两个复数域上的列矢量,这个时候是分量形式的,[math]\displaystyle{ u }[/math][math]\displaystyle{ v }[/math]的内积定义为 [math]\displaystyle{ \begin{aligned} \left(\nu,\mu\right) = \nu^{\dag}\mu = \sum_{j} \nu^{*}_{j} \mu_{j}, {\label{eq:complexInnerProduct}}\end{aligned} }[/math] 其中[math]\displaystyle{ \nu^{\dag} }[/math]称为[math]\displaystyle{ \nu }[/math]的Hermitian共轭。其一般的定义是, [math]\displaystyle{ \begin{aligned} \left(A^{\dag}\right)_{ij} = A^{*}_{ji}. {\label{eq:HermitianConjugate}}\end{aligned} }[/math] 这个操作与实数域上的转置操作略有区别,可以写做, [math]\displaystyle{ \begin{aligned} A^{\dag} = \left(A^{*}\right)^{T},\end{aligned} }[/math] 相当于先做元素的复共轭再做矩阵转置。这些都是分量形式的定义。我们只能够在给定基矢集合以后做这样的运算。下面,我们讨论抽象的定义。当然,我们的做法还是建立分量形式和抽象形式之间的联系,而不是真正的直接讲授抽象矢量。后者,对于学习更复杂的对象是有必要的,但是我们仅仅关系二能级体系上的量子力学,懂得抽象矢量的存在及其与分量形式的联系就够了。

复数域上的左矢量的分量形式的定义

在实数域上,左矢量的分量形式很好定义,就是把右矢量的分量形式——那个列向量,横过来变成行向量就行了。现在,复数域上的矢量内积的定义比实数域上的定义多了一个共轭操作,于是右矢量和左矢量的关系稍微的复杂了一点点,但是左矢量是从右矢量到数的映射,左矢量是右矢量的一个镜像,这个是不变的。我们希望保持下面这个表达式, [math]\displaystyle{ \begin{aligned} \left(\nu, \mu\right) \triangleq {\left\langle}\nu {\right|}\left. \mu {\right\rangle}{\label{eq:complexRelation}}\end{aligned} }[/math] 满足内积的性质,例如可以用内积来定义距离,于是[17] [math]\displaystyle{ \begin{aligned} {\left\langle}\nu {\right|}\left. \nu {\right\rangle}\geq 0. {\label{eq:complexdistance}}\end{aligned} }[/math] 我们还希望保持 [math]\displaystyle{ \begin{aligned} \hat{I} = \sum_{\alpha}{\left|}\alpha {\right\rangle}{\left\langle}\alpha{\right|}.\end{aligned} }[/math] 其中[math]\displaystyle{ \left\{{\left|}\alpha {\right\rangle}\right\} }[/math]是某一套完备正交归一的基矢。如果这样的一套基矢还能够与某个算符的本征矢量相互联系起来,就更好了。这些就是我们的目标,然后我们来看看,我们的左矢量应该如何定义。

我们定义其分量形式为,把同样基矢下的右矢量所对应的分量形式的列向量,横过来,然后给每一个元素做一下复共轭,也就是如果 [math]\displaystyle{ \begin{aligned} {\left|}\nu {\right\rangle}\Rightarrow \left[\nu_{1}, \nu_{2}, \cdots \right]^{T}, {\label{eq:complexRvec}}\end{aligned} }[/math][math]\displaystyle{ \begin{aligned} {\left\langle}\nu {\right|}\Rightarrow \left[\nu^{*}_{1}, \nu^{*}_{2}, \cdots \right]. {\label{eq:complexLvec}}\end{aligned} }[/math] 这个定义有一个后果, [math]\displaystyle{ \begin{aligned} {\left|}a \nu {\right\rangle}= a {\left|}\nu {\right\rangle}, \end{aligned} }[/math][math]\displaystyle{ \begin{aligned} {\left\langle}a\nu {\right|}= a^{*}{\left\langle}\nu {\right|}. \end{aligned} }[/math] 这里,[math]\displaystyle{ a }[/math]是一个复数。这一点和实数域上的情况略有不同,那里[math]\displaystyle{ {\left\langle}a\nu {\right|}= a {\left\langle}\nu {\right|} }[/math],因为[math]\displaystyle{ a^{*}=a }[/math]。也就是说,在实数域上左矢量和右矢量形式上完全相同就是一个是行矢量一个是列矢量,但是在复数域上,其数字的值也不一样。为什么会这样定义呢?

我们试着用这个行向量(左矢量)[math]\displaystyle{ \left[\nu^{*}_{1}, \nu^{*}_{2}, \cdots \right] }[/math]跟列矢量(右矢量)[math]\displaystyle{ \left[\nu_{1}, \nu_{2}, \cdots \right]^{T} }[/math]做一个相乘,我们就发现,刚好我们得到了公式[math]\displaystyle{ \left(\ref{eq:complexdistance}\right) }[/math]中定义的结果([math]\displaystyle{ \nu^{*}_{1}\nu_{1} \geq 0 }[/math],但是[math]\displaystyle{ \nu_{1}\nu_{1} }[/math]没有这个性质),也就是说,公式[math]\displaystyle{ \left(\ref{eq:complexRelation}\right) }[/math]得到了满足。所以,复数域上的内积的定义,以及保持分量形式的行列矢量相乘的运算与内积一致的要求,使得我们选择了这个左矢量的定义。

这个行矢量和列矢量之间的关系,就好像实数域上的转置,在复数域上被称为复共轭,或者Hermitian共轭,记为 [math]\displaystyle{ \begin{aligned} \left({\left|}\nu {\right\rangle}\right)^{\dag} = {\left\langle}\nu {\right|}. \end{aligned} }[/math] 正如转置可以定义在矩阵上,Hermitian共轭也可以定义到矩阵上,分量形式的定义就是公式[math]\displaystyle{ \left(\ref{eq:HermitianConjugate}\right) }[/math]

复数域上抽象算符的谱展开

现在,我们回过头来讨论复数域上的抽象左右矢量和算符。让我们假设抽象矢量的定义和它的Hermitian共轭的定义是明确的。实际上,我们是通过分量形式的定义公式[math]\displaystyle{ \left(\ref{eq:complexRvec}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:complexLvec}\right) }[/math]来理解抽象左右矢量的。我们说过,这个是不完整的,有必要的话,可以通过直接定义抽象的矢量来弥补。例如,矢量之所以成为矢量是可以对矢量做加法、数乘、旋转、拉伸。不过,我们的处理方式是让这些抽象定义在更高层次的量子力学和代数中学习。所以,在这里我们接受通过分量形式辗转定义的左矢量,而且我们不回答右矢量是什么的问题。反正给定一个右矢量,我们在某一套完备正交归一的基矢下面写下分量形式,然后写下这个分量形式的Hermitian共轭,这个共轭的结果就是这一套基矢下面这个右矢量对应的左矢量。换句话说,给定一套基矢[math]\displaystyle{ \left\{{\left|}\alpha_{j} {\right\rangle}\right\} }[/math],先别管这套基矢哪里来的,如果我们的右矢量是 [math]\displaystyle{ \begin{aligned} {\left|}\mu {\right\rangle}= \sum_{j}\mu_{j}{\left|}\alpha_{j} {\right\rangle}, \end{aligned} }[/math] 那么我们的相应的左矢量就是 [math]\displaystyle{ \begin{aligned} {\left\langle}\mu {\right|}= \sum_{j}\mu^{*}_{j}{\left\langle}\alpha_{j} {\right|}.\end{aligned} }[/math]

然后,我们来讨论形如[math]\displaystyle{ {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]的对象是什么。很容易验证,就像在实数域上的情况一样,[math]\displaystyle{ {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]把一个右矢量变成另一个右矢量,所以是一个算符。而且,是一个线性算符。一个一般的线性算符[math]\displaystyle{ L }[/math]的含义是,当作用在对象[math]\displaystyle{ a\mu + b \nu }[/math]上,我们有 [math]\displaystyle{ \begin{aligned} L\left(a\mu + b \nu\right) = aL\left(\mu\right) + bL\left(\nu\right) .\end{aligned} }[/math] 其中[math]\displaystyle{ a,b }[/math]是数,[math]\displaystyle{ \mu, \nu }[/math]是对象。可以验证[math]\displaystyle{ {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|} }[/math]满足这个线性性的要求。于是,一个一般的作用在所有右矢上的线性算符必然是 [math]\displaystyle{ \begin{aligned} \hat{A} = \sum_{\alpha\beta}A_{\alpha\beta} {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}. {\label{eq:complexA}}\end{aligned} }[/math] 这个结论与实数域上的矢量的相应结论一模一样。现在,我们来看这个算符的Hermitian共轭的问题。我们把算符[math]\displaystyle{ \hat{A} }[/math]的每一个部分都做一个Hermitian共轭, [math]\displaystyle{ \begin{aligned} \hat{A}^{\dag} = \sum_{\alpha\beta}A^{*}_{\alpha\beta} {\left|}\beta {\right\rangle}{\left\langle}\alpha {\right|}=\sum_{\alpha\beta}A^{*}_{\beta\alpha} {\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}.\end{aligned} }[/math] 其中,我们用到了左(右)矢量的Hermtian共轭是右(左)矢量。于是, [math]\displaystyle{ \begin{aligned} \hat{A}^{\dag} = \hat{A} \Longleftrightarrow A^{*}_{\alpha\beta} = A_{\beta\alpha}.\end{aligned} }[/math] 我们把满足这个性质的算符称为Hermitian算符。

有了Hermitian算符,我们来考察这样的算符的本征值和本征向量。这个定理是本小节最重要的结果。

Hermitian算符本征向量正交性:Hermitian算符[math]\displaystyle{ \hat{A} }[/math]的所有的本征值(满足[math]\displaystyle{ A{\left|}\alpha_{j} {\right\rangle}=\alpha_{j} {\left|}\alpha_{j} {\right\rangle} }[/math])为实数[math]\displaystyle{ \alpha_{j}\in \mathcal{R} }[/math],且不同本征值对应的本征向量相互正交:[math]\displaystyle{ {\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}=0 }[/math],其中[math]\displaystyle{ \alpha_{i}\neq \alpha_{j} }[/math]

大致证明如下: 先证明本征值为实数, [math]\displaystyle{ \begin{aligned} \alpha_{j} {\left\langle}\alpha_{j} {\right|}\left. \alpha_{j} {\right\rangle}= {\left\langle}\alpha_{j} {\right|}A {\left|}\alpha_{j} {\right\rangle}= \left({\left\langle}\alpha_{j} {\right|}A {\left|}\alpha_{j} {\right\rangle}^{*}\right)^{*} = {\left\langle}\alpha_{j} {\right|}A^{\dag}{\left|}\alpha_{j} {\right\rangle}^{*} \notag \\ = {\left\langle}\alpha_{j} {\right|}A{\left|}\alpha_{j} {\right\rangle}^{*} = \alpha^{*}_{j} {\left\langle}\alpha_{j} {\right|}\left. \alpha_{j} {\right\rangle}\notag \\ \Longrightarrow \left(\alpha_{j}-\alpha^{*}_{j}\right){\left\langle}\alpha_{j} {\left|}\right. \alpha_{j}{\right\rangle}=0 \notag \\ \Longrightarrow \alpha_{j}=\alpha^{*}_{j}.\end{aligned} }[/math] 假设[math]\displaystyle{ \alpha_{i}\neq \alpha_{j} }[/math][math]\displaystyle{ \begin{aligned} \alpha_{j}{\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}= {\left\langle}\alpha_{i} {\left|}A {\right|}\alpha_{j}{\right\rangle}= \left({\left\langle}\alpha_{i} {\left|}A {\right|}\alpha_{j}{\right\rangle}^{*}\right)^{*}= {\left\langle}\alpha_{j} {\left|}A^{\dag} {\right|}\alpha_{i}{\right\rangle}^{*} \notag \\ = {\left\langle}\alpha_{j} {\left|}A {\right|}\alpha_{i}{\right\rangle}^{*} = \alpha^{*}_{i}{\left\langle}\alpha_{j} {\left|}\right. \alpha_{i}{\right\rangle}^{*} = \alpha_{i}{\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}\notag \\ \Longrightarrow \left(\alpha_{i}-\alpha_{j}\right){\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}=0 \notag \\ \Longrightarrow {\left\langle}\alpha_{i} {\left|}\right. \alpha_{j}{\right\rangle}=0. \hspace{0.1cm} \blacksquare\end{aligned} }[/math]

与实数域上的情形类似,如果算符[math]\displaystyle{ \hat{A} }[/math]的本征值都不相同,那么只要我们把每一个本征矢量各自归一化,我们就从Hermitian算符[math]\displaystyle{ \hat{A} }[/math]的本征矢量得到了空间[math]\displaystyle{ V }[/math]的正交归一基矢,于是我们有完全性展开关系, [math]\displaystyle{ \begin{aligned} I =\sum_{j} {\left|}\alpha_{j} {\right\rangle}{\left\langle}\alpha_{j} {\right|}. \end{aligned} }[/math] 存在相同本征值对应不同本征向量,这个称为简并本征值,的问题技术上更复杂(需要在相同本征值对应的本征向量的子空间内正交化矢量),结论是一样的,在此我们不讨论。

在以上的证明过程中,我们也用了分量形式的Hermitian共轭的关系[math]\displaystyle{ {\left\langle}\alpha_{i} {\left|}A {\right|}\alpha_{j}{\right\rangle}^{*}={\left\langle}\alpha_{j} {\left|}A^{\dag} {\right|}\alpha_{i}{\right\rangle} }[/math]。这个表达式的用法也和实数域上的情形一致:尽管原则上我们可以通过抽象矩阵和抽象矢量来代替这个基于分量形式的表达式,但是,在这里我们就直接用了分量形式的结论。

总结,复数域上的抽象矢量和抽象矩阵,与实数域上的基本一致,除了在左矢量的定义上,我们需要把右矢量做一个转置以后在给每一个元素做一个复共轭,而不仅仅是转置。其他方面,完全是对应的。

另外,完全性关系的价值可能我们还没有看到。这一小节的最后,我们展示一下。可以想见[math]\displaystyle{ A_{\alpha\beta} }[/math]的意义就是抽象算符[math]\displaystyle{ \hat{A} }[/math][math]\displaystyle{ \left\{{\left|}\alpha {\right\rangle}\right\} }[/math]这一套基矢下的分量形式,但是,由于我们的算符的定义直接就是由[math]\displaystyle{ A_{\alpha\beta} }[/math]通过公式[math]\displaystyle{ \left(\ref{eq:complexA}\right) }[/math]给出的,这个倒过来如何从[math]\displaystyle{ \hat{A} }[/math]得到[math]\displaystyle{ A_{\alpha\beta} }[/math]的问题不容易看见,现在,我们说,实际上, [math]\displaystyle{ \begin{aligned} A_{\alpha\beta} = {\left\langle}\alpha {\left|}A {\right|}\beta {\right\rangle},\end{aligned} }[/math] 怎么看出来?让我们做以下计算, [math]\displaystyle{ \begin{aligned} A = I A I = \sum_{\alpha} {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|}A \sum_{\beta} {\left|}\beta {\right\rangle}{\left\langle}\beta {\right|}\notag \\ = \sum_{\alpha\beta} \left({\left\langle}\alpha {\right|}A {\left|}\beta {\right\rangle}\right){\left|}\alpha {\right\rangle}{\left\langle}\beta {\right|}, \end{aligned} }[/math] 于是[math]\displaystyle{ A_{\alpha\beta} }[/math]自然就是[math]\displaystyle{ {\left\langle}\alpha {\left|}A {\right|}\beta {\right\rangle} }[/math]

抽象算符的函数与算符的代数

有了抽象算符的谱展开,我们就可以通过数的函数来定义抽象算符的函数。例如我们知道算符[math]\displaystyle{ A }[/math],就可以知道算符[math]\displaystyle{ A^{2} }[/math][math]\displaystyle{ \begin{aligned} A^{2} = AA \sum_{\alpha} {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|}= A\sum_{\alpha} \alpha {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|}= \sum_{\alpha} \alpha^{2} {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|}. \end{aligned} }[/math] 于是,[math]\displaystyle{ A^{2}=\sum_{\alpha} \alpha^{2} {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|} }[/math]。更一般地,[math]\displaystyle{ A^{n}=\sum_{\alpha} \alpha^{n} {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|} }[/math]。那么一般的算符[math]\displaystyle{ A }[/math]的多项式[math]\displaystyle{ f\left(A\right) = \sum_{\alpha} f\left(\alpha\right) {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|} }[/math],例如 [math]\displaystyle{ \begin{aligned} e^{\lambda A} = \sum_{\alpha} e^{\lambda \alpha} {\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|}. \end{aligned} }[/math]

另外,算符的加减乘除等运算跟通常的数的运算有所不同。例如对于数[math]\displaystyle{ e^{a+b}=e^{a}e^{b} }[/math]但是,对于算符通常[math]\displaystyle{ e^{A+B}\neq e^{A}e^{B} }[/math]。其根本原因是一般来说[math]\displaystyle{ AB\neq BA }[/math]。同样的,一般来说[math]\displaystyle{ e^{A}Be^{-A}\neq B }[/math]。对这些有兴趣的同学可以进一步通过学习高等量子力学的书籍来进一步了解。这里我们给出一个很有意思的关于[math]\displaystyle{ e^{A}Be^{-A} }[/math]的讨论。

[Baker–Campbell–Hausdorff公式的一个变体]: 讨论算符[math]\displaystyle{ e^{A}Be^{-A}\neq B }[/math]的显式形式,也就是去掉指数算符以后的形式。

定义算符 [math]\displaystyle{ \begin{aligned} f\left(A,B,\lambda\right) = e^{\lambda A}Be^{-\lambda A}.\end{aligned} }[/math] 已知[math]\displaystyle{ f\left(A,B,\lambda=0\right)=B }[/math]。现在,我们来计算算符[math]\displaystyle{ f\left(A,B,\lambda\right) }[/math]的几个关于[math]\displaystyle{ \lambda }[/math]的导数。思路是这样的:反正[math]\displaystyle{ f\left(A,B,\lambda\right)=B }[/math][math]\displaystyle{ \lambda }[/math]的函数,于是无论如何, [math]\displaystyle{ \begin{aligned} f\left(A,B,\lambda\right) = \sum_{n=0}^{\infty}C_{n}\lambda^{n}.\end{aligned} }[/math] 当然,我们还必须证明为什么不考虑[math]\displaystyle{ \lambda^{-n} }[/math]之类的项。这里暂时不管这个问题。如果上式成立,那么,我们就可以想办法通过计算[math]\displaystyle{ {\left.}\frac{\partial^{n} f\left(A,B,\lambda\right)}{\partial \lambda^{n}}{\right|}_{\lambda=0} }[/math]来得到所有的[math]\displaystyle{ C_{n} }[/math]。现在,我们来试试前面几阶。 [math]\displaystyle{ \begin{aligned} \frac{\partial}{\partial \lambda}f\left(A,B,\lambda\right) = Ae^{\lambda A}Be^{-\lambda A}-e^{\lambda A}Be^{-\lambda A}A = e^{\lambda A}\left[A,B\right]e^{-\lambda A} = f\left(A,\left[A,B\right],\lambda\right).\end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} C_{0} = f\left(A,B,\lambda=0\right)=B.\end{aligned} }[/math] 接着, [math]\displaystyle{ \begin{aligned} C_{1} = {\left.}\frac{\partial f\left(A,B,\lambda\right)}{\partial \lambda}{\right|}_{\lambda=0} =f\left(A,\left[A,B\right],\lambda=0\right) = \left[A,B\right].\end{aligned} }[/math] 类似地 [math]\displaystyle{ \begin{aligned} C_{2} = \frac{1}{2!}{\left.}\frac{\partial^{2} f\left(A,B,\lambda\right)}{\partial^{2} \lambda}{\right|}_{\lambda=0} = \frac{1}{2!}f\left(A,\left[A,\left[A,B\right]\right],\lambda=0\right) = \frac{1}{2!}\left[A,\left[A,B\right]\right].\end{aligned} }[/math] 同理我们可以得到各阶的系数。于是计算[math]\displaystyle{ f\left(A,B,\lambda=1\right) }[/math]我们得到 [math]\displaystyle{ \begin{aligned} e^{A}Be^{-A} = B + \frac{1}{1!}\left[A,B\right] + \frac{1}{2!}\left[A,\left[A,B\right]\right] + \frac{1}{3!}\left[A,\left[A,\left[A,B\right]\right]\right]+ \cdots.\end{aligned} }[/math]

通过引入[math]\displaystyle{ \lambda }[/math]再让[math]\displaystyle{ \lambda=0 }[/math]以及[math]\displaystyle{ \lambda=1 }[/math]来求得算符是一个很巧妙的技巧。通过这个例子,我们也看见了算符和数之间的区别造成的后果。

共同本征向量,表象理论与线性变换

如果我们有两个不同的Hermitian算符[math]\displaystyle{ \hat{A}, \hat{B} }[/math],我们问这个时候它们对应的正交归一基矢是否相同?

Hermitian算符[math]\displaystyle{ \hat{A}, \hat{B} }[/math]存在共同本征向量如果[math]\displaystyle{ \hat{A}, \hat{B} }[/math]对易:[math]\displaystyle{ \left[\hat{A},\hat{B}\right]=\hat{A}\hat{B}-\hat{B}\hat{A}=0 }[/math]

同样我们假设本征值没有简并的条件下来讨论。取[math]\displaystyle{ \hat{A} }[/math]的本征向量[math]\displaystyle{ {\left|}\alpha {\right\rangle} }[/math][math]\displaystyle{ \begin{aligned} \hat{A}\left(\hat{B} {\left|}\alpha {\right\rangle}\right) = \hat{A}\hat{B} {\left|}\alpha {\right\rangle}= \hat{B}\hat{A} {\left|}\alpha {\right\rangle}= \alpha\left(\hat{B} {\left|}\alpha {\right\rangle}\right) \Longrightarrow \hat{B} {\left|}\alpha {\right\rangle}= b_{\alpha} {\left|}\alpha {\right\rangle}. \end{aligned} }[/math] 于是[math]\displaystyle{ {\left|}\alpha {\right\rangle} }[/math]也是算符[math]\displaystyle{ \hat{B} }[/math]的本征向量。证毕[math]\displaystyle{ \blacksquare }[/math]

反过来,很简单就是可说明,如果两个算符[math]\displaystyle{ \hat{A},\hat{B} }[/math]的所有的本征向量都完全一样,则这两个算符必然对易。直观地说,在这个共同本征态所形成的基矢下,这两个算符都只有对角矩阵元,例如 [math]\displaystyle{ \begin{aligned} \hat{A} = \sum_{\alpha}\hat{A}{\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|}= \sum_{\alpha}\alpha{\left|}\alpha {\right\rangle}{\left\langle}\alpha {\right|},\end{aligned} }[/math] 完全对角,而对角的矩阵永远是相互对易的。

通过这个定理,我们看见,如果我们需要讨论的算符不是所有的都相互对易,那么我们就可以选择不同的Hermitian算符所代表的本征矢量来作为基矢。这样,我们就有很多种基矢的选择。于是,一个算符或者一个向量,它们在不同的基矢下就有不同的表现形式。这些不同的表现形式之间有什么样的关系呢?

我们称某一个相容算符的集合[math]\displaystyle{ X }[/math]——这个集合可以包含多个算符,这些算符两两对易——所对应的共同本征向量为一个[math]\displaystyle{ X }[/math]表象。这些共同本征向量可以作为表达其他所有矢量和矩阵的基矢。一个矢量和矩阵在这一套基矢下的分量形式就称为这个矢量或者矩阵的[math]\displaystyle{ X }[/math]表象下的形式。现在,一个自然的问题就是,如果我们有两个相容算符的集合[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math],但是[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]之间不相容,那么这个矢量或者矩阵在两个表象下的形式有什么区别和联系。这个问题就是矢量和矩阵的线性变换的问题。这就好像是一个人不管哪一天出现,总是会有一个外在的形象,尽管这个外在的形象可能每次都不一样,那么我们自然会关心这些外在的形象之间有什么关系。表象就是把一个抽象的矢量或者矩阵呈现在某一套基矢下面,就是把抽象的人的具体的外在形象呈现出来。

表象之间的变换

为了简单性,我们这里假设[math]\displaystyle{ X }[/math][math]\displaystyle{ X^{\prime} }[/math])表象只有一个算符[math]\displaystyle{ \hat{X} }[/math][math]\displaystyle{ \hat{X}^{\prime} }[/math]),记本征矢量为[math]\displaystyle{ {\left|}x {\right\rangle} }[/math][math]\displaystyle{ {\left|}x^{\prime} {\right\rangle} }[/math])。现在我们来考察这两个表象之间的联系。一个矢量[math]\displaystyle{ {\left|}\mu {\right\rangle} }[/math]可以在表象[math]\displaystyle{ X }[/math]中也可以在表象[math]\displaystyle{ X^{\prime} }[/math]中表达,分别是 [math]\displaystyle{ \begin{aligned} {\left|}\mu {\right\rangle}= \sum_{x}\mu_{x}{\left|}x {\right\rangle}\end{aligned} }[/math][math]\displaystyle{ \begin{aligned} {\left|}\mu {\right\rangle}= \sum_{x^{\prime}}\mu^{\prime}_{x^{\prime}}{\left|}x^{\prime} {\right\rangle}.\end{aligned} }[/math] 于是两者之间可以通过以下方式相联系, [math]\displaystyle{ \begin{aligned} \mu^{\prime}_{x^{\prime}} = {\left\langle}x^{\prime} {\right.}{\left|}\mu {\right\rangle}= \sum_{x}\mu_{x}{\left\langle}x^{\prime} {\right.}{\left|}x{\right\rangle}.\end{aligned} }[/math][math]\displaystyle{ S_{x^{\prime}x} = {\left\langle}x^{\prime} {\right.}{\left|}x {\right\rangle} }[/math],于是 [math]\displaystyle{ \begin{aligned} \mu^{\prime}_{x^{\prime}} = \sum_{x}S_{x^{\prime}x}\mu_{x}.\end{aligned} }[/math] 在这里,[math]\displaystyle{ S_{xx^{\prime}} = {\left\langle}x {\right.}{\left|}x^{\prime} {\right\rangle} }[/math]的集合其实仅仅是一个集合,[math]\displaystyle{ S }[/math]不是一个把一个矢量映射成为另一个矢量的矩阵或者算符。强行按照矩阵运算的规则,上式可以记作, [math]\displaystyle{ \begin{aligned} \mu^{\prime} = S \mu.\end{aligned} }[/math] 这样,看起来好像两个表象之间的分量存在一个相似变换。当然,我们还需要证明这个形式上的矩阵[math]\displaystyle{ S }[/math]满足[math]\displaystyle{ S^{\dag}S=I }[/math]。这个证明非常简单,留给大家做作业。

我们再来讨论一下矩阵的不同表象的联系。对于一个算符[math]\displaystyle{ \hat{A} }[/math],我们有 [math]\displaystyle{ \begin{aligned} \hat{A}= \sum_{xy}{\left|}x {\right\rangle}{\left\langle}x {\right|}\hat{A} {\left|}y {\right\rangle}{\left\langle}y {\right|}= \sum_{x^{\prime}y^{\prime}}{\left|}x^{\prime} {\right\rangle}{\left\langle}x^{\prime} {\right|}\hat{A} {\left|}y^{\prime} {\right\rangle}{\left\langle}y^{\prime} {\right|},\end{aligned} }[/math] 于是 [math]\displaystyle{ \begin{aligned} A_{x^{\prime}y^{\prime}} = \sum_{xy}{\left\langle}x^{\prime} {\right.}{\left|}x {\right\rangle}{\left\langle}x {\right|}\hat{A} {\left|}y {\right\rangle}{\left\langle}y {\right|}{\left.}y^{\prime} {\right\rangle}\Longrightarrow A^{\prime} = S A S^{\dag}.\end{aligned} }[/math] 我们发现,联系着两个表象之间的是一个相性变换矩阵 [math]\displaystyle{ \begin{aligned} S = \left({\left\langle}x^{\prime} {\right.}{\left|}x {\right\rangle}\right)_{N\times N}.\end{aligned} }[/math] 到这里,[math]\displaystyle{ S }[/math]还是一个矩阵,不是一个算符,也就是排成一个方块的遵循矩阵运算规则的数字,而不是一个把矢量映射成为矢量的算符。

举例

下面我们举例来熟悉表象和线性变换,而且要把表象变换和你所熟悉的线性代数中的线性变换联系起来。

[二维[math]\displaystyle{ \sigma_{x},\sigma_{y},\sigma_{z} }[/math]在不同表象下的形式和抽象形式]: 通常这三个算符分别写作[math]\displaystyle{ \sigma_{x}=\left[\begin{array}{cc} 0 & 1 \\ 1 & 0 \end{array}\right],\sigma_{y}=\left[\begin{array}{cc} 0 & -i \\ i & 0 \end{array}\right],\sigma_{z}=\left[\begin{array}{cc} 1 & 0 \\ 0 & -1 \end{array}\right] }[/math]。请问这个是在什么表象下写出来的。计算三个算符在[math]\displaystyle{ \sigma_{x} }[/math]表象下的形式,讨论这个表象下的形式与通常表象下的形式之间的变换。

我们发现[math]\displaystyle{ \sigma_{z} }[/math]矩阵在这个表象下的本征矢量就是[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle}= \left[1,0\right]^{T} }[/math][math]\displaystyle{ {\left|}\downarrow_{z} {\right\rangle}= \left[0,1\right]^{T} }[/math]。正好就是这个空间的基矢。所以,这套算符是在[math]\displaystyle{ \sigma_{z} }[/math]表象下写出来的。现在,我们来转到[math]\displaystyle{ \sigma_{x} }[/math]表象。我们需要先求出来[math]\displaystyle{ \sigma_{x} }[/math]的本征向量,有[math]\displaystyle{ {\left|}\uparrow_{x} {\right\rangle}= \frac{\sqrt{2}}{2}\left[1,1\right]^{T} }[/math][math]\displaystyle{ {\left|}\downarrow_{x} {\right\rangle}= \frac{\sqrt{2}}{2}\left[1,-1\right]^{T} }[/math]。下一步我们需要把[math]\displaystyle{ \sigma_{z} }[/math]表象的基矢转化成[math]\displaystyle{ \sigma_{x} }[/math]表象的基矢, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z} {\right\rangle}= \frac{\sqrt{2}}{2}\left({\left|}\uparrow_{x} {\right\rangle}+ {\left|}\downarrow_{x} {\right\rangle}\right), \notag \\ {\left|}\downarrow_{z} {\right\rangle}= \frac{\sqrt{2}}{2}\left({\left|}\uparrow_{x} {\right\rangle}- {\left|}\downarrow_{x} {\right\rangle}\right) . \notag \end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} \sigma_{y} = -i {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\downarrow_{z} {\right|}+ i {\left|}\downarrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}= i{\left|}\uparrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}- i{\left|}\downarrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}. \notag \end{aligned} }[/math] 如果写成矩阵就是, [math]\displaystyle{ \begin{aligned} \sigma_{y}=\left[\begin{array}{cc} 0 & i \\ -i & 0 \end{array}\right]. \notag \end{aligned} }[/math] 我们还可以写下来表象变换的矩阵形式。

通过这个例子,我们看到同样的算符在不同的表象下可以写成不同的矩阵的形式。

[一元偏微分方程的二维子空间]: 求解微分方程[math]\displaystyle{ \frac{\partial^{2}}{\partial t^{2}}\psi\left(x,t\right) - \nabla^{2} \psi\left(x,t\right) = 0 }[/math],边界条件[math]\displaystyle{ \psi\left(0,t\right) = 0 = \psi\left(1,t\right) }[/math],初始条件[math]\displaystyle{ \psi\left(x,0\right) = 0.3\sin{\left(\pi x\right)} + 0.5\sin{\left(2\pi x\right)} }[/math]

首先我们注意到这是一个线性方程,于是任意两个解的线性叠加,仍然是这个方程的解。因此,这个方程的解构成一个线性空间。至于这个空间的维数和基矢我们需要通过下面的计算来搞清楚。对方程做分离变量,假设[math]\displaystyle{ \psi\left(x,t\right)=X\left(x\right)T\left(t\right) }[/math](也可以做Fourier变换来求解),于是 [math]\displaystyle{ \begin{aligned} \frac{X\left(x\right)}{X^{\prime\prime}\left(x\right)}=\frac{T^{\prime\prime}\left(t\right)}{T\left(t\right)}. \notag \end{aligned} }[/math] 左边是[math]\displaystyle{ x }[/math]的函数,右边是[math]\displaystyle{ t }[/math]的函数,两边相等的唯一可能就是不是依赖于[math]\displaystyle{ \left(x,t\right) }[/math]的常数。于是方程变成如下两个, [math]\displaystyle{ \begin{aligned} X^{\prime\prime}\left(x\right) = \lambda X\left(x\right), \notag \\ T^{\prime\prime}\left(t\right) = \lambda T\left(t\right). \notag \end{aligned} }[/math] 这两个方程的解都是[math]\displaystyle{ e }[/math]指数的形式([math]\displaystyle{ e^{kx} }[/math]或者[math]\displaystyle{ e^{ikx} }[/math],或者等价的[math]\displaystyle{ \sin{\left(kx\right)}, \cos{\left(kx\right)} }[/math]或者[math]\displaystyle{ \sinh{\left(kx\right)}, \cosh{\left(kx\right)} }[/math])。考虑到边界条件,我们采用[math]\displaystyle{ \sin{\left(kx\right)} }[/math]的形式,并且[math]\displaystyle{ k=n\pi }[/math]。在时间侧的方程上,习惯上用[math]\displaystyle{ e^{-i\omega t} }[/math]。于是 [math]\displaystyle{ \begin{aligned} \psi\left(x,t\right) = \sum_{n} a_{n} \sin{\left(n\pi x\right)}e^{- i n\pi t}. \notag \end{aligned} }[/math] 根据初始条件,我们得到 [math]\displaystyle{ \begin{aligned} \psi\left(x,t\right) = 0.3\sin{\left(\pi x\right)}e^{- i \pi t} + 0.5\sin{\left(2\pi x\right)}e^{- i 2\pi t}. \notag \end{aligned} }[/math]

[Fourier级数的矢量空间解释]: 结合上面的例子,思考一个函数的Fourier级数的形式到底做了什么?进一步思考,通常的函数形式是在写在什么表象下的?那Fourier变换呢?

在上面的计算中,我们先找到满足边界条件的一组解,[math]\displaystyle{ \sin{\left(n\pi x\right)}e^{- i n\pi t} }[/math],然后把一般解写成这组解的组合的形式,最后通过和初始条件对比来确定组合的系数。因此,实际上,这里先做了一个基矢分解,然后留下系数待确定。更一般地来说,Fourier级数就是把正弦和余弦函数当作函数空间的基矢量,Fourier变换就是把[math]\displaystyle{ e^{\pm ikx} }[/math]当作函数空间的基矢量,来求得函数在这个基矢空间的表象形式。那么,当我们写下来一个一般的[math]\displaystyle{ f\left(x\right) }[/math]的时候,把什么当作基矢呢?提示一下,试试这样来看一个函数, [math]\displaystyle{ \begin{aligned} \hat{f} = \int_{-\infty}^{\infty} dx f\left(x\right) {\left|}x {\right\rangle}{\left\langle}x {\right|}. \notag \end{aligned} }[/math]

相似变换作为算符[math]\displaystyle{ ^{*} }[/math]

本节为选读部分。

现在,我们以[math]\displaystyle{ S }[/math]矩阵为基础来定义一个把矢量映射成为矢量的算符。为了和上一节区别开来,我们用新的符号来表示基矢:[math]\displaystyle{ X }[/math]表象的记作[math]\displaystyle{ {\left|}e_{j} {\right\rangle} }[/math][math]\displaystyle{ X^{\prime} }[/math]表象的记作[math]\displaystyle{ {\left|}e^{\prime}_{j} {\right\rangle} }[/math]。现在,我们来定义一个新的矢量, [math]\displaystyle{ \begin{aligned} {\left|}\mu^{\prime} {\right\rangle}= \sum_{j}{\left|}e_{j} {\right\rangle}{\left\langle}e^{\prime}_{j} {\right|}\cdot {\left|}\mu {\right\rangle}.\end{aligned} }[/math] 注意,这个我们已经默认建立了一个在[math]\displaystyle{ {\left|}e_{j} {\right\rangle} }[/math][math]\displaystyle{ {\left|}e^{\prime}_{j} {\right\rangle} }[/math]之间的顺序对应关系:把[math]\displaystyle{ X }[/math]表象的第[math]\displaystyle{ j }[/math]个基矢与[math]\displaystyle{ X^{\prime} }[/math]表象的第[math]\displaystyle{ j }[/math]个基矢相互联系起来。这个时候[math]\displaystyle{ \sum_{j}{\left|}e_{j} {\right\rangle}{\left\langle}e^{\prime}_{j} {\right|} }[/math]就真的是一个算符了。现在,我们来看一下这个算符与前面的[math]\displaystyle{ S }[/math]矩阵联系。

我们来看一下,这个新的矢量[math]\displaystyle{ {\left|}\mu^{\prime} {\right\rangle} }[/math][math]\displaystyle{ X }[/math]表象下的分量形式, [math]\displaystyle{ \begin{aligned} {\left\langle}e_{k} {\right|}\cdot {\left|}\mu^{\prime} {\right\rangle}= \sum_{j}\delta_{jk}{\left\langle}e^{\prime}_{j} {\right|}\cdot {\left|}\mu {\right\rangle}= {\left\langle}e^{\prime}_{k} {\right|}\cdot {\left|}\mu {\right\rangle}.\end{aligned} }[/math] 新矢量在旧表象下的分量形式等于旧矢量在新表象下的分量形式。进一步,右侧等于 [math]\displaystyle{ \begin{aligned} {\left\langle}e_{k} {\right.}{\left|}\mu^{\prime} {\right\rangle}= {\left\langle}e^{\prime}_{k} {\right.}{\left|}\mu {\right\rangle}= \sum_{l} {\left\langle}e^{\prime}_{k} {\right.}{\left|}e_{l} {\right\rangle}{\left\langle}e_{l} {\right|}{\left.}\mu {\right\rangle}= \sum_{l} S_{kl}{\left\langle}e_{l} {\right|}{\left.}\mu {\right\rangle}.\end{aligned} }[/math] 于是 [math]\displaystyle{ \begin{aligned} {\left|}\mu^{\prime} {\right\rangle}= \sum_{kl} S_{kl} {\left|}e_{k} {\right\rangle}{\left\langle}e_{l} {\right|}{\left.}\mu {\right\rangle}.\end{aligned} }[/math] 定义 [math]\displaystyle{ \begin{aligned} \hat{S} = \sum_{kl} S_{kl} {\left|}e_{k} {\right\rangle}{\left\langle}e_{l} {\right|},\end{aligned} }[/math] 我们得到 [math]\displaystyle{ \begin{aligned} {\left|}\mu^{\prime} {\right\rangle}= \hat{S}{\left|}\mu {\right\rangle}.\end{aligned} }[/math] 这个时候,[math]\displaystyle{ \hat{S} }[/math]真正的成了一个算符。进一步,我们可以把[math]\displaystyle{ \hat{S} }[/math]写作, [math]\displaystyle{ \begin{aligned} \hat{S} = \sum_{kl} {\left\langle}e^{\prime}_{k} {\right|}{\left.}e_{l} {\right\rangle}{\left|}e_{k} {\right\rangle}{\left\langle}e_{l} {\right|}= \sum_{k} {\left|}e_{k} {\right\rangle}{\left\langle}e^{\prime}_{k} {\right|},\end{aligned} }[/math] 正好就是我们前面定义的把旧矢量[math]\displaystyle{ {\left|}\mu {\right\rangle} }[/math]变成新矢量[math]\displaystyle{ {\left|}\mu^{\prime} {\right\rangle} }[/math]的映射。于是,我们发现,相似变换也可以看作是一个算符。只不过,再看做这个算符的过程中,我们需要把旧矢量在新坐标系下的分量形式,看成是一个新矢量的变换之前的坐标系下的分量形式。这个视角的转变,说起来有点拗口,实际上,是我们以前做坐标变换的时候经常使用的一个角度:把变换以后的矢量看作是一个新的矢量,而不是原来的矢量在新的坐标下的形式。这两种视角其实是相通的。当然,从抽象矢量的角度来说,我们更加喜欢把矢量看成不变的东西,把不同的数字看作是同一个矢量在不同坐标系下的分量。

需要指出的是,没有Dirac抽象矢量记号,我们几乎就不可能说明白,认识清楚这些问题。把抽象的矢量和具体的分量形式分开来,这个是说清楚这些问题的最重要的一步。

作业

本课程到现在为止主要讲了那些内容,它们之间有什么关系,用概念地图来表达,看不见几个模块之间的联系的话,可以分成好几片。

[math]\displaystyle{ \sigma_{z} }[/math]表象下的Pauli矩阵开始,求[math]\displaystyle{ 3 }[/math]个二维Pauli矩阵的本征值本征向量,并在[math]\displaystyle{ \sigma_{x} }[/math]表象——也就是用[math]\displaystyle{ \sigma_{x} }[/math]的本征矢量当作基矢——中表达三个Pauli矩阵。

[math]\displaystyle{ \sigma_{y} }[/math]表象中表达三个Pauli矩阵。

[math]\displaystyle{ \sigma_{x}, \sigma_{y}, \sigma_{z} }[/math]分别为[math]\displaystyle{ \sigma_{1}, \sigma_{2}, \sigma_{3} }[/math]。定义[math]\displaystyle{ \epsilon_{ijk} }[/math]为一个顺序和乱序记号(它有自己的名字叫做Levi-Civita记号):当[math]\displaystyle{ ijk=123,231,312 }[/math]的时候它等于[math]\displaystyle{ 1 }[/math],当[math]\displaystyle{ ijk=132,213,321 }[/math]的时候它等于[math]\displaystyle{ -1 }[/math]。在[math]\displaystyle{ \sigma_{z} }[/math][math]\displaystyle{ \sigma_{y} }[/math]两个表象中,证明[math]\displaystyle{ \sigma_{i}\sigma_{j}=\delta_{ij}I+i\epsilon_{ijk}\sigma_{k} }[/math]。其中[math]\displaystyle{ \delta_{ij} }[/math]就是,[math]\displaystyle{ i,j }[/math]相等的时候等于[math]\displaystyle{ 1 }[/math],否则等于[math]\displaystyle{ 0 }[/math]。无论在哪个表象中,这三个算符之间的这个关系都成立是一个很重要的事实。

从某个表象下这个关系成立开始,运用表象变换证明[math]\displaystyle{ \sigma_{i}\sigma_{j}=\delta_{ij}I+i\epsilon_{ijk}\sigma_{k} }[/math]在无论在哪个表象中都成立。(选做)

定义[math]\displaystyle{ \sigma_{r}=\vec{\hat{\sigma}}\cdot \hat{r} }[/math],其中[math]\displaystyle{ \hat{r} }[/math]是三维空间方向矢量,[math]\displaystyle{ \vec{\hat{\sigma}}=[\sigma_{x},\sigma_{y},\sigma_{z}]^{T} }[/math]就是把Pauli矩阵看作一个三维空间矢量。在[math]\displaystyle{ \sigma_{r} }[/math]表象中表达三个Pauli矩阵。

计算[math]\displaystyle{ 3 }[/math]个二维Pauli矩阵的对易关系,计算[math]\displaystyle{ \sigma_{z}, \sigma_{x}+i\sigma_{y}, \sigma_{x}-i\sigma_{y} }[/math]之间的对易关系。可以在某个表象下计算,也可以用前面证明的任意表象下都成立的一般关系[math]\displaystyle{ \sigma_{i}\sigma_{j}=\delta_{ij}I+i\epsilon_{ijk}\sigma_{k} }[/math]。我鼓励你两种方式都做一下。

定义[math]\displaystyle{ \sigma_{r}=\vec{\hat{\sigma}}\cdot \hat{r} }[/math][math]\displaystyle{ \sigma_{r_{1}} }[/math][math]\displaystyle{ \sigma_{r_{2}} }[/math]是对应着两个方向[math]\displaystyle{ \hat{r}_{1} }[/math][math]\displaystyle{ \hat{r}_{2} }[/math]的算符。计算[math]\displaystyle{ \sigma_{r_{1}}\sigma_{r_{2}} }[/math]。可以在某个表象下计算也可以运用前面证明的任意表象下都成立的一般关系[math]\displaystyle{ \sigma_{i}\sigma_{j}=\delta_{ij}I+i\epsilon_{ijk}\sigma_{k} }[/math]。为了计算简单,两个方向矢量都可以取[math]\displaystyle{ \phi_{1}=0=\phi_{2} }[/math]。看一看计算得到的算符是否还是某一个自旋算符[math]\displaystyle{ \sigma_{r_{0}} }[/math]。接着计算这个算符在[math]\displaystyle{ \sigma_{z} }[/math]本的两个征态上的均值,也就是[math]\displaystyle{ {\left\langle}\uparrow_{z}{\right|}\sigma_{r_{1}}\sigma_{r_{2}} {\left|}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left\langle}\downarrow_{z}{\right|}\sigma_{r_{1}}\sigma_{r_{2}} {\left|}\downarrow_{z} {\right\rangle} }[/math][hw:s1s2]

用矩阵运算的形式,求[math]\displaystyle{ \sigma_{z}\otimes\sigma_{x} }[/math][math]\displaystyle{ \sigma_{z}\otimes I }[/math][math]\displaystyle{ I\otimes \sigma_{y} }[/math]的本征值与本征向量,其中[math]\displaystyle{ \otimes }[/math]为矩阵直积(不明白的话google之,wikipedia之)。明确写出你写下来的矩阵的基矢是什么。注意任意一个矩阵都是抽象算符在某一套基矢下的分量形式。注意不同的基矢下计算的复杂程度不一样。

用抽象矢量记号,也就是Dirac符号的形式,求[math]\displaystyle{ \sigma_{z}\otimes\sigma_{x} }[/math][math]\displaystyle{ \sigma_{z}\otimes I }[/math][math]\displaystyle{ I\otimes \sigma_{y} }[/math]的本征值与本征向量。

尝试用矩阵运算和抽象矢量记号,求[math]\displaystyle{ \sigma_{x}\otimes\sigma_{x}+\sigma_{y}\otimes\sigma_{y}+\sigma_{z}\otimes\sigma_{z} }[/math]的本征值与本征向量。如果用矩阵运算,注意你所用的基矢。

计算[math]\displaystyle{ e^{i s_{x}\theta} }[/math][math]\displaystyle{ e^{i s_{y}\theta} }[/math][math]\displaystyle{ e^{i s_{z}\theta} }[/math],其中[math]\displaystyle{ s_{j}=\frac{1}{2}\sigma_{j} }[/math]。提示:考虑Euler公式,考虑正弦余弦函数的多项式展开。

计算[math]\displaystyle{ e^{i s_{r}\theta} }[/math],其中[math]\displaystyle{ s_{r}=\frac{1}{2}\sigma_{r} }[/math]

独立地(不看书,或者看完书以后)用Dirac符号证明复对称矩阵(Hermitian Matrices)不同本征值对应着的本征向量相互正交。

用Dirac符号、本征向量、本征值表示矩阵的迹。

有Hermitian算符[math]\displaystyle{ A }[/math][math]\displaystyle{ B }[/math],请证明[math]\displaystyle{ tr\left(AB\right)=tr\left(BA\right)=\sum_{\alpha} \alpha B_{\alpha} }[/math],其中[math]\displaystyle{ \alpha }[/math][math]\displaystyle{ A }[/math]的本征值,[math]\displaystyle{ B_{\alpha}={\left\langle}\alpha {\right|}B {\left|}\alpha {\right\rangle} }[/math]

本章小结

在这一章里面,我们通过区分左右矢量定义了抽象的矢量和矩阵,然后利用表象——某个相容算符集合的所有相互正交的本征矢量——把抽象矢量与分量形式联系了起来。两个表象之间的联系本身不是一个自然定义的算符,但是,通过左右矢量,我们仍然可以把这个表象之间的变换看作是算符。从计算上来说,这一章唯一的新的东西是复数域上的列矢量转置成行矢量的时候,需要加一个复共轭。只有这个复共轭和转置的联合起来的Hermitian共轭操作能够保持复数域上矢量的内积。从概念上来说,矢量和算符是不依赖于分量形式的存在,它们可以在不同的表象下表现为不同的分量形式。

本章一开始所讨论的数学与科学的关系,数学与物理学的关系,以及如何学习数学,需要你好好体会。这个体会有助于创造性地运用数学和创造数学。数学是对结构的描述,是我们进行思考的语言。所谓科学,就是一个“管用”的现实世界的心智模型,而心智模型中最主要的就是数学模型。在这里,管用,就是指,能够用来理解和解释现实世界。

我们已经提到本书的习题少而精,一定要做。这里再强调一遍,本章的习题不仅要尝试着做,一定要都会做(除了标明选做的题目)。这一点非常非常重要。Dirac符号、谱展开这些在将来的学习中非常非常的重要。

离散状态的概率论

[Chap:CPT]

我们不讨论这个世界到底是决定性的还是随机的,我们把确定性的事件也看成随机事件的一个特例,服从[math]\displaystyle{ \delta }[/math]分布的一个特例。所谓[math]\displaystyle{ \delta }[/math]分布,以后会介绍,就是在给定时刻这个“随机”变量仅有一个可能取值。在这个视角下,所有的经典世界都由概率论描述。

在这一章里面,我们要解决的问题是如何描述随机事件。从古典概型,我们已经知道随机事件可以用随机变量来描述,离散随机变量的每一个可能取值对应着一个概率,连续随机变量可以用概率密度分布函数描述,同时离散和连续随机变量都可以用累积概率分布函数来描述。这些还不够,我们要讨论一下随机事件的定义,最核心的性质是什么(将来我们会看到这个核心是概率叠加原理:互斥事件的加法),然后利用上一章学到的矩阵和Dirac符号来介绍一种新的描述概率的方法——密度矩阵。接着,我们讨论一下离散时间的随机过程——这部分推荐给学有余力的读者。

最后,我们会简短地讨论一下随机变量的测量。这是一个基本上所有的教材都不讨论的问题。我们认为其实关于这个问题的认识非常重要。例如,我们考虑这样一个事件:扔出色子并且色子的某一面——例如[math]\displaystyle{ 6 }[/math]这一面——向上之后,观测这个正面的值,然后我们说这个时候这个随机事件的概率分布就是[math]\displaystyle{ 6 }[/math]这一面[math]\displaystyle{ 100\% }[/math],其他取值的概率为零。那么是否意味着在观测之前的概率分布——每一面都是[math]\displaystyle{ \frac{1}{6} }[/math]——是错误的呢?我们认为,如果认为是错误的,则是对概率论和随机变量的测量的非常错误的理解。如果认为是正确的,那问题来了,测量之后之后的状态不一样,中间只发生了测量:难道测量改变了状态?

在原来的这个硬币的状态到后来的这个硬币的状态之间,存在着一个操作:测量。测量的前后,硬币的状态确实原则上可以发生改变的。在测量之后,确实硬币的状态是[math]\displaystyle{ 100\% }[/math]取值为[math]\displaystyle{ 6 }[/math],但是并不意味着测量之前的状态的描述也发生了改变。大多数经典客体的状态在测量前后不发生改变。其实,这一点没有必要对于随机客体还保持。原则上,这个世界上可以存在着真正随机的客体。然而,如果真的存在,那么我非常怀疑,一个没有深刻理解概率论的学者,可以理解这个世界的任何部分。

这个部分的推荐阅读材料是:的《概率论导引》,的《概率论基础及其应用》,的《概率引论》,的《A Course in Probability Theory》。

古典概型概率论的Dirac符号形式

古典概型对于随机事件有一个基本的假设:存在着某一个基本的简单事件的集合,其中每一个基本简单事件的概率是明确的甚至是相等的[18],然后复杂事件的概率总是可以通过分解成基本简单事件的方式来计算出来。在这里,我们先通过几个古典概型的例子,来了解一下概率论,介绍一下古典概型的Dirac符号形式。然后,我们会展示这种基于简单基本事件的概率论存在一些问题,于是我们需要构造更加一般的概率论。

[对称色子的几率问题]:计算两个六面的对称的色子出现的正面向上的数字之和的几率。

扔一个色子的事件有[math]\displaystyle{ 6 }[/math]个可能结果[math]\displaystyle{ x\in\left\{1,2,3,4,5,6\right\} }[/math],每一面出现的可能性都是[math]\displaystyle{ P\left(x\right)=\frac{1}{6} }[/math]。于是,计算扔两个色子([math]\displaystyle{ y=x_{1}+x_{2} }[/math])的所有可能性,我们的到[math]\displaystyle{ y\in\left\{2,\cdots,12\right\} }[/math],注意各个数值不再是等几率的了。我们需要数一数每种可能出现的次数。例如[math]\displaystyle{ 2=1+1 }[/math]只有一种可能,于是其几率等于 [math]\displaystyle{ \begin{aligned} P\left(y=2\right) = P\left(x_{1}=1, x_{2}=1\right) = P\left(x_{1}=1\right) P\left(x_{2}=1\right) = \frac{1}{36}. \notag\end{aligned} }[/math] 再如[math]\displaystyle{ 10=4+6=6+4=5+5 }[/math],于是 [math]\displaystyle{ \begin{aligned} P\left(y=10\right) = P\left(x_{1}=4, x_{2}=6\right) + P\left(x_{1}=6, x_{2}=4\right) + P\left(x_{1}=5, x_{2}=5\right) = \frac{3}{36}. \notag\end{aligned} }[/math] 其他的都可以类似的计算出来。

这里我们把最基本的事件找出来,确定它们的几率,然后用他们来计算复杂的事件的几率。其中我们用到了互斥事件的概率是各个事件的概率的叠加,也用到了独立事件的概率是各个事件概率的乘积。存在基本事件,可以找到它们的几率,然后运用概率叠加原理和独立事件原理来计算复杂事件的概率是古典概型的特征。

[不太守时的约会]:Alice和Bob约会,约定三点钟见面,可是这两个人都不太守时,耐心也不太好,会在三点钟的前后5分钟出现,而且出现以后只等对方5分钟。问他们能够实现这个约会的几率是多少?

首先,我们确定事件的描述,Alice和Bob到达的时间,记为[math]\displaystyle{ t_{A} }[/math][math]\displaystyle{ t_{B} }[/math]。它们的取值范围是[math]\displaystyle{ t\in\left[2.55,3.05\right] }[/math]。然后我们再来确定这样一个事件[math]\displaystyle{ \left(t_{A}, t_{B}\right) }[/math]的几率[math]\displaystyle{ P\left(t_{A}, t_{B}\right) }[/math]。我们发现这个几率对于任何的在取值范围内的取值都是一样的(或者事先给定的形式,例如集中在刚好[math]\displaystyle{ 3 }[/math]点的几率大一些),可是我们写不出来显式表达式。一对[math]\displaystyle{ \left(t_{A}, t_{B}\right) }[/math]是在所有取值空间[math]\displaystyle{ \left[2.55,3.05\right]\times \left[2:55,3:05\right] }[/math]中的一个点,如[math]\displaystyle{ \ref{fig:dating} }[/math]所示。把一个点和一个正方形区间相比较,我们不会做这样的计算。不过,换一个方式,我们问,在[math]\displaystyle{ \left(t_{A}, t_{B}\right) }[/math]附近一个小小的正方形区域[math]\displaystyle{ \Delta }[/math]之内的几率是多少,我们就能够写出来了:[math]\displaystyle{ \rho\left(t_{A}, t_{B}\right)\cdot \Delta }[/math]。于是,我们发现,实际上所有的信息都可以放到这个[math]\displaystyle{ \rho\left(t_{A}, t_{B}\right) }[/math]中去。这个东西被称为概率密度函数。如果已知概率密度函数,那么任意一个点附近的任意一个区域的几率都可以计算出来。下面,我们以3:00为时间原点,以分钟为单位写下[math]\displaystyle{ t_{A},t_{B} }[/math]的值。这里,我们考虑各个点等几率,因此[math]\displaystyle{ \rho\left(t_{A}, t_{B}\right)=\frac{1}{100} }[/math]。这里,我们用到了归一化条件, [math]\displaystyle{ \begin{aligned} 1 = \int_{t_{A}, t_{B} \in \left[-5,5\right]} dt_{A}dt_{B} \rho\left(t_{A}, t_{B}\right). \notag \end{aligned} }[/math]

接着,我们来看,Alice和Bob约会成功的条件是什么。由于等待时间是5分钟,所以相遇的条件是[math]\displaystyle{ {\left|}t_{A}-t_{B} {\right|}\leq 5 }[/math]

文件:Dating
caption Alice和Bob的约会可能时间和约会成功的区域(阴影部分)。图是用免费数学软件SageMath做的。SageMath的详细情况可以访问sagemath.org的主页。

[fig:dating]

于是,他们约会成功的可能性是, [math]\displaystyle{ \begin{aligned} P = \int_{{\left|}t_{A}-t_{B} {\right|}\leq 5} dt_{A}dt_{B} \rho\left(t_{A}, t_{B}\right) = \frac{1}{100}\int_{{\left|}t_{A}-t_{B} {\right|}\leq 5} dt_{A}dt_{B} = \frac{3}{4}. \notag\end{aligned} }[/math]

从概率分布函数到概率密度函数是从离散随机变量到连续随机变量的概率的描述方式的自然的转变。同时,归一化因子的计算也是概率论问题中重要的一步。现在,我们利用Dirac符号,把以上的概率分布函数形式上写成矩阵的形式。

我们把一个对称的色子的分布函数记作, [math]\displaystyle{ \begin{aligned} \hat{\rho} = \frac{1}{6}{\left|}1 {\right\rangle}{\left\langle}1 {\right|}+ \frac{1}{6}{\left|}2 {\right\rangle}{\left\langle}2 {\right|}+ \frac{1}{6}{\left|}3 {\right\rangle}{\left\langle}3 {\right|}+ \frac{1}{6}{\left|}4 {\right\rangle}{\left\langle}4 {\right|}+ \frac{1}{6}{\left|}5 {\right\rangle}{\left\langle}5 {\right|}+ \frac{1}{6}{\left|}6 {\right\rangle}{\left\langle}6 {\right|}. {\label{eq:classicdensitymatrixExample}}\end{aligned} }[/math] 其中,出现在Dirac符号中的就是状态,前面的系数就是这个状态出现的几率。更一般地,可以写做 [math]\displaystyle{ \begin{aligned} \hat{\rho} = \sum_{j} P\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}. {\label{eq:classicdensitymatrix}}\end{aligned} }[/math] 在这里,暂时我们整体认读[math]\displaystyle{ {\left|}j {\right\rangle}{\left\langle}j {\right|} }[/math],表示事件[math]\displaystyle{ j }[/math]。 在其它的概率论的教材里面,这样的一个色子的状态可以写成一个形式上的“矢量”——注意由于归一化因子的存在这个矢量的加法和数乘不遵循一般的矢量的加法和数乘——形如, [math]\displaystyle{ \begin{aligned} p = \left[\begin{array}{c}\frac{1}{6} \\\frac{1}{6} \\\frac{1}{6} \\\frac{1}{6} \\\frac{1}{6} \\\frac{1}{6} \end{array}\right],\end{aligned} }[/math] 或者一个列表 [math]\displaystyle{ \begin{aligned} p= \begin{cases} \frac{1}{6} & \mbox{if } x=1 \\ \frac{1}{6} & \mbox{if } x=2 \\ \frac{1}{6} & \mbox{if } x=3 \\ \frac{1}{6} & \mbox{if } x=4 \\ \frac{1}{6} & \mbox{if } x=5 \\ \frac{1}{6} & \mbox{if } x=6 \\ \end{cases}.\end{aligned} }[/math] 这三个表达方式的含义完全是一样的。我们更喜欢公式[math]\displaystyle{ \left(\ref{eq:classicdensitymatrix}\right) }[/math]中的矩阵形式的表达式。由于这个矩阵表示的含义是一个概率分布函数,或者概率密度分布函数,我们称这个矩阵为密度矩阵。我们采用密度矩阵的语言来描述概率论,因为:第一,这个形式在可以原封不动地用在量子力学里面;第二,这个形式的所有的计算的规则和矩阵是一样的。一般地来说一个密度矩阵要满足以下条件, [math]\displaystyle{ \begin{aligned} {\left\langle}x {\left|}\rho {\right|}x {\right\rangle}\geq 0, tr\left(\rho\right)=1.\end{aligned} }[/math] 前者表示概率或者概率密度应该大于零,后者就是归一化条件。

实际上,我们也可以写下来Alice的状态的密度矩阵,例如 [math]\displaystyle{ \begin{aligned} \rho^{A} = \int dt_{A}\frac{1}{10}{\left|}t_{A} {\right\rangle}{\left\langle}t_{A} {\right|}.\end{aligned} }[/math] 但是,我们所有的量子系统的讨论都面对离散变量。因此,连续变量的密度矩阵形式就不在此讨论了。

在概率论中,我们关注的往往是某个可观测量的某种形式的平均值。因此,除了概率分布函数,可观测量也是概率论的重要组成部分。例如,色子的面值就是一个可观测量。除了色子的面值,我们也可以制定另一个可观测量,例如色子的面值是偶数就是[math]\displaystyle{ 1 }[/math],是奇数就是[math]\displaystyle{ -1 }[/math]。我们记色子的面值的可观测量为[math]\displaystyle{ X }[/math],记后者为[math]\displaystyle{ O }[/math]。如果我们需要计算[math]\displaystyle{ O }[/math]的平均值,我们可以这样做, [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= \sum_{j} O\left(j\right) P\left(j\right), {\label{eq:probabilityaverage_old}}\end{aligned} }[/math] 其中,对于我们的例子 [math]\displaystyle{ \begin{aligned} O\left(j\right) = (-1)^{j}.\end{aligned} }[/math] 当然 [math]\displaystyle{ \begin{aligned} X\left(j\right) = j.\end{aligned} }[/math]

现在,有了Dirac符号形式的分布函数,我们还需要Dirac符号形式的可观测量,才能完全替代原来的概率论的符号体系。我们定义, [math]\displaystyle{ \begin{aligned} \hat{O} = \sum_{j} O\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}, {\label{eq:classicObservable}},\end{aligned} }[/math] 而且平均值的计算按照以下公式, [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= tr\left(\hat{O}\hat{\rho}\right). {\label{eq:probabilityaverage}}\end{aligned} }[/math] 现在,我们来验证一下是否公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math]等价于公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage_old}\right) }[/math][math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= tr\left(\hat{O}\hat{\rho}\right) = tr\left(\sum_{j} O\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}\sum_{n} P\left(n\right){\left|}n {\right\rangle}{\left\langle}n {\right|}\right) \notag \\ = tr\left(\sum_{j,n} O\left(j\right){\left|}j {\right\rangle}\delta_{jn} P\left(n\right){\left\langle}n {\right|}\right) \notag \\ = tr\left(\sum_{j} O\left(j\right)P\left(j\right) {\left|}j {\right\rangle}{\left\langle}j {\right|}\right) \notag \\ = \sum_{j} O\left(j\right)P\left(j\right)\notag.\end{aligned} }[/math] 完全等价,如果我们假设 [math]\displaystyle{ \begin{aligned} {\left\langle}j {\right|}{\left.}n {\right\rangle}=\delta_{jn}. {\label{eq:classicalevents}} \end{aligned} }[/math] 这个基本事件之间的正交关系是我们这套Dirac符号体系额外需要的假设。其含义是这两个事件不可能同时发生:一个色子不可能同时编号为[math]\displaystyle{ j }[/math]的面向上又有编号为[math]\displaystyle{ n }[/math]的面向上。

经典离散随机变量的概率的密度矩阵形式的定义式公式[math]\displaystyle{ \left(\ref{eq:classicdensitymatrix}\right) }[/math],经典离散随机变量的可观测量的密度矩阵形式的定义式公式[math]\displaystyle{ \left(\ref{eq:classicObservable}\right) }[/math],观测量平均值的计算公式公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math],以及古典概型的基本事件之间的正交关系公式[math]\displaystyle{ \left(\ref{eq:classicalevents}\right) }[/math]是我们的符号体系中的核心定义,用来替代原来的概率论的列表形式的分布函数以及求平均的公式。这个替代除了能够显式地写下来分布函数,而不用写一个长长的列表之外,目前看起来,没有什么好处。以后我们会看到这样做的价值。

我们来运用Dirac符号形式的分布函数做一个计算,熟悉一下这套形式。

[盒子里放小球的几率]:一个可以容纳无穷多个小球的盒子,每放入一个小球,需要外界输入小球一份能量[math]\displaystyle{ \epsilon }[/math],反之也成立——每提供一份[math]\displaystyle{ \epsilon }[/math]的能量盒子内的小球就增加一个。现在假设这个能量份数[math]\displaystyle{ n }[/math]是一个随机变量,符合如下分布, [math]\displaystyle{ \begin{aligned} P\left(n\right) = \frac{1}{Z}e^{-\beta n\epsilon},\end{aligned} }[/math] 求得其中的归一化常数[math]\displaystyle{ Z }[/math],以及这个盒子里面的平均粒子数。

状态空间就是盒子里面小球的数量的所有可能取值,利用Dirac符号就是以下的事件集合[math]\displaystyle{ \left\{{\left|}n {\right\rangle}{\left\langle}n {\right|}\right\} }[/math]。相应的密度矩阵就是, [math]\displaystyle{ \begin{aligned} \rho = \sum_{n=0}^{\infty}\frac{1}{Z}e^{-\beta n\epsilon}{\left|}n {\right\rangle}{\left\langle}n {\right|},\end{aligned} }[/math] 正定性非常明显,我们来看看归一化。 [math]\displaystyle{ \begin{aligned} 1 = tr\left(\rho\right) = \sum_{m} {\left\langle}m {\right|}\sum_{n=0}^{\infty}\frac{1}{Z}e^{-\beta n\epsilon}{\left|}n {\right\rangle}{\left\langle}n {\right|}{\left.}m {\right\rangle}= \frac{1}{Z}\sum_{mn}e^{-\beta n \epsilon} \delta_{mn} = \frac{1}{Z}\sum_{n}e^{-\beta n \epsilon}.\end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} Z = \sum_{n}e^{-\beta n \epsilon} = \frac{1}{1-e^{-\beta\epsilon}}.\end{aligned} }[/math] 这样,我们就得到了盒子里的小球数量的状态的密度矩阵的显式表达式, [math]\displaystyle{ \begin{aligned} \rho = \left(1-e^{-\beta\epsilon}\right)\sum_{n=0}^{\infty}e^{-\beta n\epsilon}{\left|}n {\right\rangle}{\left\langle}n {\right|}.\end{aligned} }[/math] 现在我们来解决第二个任务,盒子里面的平均粒子数。我们先写下粒子数算符, [math]\displaystyle{ \begin{aligned} \hat{n} = \sum_{n}n {\left|}n {\right\rangle}{\left\langle}n {\right|}.\end{aligned} }[/math] 于是,从公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math]我们得到可观测量平均值, [math]\displaystyle{ \begin{aligned} {\left\langle}n {\right\rangle}= tr\left(\hat{n}\rho\right) = \left(1-e^{-\beta\epsilon}\right)\sum_{n} ne^{-\beta n\epsilon} =-\frac{1}{\epsilon}\frac{\partial}{\partial \beta}\ln{Z}= \frac{1}{e^{\beta \epsilon}-1}.\end{aligned} }[/math]

这一章我们的主要任务就是得到古典概型的Dirac符号形式。这个主要任务我们已经完成。对于我们后面的学习来说,稍微了解一下概率空间的一般的定义也是有好处的。下面,我们来介绍一般的概率空间的定义。

现代概率三元体

我们先来看一看基于基本事件以及基本事件的几率来计算复杂事件的(等)几率的古典概型有什么问题。

[Bertrand圆内弦长的问题]:单位元内任意取一条弦,其长度小于[math]\displaystyle{ \sqrt{3} }[/math]的几率是多少?

考虑弦是这样来画的:选择圆上任意一点作为弦的一个端点,然后利用所对应的圆周角[math]\displaystyle{ \theta }[/math]的弧度来决定另外一个端点。这个圆周角的取值范围为[math]\displaystyle{ \left[0,2\pi\right] }[/math]。然后,当[math]\displaystyle{ \frac{2\pi}{3}\lt \theta\lt \frac{4\pi}{3} }[/math]的时候,弦长大于[math]\displaystyle{ \sqrt{3} }[/math]。于是,概率为[math]\displaystyle{ \frac{2\pi}{3}\frac{1}{2\pi}=\frac{1}{3} }[/math]

另外,我们再考虑这个弦的中点,一条弦完全由这个中点确定(给定这个中点有且只有一条弦,除了这个中点正好就是圆心)。我们发现,当且仅当这个中点在半径为[math]\displaystyle{ \frac{1}{2} }[/math]的圆以内的时候,弦长大于[math]\displaystyle{ \sqrt{3} }[/math]。满足这个条件的中点有[math]\displaystyle{ \frac{\pi \left(\frac{1}{2}\right)^{2}}{\pi} }[/math]这么多,于是概率为[math]\displaystyle{ \frac{1}{4} }[/math]

其实还有另外一种确定弦的方式,可以得到别的答案。这里就不介绍了。这样一个问题就有了多个答案,每一个都挺有道理。那么,哪一个是对的呢?这就有问题了。这个问题的更多讨论见Wikipedia的“概率论中的Betrand谬论”页面,https://en.wikipedia.org/wiki/Bertrand_paradox_(probability)。

在这个例子中,我们发现存在着多种可以假设为等概率的基本简单事件的选择,不同的选择导致同一个问题的不同的答案。于是,基于基本简单事件的概率或者概率密度的古典概型,就有问题了。现代概率论通过下面的概率公理化定义来解决这个问题。我们先看一下这个公理化定义是什么,然后在做进一步的关于这个样的定义的含义和动机的讨论。

概率空间:概率三元体[math]\displaystyle{ \left(\Omega, \mathcal{F}, P\right) }[/math],其中集合[math]\displaystyle{ \Omega }[/math],集合元素对应简单事件记号[math]\displaystyle{ \omega \in \Omega }[/math][math]\displaystyle{ \Omega }[/math]的子集[math]\displaystyle{ A }[/math]构成集合[math]\displaystyle{ \mathcal{F} }[/math][math]\displaystyle{ \Omega }[/math]上的[math]\displaystyle{ \sigma }[/math]代数,即[math]\displaystyle{ \mathcal{F} }[/math]满足

  1. [math]\displaystyle{ \mathcal{F} }[/math]至少包含[math]\displaystyle{ \Omega }[/math][math]\displaystyle{ \Omega\in \mathcal{F} }[/math]
  2. 对集合的补集操作封闭:[math]\displaystyle{ \bar{A} \in \mathcal{F} }[/math][math]\displaystyle{ \forall A \in \mathcal{F} }[/math]
  3. 对可数个集合的并集封闭:[math]\displaystyle{ \cup_{j=1}^{\infty} A_{j} \in \mathcal{F} }[/math][math]\displaystyle{ \forall A_{j} \in \mathcal{F} }[/math]

[math]\displaystyle{ \mathcal{F} }[/math][math]\displaystyle{ \left[0,1\right] }[/math]的映射[math]\displaystyle{ P }[/math],满足下列条件

  1. 完全性: [math]\displaystyle{ \begin{aligned} P\left(\Omega\right) = 1;\end{aligned} }[/math]
  2. 可列可加性:对于可数个不相交的集合(互斥事件,[math]\displaystyle{ A_{i}\cap A_{j}=\phi }[/math][math]\displaystyle{ \forall A_{i}, A_{j} }[/math][math]\displaystyle{ \begin{aligned} P\left(\cup_{j} A_{j}\right) = \sum_{j} P\left(A_{j}\right).\end{aligned} }[/math]

[math]\displaystyle{ \mathcal{F} }[/math][math]\displaystyle{ \sigma }[/math]代数的要求是为了保证对于任意两个概率有定义的集合,它们的集合操作——交并补——都有定义。也就是说,在概率的意义上,我们从两个集合的概率开始,我们可以讨论这两个集合对应着的事件合起来(“或”关系,集合并运算)的事件的几率,或者是都发生(“与”关系,集合交运算)的几率,或者是一个发生另一个不发生(“非”,集合补运算)的几率,或者两者都不发生的几率。映射[math]\displaystyle{ P }[/math]保证在[math]\displaystyle{ \left[0,1\right] }[/math]之间也是很好理解的,概率最好是大于零的,而且最大最大就是[math]\displaystyle{ 1 }[/math]。完全性也很好理解,所有的事件的整体的概率显然应该是[math]\displaystyle{ 1 }[/math]。定义中的所有这些都容易理解,而且相对平凡。于是,所有的概率论的定义的核心的一条,就是为了保证“可列可加性”:对于互斥的事件,其整体的概率等于各个互斥部分的概率之和。我们称这一条为“概率性叠加原理”。也就是说,就是这个概率性叠加原理体现了概率论的所有的意义。以后,我们会有更深刻的体会。对于同一个[math]\displaystyle{ \Omega }[/math],不同的[math]\displaystyle{ \mathcal{F} }[/math],不同的[math]\displaystyle{ P }[/math]都会导致不同的概率的定义。实际上Betrand园内弦长的问题就是定义了不同的[math]\displaystyle{ P }[/math]——从复合事件到简单事件的拆分有多种。

古典概型的定义是基于基本简单事件以及基本简单事件的(等)几率来定义复合事件的几率的。其中概率叠加原理和独立事件原理非常重要。相当于利用基本简单事件的几率加上概率叠加原理就定义了所有的其它的事件的几率——就看看这个复合事件最后分解称为什么样的基本简单事件就行了。但是,我们通过园内弦长的问题已经看到基于基本简单事件的几率的定义会出问题。于是,概率空间的公理化定义直接就把概率叠加原理做为最基本的定义。这样,假设我们希望找到某个复合事件的几率,实际上,我们需要保证的,就是,不管这个复合事件可以如何分解成相互不相交的子集合(分解的方式可能不唯一,[math]\displaystyle{ \mathcal{F} }[/math]保证分解以后的各个子集合还是可以讨论其概率的),只要我们能够保证分解以后按照概率叠加原理合起来之后得到的值是一致的,那么这个映射[math]\displaystyle{ P }[/math]描述的,就是一种概率现象。所以,我们说,概率叠加原理就是概率论的核心。

在这里,我们先来展示一下,通过这一条概率性叠加原理来定义一下任意两个集合[math]\displaystyle{ A }[/math][math]\displaystyle{ B }[/math]的并的几率,如果这两个集合[math]\displaystyle{ A }[/math][math]\displaystyle{ B }[/math]已经确定是[math]\displaystyle{ \mathcal{F} }[/math]的元素的话。我们先来看[math]\displaystyle{ A\cap B }[/math],如果它等于空集,则[math]\displaystyle{ A }[/math][math]\displaystyle{ B }[/math]是互斥事件,于是[math]\displaystyle{ P\left(A\cup B\right) = P\left(A\right)+ P\left(B\right) }[/math],解决。如果[math]\displaystyle{ A\cap B\neq \phi }[/math],我们把[math]\displaystyle{ A\cup B }[/math]分解成三个互斥的集合[math]\displaystyle{ A\cap \bar{B} }[/math][math]\displaystyle{ \bar{A}\cap B }[/math][math]\displaystyle{ A\cap B }[/math]。于是,[math]\displaystyle{ P\left(A\cup B\right) = P\left(A\cap \bar{B}\right)+ P\left(\bar{A}\cap B\right) + P\left(A\cap B\right) }[/math]。当然,我们可以进一步讨论[math]\displaystyle{ A\cap \bar{B} }[/math]的概率,如果它不是已知的话。对于任意的事件[math]\displaystyle{ A }[/math],如果我们找到一组[math]\displaystyle{ A }[/math]的互斥分解并且分解以后的时间的概率已知,则我们就可以通过概率叠加性原理来求得[math]\displaystyle{ A }[/math]的概率。并且,如果存在多种这样的分解,所得到的结果一致。

事实上,古典概型的等概率假设就指定了一种事件分解的方式。回到我们的圆内弦长的问题,可以证明,从我们前面的任何一种等概率假设都可以构造一个满足上述要求的概率空间。

实际上,再进入下一部分内容之前,我们还应该完成这样一件事情:从概率论的公理化定义出发,找出适当的条件,在这个条件下随机变量的分布函数存在。但是,这个任务超过本书的水平,在我们发现一个好的能够在本书的概念和方法的范畴内讨论这个问题之前,我们直接就用分布函数来描述概率论。

Dirac符号作为概率论的语言

现在,让我们用概率论的Dirac符号语言来看一下概率空间定义的最重要的性质:概率性叠加原理,在我们的语言下如何表达。 说,如果事件[math]\displaystyle{ A, B }[/math]互斥,则 [math]\displaystyle{ \begin{aligned} P\left(A\cup B\right) = P\left(A\right) + P\left(B\right). {\label{eq:probabilityexclusive}}\end{aligned} }[/math] 我们希望第一,能够把[math]\displaystyle{ A\cup B }[/math]写成, [math]\displaystyle{ \begin{aligned} A\cup B \Leftrightarrow \hat{A} + \hat{B},\end{aligned} }[/math] 也就是事件的加法有意义,而且正好就是集合取并操作的含义; 第二,能够有 [math]\displaystyle{ \begin{aligned} P\left(\hat{A} + \hat{B}\right) = P\left(\hat{A}\right) + P\left(\hat{B}\right),\end{aligned} }[/math] 也就是事件之间的加法与概率之间的加法保持一致。现在,我们来做一个检验。

在这里我们还是面对古典概型。给定一个密度矩阵, [math]\displaystyle{ \begin{aligned} \hat{\rho} = \sum_{j} p_{j}{\left|}j {\right\rangle}{\left\langle}j {\right|},\end{aligned} }[/math] 我们来考虑一个事件[math]\displaystyle{ A }[/math]的概率。记事件[math]\displaystyle{ A }[/math]的每一个基本简单事件的元素为[math]\displaystyle{ \alpha_{j} }[/math],则 [math]\displaystyle{ \begin{aligned} \hat{A} = \sum_{\alpha_j \in A} {\left|}\alpha_j {\right\rangle}{\left\langle}\alpha_j {\right|},\end{aligned} }[/math] 从而通过公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math]我们得到事件[math]\displaystyle{ A }[/math]发生的概率 [math]\displaystyle{ \begin{aligned} P\left(\hat{A}\right) = tr\left(\hat{A}\hat{\rho}\right)=\sum_{\alpha_j} p_{\alpha_j}.\end{aligned} }[/math]

这里,我们把事件集合[math]\displaystyle{ A }[/math]作为观测量[math]\displaystyle{ \hat{A} }[/math],需要用到示性函数[math]\displaystyle{ I_{A}\left(\omega\right) }[/math][math]\displaystyle{ \begin{aligned} I_{A}\left(\omega\right) = \begin{cases} 1 & \mbox{if } \omega \in A \\ 0 & \mbox{otherwise} \end{cases}.\end{aligned} }[/math] 也就是判断元素[math]\displaystyle{ \omega }[/math]是否属于集合[math]\displaystyle{ A }[/math]。于是, [math]\displaystyle{ \begin{aligned} \hat{A} = \sum_{j} I_{A}\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}= \sum_{\alpha_j \in A} {\left|}\alpha_j {\right\rangle}{\left\langle}\alpha_j {\right|}.\end{aligned} }[/math]

如果有一个与[math]\displaystyle{ A }[/math]互斥的事件[math]\displaystyle{ \hat{B} = \sum_{\beta_j\in B} {\left|}\beta_j {\right\rangle}{\left\langle}\beta_j {\right|} }[/math],也就是任意[math]\displaystyle{ \alpha_{j}, \beta_{k} }[/math]满足 [math]\displaystyle{ \begin{aligned} {\left\langle}\alpha_j {\left|}\right. \beta_k {\right\rangle}= 0.\end{aligned} }[/math] 也就是集合[math]\displaystyle{ A, B }[/math]没有相同的元素。事件[math]\displaystyle{ B }[/math]发生的概率为, [math]\displaystyle{ \begin{aligned} P\left(\hat{B}\right) = \sum_{\beta_j} p_{\beta_j}.\end{aligned} }[/math] 现在,我们知道了 [math]\displaystyle{ \begin{aligned} P\left(\hat{A}\right) + P\left(\hat{B}\right) = \sum_{\alpha_j\in A} p_{\alpha_j} + \sum_{\beta_k \in B} p_{\beta_k}.\end{aligned} }[/math] 我们也知道了 [math]\displaystyle{ \begin{aligned} \hat{A} + \hat{B} = \sum_{\alpha_j \in A} {\left|}\alpha_j {\right\rangle}{\left\langle}\alpha_j {\right|}+ \sum_{\beta_k \in B} {\left|}\beta_k {\right\rangle}{\left\langle}\beta_k {\right|},\end{aligned} }[/math] 还有事件[math]\displaystyle{ A\cup B }[/math]。 我们想看看事件[math]\displaystyle{ A\cup B }[/math]的Dirac符号形式是不是正好就是[math]\displaystyle{ \hat{A} + \hat{B} }[/math],而且[math]\displaystyle{ P\left(\hat{A} + \hat{B}\right) = P\left(\hat{A}\right) + P\left(\hat{B}\right) }[/math]是否成立。第一部分非常简单,记[math]\displaystyle{ C=A\cup B }[/math], 于是 [math]\displaystyle{ \begin{aligned} \hat{C} = \sum_{j} I_{C}\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}= \sum_{j} I_{A}\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}+ \sum_{j} I_{B}\left(j\right){\left|}j {\right\rangle}{\left\langle}j {\right|}= \hat{A} + \hat{B}.\end{aligned} }[/math] 注意,如果[math]\displaystyle{ A\cap B\neq \phi }[/math]上面的等式的中间一步是不对的。我们再来看第二部分。由于公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math][math]\displaystyle{ {\left\langle}O {\right\rangle}= tr\left(\hat{O}\hat{\rho}\right) }[/math])是线性的,于是只要第一步正确,第二布自然就是正确的。

于是,通过Dirac符号,我们把事件[math]\displaystyle{ A, B }[/math]写成了矩阵[math]\displaystyle{ \hat{A}, \hat{B} }[/math]的形式,同时,互斥事件的加法真的可以表达成矩阵加法运算的形式,而且对于这个加法运算,求观测量平均值的公式公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math]仍然适用。对于不是互斥的事件,我们总是可以把它分解成互斥的部分。因此,所有的的事件之间的加法运算,以及这个加法运算的概率含义,尤其是概率叠加原理公式[math]\displaystyle{ \left(\ref{eq:probabilityexclusive}\right) }[/math],都被保留了下来。这个就是我们引入概率论的Dirac符号的目的。在Dirac符号的形式下,互斥集合取并的操作直接就是算符的加法运算,求可观测量平均值的定义是线性的,这两点直接就保证了概率叠加原理的成立。因此,Dirac语言是概率论的一种自然的语言。

最后,我们注意到,这一章定义的所有的可观测量矩阵都是对角的,不存在这样的可观测量,[math]\displaystyle{ O_{ij}\neq 0 }[/math][math]\displaystyle{ i\neq j }[/math],也就是一般的 [math]\displaystyle{ \begin{aligned} \hat{O} = \sum_{i,j} O_{ij} {\left|}i {\right\rangle}{\left\langle}j {\right|}.\end{aligned} }[/math] 由于有观测量的这个性质,我们发现所有的观测量矩阵都是对易的,也不用做表象变换,因为在这个自然的表象下,矩阵本来就是对角的。这一点,实际上就表明,我们的矩阵符号有点多余,实际上写下对角元就够了。逻辑上这个符号系统是自洽的。在经典概率论的层次,这套新的符号系统实际上不带来新的结果,仅仅是理解上的不同。

[math]\displaystyle{ N }[/math]个离散状态的系统为例,总结一下Dirac符号的概率论和通常的概率论的不同:

  • 状态: [math]\displaystyle{ N\times N }[/math]矩阵[math]\displaystyle{ \left(\rho\right)_{N\times N} }[/math][math]\displaystyle{ N }[/math]维矢量[math]\displaystyle{ \left(P\right)_{1\times N} }[/math]
  • 可观测量:[math]\displaystyle{ N\times N }[/math]矩阵[math]\displaystyle{ \left(O\right)_{N\times N} }[/math][math]\displaystyle{ N }[/math]维矢量[math]\displaystyle{ \left(O\right)_{1\times N} }[/math]
  • 测量结果的计算:求迹[math]\displaystyle{ tr\left(A\rho\right) }[/math], 内积[math]\displaystyle{ O^{T}P }[/math]
  • 测量过程的理解(测量前状态,测量所得值,测量后状态):Dirac符号形式和通常的概率分布矢量形式一样,都表现出来测量前后分布函数有变化。

概率转移算符[math]\displaystyle{ ^{*} }[/math]

本节为选读部分。

有了表示状态和可观测量的Dirac符号形式,我们就可以用这样的算符记号来表示概率转移算符了。对随机状态的合理的一个操作要满足一些要求,例如操作之后得到的状态还必须是一个概率分布(满足归一化、非负、互斥事件可加性等)。如果我们同时还要求被操作的客体的状态空间(状态的集合)不变,仅仅改变其状态,也就相当于给状态的概率做了一个重新分配,那么,这样的操作必须是状态矩阵[math]\displaystyle{ \rho }[/math]上的一个线性算符(记为[math]\displaystyle{ M }[/math]),也就是[math]\displaystyle{ M\left(a_{1}\rho_{1} + a_{2}\rho_{2}\right)=a_{1}M\left(\rho_{1}\right) + a_{2}M\left(\rho_{2}\right) }[/math]。按照线性性以及仍然非负归一的要求,我们可以写下来这个转移矩阵的一般形式。

概率转移算符:在传统矢量记号下 [math]\displaystyle{ \begin{aligned} P\left(t+1\right)=M P\left(t\right),\end{aligned} }[/math] 其中矩阵[math]\displaystyle{ \left(M^{i}_{j}\right)_{N\times N} }[/math]满足[math]\displaystyle{ \sum_{i} M^{i}_{j}=1 }[/math];在Dirac记号下, [math]\displaystyle{ \begin{aligned} \rho\left(t+1\right)= U \rho\left(t\right) U^{\dag},\end{aligned} }[/math] 其中矩阵[math]\displaystyle{ \left(U^{i}_{j}\right)_{N\times N} }[/math]满足[math]\displaystyle{ UU^{\dag}=1 = U^{\dag}U }[/math]。在这里我们按照物理学家的习惯把转移矩阵作用在分布函数上表示成矩阵在左矢量在右,而且概率分布是一个列矢量。需要注意这个习惯和数学家的不一样。在这里状态变化的表示是一个算符作用[math]\displaystyle{ U }[/math]以及一个相应的算符[math]\displaystyle{ U^{\dag} }[/math]左右乘在一个密度矩阵上。这大概可以这样来理解:[math]\displaystyle{ \rho }[/math]总是可以看作[math]\displaystyle{ \rho=\rho_{ij}{\left|}i {\right\rangle}{\left\langle}j {\right|} }[/math],这样的右矢量和左矢量的乘积项的叠加,如果一个算符作用在右矢量上的表达式大约是[math]\displaystyle{ U{\left|}i {\right\rangle} }[/math]的话,那么,相应的左矢量的形式就是[math]\displaystyle{ {\left\langle}i {\right|}U^{\dag} }[/math],于是[math]\displaystyle{ {\left|}i {\right\rangle}{\left\langle}j {\right|} }[/math]在这个操作下的变化就是[math]\displaystyle{ U{\left|}i {\right\rangle}{\left\langle}j {\right|}U^{\dag} }[/math]

用这个记号我们描述以下两个过程。其中第二个过程稍微复杂一些。

[硬币确定翻转的算符]:有一个硬币每一个单位时间以后都会被翻转。写下这个动力学过程的普通概率论形式和密度矩阵形式的表达式。

硬币的状态可以采用两种表示方法,概率矢量 [math]\displaystyle{ \begin{aligned} P = \left[\begin{array}{c}p\\1-p\end{array}\right],\end{aligned} }[/math] 或者概率矩阵, [math]\displaystyle{ \begin{aligned} \rho^{c} = \left[\begin{array}{cc}p & 0 \\ 0 & 1-p\end{array}\right].\end{aligned} }[/math] 翻转操作是算符 [math]\displaystyle{ \begin{aligned} X = \left[\begin{array}{cc}0 & 1 \\ 1 & 0\end{array}\right].\end{aligned} }[/math] 可以验证翻转过程可以表示为 [math]\displaystyle{ \begin{aligned} P\left(t+1\right) = XP\left(t\right),\end{aligned} }[/math] 或者 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(t+1\right) = X\rho^{c}\left(t\right)X^{\dag}.\end{aligned} }[/math]

[硬币随机翻转的算符]:一个硬币每一个单位时间以后都会被决定是否翻转。决定的过程如下:抛另外一个完全随机的硬币,如果得到硬币向上则翻转,否则不翻。写下这个动力学过程的普通概率论形式和密度矩阵形式的表达式。

硬币的状态可以采用两种表示方法,概率矢量 [math]\displaystyle{ \begin{aligned} P = \left[\begin{array}{c}p\\1-p\end{array}\right],\end{aligned} }[/math] 或者概率矩阵, [math]\displaystyle{ \begin{aligned} \rho^{c} = \left[\begin{array}{cc}p & 0 \\ 0 & 1-p\end{array}\right].\end{aligned} }[/math] 翻转操作和不翻转操作分别是是算符 [math]\displaystyle{ \begin{aligned} X = \left[\begin{array}{cc}0 & 1 \\ 1 & 0\end{array}\right], I = \left[\begin{array}{cc}1 & 0 \\ 0 & 1\end{array}\right].\end{aligned} }[/math]

可以验证翻转过程可以表示为 [math]\displaystyle{ \begin{aligned} P\left(t+1\right) = 0.5 XP\left(t\right) + 0.5 I P\left(t\right) = \frac{I+X}{2}P\left(t\right) ,\end{aligned} }[/math] 或者 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(t+1\right) = 0.5X\rho^{c}\left(t\right)X^{\dag} + 0.5I\rho^{c}\left(t\right)I^{\dag}. {\label{eq:MixedOperator}}\end{aligned} }[/math]

注意,最后的表达式公式[math]\displaystyle{ \left(\ref{eq:MixedOperator}\right) }[/math]不能下成算符取和以后再作用的形式,也就是, [math]\displaystyle{ \begin{aligned} \rho^{c}\left(t+1\right) \neq \frac{I+X}{2}\rho^{c}\left(t\right)\frac{I+X}{2}.\end{aligned} }[/math] 甚至这个加起来的算符都不满足约束[math]\displaystyle{ UU^{\dag}=1 }[/math]。因此,两个随机翻转“合”起来的运算在传统矢量语言下面表现为“取和”——[math]\displaystyle{ M=\frac{I+X}{2} }[/math],在Dirac符号下面不表现为“取和”——[math]\displaystyle{ U\neq \frac{I+X}{2} }[/math]。在本书第[Chap:QGame]章关于量子博弈的讨论中,我们会看到,这个差别是有深远的意义的。

作业

写下一个向上的硬币的状态的完整描述。一个完整的描述包含:状态的数学描述、所有的可观测量的数学描述(还要思考这样的可观测量的含义),以及这些可观测量在这个状态下的可能取值,还有取值的概率,以及均值。

写下一个随机的硬币的状态的完整描述。

Alice和Bob正在打赌:硬币的状态向上则Alice从Bob那里获得[math]\displaystyle{ 10 }[/math]元,否则Alice给Bob[math]\displaystyle{ 10 }[/math]元。现在对于一个向上的硬币,分别用Dirac符号和矩阵的形式写下来,Alice和Bob的输赢状态。如果是一个随机的硬币呢?

Alice和Bob正在打赌:硬币的状态向上则Alice从Bob那里获得[math]\displaystyle{ 10 }[/math]元,否则Alice给Bob[math]\displaystyle{ 10 }[/math]元。这个硬币初始处于向上的状态。然后,Alice和Bob可以分别去操作这个硬币。他们可以选择的操作包含翻转和不翻转这个硬币这两个操作。

  1. 分别用Dirac符号和矩阵的形式写下来,Alice和Bob的可能的操作。提示:考虑Alice和Bob可能选择一个翻转和不翻转这两个操作的某种组合,例如一个这两个操作的概率分布,当然他们之中的任何一人都不能选择同时做这两个操作——同时翻转和不翻转硬币的操作不知道是什么意思。
  2. 计算给定这样的概率分布的情况下,Alice和Bob可能获得的钱的数量及其分布,还有平均值。
  3. 尝试构造一个映射[math]\displaystyle{ H^{a} }[/math][math]\displaystyle{ H^{b} }[/math]),满足[math]\displaystyle{ H^{a}\left(S^{a}, S^{b}\right) }[/math][math]\displaystyle{ H^{b}\left(S^{a}, S^{b}\right) }[/math])的值就是Alice(Bob)的收益。其中,[math]\displaystyle{ S^{a} }[/math]是Alice的操作,[math]\displaystyle{ S^{b} }[/math]是Bob的操作。
  4. 把这个得到的映射按照Dirac符号的语言写成一个矩阵。注意思考这个时候这个矩阵的基矢是什么。然后验证,这样的矩阵满足[math]\displaystyle{ E^{a}=tr\left(\rho^{a}\otimes \rho^{b} H^{a}\right) }[/math][math]\displaystyle{ E^{b}=tr\left(\rho^{a}\otimes \rho^{b} H^{b}\right) }[/math])。

本章小结

本章主要介绍了Dirac符号形式的概率论。我们发现,概率分布函数可以用一个密度矩阵来表达,见公式[math]\displaystyle{ \left(\ref{eq:classicdensitymatrix}\right) }[/math] 。其中各个基本简单事件所对应的基矢相互正交,见公式[math]\displaystyle{ \left(\ref{eq:classicalevents}\right) }[/math]。同时,我们引入了把随机变量的函数做为可观测量的概念,见公式[math]\displaystyle{ \left(\ref{eq:classicObservable}\right) }[/math]。于是,概率论用来求可观测量平均值的基本公式就成了公式[math]\displaystyle{ \left(\ref{eq:probabilityaverage}\right) }[/math]

这套符号本身在概率论的层次不带来新的东西,除了把事件之间的集合运算变成了事件所对应的算符的加法运算而且自然地表示了事件的概率叠加原理。而概率叠加原理,通过一般的概率空间的讨论,我们注意到就是整个概率论定义的核心。

另外,通过整理和对比矢量语言和密度矩阵语言下的状态、可观测量和算符,我们发现,在两套语言下,状态和可观测量都是对角的,一般的算符在密度矩阵的语言下可以是非对角的。也就是说,密度矩阵所在的空间可能比概率矢量更大。这个不一致性实际上就启发我们:是否我们需要讨论一个允许前两者——状态和可观测量——也存在非对角元的理论。以后我们会看到,这个理论就是量子系统的数学模型——量子力学。

经典力学精要

在这里,我们学习力学的目的是给学习量子力学做准备。为了这个目的,我们需要学习一些概念,例如位形空间、坐标系、力、能量、保守系统等。最关键的是学习通过Hamiltonian来描述一个力学系统,得到这个系统的所有的行为。然而,实际上我们应该从力学学习到更加重要的东西。从思想上,从经典力学我们了解什么是物理学——物理学就是描述物体状态(包含运动状态和结构状态等)的变化,以及寻找导致物体状态变化的原因的科学,以及了解把事物抽象成理想模型的观念。这个研究思路以及这个观念不仅仅是物理学的思想,也是整个科学的思想。当然,为了达成这个目的,我们就需要真正地学习一门力学的课程。这个不是我们这一章的任务。所以,在这一章里,尽管我们会尽可能地让你体会这个研究思路和这个观念,我们的主要精力还是会放在如何利用Hamiltonian来描述一个力学系统这一点上。已经熟悉Hamltonian力学的读者可以跳过这一章。

本章推荐参考书:的《Mechanics》,的《Feynman物理学讲义第一卷》,的《力学概论》,的《力学》。

力学思想

常见的力学的基本研究对象是日常生活所见到的桌子以及桌子在一个推动的力作用下运动起来这个现象,或者一个乒乓球以及这个乒乓球在拍子挥动的条件下发生运动这个现象,或者一个汽车以及这个汽车在发动机驱动下和方向盘的控制下发生运动这个现象,或者天上运动的星星以及它们的运动。对于这个研究对象,宏观的物体以及它们的运动,第一个要解决的问题是如何描述他们的运动状态。在这里,物理学引入了一个理想模型——质点,一个有质量没有体积没有形状没有其他任何属性的点。为什么除了质量以外其他的属性都不重要,这是一个很重要的问题。没有体积和形状就要求我们只关心这个物体作为一个整体的运动,我们暂时不关心这个物体的自转等运动形式。这个运动的形式是所有的运动形式里面最简单的一种。我们称之为物体的平动。其他运动形式在我们这个精要课程里面不再涉及。解决了运动的描述的问题,下面的问题是就是运动状态是否会发生变化,变化的原因是什么。状态描述、状态变化和变化原因这三个问题被称作力学的世界观,也就是力学看问题的时候总是要关心的三个问题。

基于生活经验,我们知道,力的作用是使运动的状态发生改变。我们知道当我们推一张桌子时候,如果我们希望我们停下来之后桌子动得快一点,我们需要推的时间长一点或者推的力气大一点。甚至在我们推动桌子的过程中,我们也可以通过改变这个推力的大小来达到控制其速度的目的。也就是说,当我们把力作用在一个质点上的时候,我们会改变质点的运动速度。当然,我们还不知道力和速度的改变这两者之间具体的关系是什么,和质点的什么属性相关,例如大小、形状、质地、生产厂家等等。不过,有了这个思想认识上的突破之后,剩下的突破就容易多了。其实通过现实生活的经验,除了猜测“力是改变物体运动状态的原因”之外,还有可能得到“力是维持运动的原因”的直观结论。例如,我们松开推着的桌子桌子就不动了。

解决这个到底力是维持还是改变运动的原因,以及力和运动状态的改变具体什么关系的问题依赖于物理学的另一个,也是最重要的,思想:做实验,做测量。这个来自于的思想使得物理学真正从思辩的层次独立出来,成为科学。的实验很简单,把一个物块放在一个斜面上,然后让这个物块滑下来到达一个平面上。接着,改变这个平面的光滑程度。物块从斜面下来以后,我们看看这个物块走得多远。这个远近是可以测量的。我们发现,随着光滑程度的不同物块运动的距离是不一样的,而且越光滑的表面物块运动的越远。在物块接触到平面之前,所有的过程是一样的,因此(其实你也可以怀疑这个因此),物块刚刚接触到平面上的状态,不管哪一种光滑程度的平面,都是一样的。于是远近不同只能是平面的光滑程度导致的。根据他的实验猜测,如果有一个无限光滑的平面,则这个物块会永远运动下去。也就是说,光滑程度的不同可以看作是某种力的不同,而这种力使得物块从运动变成静止。运动状态本身不需要力来维持。对于无限光滑的表面,这种力为零,于是物体的运动状态不发生改变,一直运动下去。现在,我们当然知道这个力就是摩擦力。但是,当时把这个运动状态发生变化的原因归结为摩擦力是革命性的。通过实验,我们还可以研究运动状态与哪些因素有关,例如,如果我们能够给力的大小定下一个度量的标尺,我们就可以研究给定大小的力对不同的物体的运动状态的改变的异同,例如这些不同的物体可以有不同的形状、颜色、质地等等。当然,最后我们发现这个因素仅仅是物体所包含的物质的量的多少的过程,是一个非常非平庸的过程。

小结一下,理想化模型化,实验与测量,是物理学几个核心的重要的思想;问状态表述、是否变化、变化的原因是典型的力学思考。质点是重要的理想模型之一。物理学很多时候都通过理想化模型化来抓住主要因素暂时忽略次要因素。

Newton力学的基本概念

通过质点这个理想模型,我们已经有了用空间位置来描述运动的简单想法。下面,我们把这个想法实现。首先,为了准确地描述这个空间位置,我们需要有一个坐标系:一个原点,三个独立的方向,一个测量单位。通常这个坐标系的原点需要建立在一个参考系上:一个假设不动的东西。确定这个所谓的不动的东西,不是简单的事情。地球在自转和公转,所以在地球上,原则上所有的点都不能作为这个参考系。同样的,太阳系、甚至整个宇宙都在运动,没有一个点是真正意义上不动的。那我们如何选取我们的参考系,然后建立坐标系呢?如果我们的对象是一个在地球表面运动的汽车,那么在汽车的时间尺度内自转和公转造成的影响与汽车的车程相比比较小,于是,地球就是一个好的参考系。以这个汽车出发的时候的地球上的一个点作为原点,是可以接受的。如果我们考虑的是导弹的运动,那么,自转的影响可能就需要考虑。这个时候,参考系可能就要选取地球在某个时刻的点,然后考虑经过这段时间以后地球的运动,或者考虑非惯性参考系的问题。所谓惯性参考系,就是一个“不动”的参考系,或者说一个做匀速运动的参考系。也就是说,这个参考系在相对于另一个参考系运动速度不变或者运动速度为零。所谓非惯性参考系,就是以速度变化的物体为中心建立起来的坐标系。

在下面的讨论中,我们假设通过对所关心的过程的考察,讨论这个问题所需要的惯性参考系以及相应的坐标系已经建立起来。那么这个时候,我们的运动的轨迹的描述就是一个[math]\displaystyle{ \vec{x}\left(t\right) }[/math]的时间过程。知道在这个过程中任意一个[math]\displaystyle{ t }[/math]时刻质点的位置[math]\displaystyle{ \vec{x}\left(t\right) }[/math]由哪些因素决定,对于给定的问题计算出[math]\displaystyle{ \vec{x}\left(t\right) }[/math]来,就是我们的理论的目标。通过微积分的学习,我们知道这个[math]\displaystyle{ \vec{x}\left(t\right) }[/math]实际上是空间的一条带参数的曲线,如果我们知道这个曲线在任何时候的切线,我们就可以把这些切线连(积分)起来得到这条曲线。也就是说[math]\displaystyle{ \vec{x}\left(t\right) }[/math][math]\displaystyle{ \dot{\vec{x}}\left(t\right) }[/math]加上[math]\displaystyle{ t_{0} }[/math]时刻的原点[math]\displaystyle{ \vec{x}_{0} = \vec{x}\left(t_{0}\right) }[/math]是完全等价的。这个[math]\displaystyle{ \dot{\vec{x}}\left(t\right) }[/math]被称为这个质点的速度,记为[math]\displaystyle{ \vec{v}\left(t\right) }[/math]。类似地,我们可以定义加速度[math]\displaystyle{ \dot{\vec{v}}\left(t\right)=\vec{a}\left(t\right) }[/math],以及更高阶的时间导数。给定了任何一阶导数的时间过程加上所有的初始条件完整地描述了这个运动过程。

告诉我们,给定一个力的位置和速度的依赖函数[math]\displaystyle{ \vec{F}\left(\vec{x},\vec{v}\right) }[/math](由于某些我们这门课程还不能讨论的原因,这个力可以依赖于位置、速度和时间,但是不能依赖于更高阶的时间导数。为了讨论和记号简单,我们进一步假设力不依赖于时间),运动过程由以下方程决定, [math]\displaystyle{ \begin{aligned} \ddot{\vec{x}} = \vec{a} = \frac{\vec{F}\left(\vec{x},\vec{v}\right)}{m}. {\label{eq:Newton2}}\end{aligned} }[/math] 这个方程被称为。我们还可以把这个方程改写成一阶封闭的微分方程的形式,

[math]\displaystyle{ \begin{aligned} \dot{\vec{x}} & = \vec{v}, \\ \dot{\vec{v}} & = \frac{\vec{F}\left(\vec{x},\vec{v}\right)}{m}.\end{aligned} }[/math]

[eq:Newton2Phase]

在进一步讨论这个方程之前,我们先来通过几个例子熟悉一下这个方程。

[自由落体运动]:质量为[math]\displaystyle{ m }[/math]的小球,在地球表面的高度为[math]\displaystyle{ h }[/math]的地方落下来,初始速度为[math]\displaystyle{ 0 }[/math],问经过多长时间落地。

先做受力分析:小球受到竖直方向向下的地球的吸引力[19]。为了将来计算方便,我们要规定好坐标系,为了建立坐标系,我们需要选择参考系——这个参考系最好还是一个做匀速直线运动的物体。在这里,相对于我们所关心的问题来说,地球是一个很好的不动的东西——尽管它实际上在自转和公转,因此选为参考系。在这个参考系下,我们规定竖直方向向下为我们的[math]\displaystyle{ y }[/math]轴正方向,地面为零点。于是,有了这个参考系和坐标系以后,我们就可以把思考转化成数学运算了。于是, [math]\displaystyle{ \vec{F}=mg \hat{j}. }[/math]

接着,运用,[math]\displaystyle{ \vec{F}=m\vec{a} }[/math],得到 [math]\displaystyle{ \vec{a}=\frac{\vec{F}}{m}=g \hat{j}. }[/math]

最后,运用加速度和速度以及位置之间的积分关系以及初始条件,我们得到, [math]\displaystyle{ y= y_{0} + \frac{1}{2}g t^{2}. }[/math] 其中[math]\displaystyle{ y_{0}=-10\left(m\right) }[/math],于是通过 [math]\displaystyle{ -y_{0} = \frac{1}{2}g \tau^{2}, }[/math] 可以求得落地得时间。

[经典一维谐振子(连着弹簧的一个小球)]:质量为[math]\displaystyle{ m }[/math]的小球,连在一根弹性系数为[math]\displaystyle{ k }[/math]原长为[math]\displaystyle{ l }[/math]的水平方向的弹簧上。初始时刻,拉开小球距离为[math]\displaystyle{ A_{0} }[/math],求松开以后小球运动的轨迹。

同样,先建立参考系坐标系,选择弹簧得固定的一端做为参考系和坐标零点,从零点指向弹簧的方向[math]\displaystyle{ x }[/math]轴为正方向。于是,我们得到初始条件,[math]\displaystyle{ x_{0}=l+A_{0} }[/math][math]\displaystyle{ v_{0}=0 }[/math]。弹簧所受到的力在水平方向上是 [math]\displaystyle{ \vec{F}=-k\left(x-l\right) \hat{i} }[/math] 竖直方向的力不管,因为这个小球仅仅在水平方向运动。

接着,运用,得到 [math]\displaystyle{ \ddot{x} \hat{i} = \vec{a}=\frac{\vec{F}}{m}=-\frac{k}{m}\left(x-l\right) \hat{i}. }[/math] 变量替换,[math]\displaystyle{ \tilde{x}=x-l }[/math],我们得到, [math]\displaystyle{ \ddot{\tilde{x}} =-\frac{k}{m}\tilde{x}. }[/math]

这个微分方程存在通解, [math]\displaystyle{ \tilde{x} = A\cos{\left(\omega t +\phi_{0}\right)}, }[/math] 其中[math]\displaystyle{ \omega=\sqrt{\frac{k}{m}} }[/math]。代入初始条件,我们得到 [math]\displaystyle{ x = A_{0}\cos{\left(\omega t\right)} + l. }[/math]

[经典一维谐振子(连着弹簧的两个小球)]:质量为[math]\displaystyle{ m }[/math]的两个小球,连在一根弹性系数为[math]\displaystyle{ k }[/math]原长为[math]\displaystyle{ l }[/math]的水平方向的弹簧上。初始时刻,拉开两个小球距离为[math]\displaystyle{ l+A }[/math],求松开以后两个小球运动的轨迹。

先建立参考系和坐标系并做受力分析。以左边的小球的初始位置为原点,从左到右为[math]\displaystyle{ x }[/math]轴正方向。运动开始以后,假设两个小球的位置分别是[math]\displaystyle{ x_{1} }[/math][math]\displaystyle{ x_{2} }[/math],则左边的小球受到的力是[math]\displaystyle{ F_{2\rightarrow 1}=k\left(x_{2}-x_{1}-l\right) }[/math],右边的小球受到的力是[math]\displaystyle{ F_{1\rightarrow 2}=k\left(x_{1}+l-x_{2}\right) }[/math]

接着用,得到 [math]\displaystyle{ \begin{aligned} \ddot{x}_{1} = -\frac{k}{m}\left(x_{2}-x_{1}-l\right) , \notag \\ \ddot{x}_{2} = -\frac{k}{m}\left(x_{1}+l-x_{2}\right) . \notag\end{aligned} }[/math] 把这两个方程相加和相减,我们得到, [math]\displaystyle{ \begin{aligned} \ddot{x}_{1}+\ddot{x}_{2} = 0, \notag \\ \ddot{x}_{1}-\ddot{x}_{2} = -2\frac{k}{m}\left(x_{1}-x_{2}-l\right) .\end{aligned} }[/math] 这两个方程的解都能够直接写出来。我们就不再继续算下去了。

我们发现,这个弹簧连着两个小球的运动,就好像是整体[math]\displaystyle{ x_{1}+x_{2} }[/math]在匀速运动,然后,相对距离[math]\displaystyle{ x_{1}-x_{2} }[/math],在做简谐振动。

实际上,在第一个例子中的地球也是这个问题的参与者,地球与小球之间的引力相互作用才是导致这个运动的原因。但是,由于小球的运动对地球的状态产生的影响基本可以忽略不计,所以我们把地球作为参考系,用与地球状态无关的方向和大小都不变的重力来代替实际上随着位置变化的引力。第二个例子中,弹簧的另一端,也就是墙,实际上也有运动,但是幅度小很多。于是,我们把墙看作参考系,然后把墙与小球之间的相互作用看成与墙的状态无关的弹簧的弹力。在第三个问题中,我们把墙替换成了另一个小球,这个时候,其运动也成了我们需要考察的对象,两个小球之间的力与两个小球的状态都有关系。从这个角度来看,第一个例子考察的是地球与小球之间的相互作用,第二个例子是小球与墙壁之间的相互作用,第三个是两个小球之间的相互作用。实际上,我们相信,各种各样的力,都是物体与物体之间的相互作用造成的。有的时候能够看见相互作用的各个主体有的时候只能看见一个主体或者一部分主体,是我们在考虑问题的时候根据需要划分的系统的不同造成的。当一个系统之外的外界对系统的影响不是很大的时候,或者说倒过来,当这个系统对系统的外界影响不大的时候,我们可以把外界的主体忽略,当成一个不变的影响或者直接忽略。

这个由一个质点或者多个质点的位置的集合所构成的空间称为一个系统的位形空间。除了位形空间,我们常常还在相空间里面讨论问题。相空间就是由一个质点或者多个质点的位置加上速度的集合构成的空间。我们可以把公式[math]\displaystyle{ \left(\ref{eq:Newton2}\right) }[/math]看作是位形空间的方程,把公式[math]\displaystyle{ \left(\ref{eq:Newton2Phase}\right) }[/math] 看成是相空间的方程。我们知道两个方程是等价的,那为什么要引入相空间呢?因为位形空间的轨道可以相交,而相空间的轨道不能相交。很容易理解为什么位形空间的轨道可以相交,撞车就是这样发生的。那为什么相空间的轨道就不会相交呢?一个相空间的点对应了确定的位置与速度。而速度决定了下一个时刻的位置,因此,这个时刻的相空间中的一个点完全决定了下一个时刻这个点在哪里。于是,如果两个轨道在某一个点相交,则将来这两个轨道完全一样。同样的道理,过去也完全一样。于是他们就是同一条轨道。也可以用下面的例子来说明。考察一个一维系统的两条相空间轨道。一维系统的相空间是二维的,我们来证明有两条不同的相空间轨道不可能在某点相交。

假设有[math]\displaystyle{ 1,2 }[/math]两条轨道在[math]\displaystyle{ t_{0} }[/math]时刻相交于相空间的一个点[math]\displaystyle{ Q }[/math]公式[math]\displaystyle{ \left(\ref{eq:Newton2}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:Newton2Phase}\right) }[/math]都是一个确定性微分方程,在给定初始条件的情况下解是唯一的。它们都需要两个初始条件来确定一个唯一解。在这个交点[math]\displaystyle{ Q }[/math],我们有两个初始条件,[math]\displaystyle{ x_{1}\left(t_{0}\right)=x_{2}\left(t_{0}\right)=x_{Q},p_{1}\left(t_{0}\right)=p_{2}\left(t_{0}\right)=p_{Q} }[/math]。于是,根据唯一性,通过这个交点的轨道只能有一条。因此,不同轨道不能在一点相交,如果两个轨道在相空间相交于一点,实际上,它们必定是相同的轨道。另一方面,给定位形空间的一个点只能给定一个初始条件,[math]\displaystyle{ x_{1}\left(t_{0}\right)=x_{2}\left(t_{0}\right)=x_{Q} }[/math],不能唯一确定一个解。因此,存在多条轨道通过这个给定的点。由于相空间的这个好性质,在以后的讨论中,我们都会用相空间。很多时候,速度会替换成动量[math]\displaystyle{ \vec{p}=m\vec{v} }[/math],两者相差一个常数(对于给定的系统,质量是一个常数)。所以相空间也经常指由位置和动量坐标联合确定的空间。

作为力学本身来说,主要概念和主要结构就只有这些,空间、时间、参考系、坐标、位置、速度(动量)、加速度、力、位形空间、相空间,还有。这些概念描述了运动,把运动与运动变化的原因,也就是力联系起来。但是,什么是力的问题,力学是回答不了的。力学回答的问题是,给定了力,也就是物体之间的相互作用之后,运动将会如何发生。给定的力到底怎样的问题,由研究具体的力的学科来回答,例如电磁学研究电磁力,引力科学研究引力,核物理学研究核力等等。

有一种类型的力称为保守力或者有势力在物理学里面特别重要。我们甚至相信所有的力的背后,如果我们把我们的系统做的足够大,把足够多的外界包含在我们的系统之中,所有的力都应该是保守力。

势函数、保守力与能量守恒

保守力是指满足以下关系的力[math]\displaystyle{ \vec{F}\left(\vec{x},\vec{v}\right) }[/math],存在一个函数[math]\displaystyle{ V\left(\vec{x}\right) }[/math]满足, [math]\displaystyle{ \begin{aligned} \vec{F}\left(\vec{x},\vec{v}\right) = -\vec{\nabla}V\left(\vec{x}\right).\end{aligned} }[/math] 其中[math]\displaystyle{ \vec{\nabla} }[/math]是位置坐标的导数。所以,这样的力,不能是速度[math]\displaystyle{ \vec{v} }[/math]的函数,而仅仅是位置[math]\displaystyle{ \vec{x} }[/math]的函数。

前两个例子中的力,就是保守力,也被称为有势力,也就是可以写成一个势函数然后把力看成是这个势函数的梯度的力;后面的例子中的力,一般看成是来自于相互作用,而这个相互作用的也可以写成势函数的形式。

[势函数举例]:前面两个例子中的势函数分别是[math]\displaystyle{ V_{1}=-mgx }[/math][math]\displaystyle{ V_{2}=\frac{1}{2}k\left(x-l\right)^{2} }[/math]。可以非常简单地验证通过这两个势函数能够得到与前面的例子中的力。第三个的相互作用是函数实际上是[math]\displaystyle{ V_{3} = \frac{1}{2}k\left(x_{1}-x_{2}-l\right)^{2} }[/math]。这个可以通过计算[math]\displaystyle{ \vec{F}_{1}=-\vec{\nabla}_{1}V\left(\vec{x}_{1}, \vec{x}_{2}\right)=-\frac{\partial}{\partial x_{1}}V_{3}\hat{i}=-k\left(x_{1}+l-x_{2}\right)\hat{i} }[/math]。这个和受力分析的结果完全一致。

当方程中所有的力都是保守力的时候,我们来看一下方程公式[math]\displaystyle{ \left(\ref{eq:Newton2}\right) }[/math]的一个变形, [math]\displaystyle{ \begin{aligned} m\frac{d}{dt}\vec{v} = -\vec{\nabla}V\left(\vec{x}\right) \Longrightarrow \vec{v}\cdot \frac{d}{dt}\vec{v} = -\vec{v}\cdot \vec{\nabla}V\left(\vec{x}\right) \notag \\ \Longrightarrow mv_{x} \frac{d}{dt}v_{x} + mv_{y} \frac{d}{dt}v_{y} + mv_{z} \frac{d}{dt}v_{z} = -\left(v_{x}\frac{\partial}{\partial x}+v_{y}\frac{\partial}{\partial y}+v_{z}\frac{\partial}{\partial z}\right)V\left(\vec{x}\right) \notag \\ \Longrightarrow \frac{1}{2}m\frac{d}{dt}\left(v^{2}_{x} + v^{2}_{y} + v^{2}_{z} \right) = -\left(\frac{dx}{dt}\frac{\partial}{\partial x}+\frac{dx}{dt}\frac{\partial}{\partial y}+\frac{dx}{dt}\frac{\partial}{\partial z}\right)V\left(\vec{x}\right) \notag \\ \Longrightarrow \frac{d}{dt}\left(\frac{1}{2}mv^{2} +V\left(\vec{x}\right)\right)=0 \notag\end{aligned} }[/math] 也就是 [math]\displaystyle{ \begin{aligned} \frac{1}{2}mv^{2} +V\left(\vec{x}\right)=E. {\label{eq:energyconservation}}\end{aligned} }[/math] 这里[math]\displaystyle{ E }[/math]是一个不依赖于时间的常数。这个等式被称为能量守恒,其中第一项被称为动能[math]\displaystyle{ T }[/math],第二项被称为势能[math]\displaystyle{ V }[/math]

[能量守恒的应用]:利用能量守恒求解第一个例子中小球落地以后的速度,以及第二、第三个例子中弹簧被压缩的最大长度。

这里,仅仅以第二个问题为例。首先这里能量包含动能和弹簧上积累的势能,于是任何一个时刻的总能量是[math]\displaystyle{ E_{T}=\frac{1}{2}mv^{2}+\frac{1}{2}k\left(x-l\right)^{2} }[/math]。根据能量守恒, [math]\displaystyle{ \frac{1}{2}mv^{2}+\frac{1}{2}k\left(x-l\right)^{2} = \frac{1}{2}kA_{0}^{2}. }[/math] 其中,我们代入了初始状态的能量。于是,[math]\displaystyle{ \left(x-l\right) }[/math]的极值必然发生在[math]\displaystyle{ v=0 }[/math]的时候, [math]\displaystyle{ {\left|}\left(x-l\right){\right|}_{max} = A_{0}. }[/math] 于是,最大压缩长度是[math]\displaystyle{ A_{0} }[/math]

现在,我们已经完成了的主要内容的学习,我们来试着求解一下下面这个问题。

文件:Pendulum.eps
caption (a)单摆的运动的受力分解;(b)同样的装置放在一个加速运动的汽车里面。

[fig:Pendulums]

[单摆的周期]:固定在天花板上的轻质绳子连着一个质量为[math]\displaystyle{ m }[/math]小球,拉开绳子一小段距离后松开,求小球再次回到松开位置的时间。

在用Newton力学来求解问题的过程中,最关键的一步是受力分析,也就是合力的计算。考虑一个跟单摆非常类似的问题:把同样的装置放在一个在加速的汽车里面。这两个问题的情境如[math]\displaystyle{ \ref{fig:Pendulums} }[/math]所示。 我们知道按照[math]\displaystyle{ \ref{fig:Pendulums} }[/math](a)的分解和合成方式,合力[math]\displaystyle{ F_{T}=mg\sin{\left(\theta\right)} }[/math],按照[math]\displaystyle{ \ref{fig:Pendulums} }[/math](b)的分解和合成方式,合力[math]\displaystyle{ F_{T}=mg\tan{\left(\theta\right)} }[/math]。为什么同样的装置,不同的情形,受力分析不一样呢?实际上,是因为,我们知道(整体或者某个运动的方向上的)合力的方向肯定是加速度的方向,而加速度的方向,在速度为零的时候,肯定就是下一个时刻运动的方向。于是,由于我们对于这两种情况下的运动有一个预期,(a)下一个时刻不会在径向运动只能在切线方向运动,于是按照切线和径向方向来分解;(b)会沿着水平方向运动,于是沿着水平方向和竖直方向分解。一旦做出来这个分解,那么,按照Newton第二定律,我们得到 [math]\displaystyle{ \begin{aligned} mg\sin{\left(\theta\right)} = -ml\ddot{\theta} \Rightarrow \ddot{\theta} = -\frac{g}{l}\sin{\left(\theta\right)} \propto -\frac{g}{l}\theta .\end{aligned} }[/math] 最后一步是一个[math]\displaystyle{ \theta }[/math]很小的时候的近似。

通过这个例子,我们发现,做受力分析需要对运动形式有一定的前瞻性,洞察力:最终合力的方向与可能产生的运动方向的相互关联。如果我们再考虑更复杂一点的平面摆,多级摆,这个受力分析就会更困难。一个复杂的机器可能由很多部分构成。这个时候,受力分析的方法基本上就不能用了。Lagrange和Hamilton发明了一个不用做受力分析的求解力学问题的方法——分析力学。这里我们仅要介绍Hamiltonian力学。

从Newtonian力学到Hamiltonian力学

Hamiltonian力学,也称为分析力学的Hamiltonian形式,解决的问题是,只要我们能够写下动能[math]\displaystyle{ T }[/math]和势能[math]\displaystyle{ V }[/math]作为自变量[math]\displaystyle{ \vec{x} }[/math]以及[math]\displaystyle{ \vec{p} }[/math]的函数,那么,所有的力学问题都可以直接变成求解微分方程的技术问题。我们先来看看逻辑上为什么可行,然后举几个例子学会如何运用,最后再讨论这个方法的意义。

单个质点的分析力学形式

对单个质点的守保守力作用的系统定义Hamiltonian, [math]\displaystyle{ \begin{aligned} H=T\left(\vec{x},\vec{p}\right)+V\left(\vec{x},\vec{p}\right) = \frac{1}{2m}\left(\vec{p}\right)^{2} + V\left(\vec{q}\right),\end{aligned} }[/math] 同时记位置坐标[math]\displaystyle{ \vec{x} }[/math][math]\displaystyle{ \vec{q} }[/math],把自变量[math]\displaystyle{ \dot{\vec{x}} }[/math]替换成[math]\displaystyle{ \frac{\vec{p}}{m} }[/math]. Newton方程与下列方程等价,

[math]\displaystyle{ \begin{aligned} \frac{d}{dt}q_{j} = \frac{\partial H}{\partial p_{j}}, \\ \frac{d}{dt}p_{j} = -\frac{\partial H}{\partial q_{j}}. \end{aligned} }[/math]

其中[math]\displaystyle{ q_{j} }[/math][math]\displaystyle{ \vec{x} }[/math][math]\displaystyle{ j }[/math]分量的坐标。这个方程被称为Hamilton方程。

对于单个质点的系统,我们可以简单验证这个方程确实给出Newton方程。

[math]\displaystyle{ \begin{aligned} \frac{d}{dt}q_{j} = \frac{\partial H}{\partial p_{j}} \Longrightarrow \dot{q}_{j}=\frac{p_{j}}{m}, \\ \frac{d}{dt}p_{j} = -\frac{\partial H}{\partial q_{j}} \Longrightarrow \dot{p}_{j} = -\frac{\partial}{\partial x_{j}}V = F_{j}. \end{aligned} }[/math]

于是[math]\displaystyle{ ma=m\ddot{x}_{j}=m\ddot{q}_{j} = F_{j} }[/math]

[谐振子的Hamiltonian力学]:[math]\displaystyle{ V=\frac{1}{2}k\left(q-l\right)^{2} }[/math],从Hamiltonian推导出其运动方程。

知道势能,我们可以写下来[math]\displaystyle{ H=\frac{p^{2}}{2m} + \frac{1}{2}k\left(q-l\right)^{2} }[/math],于是方程就成了, [math]\displaystyle{ \begin{aligned} \frac{d}{dt}q=\frac{\partial H}{\partial p} = \frac{p}{m} \\ \frac{d}{dt}p=-\frac{\partial H}{\partial q} = k\left(q-l\right) \end{aligned} }[/math] 把第二式代入第一式,我们得到 [math]\displaystyle{ \begin{aligned} \frac{d^{2}}{dt^{2}}q = \frac{\dot{p}}{m} = \frac{k}{m}\left(q-l\right).\end{aligned} }[/math] 这个方程与通过Newton力学得到的完全一致。

[单摆的Hamiltonian力学]:固定在天花板上的轻质绳子连着一个质量为[math]\displaystyle{ m }[/math]小球,写出这个小球的运动方程。

对于单摆,我们可以写下来[math]\displaystyle{ H=\frac{p^{2}}{2m} - mgl\cos{\left(\theta\right)} }[/math],但是这个有一个小小的问题,我们用了角度当作自变量,于是将来计算偏导数的时候需要协调一下。第一个处理的方式是这样,利用[math]\displaystyle{ q=l\theta }[/math][math]\displaystyle{ \begin{aligned} l\frac{d}{dt}\theta = \frac{d}{dt}q=\frac{\partial H}{\partial p} = \frac{p}{m} \\ \frac{d}{dt}p=-\frac{\partial H}{\partial q} = -\frac{1}{l}\frac{\partial H}{\partial \theta} = -mg\sin{\left(\theta\right)}\end{aligned} }[/math] 于是把第二式代入第一式,我们得到 [math]\displaystyle{ \begin{aligned} \frac{d^{2}}{dt^{2}}\theta = \frac{\dot{p}}{lm} = -\frac{g}{l}\sin{\left(\theta\right)}.\end{aligned} }[/math] 这个方程与通过Newton力学得到的完全一致。

另外一个方式是理解角动量的定义以后,直接用角度变量[math]\displaystyle{ \theta }[/math],角速度[math]\displaystyle{ \dot{\theta} }[/math]和角动量[math]\displaystyle{ p_{\theta} \triangleq \vec{r}\otimes m\vec{v} = ml^{2}\dot{\theta} }[/math],或者定义式[math]\displaystyle{ p_{\theta} \triangleq I \dot{\theta}= ml^{2}\dot{\theta} }[/math]。其中[math]\displaystyle{ I=ml^2 }[/math]叫做转动惯量。于是通过[math]\displaystyle{ H=\frac{1}{2}ml^{2}\dot{\theta}^{2}-mgl\cos{\left(\theta\right)} }[/math],得到 [math]\displaystyle{ \begin{aligned} H=\frac{1}{2}ml^{2}\left(\frac{p_{\theta}}{ml^{2}}\right)^{2}-mgl\cos{\left(\theta\right)} = \frac{p^{2}_{\theta}}{2ml^{2}}-mgl\cos{\left(\theta\right)},\end{aligned} }[/math] 于是通过Hamilton方程得到 [math]\displaystyle{ \begin{aligned} \frac{d}{dt}\theta=\frac{\partial H}{\partial p_{\theta}} = \frac{p_{\theta}}{ml^{2}} \\ \frac{d}{dt}p_{\theta}=-\frac{\partial H}{\partial \theta} = -mgl\sin{\left(\theta\right)} \end{aligned} }[/math] 于是把第二式代入第一式,我们得到 [math]\displaystyle{ \begin{aligned} \frac{d^{2}}{dt^{2}}\theta = \frac{\dot{p_{\theta}}}{ml^{2}} = -\frac{g}{l}\sin{\left(\theta\right)}.\end{aligned} }[/math] 这个方程与通过Newton力学得到的完全一致。

在这个例子中,无论是角动量的处理方式,还是把角度通过半径变成长度以后再利用一般的动量(称为线动量)来计算,得到结果是一样的。

更一般的,如果了解一点点Lagrangian力学[20],任意一个坐标对应着的角动量,可以通过[math]\displaystyle{ p=\frac{\partial L}{\partial \dot{q}} }[/math]来定义。这里[math]\displaystyle{ q }[/math]是广义坐标,可以是通常的直角坐标的分量值,也可以是角度,等等。而一般情况下,通过[math]\displaystyle{ q }[/math][math]\displaystyle{ \dot{q} }[/math]直接写出Lagrangian比较简单。例如,对于我们的单摆的例子, [math]\displaystyle{ \begin{aligned} L=T-V = \frac{1}{2}ml^{2}\dot{\theta}^{2}+mgl\cos{\left(\theta\right)},\end{aligned} }[/math] 于是 [math]\displaystyle{ \begin{aligned} p_{\theta}=\frac{\partial L}{\partial \dot{\theta}} = ml^{2}\dot{\theta}.\end{aligned} }[/math] 与我们通过角动量的定义得到的关系一致。 然后,通过Hamiltonian和Lagrangian之间的如下关系——这个关系的证明需要用到[21],请参考Landau的《力学》——来得到Hamiltonian, [math]\displaystyle{ \begin{aligned} H=\dot{q}\left(p,q\right)p - L\left(q,\dot{q}\left(p,q\right)\right),\end{aligned} }[/math] 其中[math]\displaystyle{ \dot{q}\left(p,q\right) }[/math]需要从[math]\displaystyle{ p=\frac{\partial L}{\partial \dot{q}} }[/math]中反解出来。例如,对于上面的谐振子的例子,我们有 [math]\displaystyle{ \begin{aligned} \dot{\theta} = \frac{p_{\theta}}{ml^{2}} .\end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} H = \frac{p_{\theta}}{ml^{2}}p_{\theta} - \frac{1}{2}ml^{2}\left(\frac{p_{\theta}}{ml^{2}}\right)^{2}-mgl\cos{\left(\theta\right)} = \frac{p^{2}_{\theta}}{2ml^{2}} - mgl\cos{\left(\theta\right)}.\end{aligned} }[/math] 在这里一定要注意[math]\displaystyle{ L }[/math]的自变量是[math]\displaystyle{ \left(q, \dot{q}\right) }[/math],而[math]\displaystyle{ H }[/math]的自变量是[math]\displaystyle{ \left(q,p\right) }[/math]

通常从Lagrangian开始,而不是直接从Hamiltonian开始的原因是,一般情况下以坐标和坐标的导数,也就是速度,为自变量写下[math]\displaystyle{ T }[/math][math]\displaystyle{ V }[/math],要比以坐标和动量为自变量写下[math]\displaystyle{ T }[/math][math]\displaystyle{ V }[/math]更容易。更多的细节请参看Landau的《力学》。

从单体到多体的分析力学形式

我们花了额外的本来用于学习量子力学的时间学习了Hamilton方程,不仅仅是因为它们可以从受力分析中解脱出来,还因为,它们的形式非常容易推广到多体相互作用的系统。一个质点的动力学完全取决于[math]\displaystyle{ V\left(\vec{x}\right) }[/math],而这个[math]\displaystyle{ V\left(\vec{x}\right) }[/math],我们说过,也是由于和隐藏起来的不在系统之内的外界物体相互作用产生的。那么,当有多个质点,而且这个多个质点之间存在相互作用的时候,我们的理论的这个形式还能不能用呢?这里,所谓相互作用就是从受力分析的角度,一个质点受到的力不仅仅和这个质点的位置相关,也跟其他的质点的位置相关。从势能的角度来说,就是系统的势能同时依赖于多个质点的位置,而不仅仅是一个依赖于单个质点的位置的势能函数的和。用数学表达式来说明就是, [math]\displaystyle{ \begin{aligned} V\left(\vec{x}_{1},\vec{x}_{2}\right) \neq V_{1}\left(\vec{x}_{1}\right)+ V_{2}\left(\vec{x}_{2}\right) \end{aligned} }[/math] 从Newton力学来说,单个质点的系统和多个质点的系统没有本质区别,但是受力分析会复杂很多很多,任意两个质点之间的受力都需要考虑,然后最后叠加起来。幸好,分析力学的Hamilton形式,可以直接从单个质点推广到多个质点,仅仅需要包含一个相互作用项。以两个质点的系统为例 [math]\displaystyle{ \begin{aligned} H\left(\vec{q}_{1},\vec{q}_{2};\vec{p}_{1},\vec{p}_{2}\right) = \frac{\vec{p}^{2}_{1}}{2m_{1}} + \frac{\vec{p}^{2}_{2}}{2m_{2}} + V_{1}\left(\vec{q}_{1}\right) + V_{2}\left(\vec{q}_{2}\right) + V_{12}\left(\vec{q}_{1}, \vec{q}_{2}\right). \end{aligned} }[/math] 这个方便的形式在处理多体相互作用的系统的时候非常有用。其中[math]\displaystyle{ V_{12}\left(\vec{q}_{1}, \vec{q}_{2}\right) }[/math]就是相互作用项。这一项的取值同时依赖于这个系统内两个质点的位置,而不是一个。

[一根弹簧连着的两个小球的Hamiltonian力学]:一根水平方向的弹簧连着的两个小球,从Hamiltonian开始,求出运动方程,并做比较。

首先,我们写下来这个系统的Hamiltonian, [math]\displaystyle{ H=\frac{p^{2}_{1}}{2m} + \frac{p^{2}_{2}}{2m} + \frac{1}{2}k\left(q_{1}-q{2}-l\right)^{2} }[/math] 然后,带入Hamilton方程,得到 [math]\displaystyle{ \begin{aligned} \dot{x}_{1} = \frac{p_{1}}{m} , \notag \\ \dot{x}_{2} = \frac{p_{2}}{m} , \notag \\ \dot{p}_{1} = -k\left(x_{1}+l-x_{2}\right) , \notag \\ \dot{p}_{2} = -k\left(x_{2}-x_{1}-l\right) .\end{aligned} }[/math] 这个方程和之前得到的方程完全一致。

[二级摆的Hamiltonian力学]:这个问题会用到Lagrangian力学和Hamiltonian力学的关系。固定在天花板上的轻质硬杆连着另一个轻质硬杆,第二个轻质硬杆连着一个质量为[math]\displaystyle{ m }[/math]小球。假设这个系统就在一个平面内运动(拉开小球到一定位置以后释放,这样避免由于初始速度的问题,我们需要考虑在三维空间中的运动),写出这个小球的运动方程。

轻质表示质量可以忽略。硬杆表示长度不可伸长。以天花板上的轻杆固定点做为零点,建立参考系坐标系,向下为[math]\displaystyle{ y }[/math]轴正方向,向右为[math]\displaystyle{ x }[/math]轴正方向。选取自变量为第一个杆和竖直方向的逆时针方向夹角[math]\displaystyle{ \alpha }[/math]和第二个杆和竖直方向的逆时针方向夹角[math]\displaystyle{ \beta }[/math]。我们先想办法写下来动能和势能。 [math]\displaystyle{ \begin{aligned} x = l\sin{\left(\alpha\right)} + l\sin{\left(\beta\right)}, \notag \\ y = l\cos{\left(\alpha\right)} + l\cos{\left(\beta\right)}. \notag \end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} V_x = l\cos{\left(\alpha\right)}\dot{\alpha} + l\cos{\left(\beta\right)}\dot{\beta}, \notag \\ V_y = -l\sin{\left(\alpha\right)}\dot{\alpha} - l\sin{\left(\beta\right)}\dot{\beta}. \notag \end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} E_T = \frac{1}{2}m\left(V^{2}_{x}+V^{2}_{y}\right) = \frac{1}{2}ml^{2}\left(\dot{\alpha}^{2} + \dot{\beta}^{2} + 2\cos\left(\alpha-\beta\right)\dot{\alpha}\dot{\beta}\right), \notag \\ E_P = -mgl\cos{\left(\alpha\right)} -mgl\cos{\left(\beta\right)}. \notag \end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} L = \frac{1}{2}ml^{2}\left(\dot{\alpha}^{2} + \dot{\beta}^{2} + 2\cos\left(\alpha-\beta\right)\dot{\alpha}\dot{\beta}\right) +mgl\cos{\left(\alpha\right)} +mgl\cos{\left(\beta\right)}. \notag \end{aligned} }[/math] 借助于Lagrange方程,这个[math]\displaystyle{ L }[/math]可以直接用来推导出来运动方程。这里,我们希望回到Hamilton方程,于是我们想求出来以动量和位置为自变量的[math]\displaystyle{ H }[/math]。按照定义, [math]\displaystyle{ \begin{aligned} p_{\alpha} =\frac{\partial L}{\partial \dot{\alpha}} = \frac{1}{2}ml^{2}\left(2\dot{\alpha} + 2\cos\left(\alpha-\beta\right)\dot{\beta}\right), \notag \\ p_{\beta} =\frac{\partial L}{\partial \dot{\beta}} = \frac{1}{2}ml^{2}\left(2\dot{\beta} + 2\cos\left(\alpha-\beta\right)\dot{\alpha}\right). \notag\end{aligned} }[/math] 然后,从这里,我们反解出来[math]\displaystyle{ \dot{\alpha},\dot{\beta} }[/math]做为[math]\displaystyle{ p_{\alpha}, p_{\beta} }[/math]的函数,然后代入到 [math]\displaystyle{ H = \dot{\alpha} p_{\alpha} + \dot{\beta} p_{\beta} -L }[/math] 就可以得到[math]\displaystyle{ H }[/math]。最后通过Hamilton方程得到运动方程。具体的计算这里就省略了。

这个问题,如果你打算用受力分析来做,是非常非常麻烦的。如果需要包含杆的质量,以及杆的长度的变化,我们仍然可以通过直接写下[math]\displaystyle{ L }[/math]来做,而那个时候,通过受力分析来做,就几乎没有希望了。

分析力学的形式还能够帮助我们简化约束的处理,例如,考虑一个在曲面或者曲线上运动的物体。这里我们就不再讨论,有兴趣的读者可以去看一下Dirac的约束运动。

当然,除了分析更加简单了,分析力学形式的好处主要在于,现在,只要给定位置([math]\displaystyle{ x }[/math])和动量([math]\displaystyle{ p }[/math])做为自变量的[math]\displaystyle{ H=H\left(x,p\right) }[/math],或者位置([math]\displaystyle{ x }[/math])和速度([math]\displaystyle{ \dot{x} }[/math])做为自变量的[math]\displaystyle{ L=L\left(x,\dot{x}\right) }[/math],那么,系统的一切行为都确定了。在这个意义上,我们说,这样的[math]\displaystyle{ H\left(x,p\right) }[/math]或者这样的[math]\displaystyle{ L\left(x,\dot{x}\right) }[/math]是一个系统的完整的描述。注意,一般来说,[math]\displaystyle{ p=\frac{\partial}{\partial \dot{x}}L\left(x, \dot{x}\right)\neq m \dot{x} }[/math]

作业

[math]\displaystyle{ N }[/math]个耦合谐振子系统,[math]\displaystyle{ L=\sum_{j=0}^{N}\left[\frac{m}{2}\dot{q}^{2}_{j}-\frac{k}{2}\left(q_{j}-q_{j+1}\right)^{2}\right] }[/math],其中[math]\displaystyle{ q_{0}=q_{N+1}=0 }[/math]。写出[math]\displaystyle{ H }[/math],还有运动方程。对于[math]\displaystyle{ N=2 }[/math],找出独立变量使得所有的方程只依赖于自身的变量。求出来的这些“独立变量”被称为这个系统的正则动量和正则坐标。

一跟硬杆连着的两个小球:两个小球通过一根硬杆(不能伸长和收缩)相连,可以在整个三维空间中运动,写下这个系统的运动方程。

三跟硬杆连着的三个小球:三个小球通过三根硬杆(不能伸长和收缩)首尾相连,放在一个光滑平面上,写下这个系统的运动方程。

三根弹簧连着的三个小球:三个小球通过三根弹簧首尾相连,放在一个光滑平面上,写下这个系统的运动方程。

本章小结

通过力学的学习,我们已经了解到物理学的基本思考方式是描述事物的状态,以及探索事物状态发生变化的原因。Newton力学关心的是物体的时空状态——在任何时间点上物体在什么位置、速度是多少,以及状态发生变化的原因。利用力的概念,Newton力学把原因与状态联系起来,也就是Newton第二定律。我们还了解到这个问题完全由物体的Hamiltonian描述,从其中我们可以得到运动方程,然后在一定的初始条件下求解运动方程我们可以得到物体任意时刻的状态,不管过去还是未来。最后,我们还了解到运用受力分析和Newton第二定律来处理相互作用的多体系统以及受约束的系统是很困难的,但是Hamilton力学使得这个问题更容易处理。

写下了一个经典系统的Hamiltonian就是知道了这个系统的所有信息,配上初始条件就可以得到这个系统在相空间的轨道。

实际上,除了我们已经了解的经典力学的Newton力学形式、Hamilton力学形式,我们还有Lagrange力学形式。一方面,它们都是等价的。另一方面,我们还可以找出一个更加基本的原理,从这个原理来推出这些力学形式,而且都可以认为是从这个更加基本的原理得到的结果。这样的一个更加基本的原理就叫做最小作用量原理。关于这个部分更详细的推导请参考Landau的《力学》。追求更加统一的方式来描述自然是物理学的终极目标之一。

最后提醒一个技术上要注意的细节:确定一个系统需要多少个变量来描述,是一个非常重要的步骤。不同的选择有可能会非常大地影响分析计算的复杂度。实际上,建立任何一个数学模型的第一步都是描述变量的选择。

我们把量子力学——也就是量子系统的数学模型——的主题内容分成单体的量子力学和耦合的量子力学两个部分。其实,其理论完全就是一致的——完全就是单体系统的量子力学。或者说,任意维数的量子系统,我们都可以当作一个单体系统来研究。我们这里所做的区分仅仅是因为所计算分析的量上的差别,而不是计算分析所用的理论或者工具的不同。在耦合系统里面,我们关心纠缠态、纠缠态的形成、纠缠态的测量等问题。

这个部分的推荐阅读材料是:的《Feynman物理学讲义》第三卷、的《Quantum Mechanics – a modern development》、的《高等量子力学》。

量子系统状态的数学模型

[Chap:Static] 这一章我们先构建描述量子系统的给定状态的数学模型。这个数学模型必须能够对于任意的物理量的测量,给出与实验结果相符的理论推断。下一章,我们再来讨论状态的演化的问题。

有关量子状态和测量的公理

[Sec:Axioms]

[量子态公理] [axiom:Quantum1] 量子系统的状态由Hilbert空间上的密度矩阵[math]\displaystyle{ \rho }[/math]表示,或者在特殊情况下,由Hilbert空间[math]\displaystyle{ V }[/math]的归一化的矢量[math]\displaystyle{ {\left|}\mu {\right\rangle} }[/math]表示。

密度矩阵是Hilbert空间上的正定归一的Hermitian算符,满足 [math]\displaystyle{ \begin{aligned} \rho^{\dag}=\rho, tr\left(\rho\right)=1, \end{aligned} }[/math] 并且其本征值[math]\displaystyle{ p_{j} }[/math]满足, [math]\displaystyle{ \begin{aligned} 0\leq p_{j}\leq 1.\end{aligned} }[/math] 当且仅当其中一个[math]\displaystyle{ p_{\mu}=1 }[/math](此时其他的本征值都是[math]\displaystyle{ 0 }[/math]), [math]\displaystyle{ \begin{aligned} \rho = {\left|}\mu {\right\rangle}{\left\langle}\mu {\right|}.\end{aligned} }[/math] 这个时候也可以认为量子态的表示就是[math]\displaystyle{ {\left|}\mu {\right\rangle} }[/math]。密度矩阵的形式更一般,当有多个非零本征值的时候表示混合态。

区分纯态和混合态在以后的讨论中会有用。这里介绍一下纯态的概念。测量得到一个系统的密度矩阵之后,我们把比较特殊的,满足 [math]\displaystyle{ \begin{aligned} \rho = {\left|}\psi {\right\rangle}{\left\langle}\psi {\right|}, {\label{eq:PureState}}\end{aligned} }[/math] 的密度矩阵称为纯态,不满足公式[math]\displaystyle{ \left(\ref{eq:PureState}\right) }[/math]的状态称为混合态。也就是说纯态就是上面提到的密度矩阵有且仅有一个非零本征值的特殊情况。可以证明,纯态满足 [math]\displaystyle{ \begin{aligned} tr\left(\rho^{2}\right) = tr\left(\rho\right) = 1,\end{aligned} }[/math] 而混合态必然有 [math]\displaystyle{ \begin{aligned} tr\left(\rho^{2}\right) \lt 1.\end{aligned} }[/math]

Hilbert空间矢量存在加法、数乘、内积的操作。按照这个公理这些操作也成了量子系统的状态上的相应操作。至于各个操作对于量子系统的意义,例如什么情况下我们用两个矢量的加法[math]\displaystyle{ a {\left|}\mu{\right\rangle}+ b{\left|}\nu{\right\rangle} }[/math],于是相当于[math]\displaystyle{ a^{*}a {\left|}\mu{\right\rangle}{\left\langle}\mu{\right|}+ a^{*}b {\left|}\nu{\right\rangle}{\left\langle}\mu{\right|}+ ab^{*} {\left|}\mu{\right\rangle}{\left\langle}\nu{\right|}+ b^{*}b {\left|}\nu{\right\rangle}{\left\langle}\nu{\right|} }[/math],什么情况下我们用两个密度矩阵的加法[math]\displaystyle{ p_{1}\rho_{1} + p_{2}\rho_{2} }[/math],于是大概相当于[math]\displaystyle{ a^{*}a {\left|}\mu{\right\rangle}{\left\langle}\mu{\right|}+ b^{*}b {\left|}\nu{\right\rangle}{\left\langle}\nu{\right|} }[/math],我们还需要以后进一步来了解。在这里先给出一个形式上的说明,具体含义到将来的具体实验中会更清楚。

当一个状态可能由两个(也可以是多个,可以简单推广)方式发生的时候,如果这两个方式不可区分——也就是我们根本不可能了解到底哪一种情况发生了的时候,在量子状态上,我们采用矢量叠加, [math]\displaystyle{ \begin{aligned} \rho = a^{*}_{1}a_{1} {\left|}\psi_{1}{\right\rangle}{\left\langle}\psi_{1}{\right|}+ a^{*}_{1}a^{2} {\left|}\psi_{2}{\right\rangle}{\left\langle}\psi_{1}{\right|}+ a_{1}a^{*}_{2} {\left|}\psi_{1}{\right\rangle}{\left\langle}\psi_{2}{\right|}+ a^{*}_{2}a_{2} {\left|}\psi_{2}{\right\rangle}{\left\langle}\psi_{2}{\right|},\end{aligned} }[/math] 相当于 [math]\displaystyle{ \begin{aligned} {\left|}\psi {\right\rangle}= a_{1} {\left|}\psi_{1}{\right\rangle}+ a_{2} {\left|}\psi_{2}{\right\rangle}.\end{aligned} }[/math] 其中,我们假设方式一对应着状态[math]\displaystyle{ {\left|}\psi_{1}{\right\rangle} }[/math][math]\displaystyle{ \rho_{1} = {\left|}\psi_{1}{\right\rangle}{\left\langle}\psi_{1}{\right|} }[/math]),方式二对应着状态[math]\displaystyle{ {\left|}\psi_{2}{\right\rangle} }[/math][math]\displaystyle{ \rho_{2} = {\left|}\psi_{2}{\right\rangle}{\left\langle}\psi_{2}{\right|} }[/math])。当这两种发生的方式可以区分的时候——后面在具体实验中我们会更清楚地解释什么是可区分什么是不可区分[22],我们用概率性叠加, [math]\displaystyle{ \begin{aligned} \rho = p_{1}{\left|}\psi_{1}{\right\rangle}{\left\langle}\psi_{1}{\right|}+ p_{2} {\left|}\psi_{2}{\right\rangle}{\left\langle}\psi_{2}{\right|}.\end{aligned} }[/math]

将来我们会看到,在量子力学里面,矢量叠加和概率性叠加的区别和适用条件是非常重要的。

[量子观测量公理] [axiom:Quantum2] 量子系统的可观测量由Hilbert空间的Hermitian算符矢量[math]\displaystyle{ O }[/math]表示。

是不是所有的Hermitian算符矢量都可以成为量子系统的可观测量是另一个问题。理论上应该可以,但是实际测量过程中,满足要求的仪器不一定能够设计的出来。Hilbert空间的线性Hermitian算符存在算符的加法、数乘,线性变换等操作。按照这个公理,这些操作也成了对量子系统的可观测量的相应的操作。这些操作[math]\displaystyle{ \hat{O}_{1}+\hat{O}_{2} }[/math]对于量子系统的含义我们也需要进一步来了解。

[量子测量公理] [axiom:Quantum3] 对于给定状态[math]\displaystyle{ \rho }[/math],测量可观测量[math]\displaystyle{ O }[/math]的所有可能结果是[math]\displaystyle{ O }[/math]的本征值[math]\displaystyle{ o }[/math]的集合,每一个状态[math]\displaystyle{ o }[/math]出现的几率满足 [math]\displaystyle{ \begin{aligned} P_{o} = {\left\langle}o {\right|}\rho {\left|}o {\right\rangle}. {\label{eq:DensityMatrixProbability}}\end{aligned} }[/math]

因此,测量的平均值满足 [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= \sum_{o} oP_{o} = tr\left(O\rho\right)\end{aligned} }[/math] 其中我们用到了[math]\displaystyle{ \sum_{o} oP_{o} = \sum_{o} o{\left\langle}o {\right|}\rho {\left|}o {\right\rangle}= \sum_{o} {\left\langle}o {\right|}O\rho {\left|}o {\right\rangle} }[/math][math]\displaystyle{ {\left\langle}o {\right|} }[/math]以及 [math]\displaystyle{ {\left|}o {\right\rangle} }[/math]是Hermitian算符[math]\displaystyle{ O }[/math]的本征向量。对于[math]\displaystyle{ \rho = {\left|}\mu {\right\rangle}{\left\langle}\mu {\right|} }[/math]的特殊情况,[math]\displaystyle{ {\left\langle}O {\right\rangle}= {\left\langle}\mu {\left|}O {\right|}\mu {\right\rangle} }[/math]

[量子测量后状态公理] [axiom:Quantum4] 对于给定状态[math]\displaystyle{ \rho }[/math],测量可观测量[math]\displaystyle{ O }[/math]并观测到状态[math]\displaystyle{ o^{*} }[/math],则测量以后,系统的状态成为特定的观测到的状态[math]\displaystyle{ \rho = {\left|}o^{*} {\right\rangle}{\left\langle}o^{*} {\right|} }[/math]

测量以后的状态就是所测量到的状态。这一点,在经典力学的世界里头不用特别指出:这本来就是测量的含义——测量就是测得系统当时的状态,因此系统在测量之后的当时,必然就是测的的结果反映的状态。在量子的世界里面,这一点不是那么平庸。我们把这个公理单独拿出来。通常的教科书把它与上一个公理合在一起。

关于这一条公理,还有值得注意的地方。在实际测量过程中,对一个系统的可观测量[math]\displaystyle{ O }[/math]的测量总是通过引入另外一个叫做测量仪器的系统[math]\displaystyle{ A }[/math],有的时候这个仪器可以是同一个量子系统的不同的自由度——实际上相当于不同的系统,来实现的。这个时候,记录下来的往往是测量仪器[math]\displaystyle{ A }[/math]的状态[math]\displaystyle{ a^{*} }[/math],当然这个[math]\displaystyle{ a^{*} }[/math]与被测量的物理量的取值[math]\displaystyle{ o^{*} }[/math]的对应关系是测量之前就已经知道的知识。所以,实际的测量过程还牵涉到如何在[math]\displaystyle{ A }[/math][math]\displaystyle{ O }[/math]之间建立这样的关联。这个问题,在这里我们不讨论。仅仅当作实现公理[axiom:Quantum3]和公理[axiom:Quantum4]的背后的暂时不需要关心的一种机制。

下面,我们用这四条来解释上面提到的量子力学的实验。所谓解释就是我们给出一张配方(菜谱),在实验的每一个阶段,你会知道对状态进行物理操作应该对应着什么样的数学操作,当时的状态是什么,测量得到的结果是什么,而且这样的配方对所有的量子系统都适用。至于理解这个配方,是以后的事情。为了和经典概率论相区别,这里我们也会尝试用经典概率论来给出一个量子行为的配方。我们可以把经典概率论写成以下这个和上面的量子理论非常相像的形式。这并不意味着我们认为物理世界存在两种完全不同的数学描述——经典和量子描述,那样的话问题就成了哪些系统应该用经典描述哪些用量子描述,两者的边界在哪里,系统的什么特征使得其更加适合其中的哪一种来描述。同样的,前面这句附加的说明也不意味着我们认为系统本质上就是量子的——那样的话,我们还需要回答其在什么样的特殊情况下表现为经典的。关于这个世界到底是经典还是量子的问题我们在[math]\displaystyle{ \ref{sec:whichway} }[/math][math]\displaystyle{ \ref{sec:Measurement} }[/math]还会再一次讨论。在这里,我们只是形式上把经典随机客体的理论独立提出来,并整理成和量子公理形式上一致的形式,然后尝试用这个理论来描述量子系统的行为。

经典随机客体理论的公理形式

在这里,我们的经典概率论局限在有限的离散随机变量的范畴之内。实际上,下面这个体系也可以拓展到可数无限的甚至连续取值的随机变量上面去。

[经典状态公理] [axiom:CPT1] 经典系统的状态由事件集合上的密度矩阵[math]\displaystyle{ \rho=\sum_{\mu}p_{\mu}{\left|}\mu {\right\rangle}{\left\langle}\mu {\right|} }[/math]表示。

经典事件以及经典密度矩阵可以通过[math]\displaystyle{ a\rho_{1} + b\rho_{2} }[/math]的形式相加,但是不能通过[math]\displaystyle{ a {\left|}\mu{\right\rangle}+ b{\left|}\nu{\right\rangle} }[/math]形式相加。如果允许,就会出现[math]\displaystyle{ {\left|}\mu{\right\rangle}{\left\langle}\nu{\right|} }[/math]这样的项,而经典密度矩阵不能出现这样的项。

[经典可观测量公理] [axiom:CPT2] 经典系统的可观测量由事件集合上的对称算符矢量[math]\displaystyle{ O=\sum_{\mu}O_{\mu}{\left|}\mu {\right\rangle}{\left\langle}\mu {\right|} }[/math]表示。

算符的加法和数乘是指这样的操作[math]\displaystyle{ \hat{O}_{1}+\hat{O}_{2} = \sum_{\mu}\left(O_{1,\mu}+O_{2,\mu}\right){\left|}\mu {\right\rangle}{\left\langle}\mu {\right|} }[/math]。其中这里的基矢和密度矩阵的基矢都对应着基本简单事件[math]\displaystyle{ \mu }[/math]。也就是说,基矢变换在这里没有意义。算符和密度矩阵完全对角,而且存在自然的基矢集合。

[经典测量公理] [axiom:CPT3] 对于给定状态[math]\displaystyle{ \rho }[/math],测量可观测量[math]\displaystyle{ O }[/math]的所有可能结果是[math]\displaystyle{ O }[/math]的本征值[math]\displaystyle{ o }[/math]的集合,每一个状态[math]\displaystyle{ o }[/math]出现的几率满足 [math]\displaystyle{ \begin{aligned} P_{o} = {\left\langle}o {\right|}\rho {\left|}o {\right\rangle}. {\label{eq:ClassicalDensityMatrixProbability}}\end{aligned} }[/math]

因此,测量的平均值满足 [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= \sum_{o} oP_{o} = tr\left(O\rho\right).\end{aligned} }[/math]

[经典测量后状态公理] [axiom:CPT4] 对于给定状态[math]\displaystyle{ \rho }[/math],测量可观测量[math]\displaystyle{ O }[/math]并观测到状态[math]\displaystyle{ o^{*} }[/math],则测量以后,系统的状态成为特定的观测到的状态记为[math]\displaystyle{ \rho = {\left|}o^{*} {\right\rangle}{\left\langle}o^{*} {\right|} }[/math]

我们看到经典概率论与量子理论的形式完全一致,唯一的区别就是量子理论允许矢量相加([math]\displaystyle{ {\left|}\mu {\right\rangle}= a {\left|}\alpha {\right\rangle}+ b {\left|}\beta {\right\rangle} }[/math]),于是写成密度矩阵的形式时候([math]\displaystyle{ \rho={\left|}\mu{\right\rangle}{\left\langle}\mu {\right|}=a^{*}a {\left|}\alpha{\right\rangle}{\left\langle}\beta{\right|}+ a^{*}b {\left|}\beta {\right\rangle}{\left\langle}\alpha{\right|}+ ab^{*} {\left|}\alpha{\right\rangle}{\left\langle}\beta{\right|}+ b^{*}b {\left|}\beta{\right\rangle}{\left\langle}\beta{\right|} }[/math])存在非对角元([math]\displaystyle{ a^{*}b {\left|}\beta {\right\rangle}{\left\langle}\alpha{\right|}+ ab^{*} {\left|}\alpha{\right\rangle}{\left\langle}\beta{\right|} }[/math]),而经典密度矩阵只存在对角元素([math]\displaystyle{ \rho=p_{\alpha} {\left|}\alpha{\right\rangle}{\left\langle}\beta{\right|}+ p_{\beta}{\left|}\beta{\right\rangle}{\left\langle}\beta{\right|} }[/math])。

为了简化记忆,所有的这些公理,唯一需要记住的公式就是 [math]\displaystyle{ \begin{aligned} {\left\langle}O {\right\rangle}= tr\left(O\rho\right), {\label{eq:DensityMatrixAverage}}\end{aligned} }[/math] 不管经典还是量子。从这个公式(公式[math]\displaystyle{ \left(\ref{eq:DensityMatrixAverage}\right) }[/math])可以得到公式[math]\displaystyle{ \left(\ref{eq:DensityMatrixProbability}\right) }[/math]和相应的公式[math]\displaystyle{ \left(\ref{eq:ClassicalDensityMatrixProbability}\right) }[/math]。取可观测量[math]\displaystyle{ \hat{P}_{o}={\left|}o {\right\rangle}{\left\langle}o {\right|} }[/math],其中[math]\displaystyle{ {\left|}o {\right\rangle}{\left\langle}o {\right|} }[/math]是原来的可观测量的所有的可能取值的一个,于是, [math]\displaystyle{ \begin{aligned} P_{o} = {\left\langle}\hat{P}_{o} {\right\rangle}= tr\left({\left|}o {\right\rangle}{\left\langle}o {\right|}\rho\right) = {\left\langle}o {\right|}\rho {\left|}o {\right\rangle}.\end{aligned} }[/math] 也就是说,无论经典概率论还是量子力学,整个静态描述的问题,完全就是一个公式——公式[math]\displaystyle{ \left(\ref{eq:DensityMatrixAverage}\right) }[/math]。当然,两者还是有区别的,再强调一次:量子力学的理论建立在矢量空间的基础上,因此允许矢量加法;经典概率论的理论建立在事件集合的基础上,因此只允许概率叠加,没有矢量加法。前者导致一般来说密度矩阵存在非对角元,后者导致密度矩阵完全对角,而且对角的表象就是把简单事件作为基矢。因此,在经典系统中,我们必然会有 [math]\displaystyle{ \begin{aligned} {\left\langle}\mu {\right|}{\left.}\nu {\right\rangle}= \delta_{\mu\nu},\end{aligned} }[/math] 而在量子系统中,我们可能有 [math]\displaystyle{ \begin{aligned} {\left|}{\left\langle}\mu {\right|}{\left.}\nu {\right\rangle}{\right|}\in \left[0,1\right].\end{aligned} }[/math]

有了这些数学结构和以上的数学和物理之间关系公理,我们就可以来讨论如何用量子理论来描述量子系统的行为了。

量子静态理论用于描述测量实验

我们首先来看一下自旋的测量的实验。看看经典概率论和量子理论能否描述这个实验。然后我们会讨论光子which-way实验。光子过玻璃、双缝干涉、三个偏振片的魔术,这几个实验就留给读者来解释了。

自旋的测量和再测量

文件:SG.eps
caption (a)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出再一次经过[math]\displaystyle{ z }[/math]方向的装置。(b)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置。(c)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,挡住向下的输出,让向上的输出进入[math]\displaystyle{ z }[/math]方向的装置。(d)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,“反射”之后合起来,再次进入[math]\displaystyle{ z }[/math]方向的装置。
文件:SG SzSx.eps
caption (a)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出再一次经过[math]\displaystyle{ z }[/math]方向的装置。(b)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置。(c)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,挡住向下的输出,让向上的输出进入[math]\displaystyle{ z }[/math]方向的装置。(d)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,“反射”之后合起来,再次进入[math]\displaystyle{ z }[/math]方向的装置。
文件:SG SzSxSz.eps
caption (a)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出再一次经过[math]\displaystyle{ z }[/math]方向的装置。(b)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置。(c)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,挡住向下的输出,让向上的输出进入[math]\displaystyle{ z }[/math]方向的装置。(d)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,“反射”之后合起来,再次进入[math]\displaystyle{ z }[/math]方向的装置。
文件:SG WhichWay.eps
caption (a)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出再一次经过[math]\displaystyle{ z }[/math]方向的装置。(b)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置。(c)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,挡住向下的输出,让向上的输出进入[math]\displaystyle{ z }[/math]方向的装置。(d)自旋经过一个[math]\displaystyle{ z }[/math]方向Stern-Gerlach装置之后挡住向下的输出,让向上的输出经过[math]\displaystyle{ x }[/math]方向的装置,“反射”之后合起来,再次进入[math]\displaystyle{ z }[/math]方向的装置。

[fig:SGAll]

实验装置如[math]\displaystyle{ \ref{fig:SGAll} }[/math](a)所示,让一个自旋先通过一个[math]\displaystyle{ z }[/math]方向的磁场,然后挡住[math]\displaystyle{ z }[/math]方向向下状态的出口,仅仅让[math]\displaystyle{ z }[/math]方向向上状态出射。然后让射出的自旋接着再通过[math]\displaystyle{ z }[/math]方向的磁场。测量这个时候有几个输出。实验结果我们已经知道,只有一个输出,就是向上。我们来构造这个实验的理论,也就是回答每一个时刻的状态是什么,测量的物理量是什么,测量结果是什么的问题。

我们先来给这个系统选择一个Hilbert空间:二维的具有两个基矢的线性复矢量空间。由于有两个基矢量,这样的系统也被称为。将来我们会回答为什么这样选择。基于量子力学公理,针对自旋的情况,整个状态和测量描述的配方是这样的:对于某个方向的磁场[math]\displaystyle{ \hat{r} }[/math]出来的自旋翻转的仪器,我们写下来一个算符 [math]\displaystyle{ \begin{aligned} \sigma_{r}= \hat{r} \cdot \vec{\hat{\sigma}},\end{aligned} }[/math] 其中 [math]\displaystyle{ \begin{aligned} \sigma_{x}= \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}, \sigma_{x}= \begin{bmatrix} 0 & -i \\ i & 0 \end{bmatrix}, \sigma_{z}= \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix}.\end{aligned} }[/math] 从这个仪器的向上(向下)方向出来的自旋处于这个算符的向上(向下)的本征态[math]\displaystyle{ {\left|}\uparrow_{r}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{r}{\right\rangle} }[/math]),如果从两个方向出来的自旋用某种方式不可区分并且合起来,那么,状态将是 [math]\displaystyle{ \begin{aligned} {\left|}\psi {\right\rangle}= \alpha {\left|}\uparrow_{r}{\right\rangle}+ \beta {\left|}\downarrow_{r}{\right\rangle}\end{aligned} }[/math] 其中[math]\displaystyle{ \alpha, \beta }[/math]如何确定留待以后再说。这就确定了这个系统的Hilbert空间:所有的这样的[math]\displaystyle{ {\left|}\psi {\right\rangle} }[/math]的集合。

有了状态[math]\displaystyle{ {\left|}\psi {\right\rangle} }[/math]以后,我们这样来构建测量:考虑一个测量的仪器其内部磁场方向为[math]\displaystyle{ \hat{r}_{0} }[/math],先得到算符[math]\displaystyle{ \sigma_{r_{0}} }[/math],并且得到相应的本征向量[math]\displaystyle{ {\left|}\uparrow_{r_{0}}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{r_{0}}{\right\rangle} }[/math],然后测量结果和测量后状态按照公理[axiom:Quantum3]和公理[axiom:Quantum4]确定。

现在,我们先按照这个配方写下状态的数学表达式,然后验证其是否正确。

通过第一个磁场之前的状态未知,我们不写了。通过第一个装置之后向下方向被挡住,仅留下向上方向的自旋作进一步实验。这个时候自旋的状态是 [math]\displaystyle{ \begin{aligned} \rho_{1} = {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|},\end{aligned} }[/math] 第二个装置代表所测量的物理量是 [math]\displaystyle{ \begin{aligned} \sigma_{z} = {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}- {\left|}\downarrow_{z} {\right\rangle}{\left\langle}\downarrow_{z} {\right|}.\end{aligned} }[/math] 其本征向量是[math]\displaystyle{ {\left|}\uparrow_{z}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}{\right\rangle} }[/math]。 于是按照我们的理论,测量的结果是, [math]\displaystyle{ \begin{aligned} \begin{cases} p_{\uparrow_{z}} = {\left\langle}\uparrow_{z} {\right|}\rho_{1} {\left|}\uparrow_{z} {\right\rangle}= 1\\ p_{\downarrow_{z}} = {\left\langle}\downarrow_{z} {\right|}\rho_{1} {\left|}\downarrow_{z} {\right\rangle}= 0 \end{cases}. \end{aligned} }[/math] 这个结果与实验结果一致——只有一个输出,向上。

这表明,在这个实验上,我们的理论能够解释实验。但是,这里的密度矩阵和可观测量都是对角的,因此,这个理论既可能是量子的,也可能是经典的。也就是说,这个实验可以用经典的,也可以用量子的理论来解释。下面,我们再来看一个稍微有一点差别的实验。

让一个自旋先通过一个[math]\displaystyle{ z }[/math]方向的磁场,然后挡住[math]\displaystyle{ z }[/math]方向向下状态的出口,仅仅让[math]\displaystyle{ z }[/math]方向向上状态出射。然后让射出的自旋接着再通过一个[math]\displaystyle{ x }[/math]方向的磁场。测量这个时候有几个输出。实验结果我们已经知道,有两个输出。我们来构造这个实验的理论,也就是回答每一个时刻的状态是什么,测量的物理量是什么,测量结果是什么的问题。

注意,经过第一个装置以后的状态,不应该随着第二个装置的改变而改变。这个是一个很重要的逻辑假定。因为第二个装置可以是在很远很远的将来很远很远的地方做的测量,逻辑上很难接受,自旋经过第一个装置的状态取决于很远的将来在很远的地方发生的事情。这个叫做因果律。一般情况下,物理学需要尊重因果律。

于是, [math]\displaystyle{ \begin{aligned} \rho_{1} = {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|},\end{aligned} }[/math] 第二个装置代表所测量的物理量是 [math]\displaystyle{ \begin{aligned} \sigma_{x} = {\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}- {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}.\end{aligned} }[/math] 为了得到与实验一致的理论结果,我们正好有 [math]\displaystyle{ \begin{aligned} \begin{cases} p_{\uparrow_{x}} = {\left\langle}\uparrow_{x} {\right|}\rho_{1} {\left|}\uparrow_{x} {\right\rangle}= {\left\langle}\uparrow_{x} {\right|}{\left.}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{x} {\right\rangle}= \frac{1}{2} \\ p_{\downarrow_{x}} = {\left\langle}\downarrow_{x} {\right|}\rho_{1} {\left|}\downarrow_{x} {\right\rangle}= {\left\langle}\downarrow_{x} {\right.}{\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right.}{\left|}\downarrow_{x} {\right\rangle}= \frac{1}{2} \end{cases}. \end{aligned} }[/math] 这个结果用到了[math]\displaystyle{ {\left\langle}\uparrow_{x} {\right|}{\left.}\uparrow_{z} {\right\rangle}=\frac{\sqrt{2}}{2} }[/math]这个两个矢量之间的内积关系[23]

[math]\displaystyle{ {\left\langle}\uparrow_{x} {\right|} }[/math][math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math]分别是来自于[math]\displaystyle{ \sigma_{x} }[/math]算符和[math]\displaystyle{ \sigma_{z} }[/math]算符的本征向量,我们还需要这两个向量之间的内积的模方处于[math]\displaystyle{ \left[0,1\right] }[/math]之间。这一点仅仅在相互不对易的算符之间能够实现。于是,我们发现,简单的各个物理量都是数(于是对易)的经典理论不能描述量子系统的行为,必须是物理量是算符(于是不对易)的量子理论才可以。当然,更加复杂的经典理论的可能性我们暂时不讨论,可见第[Chap:PhysicsModels]章第[Chap:Bell]章

现在,我们来进一步讨论下一个更加复杂的自旋实验。我们挡住上一个实验中经过第二个装置以后的[math]\displaystyle{ x }[/math]方向向下的自旋,仅仅让[math]\displaystyle{ x }[/math]方向向上的自旋出去。这个时候,我们再让这个出射的自旋经过一个[math]\displaystyle{ z }[/math]方向的磁场,问有几个输出。实验结果是有两个输出。我们来看,我们的理论应该如何构造。

首先,按照我们的配方,这个先经过[math]\displaystyle{ z }[/math]方向向上再从[math]\displaystyle{ x }[/math]方向向上出射的自旋与直接从从[math]\displaystyle{ x }[/math]方向向上出射的自旋的状态是一样的。在这里,所谓一样的就是,无论做什么样的测量,结果都一样。也就是说,这个状态都是 [math]\displaystyle{ \begin{aligned} \rho_{2} = {\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}.\end{aligned} }[/math] 接着,这个状态需要做第三个装置也就是[math]\displaystyle{ \sigma_{z} }[/math]的测量,于是正好 [math]\displaystyle{ \begin{aligned} \begin{cases} p_{\uparrow_{z}} = {\left\langle}\uparrow_{z} {\right|}\rho_{2} {\left|}\uparrow_{z} {\right\rangle}= {\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}{\left.}\uparrow_{z} {\right\rangle}= \frac{1}{2} \\ p_{\downarrow_{z}} = {\left\langle}\downarrow_{z} {\right|}\rho_{2} {\left|}\downarrow_{z} {\right\rangle}= {\left\langle}\downarrow_{z} {\right.}{\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right.}{\left|}\downarrow_{z} {\right\rangle}= \frac{1}{2} \end{cases},\end{aligned} }[/math] 和实验相符。到这里为止,这个实验的量子力学解释看起来好像和前面一个没有什么区别,没有额外费劲。

但是,注意,我们来看一下这个最终结果:一开始[math]\displaystyle{ z }[/math]方向向下的成分被挡住了,去掉了,然后经过某个操作(实际上是过[math]\displaystyle{ x }[/math]方向以后挡住向下的成分),[math]\displaystyle{ z }[/math]方向向下的成分又回来了。这个结果,在经典世界里面,就好像是说一个盒子的红球和黑球,首先去掉所有红球,接着去掉这些球里面玻璃做的留下塑料的,然后,红球又出现了。这是一件多么不可思议的事情啊。但是,你看,我们的量子理论可以描述这件事情,只要我们允许[math]\displaystyle{ {\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{x} {\right\rangle}=\frac{\sqrt{2}}{2}\neq 0 \neq 1 }[/math]

现在,我们来进一步讨论下一个更加更加复杂的自旋实验。我们挡住把上一个实验中经过第二个装置以后的[math]\displaystyle{ x }[/math]方向向上和向下的自旋用磁场转弯以后合起来[24],然后让合起来的自旋经过一个[math]\displaystyle{ z }[/math]方向的磁场,问有几个输出。实验结果是有一个输出。我们来看,我们的理论应该如何构造。

首先,按照我们的配方,这个先经过[math]\displaystyle{ z }[/math]方向向上的自旋状态是, [math]\displaystyle{ \begin{aligned} \rho_{1} = {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}.\end{aligned} }[/math] 这个自旋再分裂成两个可能的[math]\displaystyle{ x }[/math]方向的自旋本征态, [math]\displaystyle{ \begin{aligned} \rho_{1} = {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}= \frac{{\left|}\uparrow_{x} {\right\rangle}+ {\left|}\downarrow_{x} {\right\rangle}}{\sqrt{2}}\frac{{\left\langle}\uparrow_{x} {\right|}+ {\left\langle}\downarrow_{x} {\right|}}{\sqrt{2}}.\end{aligned} }[/math] 也就是说,相当于这样两个矢量的叠加, [math]\displaystyle{ \begin{aligned} {\left|}\psi_{1} {\right\rangle}= \frac{1}{\sqrt{2}}{\left|}\uparrow_{x} {\right\rangle}+ \frac{1}{\sqrt{2}}{\left|}\downarrow_{x} {\right\rangle}.\end{aligned} }[/math] 在这个实验的下一步,一组仪器使得这样分开的两个[math]\displaystyle{ x }[/math]方向的自旋状态又重新合起来。对于最后一步进入[math]\displaystyle{ z }[/math]方向磁场并且从里面出来的自旋来说,我们根本不可能区分它是走上面的路,也就是[math]\displaystyle{ {\left|}\uparrow_{x} {\right\rangle} }[/math]来的,还是走下面的路,也就是[math]\displaystyle{ {\left|}\downarrow_{x} {\right\rangle} }[/math]来的。

这个时候就有了一个如何把两条路径的状态合起来的问题。在这里,我们先暂时通过补充一个“公理”的形式来解决怎么合起来的问题,但是注意,将来我们会发现这个“公理”并不独立于之前的量子力学公理之外。因此,也就不是真的需要这一条公理。只不过,从前面的公理“推导”出来这一条公理需要用到后面有关纠缠态和测量的知识,见[math]\displaystyle{ \ref{sec:WhichwayEntanglement} }[/math][math]\displaystyle{ \ref{sec:whichway} }[/math]。于是,我们先拿来当公理用。

关于不可区分状态的临时公理:当一个系统存在由于多种不可区分的方式导致的不可区分的状态的时候,这个系统处于这些不可区分状态的矢量叠加态;如果两个状态可以区分,则处于这两个状态的概率叠加态。

以两个不可区分状态为例,就是,系统可能处于以下两个不可区分状态,[math]\displaystyle{ \rho_{1}={\left|}\psi_{1} {\right\rangle}{\left\langle}\psi_{1} {\right|} }[/math][math]\displaystyle{ \rho_{2}={\left|}\psi_{2} {\right\rangle}{\left\langle}\psi_{2} {\right|} }[/math],则系统处于 [math]\displaystyle{ \begin{aligned} \rho=\frac{1}{\mathcal{N}}{\left|}\alpha \psi_{1}+ \beta \psi_{2} {\right\rangle}{\left\langle}\alpha \psi_{1}+ \beta \psi_{2} {\right|},\end{aligned} }[/math] 其中[math]\displaystyle{ \alpha, \beta }[/math]是代表两个状态所占振幅比例的系数,[math]\displaystyle{ \mathcal{N} }[/math]是归一化常数。当两者所占你振幅比例完全一样的时候,我们取[math]\displaystyle{ \alpha=\frac{\sqrt{2}}{2}=\beta }[/math],于是[math]\displaystyle{ \mathcal{N}=1 }[/math]。如果两个状态可区分,则系统处于 [math]\displaystyle{ \begin{aligned} \rho=p_{1}\rho_{1} + p_{2}\rho_{1}.\end{aligned} }[/math] 其中[math]\displaystyle{ p_{1}, p_{2} }[/math]代表两个状态出现的可能性。注意,在这里,我们没有明确解释什么是“可区分”什么是“不可区分”。这个等到在[math]\displaystyle{ \ref{sec:whichway} }[/math]以后从前面的公理推导出来这一条临时公理的时候再来讨论。

按照我们加了临时公理的配方,对于不可区分的状态,我们要做矢量叠加,于是我们重新得到, [math]\displaystyle{ \begin{aligned} {\left|}\psi_{2} {\right\rangle}= \frac{1}{\sqrt{2}}{\left|}\uparrow_{x} {\right\rangle}+ \frac{1}{\sqrt{2}}{\left|}\downarrow_{x} {\right\rangle}.\end{aligned} }[/math] 也就是说, [math]\displaystyle{ \begin{aligned} \rho_{2} = \frac{{\left|}\uparrow_{x} {\right\rangle}+ {\left|}\downarrow_{x} {\right\rangle}}{\sqrt{2}}\frac{{\left\langle}\uparrow_{x} {\right|}+ {\left\langle}\downarrow_{x} {\right|}}{\sqrt{2}} = {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}. {\label{eq:SpinRecombination}}\end{aligned} }[/math] 接着,这个状态需要做[math]\displaystyle{ \sigma_{z} }[/math](它是下一个装置)的测量,于是 [math]\displaystyle{ \begin{aligned} \begin{cases} p_{\uparrow_{z}} = {\left\langle}\uparrow_{z} {\right|}\rho_{2} {\left|}\uparrow_{z} {\right\rangle}= 1 \\ p_{\downarrow_{z}} = {\left\langle}\downarrow_{z} {\right|}\rho_{2} {\left|}\downarrow_{z} {\right\rangle}= 0 \end{cases}. \end{aligned} }[/math] 因此,只有一个输出。现在我们已经用基于量子力学公理的配方解释了第[Chap:Exp]章中的所有的关于量子自旋的实验。我们发现这个配方能够解释所有的实验结果。同时,我们也再一次提醒,经典力学不能解释这一系列实验。

注意,从这几个实验的解释我们看到量子力学区别与经典力学的基本特征是,在量子情形取任意两个状态[math]\displaystyle{ \mu,\nu }[/math][math]\displaystyle{ {\left\langle}\mu {\right|}{\left.}\nu {\right\rangle}= \delta_{\mu\nu} }[/math]不一定满足,而经典满足。

为什么自旋算符要用[math]\displaystyle{ \hat{r}\cdot \vec{\hat{\sigma}} }[/math]?

在这一节的最后,我们来回答为什么自旋算符要用[math]\displaystyle{ \hat{r}\cdot \vec{\hat{\sigma}} }[/math],为什么我们要把[math]\displaystyle{ \rho_{1} }[/math][math]\displaystyle{ \rho_{2} }[/math]写成这个样子。在这里,我们假设通过用经典概率论来描述量子系统的行为的尝试,我们已经知道了,量子系统的行为必须用算符的形式来描述。我们仅仅来解释为什么算符和密度矩阵要这样写。

首先,我们说一个任意的[math]\displaystyle{ \hat{r} }[/math]方向的自旋算符在自己的本征矢量当做基矢的坐标系下面,我们肯定有 [math]\displaystyle{ \begin{aligned} \sigma_{\hat{r}} = {\left|}\uparrow_{\hat{r}} {\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}- {\left|}\downarrow_{\hat{r}} {\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}.\end{aligned} }[/math] 这个表示对于任意方向的测量,我们得到两个结果——[math]\displaystyle{ \hat{r} }[/math]方向向上或者[math]\displaystyle{ \hat{r} }[/math]方向向下的输出。为了能够区分这样两个方向的输出,我们记其中一个方向的结果为[math]\displaystyle{ +1 }[/math](本征值),另一个为[math]\displaystyle{ -1 }[/math](本征值)。于是,按照这个记号,一个[math]\displaystyle{ \hat{r} }[/math]方向向上的输出(也就是观察到可观测量的值为[math]\displaystyle{ +1 }[/math]的时候的测量后状态)的状态应该记作, [math]\displaystyle{ \begin{aligned} \rho = {\left|}\uparrow_{\hat{r}} {\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}.\end{aligned} }[/math] 于是剩下的问题就成了按照实验结果来定义合适的[math]\displaystyle{ {\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{\hat{r}}{\right\rangle}, {\left\langle}\downarrow_{z} {\right|}{\left.}\uparrow_{\hat{r}} {\right\rangle} }[/math]了。假设我们知道了这两个数,那么按照完全性关系,我们就可以得到, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{\hat{r}} {\right\rangle}= {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{\hat{r}} {\right\rangle}+ {\left|}\downarrow_{z} {\right\rangle}{\left\langle}\downarrow_{z} {\right|}{\left.}\uparrow_{\hat{r}} {\right\rangle}.\end{aligned} }[/math]

我们可以先尝试一下[math]\displaystyle{ {\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{\hat{r}}{\right\rangle}=0,1 }[/math]这样的行不行。我们发现这个和实验不相符,取[math]\displaystyle{ \hat{r}=\hat{x} }[/math]为例,明明一个[math]\displaystyle{ x }[/math]方向的本征态和可以从一个[math]\displaystyle{ z }[/math]方向的本征态里面出现,以及反过来。进一步实验我们甚至可以发现这些内积的数值,例如[math]\displaystyle{ {\left|}{\left\langle}\uparrow_{z} {\right|}{\left.}\uparrow_{x}{\right\rangle}{\right|}^2 = \frac{1}{2} = {\left|}{\left\langle}\downarrow_{z} {\right|}{\left.}\uparrow_{x} {\right\rangle}{\right|}^2 }[/math]。于是,取这些概率幅的模(复数的相位角部分该取多少以后再说) 我们得到, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{x} {\right\rangle}= \frac{\sqrt{2}}{2}\left({\left|}\uparrow_{z} {\right\rangle}+ {\left|}\downarrow_{z} {\right\rangle}\right).\end{aligned} }[/math] 我们直接在二维空间里面根据这个矢量来求得一个跟它完全正交的矢量 [math]\displaystyle{ \begin{aligned} {\left|}\downarrow_{x} {\right\rangle}= \frac{\sqrt{2}}{2}\left({\left|}\uparrow_{z} {\right\rangle}- {\left|}\downarrow_{z} {\right\rangle}\right).\end{aligned} }[/math] 于是 [math]\displaystyle{ \begin{aligned} \sigma_{x} = {\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}- {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}= {\left|}\uparrow_{z} {\right\rangle}{\left\langle}\downarrow_{z} {\right|}+ {\left|}\downarrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}.\end{aligned} }[/math] 同样的道理,通过实验,我们可以把任意的[math]\displaystyle{ \sigma_{\hat{r}} }[/math]表达成为[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle}, {\left|}\downarrow_{z} {\right\rangle} }[/math]的形式。于是,我们就得到了[math]\displaystyle{ \sigma_{z} }[/math]表象下的任意[math]\displaystyle{ \sigma_{\hat{r}} }[/math]自旋算符的形式。

关于从概率得到复数相位角的问题,实际上可以做一个循环来尝试,例如可以假设[math]\displaystyle{ z }[/math]方向和[math]\displaystyle{ x }[/math]方向本征矢量内积的复数相位角,然后再假设[math]\displaystyle{ z }[/math]方向和[math]\displaystyle{ y }[/math]方向本征矢量内积的复数相位角,于是原则上,就有了[math]\displaystyle{ x }[/math]方向和[math]\displaystyle{ y }[/math]方向本征矢量内积的复数相位角。而这个推导出来的[math]\displaystyle{ x }[/math]方向和[math]\displaystyle{ y }[/math]方向本征矢量内积的复数相位角是否正确是可以实验检验的:让通过[math]\displaystyle{ x }[/math]方向磁场的自旋接着通过[math]\displaystyle{ y }[/math]方向就可以。更具体的情况就不展开计算了。另外,这里的“为什么”是在采用量子力学的数学模型的前提下的为什么,也就是说,假设物理量是算符之后,问自旋算符为什么这样,而不是更基本的量子系统的数学模型为什么必须是算符和矢量的那个为什么。

在这里,为了更加熟悉这些算符,我们把自旋算符的本征态的问题当做例题做一下。

[自旋算符的表象]:已知[math]\displaystyle{ \sigma_{\hat{r}} = \vec{\hat{\sigma}}\cdot \hat{r} = \sigma_{x}\sin{\left(\theta\right)}\cos{\left(\phi\right)} + \sigma_{y}\sin{\left(\theta\right)}\sin{\left(\phi\right)} + \sigma_{z}\cos{\left(\theta\right)} }[/math],其中[math]\displaystyle{ \sigma_{x}, \sigma_{y}, \sigma_{z} }[/math]为Pauli矩阵。求解矢量[math]\displaystyle{ {\left|}\uparrow_{\hat{r}} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{\hat{r}} {\right\rangle} }[/math][math]\displaystyle{ \sigma_{z} }[/math]表象下的形式。[math]\displaystyle{ \hat{r} }[/math]方向由球坐标的两个角度[math]\displaystyle{ \theta }[/math][math]\displaystyle{ \phi }[/math]描述。

按照上面[math]\displaystyle{ \sigma_{\hat{r}} }[/math]的定义,以及Pauli矩阵的[math]\displaystyle{ \sigma_{z} }[/math]表象下的表达式,我们有, [math]\displaystyle{ \begin{aligned} \sigma_{\hat{r}} = \begin{bmatrix}\cos{\left(\theta\right)} & \sin{\left(\theta\right)}e^{-i\phi}\\ \sin{\left(\theta\right)}e^{i\phi} & -\cos{\left(\theta\right)}\end{bmatrix}.\end{aligned} }[/math] 于是,得到本征向量(本征值肯定是[math]\displaystyle{ \pm 1 }[/math]),

[math]\displaystyle{ \begin{aligned} {\left|}\uparrow _{\hat{r}}{\right\rangle}= \begin{bmatrix}\cos{\left(\frac{\theta}{2}\right)} \\ \sin{\left(\frac{\theta}{2}\right)}e^{i\phi}\end{bmatrix}, \\ {\left|}\downarrow_{\hat{r}} {\right\rangle}= \begin{bmatrix}\sin{\left(\frac{\theta}{2}\right)} \\ -\cos{\left(\frac{\theta}{2}\right)}e^{i\phi}\end{bmatrix}. \end{aligned} }[/math]

运用抽象矢量记号,我们可以把上面的矢量形式写作,

[math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{\hat{r}} {\right\rangle}= \cos{\left(\frac{\theta}{2}\right)} {\left|}\uparrow_{z}{\right\rangle}+ \sin{\left(\frac{\theta}{2}\right)}e^{i\phi} {\left|}\downarrow_{z}{\right\rangle}, \\ {\left|}\downarrow_{\hat{r}} {\right\rangle}= \sin{\left(\frac{\theta}{2}\right)} {\left|}\uparrow_{z}{\right\rangle}- \cos{\left(\frac{\theta}{2}\right)}e^{i\phi} {\left|}\downarrow_{z}{\right\rangle}.\end{aligned} }[/math]

可以验证[math]\displaystyle{ \sigma_{r}={\left|}\uparrow_{\hat{r}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}}{\right|}- {\left|}\downarrow_{\hat{r}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}}{\right|} }[/math]

顺便,在一般的物理书里面,在自旋物理量算符和这个Pauli矩阵之间存在着一个转换常数,[math]\displaystyle{ S_{\hat{r}}=\frac{\hbar}{2}\sigma_{\hat{r}} }[/math]。这个跟联系在一起的常数[math]\displaystyle{ \hbar=\frac{h}{2\pi} }[/math]不会造成本征向量的改变,因此所计算出来的所有的测量结果的概率都是一样的,仅仅对本征值做了重新标度。实际上,我们应该称[math]\displaystyle{ \hat{S}_{\hat{r}} }[/math]为自旋算符而不是[math]\displaystyle{ \sigma_{\hat{r}} }[/math]。不过,在这里,我们大多数时候不再区分它们。

光子的which-way实验

文件:QMPBS.eps
caption 光子的which-way实验装置示意图

[fig:QMPBS2]

我们再来看一下光子which-way实验,如[math]\displaystyle{ \ref{fig:QMPBS2} }[/math]。同样地,描述一个实验我们需要描述任意时刻的状态,所测量的可观测量,测量的结果的所有可能性和相应的几率。

关于光子的偏振,我们的配方是这样的。我们假定光子传播方向是[math]\displaystyle{ z }[/math]方向,则定义算符[25][math]\displaystyle{ \begin{aligned} \hat{P}^{\theta}= {\left|}H\cos{\left(\theta\right)} + V\sin{\left(\theta\right)} {\right\rangle}{\left\langle}H\cos{\left(\theta\right)} + V\sin{\left(\theta\right)} {\right|}\notag \\ - {\left|}H\sin{\left(\theta\right)} - V\cos{\left(\theta\right)} {\right\rangle}{\left\langle}H\sin{\left(\theta\right)} - V\cos{\left(\theta\right)} {\right|}. {\label{eq:PolarizerOp}}\end{aligned} }[/math] 其中[math]\displaystyle{ \theta }[/math]是在[math]\displaystyle{ x-y }[/math]平面内和[math]\displaystyle{ x }[/math]方向的一个夹角,[math]\displaystyle{ H }[/math][math]\displaystyle{ V }[/math]分别是水平和竖直方向的偏振。这个夹角的含义稍后实验中会看到。然后,经过一个内部方向为[math]\displaystyle{ \theta }[/math]方向的偏振片以后,透射出去的光的状态是这个算符的一个本征态[math]\displaystyle{ {\left|}H_{\theta}{\right\rangle}= {\left|}H\cos{\left(\theta\right)} + V\sin{\left(\theta\right)} {\right\rangle} }[/math],反射出去的光的状态是另一个本征态[math]\displaystyle{ {\left|}V_{\theta}{\right\rangle}= {\left|}H\sin{\left(\theta\right)} - V\cos{\left(\theta\right)} {\right\rangle} }[/math]。形式上,这两个本征态就相当于自旋算符里面的[math]\displaystyle{ {\left|}\uparrow_{r} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{r} {\right\rangle} }[/math]。这一步确定了通过仪器以后光子的状态。下一步我们给出描述测量结果的配方。对于给定的状态[math]\displaystyle{ \rho }[/math],经过一个[math]\displaystyle{ \hat{P}^{\phi} }[/math]的仪器以后,观测得到[math]\displaystyle{ {\left|}H_{\phi} {\right\rangle} }[/math]态的几率是, [math]\displaystyle{ \begin{aligned} P^{\phi}= {\left\langle}H_{\phi} {\right|}\rho{\left|}H_{\phi} {\right\rangle},\end{aligned} }[/math] 并且测量后状态如果观测得到结果就是[math]\displaystyle{ {\left|}H_{\phi} {\right\rangle} }[/math]的话,就是[math]\displaystyle{ {\left|}H_{\phi} {\right\rangle} }[/math]状态。如果光子不知道从两个分别对应着本征态[math]\displaystyle{ {\left|}H_{\phi} {\right\rangle} }[/math][math]\displaystyle{ {\left|}V_{\phi} {\right\rangle} }[/math]的路径的哪一个路径过来,则需要做两个状态的矢量叠加。注意,这一部分的配方,实际上是完全类比之前的自旋部分的配方写下来的。

我们来看以上的配方如何用于解释光子的which-way实验。经过第一个透过[math]\displaystyle{ 45^{0} }[/math]偏振光的偏振分束器以后(之前的我们不关心)的光子的状态为[math]\displaystyle{ 45^{0} }[/math]偏振,于是相应的算符 [math]\displaystyle{ \begin{aligned} \hat{P}^{45^{0}}= \frac{1}{2}\left({\left|}H + V{\right\rangle}{\left\langle}H + V {\right|}- {\left|}H - V {\right\rangle}{\left\langle}H- V{\right|}\right).\end{aligned} }[/math] 这个算符(仪器)的透射光状态是 [math]\displaystyle{ \begin{aligned} \rho_{1}= {\left|}45^{0}{\right\rangle}{\left\langle}45^{0} {\right|}= \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right). {\label{eq:PBSQuantum}}\end{aligned} }[/math] 如果我们在[math]\displaystyle{ 0^{0} }[/math]的偏振分束镜后面,也就是[math]\displaystyle{ m_{1} }[/math][math]\displaystyle{ m_{2} }[/math]的地方分别放两个探测器,测量水平[math]\displaystyle{ H }[/math]和竖直[math]\displaystyle{ V }[/math]方向的偏振分量。我们来看一下,按照我们的理论,我们会得到什么结果。我们的可观测量这时候是 [math]\displaystyle{ \begin{aligned} O_{1}=\hat{P}^{0^{0}}= {\left|}H{\right\rangle}{\left\langle}H{\right|}-{\left|}V{\right\rangle}{\left\langle}V{\right|},\end{aligned} }[/math] 这里本征值[math]\displaystyle{ \pm 1 }[/math]代表屏幕的荧光点:水平方向(这个时候是光路方向,不是偏振方向,记为[math]\displaystyle{ h }[/math],偏振方向为[math]\displaystyle{ H }[/math])过来的光达到屏幕上记为[math]\displaystyle{ +1 }[/math],竖直方向(记为[math]\displaystyle{ v }[/math],偏振方向为[math]\displaystyle{ V }[/math])过来的光达到屏幕上记为[math]\displaystyle{ -1 }[/math]。按照公理[axiom:Quantum3],[math]\displaystyle{ P_{h}={\left\langle}H {\right|}\rho_{1} {\left|}H {\right\rangle}, P_{v}={\left\langle}V {\right|}\rho_{1} {\left|}V {\right\rangle} }[/math],我们有测量结果的概率分布, [math]\displaystyle{ \begin{aligned} \rho_{1}^{c}= \frac{1}{2}{\left|}h {\right\rangle}{\left\langle}h {\right|}+ \frac{1}{2}{\left|}v {\right\rangle}{\left\langle}v {\right|}= \frac{1}{2}{\left|}+ {\right\rangle}{\left\langle}+ {\right|}+ \frac{1}{2}{\left|}- {\right\rangle}{\left\langle}- {\right|},\end{aligned} }[/math] 也就是说水平方向、竖直方向收到光子的概率都是[math]\displaystyle{ \frac{1}{2} }[/math],或者说屏幕上记录一个[math]\displaystyle{ +1 }[/math]或者[math]\displaystyle{ -1 }[/math]的可能性都是[math]\displaystyle{ \frac{1}{2} }[/math]。这个预测与真实的实验结果完全吻合。实际上,这里量子态的测量的结果最后是通过粒子到底走哪一条路径于是到达哪一个探测器来确定的。在我们现在的数学形式中,我们特意避免了讨论光子的偏振是如何和光子的路径纠缠起来的。稍后我们就会回到这个问题。实际上,以后,我们还会多次回到这个问题。

现在,我们用同样的配方,来看一下在第二个偏振分束镜做的测量。由于经过第一个分束镜以后,两个光路被反射镜又完全合到了一起不再能够区分,我们知道这个时候要重新做矢量叠加,于是 [math]\displaystyle{ \begin{aligned} \psi_{2}= \frac{\sqrt{2}}{2}\left({\left|}H {\right\rangle}+{\left|}V {\right\rangle}\right),\end{aligned} }[/math] 也就是, [math]\displaystyle{ \begin{aligned} \rho_{2}= \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right).\end{aligned} }[/math] 光子的偏振状态完全与入射第一个分束镜的时候相同。第二个分束镜是按照[math]\displaystyle{ 45^{0} }[/math]来分开光束,也就是 [math]\displaystyle{ \begin{aligned} O_{2}=\hat{P}^{45^{0}}= \frac{1}{2}{\left|}H+V{\right\rangle}{\left\langle}H+V{\right|}-\frac{1}{2}{\left|}H-V{\right\rangle}{\left\langle}H-V{\right|}.\end{aligned} }[/math] 于是,我们得到可能观测结果的几率分布, [math]\displaystyle{ \begin{aligned} \rho_{2}^{c}= 1 \cdot {\left|}h {\right\rangle}{\left\langle}h {\right|}+ 0 \cdot {\left|}v {\right\rangle}{\left\langle}v {\right|}= 1 \cdot {\left|}+ {\right\rangle}{\left\langle}+ {\right|}+ 0 \cdot {\left|}- {\right\rangle}{\left\langle}- {\right|},\end{aligned} }[/math] 也就是说探测器[math]\displaystyle{ D_{T} }[/math]所在的透射方向、探测器[math]\displaystyle{ D_{R} }[/math]所在的反射方向收到光子的概率分别是[math]\displaystyle{ 1 }[/math][math]\displaystyle{ 0 }[/math]。这个结果也与实验结果完全吻合。

为什么偏振算符取公式[math]\displaystyle{ \left(\ref{eq:PolarizerOp}\right) }[/math]的形式?

下面,我们来解释为什么偏振算符取公式[math]\displaystyle{ \left(\ref{eq:PolarizerOp}\right) }[/math]的形式(也就解释了为什么[math]\displaystyle{ {\left|}H+V{\right\rangle} }[/math]代表[math]\displaystyle{ 45^{0} }[/math]的方向,[math]\displaystyle{ {\left|}H-V{\right\rangle} }[/math]代表[math]\displaystyle{ 135^{0} }[/math]的方向),为什么重新合起来的光子状态是[math]\displaystyle{ \rho_{2} }[/math]。同样的,这个解释不是为了理解,而是配方层次的解释。

我们先规定[math]\displaystyle{ {\left|}H{\right\rangle} }[/math]代表[math]\displaystyle{ 0^{0} }[/math]的方向,[math]\displaystyle{ {\left|}V{\right\rangle} }[/math]代表[math]\displaystyle{ 90^{0} }[/math]的方向的偏振光。那么[math]\displaystyle{ 45^{0} }[/math]的偏振光如何表示呢?按照我们的公理[axiom:Quantum1],所有的各个方向的偏振状态的集合是一个Hilbert空间,而且这个空间还是两维的:原因是无论哪里一个方向的偏振光过来,经过偏振分束镜以后只有两种可能——要么走水平方向要么走竖直方向。因此,[math]\displaystyle{ {\left|}45^{0}{\right\rangle} }[/math]必然能够表达成[math]\displaystyle{ {\left|}H{\right\rangle}, {\left|}V{\right\rangle} }[/math]的线性叠加,也就是说, [math]\displaystyle{ \begin{aligned} {\left|}45^{0}{\right\rangle}= \alpha{\left|}H{\right\rangle}+ \beta {\left|}V{\right\rangle}= \cos{\theta}{\left|}H{\right\rangle}+ \sin{\theta}e^{i\phi} {\left|}V{\right\rangle},\end{aligned} }[/math] 其中我们用归一化条件找出了独立变量[math]\displaystyle{ \theta, \phi }[/math]。对于高维的系统,这样的独立变量会更难找。对于这个状态,我们重复前面[math]\displaystyle{ 0^{0} }[/math][math]\displaystyle{ 90^{0} }[/math]偏振的测量。如果我们只关心这两个状态出现的几率,则,理论上,在仅仅考虑这个[math]\displaystyle{ 0^{0} }[/math][math]\displaystyle{ 90^{0} }[/math]偏振两个事件的几率的前提下(其他方向的状态的测量暂时不考虑),观测得到的所有可能值的分布函数是,去掉[math]\displaystyle{ {\left|}45^{0}{\right\rangle}{\left\langle}45^{0}{\right|} }[/math]中的非对角元,仅仅保留对角元, [math]\displaystyle{ \begin{aligned} \rho_{45^{0}}^{c}= \cos^{2}{\theta}{\left|}h {\right\rangle}{\left\langle}h {\right|}+ \sin^{2}{\theta}{\left|}v {\right\rangle}{\left\langle}v {\right|}.\end{aligned} }[/math] 进一步通过实验我们发现这里的两个方向偏振光束的出射光是等几率的,于是 [math]\displaystyle{ \begin{aligned} \cos^{2}{\theta} = \sin^{2}{\theta}=\frac{1}{2}.\end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} {\left|}45^{0}{\right\rangle}= \frac{\sqrt{2}}{2}\left({\left|}H{\right\rangle}+ {\left|}V{\right\rangle}\right).\end{aligned} }[/math] 在这里其实还有到底是[math]\displaystyle{ \theta=45^{0} }[/math]还是[math]\displaystyle{ \theta=135^{0} }[/math]的问题,还有[math]\displaystyle{ \phi }[/math]的取值的问题。前者人为规定一个就可以,不如直接就取成和已知的[math]\displaystyle{ 45^{0} }[/math]相同。否则,也不过就是语言换一下凡是写在前面的角度的[math]\displaystyle{ \theta }[/math],实际上代入到公式[math]\displaystyle{ \left(\ref{eq:PolarizerOp}\right) }[/math]的时候,都要用[math]\displaystyle{ \theta-90^{0} }[/math][math]\displaystyle{ \phi }[/math]的确定更加复杂一些,需要考虑多组偏振片的组合,就像确定自旋算符的形式的过程中的那个复数相位值一样。我们暂时采取最简单的[math]\displaystyle{ \phi=0 }[/math]

有了[math]\displaystyle{ 45^{0} }[/math]偏振态的矢量表达式,再加上[math]\displaystyle{ 135^{0} }[/math]偏振态的表达式,一个[math]\displaystyle{ 45^{0} }[/math]方向偏振片的算符形式不过就是这两个本征态的叠加,于是, [math]\displaystyle{ \begin{aligned} \hat{P}^{45^{0}}= \frac{1}{2}\left({\left|}H{\right\rangle}+ {\left|}V{\right\rangle}\right)\left({\left\langle}H{\right|}+ {\left\langle}V{\right|}\right) - \frac{1}{2}\left({\left|}H{\right\rangle}- {\left|}V{\right\rangle}\right)\left({\left\langle}H{\right|}- {\left\langle}V{\right|}\right)\end{aligned} }[/math] 类似地,我们可以通过实验加上以上的推导得到所有的[math]\displaystyle{ \hat{P}_{\theta} }[/math]的算符形式。

用以上配方,我们可以类似地解释双缝干涉实验,以及光过玻璃的实验。再一次强调,这里所谓的解释,其实是一个预测量子系统状态的机器,一个数学模型:从一个最开始的状态出发(这个状态本身在给定实验条件的情况下有固定的规则写下来),测量的结果是什么(可观测量原则上由给定的实验仪器与步骤确定),测量以后的状态是什么;然后测量结果与测量以后的状态能够通过进一步的实验检验。

物理学的理论,可以认为是对世界如何运行的描述,甚至有的时候可以回答为什么的问题。但是,其基本任务是回答是什么,怎么样的问题。也就是说,如果有一个理论,对于给定的实验条件、实验仪器、实验步骤的系统的实验结果能够给出正确的计算结果,那么这个理论就是这个现象的好的理论。当然,一个更好的理论还要求能够解释更多的同类的现象。但是,只要能够达到以上的目标,一个理论就能够建立起来。

在量子力学的理论中,路径积分量子化的物理图像就与我们这里的正则量子化的图像有所不同。一个好的物理学家,对于核心的现象,头脑中常常是多于一个理论的,而且还要能够在这些不同形式的理论之间自由的转换。关于路径积分量子力学的图景可以参阅。

自旋和光子which-way实验解释的补充:纠缠

[sec:WhichwayEntanglement]

进入下一部分量子系统的演化之前,最后的问题:在自旋which-way实验中,为什么[math]\displaystyle{ \rho_{1}= \left({\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right) }[/math]经过分束镜,然后经过反射镜,合回来的光子状态还是[math]\displaystyle{ \rho_{2}= \left({\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right) }[/math];在光子which-way实验中,为什么[math]\displaystyle{ \rho_{1}= \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right) }[/math]经过分束镜,然后经过反射镜,合回来的光子状态还是[math]\displaystyle{ \rho_{2}= \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right) }[/math]。这两个问题一样,我们用光子的实验为例。这个问题也就是关于矢量叠加态的临时公理的内容。因此,这一小节的讨论相当于企图给这个临时公理找一个逻辑上的基础。这一小节和下一节[sec:whichway]合起来是对这个临时公理比较完整的说明或者说逻辑推导。

考虑光子的偏振和光子走的光路构成的整个系统,我们称先走水平方向然后反射回到竖直方向的光路为光路[math]\displaystyle{ 1 }[/math],先走竖直方向然后反射回到水平方向的光路为光路[math]\displaystyle{ 2 }[/math]。在光子进入偏振分束镜之前,整个系统的状态为 [math]\displaystyle{ \begin{aligned} \rho^{P, T}_{0} = \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right) \otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|},\end{aligned} }[/math] 其中[math]\displaystyle{ P,T }[/math]分别表示偏振(Polarization)和路径(Trojectory),[math]\displaystyle{ 0 }[/math]表示在光子经过分束镜之前的光路。此时它不区分光路[math]\displaystyle{ 1, 2 }[/math]。经过分束镜进入反射镜之前, [math]\displaystyle{ \begin{aligned} \rho^{P, T}_{1} = \frac{1}{2}\left({\left|}H\otimes 1 + V\otimes 2 {\right\rangle}{\left\langle}H \otimes 1+V \otimes 2 {\right|}\right). {\label{eq:aftersplitter}}\end{aligned} }[/math] 这表示偏振为[math]\displaystyle{ H }[/math][math]\displaystyle{ V }[/math])的光子走的是路径[math]\displaystyle{ 1 }[/math][math]\displaystyle{ 2 }[/math])。 经过反射镜之后到达最后的分束镜之前, [math]\displaystyle{ \begin{aligned} \rho^{P, T}_{2} = \frac{1}{2}\left({\left|}H\otimes 0 + V\otimes 0 {\right\rangle}{\left\langle}H \otimes 0+V \otimes 0 {\right|}\right) \notag \\ = \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right) \otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|}. {\label{eq:beforepartialtrace}}\end{aligned} }[/math] 这表示偏振为[math]\displaystyle{ H }[/math][math]\displaystyle{ V }[/math]的光子走的路径重新不可区分(关于这个不可区分性下一节[sec:whichway]有更详细的解释。这里表示路径重新合起来之后,到底从哪一条路径过来的已经不可能知道了)。对于这个状态,如果我们只关心偏振状态而不是光子的路径的话,那么这个系统的状态就跟如下状态等价 [math]\displaystyle{ \begin{aligned} tr^{T}\left(\rho^{P, T}_{2}\right) =\frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right). {\label{eq:beforedetector}}\end{aligned} }[/math] 我们得到的状态正好是前面的[math]\displaystyle{ \rho_{2} }[/math]。这里,我们用了部分迹的运算[math]\displaystyle{ tr^{T}\left(\cdot\right) }[/math],它表示对变量[math]\displaystyle{ T }[/math]的自由度求和。当我们需要计算的可观测量只与[math]\displaystyle{ P }[/math]的自由度有关的时候,按照公理[axiom:Quantum3], [math]\displaystyle{ \begin{aligned} {\left\langle}O^{P} {\right\rangle}= tr\left(O^{P}\rho^{P, T}\right) = tr^{P}\left(O^{P}tr^{T}\left(\rho^{P, T}\right)\right).\end{aligned} }[/math] 因此,[math]\displaystyle{ tr^{T}\left(\rho^{P, T}\right) }[/math]就好像是这种情况下系统在[math]\displaystyle{ P }[/math]自由度下的状态,称为约化密度矩阵。在经典概率论中,对应的数学概念就是约化密度分布函数。

注意,如果我们直接对公式[math]\displaystyle{ \left(\ref{eq:aftersplitter}\right) }[/math]做部分迹的计算,则得到 [math]\displaystyle{ \begin{aligned} tr^{T}\left(\rho^{P, T}_{1}\right) =\frac{1}{2}\left({\left|}H{\right\rangle}{\left\langle}H{\right|}+ {\left|}V{\right\rangle}{\left\langle}V{\right|}\right).\end{aligned} }[/math] 这是一个混合态,概率性混合。这个和对公式[math]\displaystyle{ \left(\ref{eq:beforepartialtrace}\right) }[/math]做部分迹得到的结果也就是公式[math]\displaystyle{ \left(\ref{eq:beforedetector}\right) }[/math]——这里还是纯态还是矢量叠加——不一样。其根本原因是公式[math]\displaystyle{ \left(\ref{eq:beforepartialtrace}\right) }[/math]里面包含了偏振自由度和路径自由度的纠缠在一起的信息,而公式[math]\displaystyle{ \left(\ref{eq:aftersplitter}\right) }[/math]里面两者已经独立。这里独立的含义是给定一个两个随机变量(可以更一般更多个随机变量)的密度分布函数,满足如下的独立事件概率相乘的性质, [math]\displaystyle{ \begin{aligned} \rho^{12} = tr^{2}\left(\rho^{12}\right)tr^{1}\left(\rho^{12}\right).\end{aligned} }[/math] 光子经过[math]\displaystyle{ 0^{0} }[/math]偏振分束器以后偏振自由度和路径自由度纠缠在了一起,但是经过反射,这两个自由度又独立出来了,于是,经过部分迹之后,[math]\displaystyle{ \rho_{2}= \left({\left|}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z} {\right|}\right) = \rho_{1} }[/math]。自旋的情况与此相同。

粒子走哪一条路径和概率叠加原理

[sec:whichway] 现在,我们来回答第一章当中提出的一个问题:为了描述量子系统的行为,我们不能同时保留“粒子走哪一条路径”和“概率叠加原理”,那么我们保留什么,去掉什么。在我们这一章中已经建立的量子理论告诉我们,首先,我们需要用“量子事件叠加原理”(更多的时候被称作“量子”或者“态叠加原理”)来代替“概率叠加原理”。现在,我们再来看一下,是不是我们就可以留着“粒子走哪一条路径”了呢,是不是“概率叠加原理”在量子力学就不能用了呢?讨论清楚了这个问题,我们也就明白了如何从前面的公理来推导出来关于不可区分状态的叠加这一条临时公理。

关于不可区分状态的叠加的临时公理已经说了对于实验中不能区分的两条路径,我们用“量子事件叠加原理”;对于实验中能够区分的两条路径,我们用“概率叠加原理”。也就是说,粒子走一条路径或者走另一条路径的说法仅仅在“概率叠加原理”成立的情形下有意义,对于必须要用到“量子事件叠加原理”的情形,因为我们不再能够区分粒子到底走哪一条路,我们不在采用“粒子走一条路径或者走另一条路径”的说法,也不再问是否“粒子同时走两条路”,而是简单粗暴地把两条路径所代表的状态直接按照“量子事件叠加原理”加起来。也就是说,当我们能够问和回答“粒子走哪一条路径”的时候,我们需要用“概率叠加原理”,否则,当我们从根本上就不能回答“粒子走哪一条路径”的时候,我们需要用“量子事件叠加原理”。那么,为什么这样?能够回答“粒子走哪一条路径”是什么意思。这个和纠缠有关。

下面我们采用如[math]\displaystyle{ \ref{fig:QMPBSD2} }[/math]加了探测器的光子的which-way[26]来给这两个叠加原理做一个比较,给“能否回答粒子走哪一条路径”做一个说明。

文件:QMPBSD.eps
caption 加了探测器的光子的which-way实验装置示意图

[fig:QMPBSD2]

首先,我们考虑入射光的偏振状态 [math]\displaystyle{ \begin{aligned} \rho^{P}_{1}= {\left|}45^{0} {\right\rangle}{\left\langle}45^{0} {\right|}= \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right).\end{aligned} }[/math] 加上光路状态以后,我们有 [math]\displaystyle{ \begin{aligned} \rho^{P,T}_{1}= \frac{1}{2}\left({\left|}H+V {\right\rangle}{\left\langle}H+V {\right|}\right)\otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|}.\end{aligned} }[/math] 其中[math]\displaystyle{ {\left|}0 {\right\rangle}{\left\langle}0 {\right|} }[/math]表示进入第一个偏振分束器之前的光路。 接着,我们考虑经过第一个偏振分束器之后的状态, [math]\displaystyle{ \begin{aligned} \rho^{P,T}_{2}= \frac{1}{2}\left({\left|}H\otimes 1 +V\otimes 2 {\right\rangle}{\left\langle}H\otimes 1+V\otimes 2 {\right|}\right).\end{aligned} }[/math] 下一步,我们考虑增加探测器的效果, [math]\displaystyle{ \begin{aligned} \rho^{P,T}_{2D}= \frac{1}{2}\left({\left|}H\otimes 1 \otimes D_{1} +V\otimes 2 \otimes D_{2}{\right\rangle}{\left\langle}H\otimes 1 \otimes D_{1}+V\otimes 2 \otimes D_{2}{\right|}\right) \notag \\ = \frac{1}{2}\left({\left|}H\otimes 1 \otimes D_{1}{\right\rangle}{\left\langle}H\otimes 1 \otimes D_{1}{\right|}\right. \notag \\ \left. + {\left|}H\otimes 1 \otimes D_{1}{\right\rangle}{\left\langle}V\otimes 2 \otimes D_{2}{\right|}\right. \notag \\ \left.+ {\left|}V\otimes 2 \otimes D_{2}{\right\rangle}{\left\langle}H\otimes 1 \otimes D_{1}{\right|}\right. \notag\\ \left.+ {\left|}V\otimes 2 \otimes D_{2}{\right\rangle}{\left\langle}V\otimes 2 \otimes D_{2}{\right|}\right). {\label{eq:detected}}\end{aligned} }[/math] 我们称这个状态为纠缠态,光子偏振自由度的状态和哪一个探测器被激活这两个变量之间存在着相互联系。关于纠缠态的更进一步的讨论可见第[Chap:EngtangleMeasure]章

这个时候,我们来做一件在经典概率论中经常做的事情,约化分布函数:对于两个随机变量的联合分布函数,如果我们只关心其中一个变量的分布函数,我们取 [math]\displaystyle{ \begin{aligned} \rho^{1} = tr^{2}\left(\rho^{12}\right) = tr^{-1}\left(\rho^{12}\right).\end{aligned} }[/math] 有的时候我们也用后面的记号,表示把系统[math]\displaystyle{ 1 }[/math]的变量留下来,其它都取和或者积分掉。现在,我们利用这个公式对探测器的状态取和,也就是说,把探测器的状态取和以后的状态是 [math]\displaystyle{ \begin{aligned} \rho^{P,T}_{2\slashed{D}}= {\left\langle}D_{1}{\right|}\rho^{P,T}_{2D}{\left|}D_{1}{\right\rangle}+ {\left\langle}D_{2}{\right|}\rho^{P,T}_{2D}{\left|}D_{2}{\right\rangle}\notag \\ = \frac{1}{2}\left({\left|}H\otimes 1 {\right\rangle}{\left\langle}H\otimes 1 {\right|}+ {\left|}V\otimes 2 {\right\rangle}{\left\langle}V\otimes 2 {\right|}\right). {\label{eq:afterditector}}\end{aligned} }[/math] 这个时候我们发现,非对角元全部消失了!这个状态下,如果我们计算输出的结果的几率,我们就会发现,有两个输出,而且几率相等。其中[math]\displaystyle{ \slashed{D} }[/math]表示把探测器变量求和掉。

于是,我们发现,如果加入探测器,那么,实验结果是有两个输出,和经典概率论的解释一致,而且也与实验结果一致。也就是说,加入了探测器之后,粒子到底走哪一条路径,成了可以分辨的了,于是,我们应该采用两条路径的状态的“概率叠加”。其结果正好就是公式[math]\displaystyle{ \left(\ref{eq:afterditector}\right) }[/math]。那么什么时候得到的状态会回到形如公式[math]\displaystyle{ \left(\ref{eq:beforedetector}\right) }[/math]的“量子态叠加”呢?在一种情况下可能:探测器[math]\displaystyle{ D_{1} }[/math][math]\displaystyle{ D_{2} }[/math]完全不准确,不管粒子过哪一条路径,探测器都会发光,或者都不发光。例如原来准确的探测器如果发现路径[math]\displaystyle{ 1 }[/math][math]\displaystyle{ 2 }[/math])有光子就显示红(绿)光,但是现在的探测器不管那个光路上有光子都显示白光。于是实际上 [math]\displaystyle{ \begin{aligned} D_{1} = D_{2} = D。\end{aligned} }[/math] 那么,这个时候再对公式[math]\displaystyle{ \left(\ref{eq:detected}\right) }[/math]经过部分迹求和之后,我们得到 [math]\displaystyle{ \begin{aligned} \rho^{P,T}_{2\slashed{D}}= \frac{1}{2}\left({\left|}H\otimes 1 +V\otimes 2 {\right\rangle}{\left\langle}H\otimes 1+V\otimes 2 {\right|}\right), {\label{eq:beforedetector2}}\end{aligned} }[/math] 也就是公式[math]\displaystyle{ \left(\ref{eq:beforedetector}\right) }[/math]

在上面的计算过程中,我们没有用到那条临时公理,我们依靠的是前面的公理,以及部分迹这个数学操作对于纠缠态的作用结果。我们发现探测器完全准确则得到概率叠加态,完全不准确则得到矢量叠加态。

所以,实际上我们的“路径能否区分”的概念在这里就相当于探测器是否准确。对于完全准确的探测器,我们采用“概率叠加”,对于完全不准确的探测器,我们采用“量子态叠加”。对于粒子走哪一条路径的问题,在完全准确的探测器的情况下,我们可以问。在完全不准确的探测器的情况下,我们不能问这个问题。我们也不能问是否粒子同时走两条路径的问题。因为只要你问这样的问题,为了回答它们,我们就需要准确的探测器。然后,只要有准确的探测器,实际上我们就不得不放弃“量子态叠加”而采用“概率叠加”,整个得到的状态就不再是加入探测器之前的状态了。从前面的准确与否的探测器的问题,我们可以看到,如果探测器准确,则光子的偏振状态和路径之间建立起来了一一对应关系(将来我们会专门有一个词来描述这样的对应——纠缠),则做完部分迹以后更像经典态;如果探测器完全不准确,则做完部分迹之后的状态更像量子态。因此,有可能由前面的经典随机客体的公理所描述的经典世界,是由量子公理所描述的世界的特殊情形。当然,也有可能,我们本来就有经典和量子两个不同的世界。

更一般地来说,状态是否可区分总是对应着一个系统本身状态的自由度和某个外界用来标志这个状态的另一个自由度的“纠缠”,然后,我们需要对这个这个纠缠之后的状态做部分迹。部分迹之后可能得到矢量叠加态也可能得到概率叠加态,取决于纠缠的程度:完全没有纠缠的状态在部分迹之后得到满足矢量叠加的纯态,完全纠缠则得到完全概率叠加的混合态,一般的纠缠态得到两者之间的混合态。因此,临时公理也就不需要了,只需要在考虑一个系统的时候,把可能的和这个系统纠缠的其他自由度也考虑进来,并且在仅仅关心系统的时候,做部分迹,就自然会得到正确的矢量叠加态或者概率叠加态。

当然,在你明白量子系统的量子性被探测器破坏之前需要采用“量子态叠加”之后,那么你就算采用“粒子同时走两条路径”或者“粒子走的路径有两个可能”的说法的时候——只要你确实采用“量子态叠加”的方式——就没有问题。路径积分量子力学就建立在这样一个图景之上。现在我们强调在量子力学里面“粒子到底走哪一条路径”的问题不能问(问了就需要测量,测量了就改变了状态),但是路径积分形式的量子力学就采用这样一种视角:每一条路径,记为[math]\displaystyle{ \mathcal{L} }[/math],的贡献可以写成一个复数形式的振幅[math]\displaystyle{ \mathcal{A}\left(\mathcal{L}\right)e^{i\mathcal{S}\left(\mathcal{L}\right)} }[/math],然后我们需要把所有的路径的贡献采用“量子态叠加”的方式加起来,得到的结果就是整体的量子态。

在本节的最后,我们交代一个我们故意隐藏起来的问题:为什么从两个随机变量的联合密度矩阵通过部分迹运算我们得到的是其中一个变量的密度矩阵,或者说更好的问题是——如果我们承认这个部分迹操作是从联合密度矩阵到部分变量的密度矩阵的定义的话,那么我们需要回答什么时候我们要做这样的操作,什么时候不做。例如,就算我们已经得到了公式[math]\displaystyle{ \left(\ref{eq:beforedetector2}\right) }[/math],如果我们对它做一个光路的部分迹,我们就会得到 [math]\displaystyle{ \begin{aligned} \rho^{P}_{2,false}= \frac{1}{2}\left({\left|}H{\right\rangle}{\left\langle}H{\right|}+ {\left|}V{\right\rangle}{\left\langle}V{\right|}\right).\end{aligned} }[/math] 而这个密度矩阵给出的结果是将来有两个输出,是不符合实验结果的。于是,我们的问题是,为什么现在我们不做这个光路部分自由度的部分迹操作,而对于探测器的问题,我们需要做部分迹操作呢?什么东西使得探测器成了特殊的一个东西,凡是看见它们以后都需要做一个部分迹呢?

你也许猜测是因为路径的信息可以通过反射镜再一次抹掉,也就是路径[math]\displaystyle{ 1,2 }[/math]重新变成路径[math]\displaystyle{ 0 }[/math],但是探测器记录到了光子经过了那就不能再抹去了。那么,接着问,能和不能抹去的差别是什么物理特质造成的?如果我们想办法把探测器得到的记录毁掉不去看,算不算抹去?

这个“什么时候用部分迹”的问题我们现在还回答不了。但是,这是一个将来需要回答的问题。如果你想了解更多,你可以在Google[27]上检索“退相干”或者“decoherence”,以及等你来做更深入的研究。

现在,我们坚持:对纠缠在一起的两个或者多个自由度,或者两个或者多个系统,当我们仅仅关注其中的一个自由度或者一个系统的状态的时候,我们需要对其做部分迹,把不关心的自由度消掉。在逻辑上,一旦我们这样来看,那么,关于态叠加的临时公理就不再是独立的了,它可以从量子力学的其他公理中推导出来。

加了探测器的双缝干涉:阅读《Feynman物理学讲义》第三卷关于双缝干涉以及加了探测器以后的双缝干涉的部分,用在里学到的Dirac符号密度矩阵的语言,以及这里的部分迹,来重新推导和表述书里面的主要论证和结论。

试试把测量分成三个步骤

[sec:Measurement] 有了上面的实验解释和部分迹的铺垫,在这一节,我们来尝试给测量建立一个更加清楚的图景,也交代对测量的理解上的问题所在。

对于测量,我们首先要有一个目标状态和测量物理量,前者表现为一个密度矩阵[math]\displaystyle{ \rho^{q}_{0} }[/math],后者表现为一个算符[math]\displaystyle{ O }[/math]。其实我们还需要一个测量仪器[math]\displaystyle{ m }[/math]。我们知道测量的形式理论,也就是测量公理是这样表达的:测量得到的结果是算符[math]\displaystyle{ O }[/math]的某一个本征值[math]\displaystyle{ o }[/math],其几率(可以理解为如果同样的[math]\displaystyle{ \rho^{q}_{0} }[/math][math]\displaystyle{ O }[/math]和同样的[math]\displaystyle{ m }[/math]重复多次做系综测量得到的统计规律)是[math]\displaystyle{ p_{0}=tr\left({\left|}o {\right\rangle}{\left\langle}o {\right|}\rho^{q}_{0}\right) }[/math];测量后状态,在观测到[math]\displaystyle{ o^{*} }[/math]本征值的条件下是[math]\displaystyle{ {\left|}o^{*} {\right\rangle}{\left\langle}o^{*} {\right|} }[/math]。当我们问测量的物理过程到底是怎样,而不仅仅是形式理论的时候,我们关心的是[math]\displaystyle{ q }[/math]系统和[math]\displaystyle{ m }[/math]仪器是如何相互作用的,以至于导致了上面的形式理论结果。关于这一点,我们还需要了解“退相干”,还需要进一步学习量子态的演化尤其是第[Chap:EvolutionAndEntanglement]章。甚至,还有需要进一步研究的地方。在这一节,我们仅仅给这方面的思考和探索开一个头。

我们把测量分成如下三个步骤,看看是否能够比形式理论走得更深一步, [math]\displaystyle{ \begin{aligned} \rho^{q}_{0}\otimes \rho^{m}_{0} \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {1};}}}} \rho^{qm} \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {2};}}}} \rho^{m} \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {3};}}}} {\left|}m^{*} {\right\rangle}{\left\langle}m^{*} {\right|}\xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {4};}}}} {\left|}o^{*} {\right\rangle}{\left\langle}o^{*} {\right|}.\end{aligned} }[/math] 其中第[math]\displaystyle{ 4 }[/math]步完全就是逻辑上的推导:测量仪器上显示是状态[math]\displaystyle{ m^{*} }[/math]则必然被测量系统的状态就是相应的[math]\displaystyle{ o^{*} }[/math]。这样一个状态相互对应的体系是设计测量仪器的时候就要明确的,例如指针向上(向下)就是自旋[math]\displaystyle{ z }[/math]方向向上(向下)态之类的。因此,这里我们关心前面三步。我们已经看到对于自旋状态和自旋的路径,光子偏振和光子的光路,第一步往往是这样的, [math]\displaystyle{ \begin{aligned} \left(\alpha {\left|}H {\right\rangle}+ \beta {\left|}V {\right\rangle}\right)\left(\alpha^{*} {\left\langle}H {\right|}+ \beta^{*} {\left\langle}V {\right|}\right) \otimes {\left|}0{\right\rangle}{\left\langle}0 {\right|}\notag \\ \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {1};}}}} \left(\alpha {\left|}H \otimes 1{\right\rangle}+ \beta {\left|}V \otimes 2{\right\rangle}\right)\left(\alpha^{*} {\left\langle}H \otimes 1{\right|}+ \beta^{*} {\left\langle}V \otimes 2{\right|}\right).\end{aligned} }[/math] 这一步的主要任务就是在系统的状态和测量仪器的状态之间建立起来一一对应的关联。 第二步往往是通过部分迹来完成的。在概率论上,部分迹的含义是当有多个变量的时候,如果我们忽略某些变量,仅仅关注一部分变量,则需要运用部分迹。 [math]\displaystyle{ \begin{aligned} \left(\alpha {\left|}H \otimes 1{\right\rangle}+ \beta {\left|}V \otimes 2{\right\rangle}\right)\left(\alpha {\left\langle}H \otimes 1{\right|}+ \beta {\left\langle}V \otimes 2{\right|}\right) \notag \\ \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {2};}}}} \left(\alpha^{*}\alpha {\left|}1{\right\rangle}{\left\langle}1{\right|}+ \beta^{*}\beta {\left|}2{\right\rangle}{\left\langle}2{\right|}\right)\end{aligned} }[/math] 第三步实际上就是从这个概率分布中抽取一个样本的过程,也就是, [math]\displaystyle{ \begin{aligned} \left(\alpha^{*}\alpha {\left|}1{\right\rangle}{\left\langle}1{\right|}+ \beta^{*}\beta {\left|}2{\right\rangle}{\left\langle}2{\right|}\right) \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {3};}}}} {\left|}1{\right\rangle}{\left\langle}1{\right|}\end{aligned} }[/math] 或者 [math]\displaystyle{ \begin{aligned} \left(\alpha^{*}\alpha {\left|}1{\right\rangle}{\left\langle}1{\right|}+ \beta^{*}\beta {\left|}2{\right\rangle}{\left\langle}2{\right|}\right) \xrightarrow[]{\text{{\tikz[baseline=(char.base)]{\node[shape=circle,draw,inner sep=2pt] (char) {3};}}}} {\left|}2{\right\rangle}{\left\langle}2{\right|}\end{aligned} }[/math] 分别以概率[math]\displaystyle{ \alpha^{*}\alpha }[/math]和概率[math]\displaystyle{ \beta^{*}\beta }[/math]

这里无论哪个步骤都是挺神奇的:第一步,被测量系统和仪器构成的整体系统从没有关联的状态演化成为一个关联的状态;第二步,整体系统中被测量系统的变量被求和掉;第三步,从一个概率分布函数中抽样得到具体的其中的某一个状态。其中第一步我们将来会在第[Chap:Evolution]章量子系统的演化中讨论。另外的两步,逻辑上好像也很自然。但是,我们已经提到,还存在问题:第一,什么情况下我们要做这个部分迹求和?第二,从概率分布中抽样得到一个具体的值真的是一件容易被理解的事情吗?假设经典纯随机客体存在,例如纯随机的硬币,我们如何理解看之前这个硬币可能有两个状态,但是看了之后必然处于其中的某一个这样一件事情呢?这个硬币的状态改变了吗?更重要的,这个硬币的状态客观吗,还是受观察者的“意识”影响从而改变了状态?在这个问题上,强烈推荐大家再一次去看一下Coleman的讲座《Quantum Mechanics in Your Face》[28]。关于这个问题的思考,我们以后在[Chap:Measurement]还会继续,暂时先停在这里。请大家思考,经典随机性客体的测量也可以表达成上面的三步的过程吗?

完整地测量自旋的状态

[Sec:CompleteMeasure]

由于量子测量的几率特征,见公理[axiom:Quantum3]和公理[axiom:Quantum4],单次测量给我们的信息有限。例如如果一次测量给我们的结果是某个本征值出现了,我们仅仅能够说:这个被测量的状态和出现这个本征值代表的状态不正交,包含了这一部分分量。那么,这个时候,我么自然就要问这样一个问题:我们如何通过测量明确地知道一个量子态呢?例如,对于一个从[math]\displaystyle{ z }[/math]方向向上射出的自旋,是不是我们只有采用了[math]\displaystyle{ z }[/math]方向的测量,而且一直看不见向下的地方有输出,我们才知道这个自旋的状态确实是[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math]呢?如果是这样的话,我们如何从所有的方向中,刚好选到了这个[math]\displaystyle{ z }[/math]方向呢?我们不仅仅对给定的方向要做很多次测量,还需要选择所有的方向都尝试那么多次的测量。如果是这样的话,通过测量来确定量子态就是一个非常不可能完成的任务了。

实际上,我们有更简单的办法。任意的自旋的状态,可以表达成, [math]\displaystyle{ \begin{aligned} \rho = \left[\begin{array}{cc}p & q \\ q^{*} & 1-p\end{array}\right].\end{aligned} }[/math] 总共就是三个变量(复数q算两个),也就是说,如果我们把实验设计好了,我们只需要三个试验结果就可以得到这个状态的一般表达式。我们来试试测量[math]\displaystyle{ \sigma_{x} }[/math][math]\displaystyle{ \sigma_{y} }[/math][math]\displaystyle{ \sigma_{z} }[/math]的平均值。例如, [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma_{z} {\right\rangle}= tr\left(\rho\sigma_{z}\right) = 2p-1.\end{aligned} }[/math] 也就是说,如果我们测量得到[math]\displaystyle{ \sigma_{z} }[/math]的平均值,那么我们也就知道了参数[math]\displaystyle{ p }[/math]。接着,我们有 [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma_{x} {\right\rangle}= q+q^{*}, {\left\langle}\sigma_{y} {\right\rangle}= i\left(q-q^{*}\right). \end{aligned} }[/math] 于是,我们只需要把这三个自旋的平均值都测量一下,当然,这三个中的每一个量的测量还是需要做系综测量才能得到平均,而不是对所有的方向都需要做系综测量,就可以得到自旋的状态了。

量子与经典密度矩阵的区别

这一部分,我们来尝试用经典密度矩阵来解释双缝干涉现象、光子which-way实验和电子which-way实验。在那之前,我们尝试来解释一下更简单的一个或者两个Stern-Gerlach装置的Stern-Gerlach实验。

先考虑一个只有一个Stern-Gerlach装置的实验,由于初始自旋状态没有完全确定,这个实验通常会出现两个斑点,就好像在原始的和的实验的结果一样。这样的一个结果,其实是可以简单地用一个两状态的经典随机客体——就好像一个完全随机的硬币——来描述的,其状态大概可以这样, [math]\displaystyle{ \begin{aligned} \rho^{c} = p_{\uparrow}{\left|}\uparrow {\right\rangle}{\left\langle}\uparrow {\right|}+ p_{\downarrow}{\left|}\downarrow {\right\rangle}{\left\langle}\downarrow {\right|}.\end{aligned} }[/math]

当考虑两个Stern-Gerlach装置的实验的时候,我们还是可以写下来经典的密度矩阵来解释实验。例如,先通过[math]\displaystyle{ z }[/math]方向,堵住向下的自旋仅仅让向上的自旋进入[math]\displaystyle{ z }[/math]方向的下一个Stern-Gerlach装置,看看有几个输出。我们已经知道实验结果是一个输出。 能够解释实验结果的纯随机客体的经典密度矩阵可以写成这样, [math]\displaystyle{ \begin{aligned} \rho^{c} = {\left|}\uparrow {\right\rangle}{\left\langle}\uparrow {\right|}.\end{aligned} }[/math] 于是,可以计算得到这个测量的结果只有一种可能(重复多次的话,屏幕上会有一个斑点)。

再例如,先通过[math]\displaystyle{ z }[/math]方向,堵住向下的自旋仅仅让向上的自旋进入[math]\displaystyle{ x }[/math]方向的下一个Stern-Gerlach装置,看看有几个输出。我们已经知道实验结果是两个输出。 能够解释实验结果的纯随机客体的经典密度矩阵可以写成这样, [math]\displaystyle{ \begin{aligned} \rho^{c} = \frac{1}{2}\left({\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right). {\label{eq:PBSClassical}}\end{aligned} }[/math] 可以计算得到这个测量的结果有两种可能(重复多次的话,屏幕上会有两个斑点),这两种可能的几率都是[math]\displaystyle{ \frac{1}{2} }[/math]

那么这样的经典密度矩阵是不是也能够解释三个Stern-Gerlach装置的实验例如先过[math]\displaystyle{ z }[/math]挡住向下的自选再过[math]\displaystyle{ x }[/math]挡住向下的自选然后再过[math]\displaystyle{ z }[/math]的那个[math]\displaystyle{ S_{z}S_{x}S_{z} }[/math]、双缝干涉现象、光子which-way实验和电子which-way实验呢?我们试试。我们仅仅用电子自旋which-way实验([math]\displaystyle{ \ref{fig:SGAll} }[/math]d)为例,解释其他的几个实验所需要的实际上背后的数学是一样的。

还是按照前面的配方,第一步,到达[math]\displaystyle{ \sigma_{x} }[/math]磁场之前的状态是 [math]\displaystyle{ \begin{aligned} \rho^{S, T; c}_{0} = \frac{1}{2}\left({\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right) \otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|}. {\label{eq:QuantumPBSClassical}}\end{aligned} }[/math] 经过[math]\displaystyle{ \sigma_{x} }[/math]磁场之后,到达最后的[math]\displaystyle{ \sigma_{z} }[/math]磁场之前, [math]\displaystyle{ \begin{aligned} \rho^{S, T; c}_{1} = \frac{1}{2}\left({\left|}\uparrow_{x}\otimes 1 {\right\rangle}{\left\langle}\uparrow_{x} \otimes 1{\right|}+ {\left|}\downarrow_{x} \otimes 2 {\right\rangle}{\left\langle}\downarrow_{x} \otimes 2{\right|}\right).\end{aligned} }[/math] 经过最后的[math]\displaystyle{ \sigma_{z} }[/math]磁场之前, [math]\displaystyle{ \begin{aligned} \rho^{S, T; c}_{2} = \frac{1}{2}\left({\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}+ {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right) \otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|},\end{aligned} }[/math] 回到入射自旋的状态。然后我们需要计算测量得到[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z} {\right\rangle} }[/math]方向自旋的几率。原则上,为了计算这个,我们需要代表这两个方向自旋的算符[math]\displaystyle{ \sigma^{c}_{x} }[/math][math]\displaystyle{ \sigma^{c}_{z} }[/math],然后分别求出来它们的本征向量,再利用[math]\displaystyle{ P_{s^{c}_{z}}={\left\langle}s^{c}_{z} {\right|}\rho {\left|}s^{c}_{z} {\right\rangle} }[/math]算出这样的自旋方向的几率。实际上,经典力学框架之内,我们找不到这样的算符的数学形式。我们只能够通过实验来给一个说法。

首先,我们注意到,对于我们的具体情况, [math]\displaystyle{ \begin{aligned} P_{s^{c}_{z}}={\left\langle}s^{c}_{z} {\right|}\rho^{P, T; c}_{2} {\left|}s^{c}_{z} {\right\rangle}= \frac{1}{2}{\left\langle}s^{c}_{z} {\right|}\rho^{S, T; c}_{2, \uparrow_{x}} {\left|}s^{c}_{z} {\right\rangle}+ \frac{1}{2}{\left\langle}s^{c}_{z} {\right|}\rho^{S, T; c}_{2, \downarrow_{x}} {\left|}s^{c}_{z} {\right\rangle}\notag \\ = \frac{1}{2}P_{s^{c}_{z}}\left(\uparrow_{x}\right) + \frac{1}{2}P_{s^{c}_{z}}\left(\downarrow_{x}\right). {\label{eq:ClassicalSpin}}\end{aligned} }[/math] 其中,[math]\displaystyle{ \rho^{S, T; c}_{2, \uparrow_{x}} }[/math]代表[math]\displaystyle{ \rho^{P, T; c}_{2} }[/math]的第一部分(关于[math]\displaystyle{ {\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|} }[/math]的部分),[math]\displaystyle{ \rho^{S, T; c}_{2, \downarrow_{x}} }[/math]代表[math]\displaystyle{ \rho^{P, T; c}_{2} }[/math]的第二部分(关于[math]\displaystyle{ {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|} }[/math]的部分)。这个公式表明,不管[math]\displaystyle{ \sigma^{c}_{\hat{r}} }[/math]是什么,概率性叠加公式是成立的:某事件有两种发生的可能,则其概率是这两种事件发生概率按照全概率公式取和。现在,我们需要知道[math]\displaystyle{ P_{s^{c}_{z}=1}\left(\uparrow_{x}\right), P_{s^{c}_{z}=-1}\left(\uparrow_{x}\right) }[/math][math]\displaystyle{ P_{s^{c}_{z}=1}\left(\downarrow_{x}\right), P_{s^{c}_{z}=-1}\left(\downarrow_{x}\right) }[/math]。因为没有算符的具体形式,我们通过如下的实验来推算这几个数值。制备自旋状态[math]\displaystyle{ {\left|}\uparrow {\right\rangle}{\left\langle}\uparrow {\right|} }[/math],然后做过[math]\displaystyle{ z }[/math]方向磁场的测量。也就是让上面的实验中的路径[math]\displaystyle{ 1 }[/math]的自旋直接通过[math]\displaystyle{ z }[/math]方向磁场,同时把路径[math]\displaystyle{ 2 }[/math]的自旋挡住。实验告诉我们,过了[math]\displaystyle{ z }[/math]方向磁场之后有两个可能的输出光斑,多次实验告诉我们这两个光斑的强度在误差范围内完全相同。于是我们知道, [math]\displaystyle{ \begin{aligned} P_{s^{c}_{z}=1}\left(\uparrow_{x}\right) = \frac{1}{2} = P_{s^{c}_{z}=-1}\left(\uparrow_{x}\right)\end{aligned} }[/math] 类似的,我们可以通过让路径[math]\displaystyle{ 2 }[/math]的自旋单独通过[math]\displaystyle{ z }[/math]方向磁场,得到 [math]\displaystyle{ \begin{aligned} P_{s^{c}_{z}=1}\left(\downarrow_{x}\right) = \frac{1}{2} = P_{s^{c}_{z}=-1}\left(\downarrow_{x}\right)\end{aligned} }[/math] 于是,代入公式[math]\displaystyle{ \left(\ref{eq:ClassicalSpin}\right) }[/math]得到 [math]\displaystyle{ \begin{aligned} P_{s^{c}_{z}=1}=\frac{1}{2}\cdot \frac{1}{2} + \frac{1}{2}\cdot \frac{1}{2} = \frac{1}{2} = P_{s^{c}_{z}=-1}.\end{aligned} }[/math] 最终我们得到:按照经典力学的几率表达式公式[math]\displaystyle{ \left(\ref{eq:QuantumPBSClassical}\right) }[/math],我们会得到两个可能的输出光斑,而且其多次实验得到的强度相同。这个计算结果与实验完全不相符。

对比公式[math]\displaystyle{ \left(\ref{eq:SpinRecombination}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:PBSClassical}\right) }[/math],我们看到其区别就是 [math]\displaystyle{ \begin{aligned} \Delta \rho = \frac{1}{2}\left({\left|}\uparrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}+ {\left|}\downarrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right|}\right) .\end{aligned} }[/math] 这个部分只有在量子的密度矩阵中存在,经典的没有。然而这部分对于解释量子系统的实验行为是非常重要的。由于这些项的存在,我们能够用量子力学的公理来“计算出来”量子系统的测量结果,而不能用没有这些项的经典概率论的公理来“计算出来”量子系统的测量结果。

由于量子系统的状态由Hilbert空间的矢量描述,而矢量可以用基矢的叠加来表示(例如[math]\displaystyle{ {\left|}\mu {\right\rangle}= \mu_{1}{\left|}v_{1} {\right\rangle}+ \mu_{2}{\left|}v_{2} {\right\rangle} }[/math]),当我们把这样的矢量转变成为密度矩阵的时候([math]\displaystyle{ \rho= {\left|}\mu {\right\rangle}{\left\langle}\mu {\right|} }[/math]),必然会带来以上形式的交叉项。我们粗略地称之为密度矩阵的非对角元。之所以“粗略”是因为这些非对角元在其它的表象下,可以成为对角元。而且,因为密度矩阵是Hermitian的,这样的表象总是存在的,尽管这个表象和具体实验中的可观测量的表象经常不一样。如果两者一样,那么在这个一样的表象下,密度矩阵和可观测量都是对角的。这个时候,整个系统的数学形式就完全回到了经典概率论的形式。至少在这个可观测量的测量的角度来说,量子性(相干相消或者相干相长)消失了。当然,同样的系统,如果我们考虑另外一个可观测量,只要这个可观测量对应的算符与前一个可观测量不能对易(可对易算符有共同本征矢量集合),那么这个时候量子性又会体现出来。因此,也可以说量子力学的量子性体现在算符的非对易性上:物理量不再是数,而是矩阵或者说算符。

尽管我们一再指出,通过量子实验表现出来的量子系统的行为使得我们有必要引入事件之间的加法操作,才是量子力学的数学采用矩阵的形式的根本原因,其实,形式上,我们完全可以从对易关系开始构建整个量子力学。这个就是正则量子化。正则量子化的内容我们会在第[Chap:HOS]章中介绍。

在此之前,我们需要学习一点点量子系统的演化的描述。在上面的例子中,我们有一个小小的未完成的步骤,为什么状态是[math]\displaystyle{ \rho^{P,T}_{0} }[/math]光子经过偏振分束镜就能够变成状态[math]\displaystyle{ \rho^{P,T}_{1} }[/math]了呢?这个问题与量子系统的演化有关。在解释它之前,让我们来学习一下量子系统的演化。

作业

一个经典的完全随机的无偏硬币[math]\displaystyle{ c }[/math]当做被测量系统——你的大脑里面的一个硬币的映像模型[math]\displaystyle{ m }[/math](例如不太准确地说,当硬币向上的时候某些神经元点亮,向下的时候其他神经元点亮)——所测量。请你参考本章量子测量的三个步骤(其实是四个)写下来这个经典硬币的测量的可能的可以分解来看的步骤。

构建一个自旋经过[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置之后,挡住向下的输出把向上的输出送到一个[math]\displaystyle{ \hat{r} }[/math]方向的Stern-Gerlach装置之中得到的实验结果的数学描述。一个这样的数学描述包含:任意时刻的状态,测量的可观测量,测量各种结果及其几率等的数学模型。

计算一个自旋经过[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置之后,挡住向下的输出把向上的输出送到一个[math]\displaystyle{ \hat{r} }[/math]方向的Stern-Gerlach装置之中,挡住向下的输出,再送到一个[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置之后的实验结果。试验结果的描述需要包含所有的可能结果以及各个结果的几率。

坐标变换对自旋状态的作用:考虑一个三维位置空间的矢量,一个绕[math]\displaystyle{ z }[/math]抽转动[math]\displaystyle{ \alpha }[/math]角度的操作可以写成一个矩阵形式(先试着写下来试试,找找感觉)。现在,我们来考虑同样的转动对于自旋状态的效果。取任意一个自旋,看一看经过这个转动之后自旋的状态的数学表达式成了什么样,然后尝试用矩阵运算的方式把前后两个自旋状态联系起来。问这个时候那个联系着之前的和之后的自旋状态的矩阵是什么?对于任意的转动,我们可以写下来这个相应的矩阵吗?对三维空间的矢量是可以的。对于任意的转动,你不需要明确写下这个表达式。但是如果通过查阅资料能够找到,也可以写下来,不计分。提示:对于自旋,尝试考虑幺正变换,也就是[math]\displaystyle{ {\left|}\psi^{\prime}{\right\rangle}= U{\left|}\psi {\right\rangle} }[/math]的形式;可以考虑一个原来是[math]\displaystyle{ \hat{r}\left(\theta,\phi\right) }[/math]方向向上状态的自旋矢量,经过坐标轴旋转之后成了哪一个方向的矢量,然后通过这个写下新的矢量的表达式;不一定要按照提示的思路。

计算如[math]\displaystyle{ \ref{fig:SG_Which-Way} }[/math]一个自旋经过[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置之后,挡住向下的输出把向上的输出送到一个[math]\displaystyle{ x }[/math]方向的Stern-Gerlach装置之中,接着把两个可能的输出经过反射再次合起来,送到一个[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置之后的实验结果。实验结果的描述需要包含所有的可能结果以及各个结果的几率。

文件:SG WhichWay.eps
caption 一个自旋经过[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置之后,挡住向下的输出把向上的输出送到一个[math]\displaystyle{ x }[/math]方向的Stern-Gerlach装置之中,接着把两个可能的输出经过反射再次合起来,送到一个[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置

[fig:SG_Which-Way]

fig:fig:

[fig:Aspect1986]

[math]\displaystyle{ \ref{fig:Aspect1986} }[/math]是Aspect等人1986年完成的实验,目的是检验光子的波粒二象性。 请回答以下问题:

  1. 请计算第一种情况下探测器[math]\displaystyle{ D_x }[/math], [math]\displaystyle{ D_y }[/math]接收到光子的概率。
  2. 请计算第二种情况下探测器[math]\displaystyle{ D_x }[/math], [math]\displaystyle{ D_y }[/math]接收到光子的概率,并和实验结果[math]\displaystyle{ \ref{fig:Aspect1986_result} }[/math]相比较。
文件:Aspect1986 result
caption [math]\displaystyle{ \ref{fig:Aspect1986} }[/math]中的实验(b),可以通过调整右上方那个可移动反射镜的位置,来改变两条光路的光程差。本图展示的是按照光程差([math]\displaystyle{ x }[/math]轴)的不同得到实验结果:[math]\displaystyle{ D_{x} }[/math][math]\displaystyle{ MZ_{1} }[/math])和[math]\displaystyle{ D_{y} }[/math][math]\displaystyle{ MZ_{2} }[/math])上接收到的光子的数量([math]\displaystyle{ y }[/math]轴)。实验结果图来自于Aspect等人的原始文章()。

[fig:Aspect1986_result]

仍然考虑上一题的实验,如果在光子经过第一个分束器[math]\displaystyle{ BS_{1} }[/math]之后,到达计数器之前,再决定是否放置第二个分束器[math]\displaystyle{ BS_{2} }[/math],([math]\displaystyle{ \ref{fig:Aspect1986} }[/math](a)相当于不放置[math]\displaystyle{ BS_2 }[/math], [math]\displaystyle{ \ref{fig:Aspect1986} }[/math](b)相当于放置[math]\displaystyle{ BS_2 }[/math]) 请你预测结果会如何? 这个想法是1978年 Wheeler 提出的, 称作推迟选择实验。 实际的推迟选择实验可以参看Hellmuth等人的“Delayed-choice experiments in quantum interference”或者Jacques等人的“Experimental Realization of Wheeler’s Delayed-Choice Gedanken Experiment”。如果你愿意就这个问题做深入的思考,你可以收集和阅读这个方面的文献,做一个综述和评论。

单个粒子自旋的计算:考虑一个在([math]\displaystyle{ z-x }[/math])平面内的单位向量 [math]\displaystyle{ \hat{r}_{\alpha}=\sin\left(\alpha\right)\hat{i}+\cos\left(\alpha\right)\hat{k} }[/math]。这个[math]\displaystyle{ \hat{r} }[/math]方向的电子自旋算符[math]\displaystyle{ S_{\alpha} }[/math]是什么,计算它的本征值和本征向量。对于处于这个方向向上状态的电子 , 如果测量在[math]\displaystyle{ \hat{r}_{\beta} }[/math]方向的自旋[math]\displaystyle{ S_{\beta} }[/math],得到哪些可能的结果,这些结果的概率是多少?进一步求出[math]\displaystyle{ S_{\beta} }[/math][math]\displaystyle{ S_{\alpha} }[/math]方向向上状态下的期望值。

求自旋的[math]\displaystyle{ \sigma_{z} }[/math]的本征态在[math]\displaystyle{ \sigma_{x} }[/math]表象的密度矩阵。在[math]\displaystyle{ \sigma_{x} }[/math]表象求[math]\displaystyle{ \sigma_{z} }[/math]本征态的密度矩阵。 [hw:spintrans]

[math]\displaystyle{ \sigma_{z} }[/math]表象,系统的的密度矩阵为[math]\displaystyle{ \rho=\begin{bmatrix} p & 0 \\ 0 & 1-p\end{bmatrix} }[/math],求测量[math]\displaystyle{ \sigma_{x} }[/math]得到的所有可能取值的概率,并求均值。能否利用题[hw:spintrans]的结果直接计算[math]\displaystyle{ \sigma_{z} }[/math]的均值。提示:这个[math]\displaystyle{ \rho }[/math]可以看作什么,是纯态还是混合态?

给定一个二维系统的密度矩阵[math]\displaystyle{ \rho }[/math],做以下三个物理量的测量, [math]\displaystyle{ A =\begin{bmatrix}3 & 0 \\ 0 & -1\end{bmatrix}, B =\begin{bmatrix}1 & 1 \\ 1 & -1\end{bmatrix}, C =\begin{bmatrix}0 & -2i \\ 2i & 0\end{bmatrix}, }[/math] 分别得到期望值 [math]\displaystyle{ {\left\langle}A {\right\rangle}=2, {\left\langle}B {\right\rangle}=\frac{1}{2}, {\left\langle}C {\right\rangle}=0. }[/math][math]\displaystyle{ \rho }[/math]

本章小结

在这一章里面,我们学习了量子系统的数学模型的主要结构:状态是密度矩阵(或者特殊情况下,矢量)——还要注意什么时候用矢量叠加什么时候用概率性叠加或者说永远用矢量叠加直到遇到测量导致的部分迹于是自然退化成为概率性叠加、可观测量是算符——可能非对易、测量相当于得到一个概率分布、测量后状态就是被测量量算符的本征态——对应着所观测到的被测量量的值的那个本征态。然后,我们用这些基本数学结构描述了之前的量子系统的实验。

量子系统的演化

[Chap:Evolution] 上一章,我们讨论了对于一个量子系统的给定的状态,我们如果测量某一个物理量,我们得到的结果是什么,描述这个“过程”的数学模型是什么。实际上在这里,对这个“过程”的数学描述并不是一个真实的发生在某一段时间内的过程。我们把所有的时间因素都去掉了。至于这个过程是否一定需要发生在一段时间之内,我们暂时没有讨论。在这一章里面,我们来讨论一个系统的一个时间段的前后两个状态之间的联系。我们学习过经典力学,我们知道力学的基本问题就是状态如何描述(上一章已经解决),状态如何发生变化以及发生变化的原因是什么。量子力学也是力学,也需要问后一个问题。经典力学中所有的这部分的信息放在了Hamiltonian里面,对应的方程是Hamilton方程,现在,我们来看看量子力学的情况。

如果我们需要考察前后两个状态之间是否有联系,那么我们可以给定实验装置之后,制备一个初始状态(例如让自旋通过[math]\displaystyle{ z }[/math]方向的Stern-Gerlach装置以后挡住向下的部分仅仅让向上的通过),然后让这个初始状态在同样的实验装置(例如[math]\displaystyle{ x }[/math]方向的磁场,为什么这样选一会儿就会知道)里面呆不同的时间,最后来测量(见[math]\displaystyle{ \ref{Sec:CompleteMeasure} }[/math]完整地测量自旋的状态)从这个装置里面出来的状态,然后考察这个状态和时间的关系。我们还可以制备不同的初始状态的自旋,通过同样的仪器同样的时间,从而考察初始状态与末状态之间的关系。当然,为了验证我们的仪器是一个完整的确定了的仪器,我们需要通过让同样的初始状态的自旋通过同样的装置同样的时间来确定,我们得到的状态是同一个状态。

有了以上的实验结果,我们就可以构造演化过程的可能的数学理论了。实际上,上面的这些实验都是做过的。但是,并不完全是在量子理论提出来之前,有些实验是在量子理论提出之后做的。所以,尽管我们今天对于下面构造出来的量子力学的演化过程的数学理论可以按照这个逻辑方式来理解,但是实际上量子力学的演化过程的数学理论是Schrödinger猜出来的。等价的形式还有Heisenberg的矩阵力学,Feynman的路径积分。这里我们先介绍Schrödinger的形式。

本章在任何一本量子力学教材上都可以找到。如果一定要推荐的话,可以参考的《高等量子力学》和的《Quantum Mechanics – a modern development》。

Schrödinger方程

[量子态的演化公理] [axiom:Quantum5] 对于给定初始状态[math]\displaystyle{ \rho\left(0\right) }[/math]的系统,系统自身动力学完全由系统的Hamiltonian([math]\displaystyle{ H }[/math])通过如下方程决定, [math]\displaystyle{ \begin{aligned} i\frac{\partial}{\partial t} \rho\left(t\right) = \left[H, \rho\left(t\right)\right].\end{aligned} }[/math]

或者在特定情况下[math]\displaystyle{ \rho\left(0\right)={\left|}\psi\left(0\right) {\right\rangle}{\left\langle}\psi\left(0\right) {\right|} }[/math]的时候, [math]\displaystyle{ \begin{aligned} i\frac{\partial}{\partial t} {\left|}\psi\left(t\right) {\right\rangle}= H {\left|}\psi\left(t\right) {\right\rangle},\end{aligned} }[/math] 这个方程被称为Schrödinger方程。有时候,前者也被称为Liouville–von Neumann方程。可以验证前者在所指出的特殊情况下确实就是后者。如果[math]\displaystyle{ H }[/math]不显含时间,形式上以上的两个方程可以解开如下, [math]\displaystyle{ \begin{aligned} \rho\left(t\right) = e^{-iHt} \rho\left(0\right) e^{iHt}.\end{aligned} }[/math] 或者特殊情况下 [math]\displaystyle{ \begin{aligned} {\left|}\psi\left(t\right) {\right\rangle}= e^{-iHt} {\left|}\psi\left(0\right) {\right\rangle},\end{aligned} }[/math] 利用[math]\displaystyle{ H }[/math]的本征值和本征向量(记为[math]\displaystyle{ E_{n}, {\left|}n {\right\rangle} }[/math]),我们还可以得到 [math]\displaystyle{ \begin{aligned} U\left(t\right) = e^{-iHt} = e^{-iHt} \sum_{n} {\left|}n {\right\rangle}{\left\langle}n {\right|}= \sum_{n} e^{-iE_{n}t}{\left|}n {\right\rangle}{\left\langle}n {\right|}.\end{aligned} }[/math] 也就是说,如果我们能够得到[math]\displaystyle{ H }[/math]的本征值和本征向量,那么,从给定的初始状态出发,任何一个时刻的状态我们都可以得到。

得到新的时间点的状态之后,如果我们需要在这个状态上对某一个可观测量做测量,我们在利用前面的公理[axiom:Quantum3]来解决测量结果的问题。现在,我们用一个例子来展示一下这个公理的应用。

[自旋演化]:经过[math]\displaystyle{ z }[/math]方向磁场以后,在其正方向出射(反方向完全被挡主)的[math]\displaystyle{ \frac{1}{2} }[/math]-自旋系统,经过[math]\displaystyle{ x }[/math]方向磁场[math]\displaystyle{ B }[/math][math]\displaystyle{ t=\frac{\pi}{2B\mu} }[/math]时间以后出射。求正方向和反方向接收到自旋的几率。

在这里,对于这个具体问题,我们要做一个如何构造Hamiltonian的说明。对于所有的自旋系统 [math]\displaystyle{ \begin{aligned} H = -\mu_{0}\vec{S}\cdot \vec{B} = -\frac{\hbar}{2}\mu_{0}\vec{\hat{\sigma}}\cdot \vec{B} \triangleq -\mu\vec{\hat{\sigma}}\cdot \vec{B}.\end{aligned} }[/math] 在最后的表达式中,我们把合起来的常数当作[math]\displaystyle{ \mu }[/math]。以后,我们就一直用这个符号体系:对于[math]\displaystyle{ \frac{1}{2} }[/math]的自旋,我们取 [math]\displaystyle{ \begin{aligned} H = -\mu\vec{\hat{\sigma}}\cdot \vec{B}.\end{aligned} }[/math] 在跟实际实验对比的时候,我们需要把这些常数还原。但是在这里我们不关心这个细节。

有了这个Hamiltonian我们就可以利用公理[axiom:Quantum5]求出演化算符, [math]\displaystyle{ \begin{aligned} U\left(t\right) = \sum_{n} e^{-iE_{n}t}{\left|}n {\right\rangle}{\left\langle}n {\right|}= e^{-i\mu Bt}{\left|}\uparrow_{\hat{r}} {\right\rangle}{\left\langle}\uparrow_{\hat{r}} {\right|}+ e^{i\mu Bt}{\left|}\downarrow_{\hat{r}} {\right\rangle}{\left\langle}\downarrow_{\hat{r}} {\right|}.\end{aligned} }[/math] 其中[math]\displaystyle{ \hat{\sigma}_{\hat{r}} }[/math]的本征矢量[math]\displaystyle{ {\left|}\uparrow_{\hat{r}} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{\hat{r}} {\right\rangle} }[/math]我们以前都计算过。这里[math]\displaystyle{ \hat{r}=\hat{x} }[/math],因此, [math]\displaystyle{ \begin{aligned} {\left|}\psi\left(t\right) {\right\rangle}= U\left(t\right) {\left|}\psi\left(0\right) {\right\rangle}= e^{-i\mu Bt}{\left|}\uparrow_{x} {\right\rangle}{\left\langle}\uparrow_{x} {\right.}{\left|}\uparrow_{z}{\right\rangle}+ e^{i\mu Bt}{\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right.}{\left|}\uparrow_{z} {\right\rangle}\notag \\ = \frac{e^{-i\frac{\pi}{2}}{\left|}\uparrow_{x} {\right\rangle}+ e^{i\frac{\pi}{2}}{\left|}\downarrow_{x} {\right\rangle}}{\sqrt{2}}.\end{aligned} }[/math]

在这个例子中,我们从一个[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle}= \frac{{\left|}\uparrow_{x} {\right\rangle}+ {\left|}\downarrow_{x} {\right\rangle}}{\sqrt{2}} }[/math]出发,由于[math]\displaystyle{ x }[/math]方向磁场的作用我们得到了末状态[math]\displaystyle{ \frac{e^{i\frac{\pi}{2}}{\left|}\uparrow_{x} {\right\rangle}+ e^{-i\frac{\pi}{2}}{\left|}\downarrow_{x} {\right\rangle}}{\sqrt{2}} = i\frac{{\left|}\uparrow_{x} {\right\rangle}- {\left|}\downarrow_{x} {\right\rangle}}{\sqrt{2}}=i{\left|}\downarrow_{z} {\right\rangle} }[/math]。然后,我们就可以通过测量这个末状态(见[math]\displaystyle{ \ref{Sec:CompleteMeasure} }[/math])来验证它确实是这样的。

这个例题中的演化算符和相应的Hamiltonian具有特殊的地位:这个演化算符被称为NOT算符,其作用是把[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z} {\right\rangle} }[/math]相互翻转,就好像是一个计算机逻辑运算中的非运算一样,把[math]\displaystyle{ 0 }[/math][math]\displaystyle{ 1 }[/math]互换。

[神奇的偏振分束镜]:初始状态是[math]\displaystyle{ \rho^{P,T}_{0} }[/math]光子经过偏振分束镜就能够变成状态[math]\displaystyle{ \rho^{P,T}_{1} }[/math]:一个[math]\displaystyle{ 3 }[/math]维Hilbert空间和[math]\displaystyle{ 2 }[/math]维Hilbert空间直积构成的空间,定义Hamiltonian [math]\displaystyle{ \begin{aligned} H=\Sigma\otimes\sigma_{z},\end{aligned} }[/math] 其中[math]\displaystyle{ \Sigma=i\frac{\sqrt{3}}{3}\left[\begin{array}{ccc}0 & 1 & -1 \\-1 & 0 & 1 \\ 1 & -1 & 0\end{array}\right] }[/math]是测量仪器部分的Hamiltonian,[math]\displaystyle{ \sigma_{z} }[/math]是光子部分的Hamiltonian,满足[math]\displaystyle{ \sigma_{z}{\left|}H {\right\rangle}= {\left|}H {\right\rangle} }[/math][math]\displaystyle{ \sigma_{z}{\left|}V {\right\rangle}= -{\left|}V {\right\rangle} }[/math]。定义[math]\displaystyle{ U=e^{-iH\tau} }[/math],其中[math]\displaystyle{ \tau=\frac{4\pi}{3} }[/math],证明 [math]\displaystyle{ \begin{aligned} \rho^{P,T}_{1}=U\rho^{P,T}_{0}U^{\dag}. {\label{eq:SetEntanglement}}\end{aligned} }[/math]

实际上,我们需要证明 [math]\displaystyle{ \begin{aligned} U{\left|}0 {\right\rangle}\otimes {\left|}H {\right\rangle}= {\left|}1 {\right\rangle}\otimes {\left|}H {\right\rangle}, U{\left|}0 {\right\rangle}\otimes {\left|}V {\right\rangle}= {\left|}2 {\right\rangle}\otimes {\left|}V {\right\rangle}.\end{aligned} }[/math] 有了这个很容易就能够证明公式[math]\displaystyle{ \left(\ref{eq:SetEntanglement}\right) }[/math]。我们以证明第一部分为例。首先,我们做一个关于算符[math]\displaystyle{ \Sigma }[/math]的说明。第一,为什么它是[math]\displaystyle{ 3 }[/math]维的。我们需要把一个一开始的状态[math]\displaystyle{ {\left|}0 {\right\rangle} }[/math]按照不同的情况分别映射到[math]\displaystyle{ {\left|}1 {\right\rangle} }[/math][math]\displaystyle{ {\left|}2 {\right\rangle} }[/math]态,于是这个空间至少是[math]\displaystyle{ 3 }[/math]维的,而且[math]\displaystyle{ 3 }[/math]维也就够了,因为我们考虑的对象总共也就这三种可能。定义[math]\displaystyle{ {\left|}0 {\right\rangle}, {\left|}1 {\right\rangle}, {\left|}2 {\right\rangle} }[/math]分别作为这个空间的基矢[math]\displaystyle{ \left[1, 0, 0\right]^{T}, \left[0, 1, 0\right]^{T}, \left[0, 0, 1\right]^{T} }[/math]。第二,我们再来看一下这个[math]\displaystyle{ \Sigma }[/math]算符的在这个表象下的三个本征态,本征值分别为[math]\displaystyle{ \sigma=0 }[/math][math]\displaystyle{ \sigma=-1 }[/math][math]\displaystyle{ \sigma=1 }[/math][math]\displaystyle{ \begin{aligned} {\left|}\sigma=0 {\right\rangle}=\frac{\sqrt{3}}{3}\left[1,1,1\right]^{T} \\ {\left|}\sigma=-1 {\right\rangle}=\frac{\sqrt{3}}{3}\left[-1,e^{-i\frac{\pi}{3}},e^{i\frac{\pi}{3}}\right]^{T} \\ {\left|}\sigma=1 {\right\rangle}=\frac{\sqrt{3}}{3}\left[-1,e^{i\frac{\pi}{3}},e^{-i\frac{\pi}{3}}\right]^{T} \end{aligned} }[/math] 于是,代入演化算符的定义以及[math]\displaystyle{ \tau=\frac{4\pi}{3} }[/math],我们有 [math]\displaystyle{ \begin{aligned} e^{-i\Sigma\tau} = \sum_{\sigma} e^{-i\sigma \tau}{\left|}\sigma {\right\rangle}{\left\langle}\sigma {\right|}= \left[\begin{array}{ccc}0 & 0 & 1 \\1 & 0 & 0 \\ 0 & 1 & 0\end{array}\right]\end{aligned} }[/math] 于是 [math]\displaystyle{ \begin{aligned} e^{-i\Sigma\tau} {\left|}0 {\right\rangle}= {\left|}1 {\right\rangle}, e^{i\Sigma\tau} {\left|}0 {\right\rangle}= {\left|}2 {\right\rangle}.\end{aligned} }[/math] 现在,我们可以来讨论[math]\displaystyle{ U{\left|}0 {\right\rangle}\otimes {\left|}H {\right\rangle} }[/math]了, [math]\displaystyle{ \begin{aligned} U{\left|}0 {\right\rangle}\otimes {\left|}H {\right\rangle}= e^{-i\Sigma\otimes\sigma_{z}\tau}{\left|}0 {\right\rangle}\otimes {\left|}H {\right\rangle}= e^{-i\Sigma\tau}{\left|}0 {\right\rangle}\otimes {\left|}H {\right\rangle}= {\left|}1 {\right\rangle}\otimes {\left|}H {\right\rangle}. \end{aligned} }[/math] 同理, [math]\displaystyle{ \begin{aligned} U{\left|}0 {\right\rangle}\otimes {\left|}V {\right\rangle}= e^{-i\Sigma\otimes\sigma_{z}\tau}{\left|}0 {\right\rangle}\otimes {\left|}V {\right\rangle}= e^{i\Sigma\tau}{\left|}0 {\right\rangle}\otimes {\left|}V {\right\rangle}= {\left|}2 {\right\rangle}\otimes {\left|}V {\right\rangle}. \end{aligned} }[/math]

这个例子说明,测量仪器的状态和被测量物体的状态之间的关联的建立,实际上是通过两个系统之间的相互作用来完成的,而这个相互作用的过程可以用量子系统的演化方程——Schrödinger方程来描述。

到此为止,量子力学的基本框架的内容就有了。我们的基本任务是帮助读者理清思路,建立最基本的框架,掌握最核心的概念,学会运用最基本的计算分析技术。到这里,我们的基本任务就完成了。可以看到,非常神奇地,通常的量子力学书,例如的《量子力学》的用了大量篇幅的核心内容,在我们这里仅仅就是一小节,共[math]\displaystyle{ 4 }[/math]页。对于理解量子力学来说,静态描述是什么以及为什么需要这样的静态描述是更加重要的事情。下一节,我们介绍与Schrödinger方程等价的Heisenberg方程。

Schrödinger 绘景与 Heisenberg 绘景

坐标变换实际上相当于对量子状态也做了一个相应的变换。例如围绕[math]\displaystyle{ z }[/math]轴的[math]\displaystyle{ \frac{\pi}{2} }[/math]旋转,记为[math]\displaystyle{ R_{z}\left(\frac{\pi}{2}\right) }[/math],把原来的[math]\displaystyle{ y }[/math]轴变成了新的[math]\displaystyle{ x^{\prime} }[/math]轴,把新的[math]\displaystyle{ y^{\prime} }[/math]建立在了原来的[math]\displaystyle{ x }[/math]轴的负方向。那么原来的例如[math]\displaystyle{ x }[/math]轴的向上方向的矢量就成了在新的坐标下的[math]\displaystyle{ y^{\prime} }[/math]轴的正方向的矢量,也就是[math]\displaystyle{ {\left|}\downarrow_{x} {\right\rangle}\rightarrow {\left|}\uparrow_{y^{\prime}} {\right\rangle} }[/math],这相当于,在[math]\displaystyle{ \sigma_{z} }[/math]表象下, [math]\displaystyle{ \begin{aligned} \frac{\sqrt{2}}{2}\left[\begin{array}{c}1 \\ -1\end{array}\right] \rightarrow \frac{\sqrt{2}}{2}\left[\begin{array}{c}1 \\ i\end{array}\right] = S\left(R_{z}\left(\frac{\pi}{2}\right)\right)\frac{\sqrt{2}}{2}\left[\begin{array}{c}1 \\ -1\end{array}\right].\end{aligned} }[/math] 我们把这个由于坐标变换[math]\displaystyle{ R_{z}\left(\frac{\pi}{2}\right) }[/math]导致的自旋的状态的变换记为[math]\displaystyle{ S\left(R_{z}\left(\frac{\pi}{2}\right)\right) }[/math]

我们暂时不去关心[math]\displaystyle{ R_{z}\left(\frac{\pi}{2}\right) }[/math][math]\displaystyle{ S\left(R_{z}\left(\frac{\pi}{2}\right)\right) }[/math]的具体形式。对于有兴趣的读者这些具体形式的问题称为群的表示理论:类似于[math]\displaystyle{ R_{z}\left(\frac{\pi}{2}\right) }[/math]这样的所有的坐标变换构成一个群。了解坐标变换会导致一个自旋状态的矢量的分量形式的变换这件事情在这个阶段比我们找出具体的这些变换的算符的数学形式重要。

在做坐标变换的时候,我们希望有一种东西是不变的,例如,对于这里的旋转,我们希望我们的这个自旋状态,初始是[math]\displaystyle{ {\left|}\downarrow_{x} {\right\rangle} }[/math],后来为[math]\displaystyle{ {\left|}\uparrow_{y^{\prime}} {\right\rangle} }[/math]仅仅是记号上的改变,实际上,这个矢量的意义没有变换,就是那个如果在原来的坐标下面看来,是[math]\displaystyle{ {\left|}\downarrow_{x} {\right\rangle} }[/math],在后来的坐标下看起来是[math]\displaystyle{ {\left|}\uparrow_{y^{\prime}} {\right\rangle} }[/math]的那个自旋矢量。那么这个不变的东西用什么样的数学形式来表达呢?答案是,这个矢量在任何一个可观测量下的观测值(包含本征值和本征值出现的几率)是不变的,也就是说, [math]\displaystyle{ \begin{aligned} {tr\left(A{\left|}\downarrow_{x} {\right\rangle}{\left\langle}\downarrow_{x} {\right|}\right)} = {tr\left(A^{\prime}{\left|}\uparrow_{y^{\prime}} {\right\rangle}{\left\langle}\uparrow_{y^{\prime}} {\right|}\right)}.\end{aligned} }[/math] 实际上,不仅仅是这个矢量,我们要求对于任意的自旋矢量,上式都成立, [math]\displaystyle{ \begin{aligned} {tr\left(A{\left|}\mu {\right\rangle}{\left\langle}\mu {\right|}\right)} = {tr\left(A^{\prime}{\left|}\mu^{\prime} {\right\rangle}{\left\langle}\mu^{\prime} {\right|}\right)},\end{aligned} }[/math] 其中,[math]\displaystyle{ {\left|}\mu {\right\rangle} }[/math]是老坐标下的矢量,[math]\displaystyle{ {\left|}\mu^{\prime} {\right\rangle} }[/math]是新坐标下的矢量。用我们的记号, [math]\displaystyle{ \begin{aligned} {\left|}\mu^{\prime} {\right\rangle}= S {\left|}\mu {\right\rangle},\end{aligned} }[/math] 那么只要 [math]\displaystyle{ \begin{aligned} A^{\prime} = S A S^{\dag},\end{aligned} }[/math] 并且 [math]\displaystyle{ \begin{aligned} S^{\dag} S = I = SS^{\dag},\end{aligned} }[/math] 上式就成立。满足这个性质的变换[math]\displaystyle{ S }[/math],分别按照相应的形式作用在矢量上和算符上,称为幺正变换。幺正变换在量子力学里面具有特殊的地位:由于这样的变换不改变矢量和算符的含义,仅仅改变两者的形式,它们被称为不改变物理的变换,仅仅是换一个观测的角度。物理学的规律对于仅仅改变观测的角度的变换是不变的——包含所有的公式的形式不变,所有的观测值不变——被认为是物理学的基本假设。

现在,我们用这个幺正变换以及其不变性的角度来提出一种与Schrödinger方程完全等价的量子力学体系——Heisenberg力学。之前我们已经学习的描述量子系统演化的方式——密度矩阵发生演化可观测量算符不变的描述,称为Schrödinger绘景。现在,我们介绍另一种让可观测量算符的发生演化,分布函数保持不变的描述方法,称为Heisenberg绘景。这样的一个视角的转换——从关心态的演化到关心算符的演化——有的时候可以方便求解某些问题。以后我们会了解到,谐振子就是这样的一个例子。

我们已经知道,对于[math]\displaystyle{ H }[/math]不显含时间[math]\displaystyle{ t }[/math]的量子系统,其的演化可以表达为 [math]\displaystyle{ \begin{aligned} \rho\left(t\right) = e^{-iHt}\rho\left(0\right)e^{iHt},\end{aligned} }[/math] 物理量[math]\displaystyle{ A^{S} }[/math](为了表示Schrödinger绘景的算符与将要定义的Heisenberg绘景的算法的区别,我们把之前的算符的记号稍作修改,加上一个上标[math]\displaystyle{ ^{S} }[/math])的观测值[math]\displaystyle{ \alpha }[/math]和相应的几率[math]\displaystyle{ p_{\alpha} }[/math],由如下方程决定 [math]\displaystyle{ \begin{aligned} p_{\alpha} = tr\left({\left|}\alpha^{S} {\right\rangle}{\left\langle}\alpha^{S} {\right|}\rho\left(t\right) \right) = {\left\langle}\alpha^{S} {\left|}\rho\left(t\right) {\right|}\alpha^{S} {\right\rangle}= {\left\langle}\alpha^{S} {\left|}e^{-iHt}\rho\left(0\right)e^{iHt} {\right|}\alpha^{S} {\right\rangle}.\end{aligned} }[/math] 现在,我们定义 [math]\displaystyle{ \begin{aligned} A^{H} = e^{iHt}A^{S}e^{-iHt}, \\ \rho^{H} = e^{iHt}\rho^{S}\left(t\right)e^{-iHt} = \rho^{S}\left(0\right).\end{aligned} }[/math] 然后记相应的[math]\displaystyle{ A^{H} }[/math]的本征向量为[math]\displaystyle{ {\left|}\alpha^{H}\left(t\right) {\right\rangle} }[/math],则 [math]\displaystyle{ \begin{aligned} {\left|}\alpha^{H}\left(t\right) {\right\rangle}= e^{iHt}{\left|}\alpha^{S}\left(t\right) {\right\rangle}\end{aligned} }[/math] 因此, [math]\displaystyle{ \begin{aligned} tr\left(A^{H}\rho^{H}\right)=tr\left({\left|}\alpha^{H}\left(t\right) {\right\rangle}{\left\langle}\alpha^{H}\left(t\right) {\right|}\rho\left(0\right) \right) = {\left\langle}\alpha^{S} {\left|}e^{-iHt}\rho\left(0\right)e^{iHt} {\right|}\alpha^{S} {\right\rangle}= p_{\alpha}.\end{aligned} }[/math] 也就是说,计算各种观测量的方式和得到的结果都不变。这种保持变换前后基本公式的形式和计算结果都不变的变换,在物理学里,有非常重要的地位。于是,我们得到量子力学的另一种形式, [math]\displaystyle{ \begin{aligned} A^{H} = e^{iHt}A^{S}e^{-iHt}, \\ \rho^{H} = \rho^{S}\left(0\right), \\ {\left\langle}A {\right\rangle}= tr\left(A^{H}\rho^{H}\right).\end{aligned} }[/math] 这里,最后一个公式中的算符[math]\displaystyle{ A }[/math]可以是任何一个可观测量的算符。因此,如果我们用这个绘景来讨论物理问题,则我们需要求解所有的物理量对应的算符的演化方程。这个,有可能比求解密度矩阵的演化(只有一个方程)来的复杂,除非我们能够找到一个最小的固定的算符的集合,所有的其它算符都可以用这个集合里面的算符来表达。对于任意算符,我们还可以得到一般的算符的演化方程。对[math]\displaystyle{ A^{H} }[/math]求时间[math]\displaystyle{ t }[/math]的导数,我们有 [math]\displaystyle{ \begin{aligned} i\frac{\partial}{\partial t}A^{H} = \left[A^{H},H\right].\end{aligned} }[/math] 这个方程被称为Heisenberg方程。实际上,在量子力学的进一步发展中,我们会看到,很多时候Heisenberg绘景反而使问题变得更容易处理,因为这个最小而固定的算符集合经常能够被找到。它们有的时候被称为产生-湮灭算符。这个,在谐振子问题中以及将来有机会学习量子场论的过程中,我们还会看见。

[产生湮灭算符的演化]:假设我们有一个系统,它的Hamiltonian是[math]\displaystyle{ H=\omega a^{\dag}a }[/math],其中[math]\displaystyle{ \left[a,a^{\dag}\right]=1 }[/math],求解[math]\displaystyle{ a^{H}\left(t\right) }[/math]

首先,[math]\displaystyle{ a^{\dag,H}=e^{iHt}a^{\dag}e^{-iHt} }[/math][math]\displaystyle{ a^{H}=e^{iHt}a e^{-iHt} }[/math],于是, [math]\displaystyle{ \begin{aligned} \left[a^{H},a^{\dag,H}\right]=e^{iHt}\left[a,a^{\dag}\right]e^{-iHt}=1. \end{aligned} }[/math] 其次,[math]\displaystyle{ H=\omega e^{iHt} a^{\dag}a e^{-iHt} =\omega e^{iHt} a^{\dag}e^{-iHt}e^{iHt}a e^{-iHt} = \omega a^{\dag,H}a^{H} }[/math]。 接着,把算符[math]\displaystyle{ a^{\dag,H}a^{H} }[/math]代入Heisenberg方程,我们得到 [math]\displaystyle{ \begin{aligned} i\frac{\partial}{\partial t}a^{H} = \left[a^{H},\omega a^{\dag,H}a^{H}\right]=\omega a^{H}\end{aligned} }[/math] 结合初始条件[math]\displaystyle{ a^{H}\left(0\right) = a^{S} }[/math],求解这个方程,我们得到 [math]\displaystyle{ \begin{aligned} a^{H}\left(t\right) = e^{-i\omega t}a^{S}.\end{aligned} }[/math] 类似的我们可以得到, [math]\displaystyle{ \begin{aligned} a^{\dag, H}\left(t\right) = e^{i\omega t}a^{\dag, S}.\end{aligned} }[/math] 于是,如果我们已知初始状态,任意一个能够由[math]\displaystyle{ a^{S} }[/math][math]\displaystyle{ a^{\dag,S} }[/math]表达的算符[math]\displaystyle{ {\left\langle}A\left(a^{\dag, S}, a^{S}\right) {\right\rangle} }[/math]的平均值[math]\displaystyle{ {\left\langle}A^{H}\left(a^{\dag, H}, a^{H}\right) {\right\rangle} }[/math]自然也就知道了。把上面这句话里面的平均值换成所有的可能结果以及这些结果的相应几率也是正确的。

这个问题的物理背景和以上计算的物理意义在下一章中会解释。目前阶段,请把这个举例仅仅当作Heisenberg方程的一个练习。至少,通过这个练习,我们学会了计算Heisenberg方程,而且我们了解到能够在Schrödinger绘景下回答的问题也能够在Heisenberg绘景下来回答。

作业

看的讲座《Quantum Mechanics in Your Face》,用概念地图的方式做一个包含总结体会和评价的报告。

看的网上课程《Quantum Mechanics》的前两课,用概念地图的方式做一个包含总结体会和评价的报告。

看的《Feynman物理学讲义》第三卷的前三章,用概念地图的方式做一个包含总结体会和评价的报告。

一个自旋系统,给定Hamiltonian为 [math]\displaystyle{ \begin{aligned} H=\frac{1}{4+2\sqrt{2}}\left(\begin{array}{cc}1 & -1-\sqrt{2} \\ -1-\sqrt{2} & 3+2\sqrt{2}\end{array}\right). \end{aligned} }[/math] 在这里,我们先不管这样的Hamiltonian是如何得来的,对应着什么样的外界对自旋的相互作用。验算经过时间[math]\displaystyle{ \pi }[/math]之后,系统的状态由演化如下算符决定, [math]\displaystyle{ \begin{aligned} U=\frac{1}{\sqrt{2}}\left(\begin{array}{cc}1 & 1 \\1 & -1 \end{array}\right).\end{aligned} }[/math] 这个算符有一个专门的名字——算符,或者叫做。看看这个算符把[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z} {\right\rangle} }[/math]分别映射成什么?

自旋的演化与测量, [math]\displaystyle{ H=-\mu \vec{B} \cdot \vec{\hat{\sigma}} }[/math][math]\displaystyle{ \rho_{0} = {\left|}\uparrow_{z}{\right\rangle}{\left\langle}\uparrow_{z}{\right|} }[/math],求[math]\displaystyle{ t }[/math]时刻做[math]\displaystyle{ \sigma_{y} }[/math]测量得到的结果。其中[math]\displaystyle{ \vec{B} }[/math]是一个一般的三维矢量,可以考虑用[math]\displaystyle{ \left(\theta,\phi\right) }[/math]来表达。

两个自旋构成的一个系统,给定Hamiltonian为 [math]\displaystyle{ \begin{aligned} H=-J\sigma^{1}_{z}\sigma^{2}_{z}. \end{aligned} }[/math] 系统的初始状态是一个纯态[math]\displaystyle{ {\left|}\uparrow_{x}{\right\rangle}_{1}{\left|}\downarrow_{x}{\right\rangle}_{2} }[/math],求[math]\displaystyle{ t=\frac{\pi}{2J} }[/math]时刻系统的状态。

[hw:UnitoryPure] Unitary(幺正)演化不会使得状态在纯态和混合态之间转化:对于给定的状态[math]\displaystyle{ \rho }[/math],请证明[math]\displaystyle{ tr\left(\rho\right) }[/math][math]\displaystyle{ tr\left(\rho^{2}\right) }[/math]是不变量。 由于纯态的[math]\displaystyle{ tr\left(\rho^{1}\right)=1 }[/math],混合态的[math]\displaystyle{ tr\left(\rho^{1}\right)\lt 1 }[/math]。因此,Unitary(幺正)演化不会使得状态在纯态和混合态之间转化。

[hw:UnitoryEntropy] Unitary(幺正)演化不改变熵:对于给定的状态[math]\displaystyle{ \rho }[/math],定义熵 [math]\displaystyle{ \begin{aligned} S=-tr\left(\ln{\left(\rho\right)}\rho\right)\end{aligned} }[/math] 请证明:第一、量子力学的Unitary(幺正)演化不改变熵;第二、纯态的熵等于零,混合态的熵大于零。因此,Unitary(幺正)演化不会使得状态在纯态和混合态之间转化。

本章小结

在这一章里面,我们学习了如何描述量子系统的状态的演化,并且用Schrödinger绘景——状态变化算符不变——和Heisenberg绘景——状态不变算符变化——两种方式来描述。两种方式都离不开演化算符[math]\displaystyle{ U\left(t\right) }[/math]

单个谐振子的量子力学

[Chap:HOS]

整个这一本量子力学教材中,仅仅这一章,和通常的量子力学教材是类似的。在这一章中,我们从二维Hilbert空间的量子系统的讨论,跳到位置表象下的量子力学系统的讨论。然后,我们又会回到抽象的Hilbert空间的形式。其实,位置表象下的波函数也是抽象的Hilbert矢量空间的矢量。为了和经典力学相联系,我们需要介绍一下正则量子化。正则量子化是把一个经典系统变成一个相应的量子系统的经常采用的办法。

本章推荐参考书喀兴林《高等量子力学》和Ballentine的《Quantum Mechanics – a modern development》。

位置表象

正则量子化的基本思想是,找到一个经典系统的正则坐标[math]\displaystyle{ q }[/math]和正则动量[math]\displaystyle{ p }[/math],然后把[math]\displaystyle{ q }[/math][math]\displaystyle{ p }[/math]都升级成算符[math]\displaystyle{ \hat{q} }[/math][math]\displaystyle{ \hat{p} }[/math],并假设其对易关系为 [math]\displaystyle{ \begin{aligned} \left[\hat{q},\hat{p}\right]=i. {\label{eq:pqcommutator}}\end{aligned} }[/math] 这两个物理量之间的对易关系有时候被称为正则对易关系。然后其它物理量,它们是[math]\displaystyle{ q,p }[/math]的函数,就成了[math]\displaystyle{ \hat{q},\hat{p} }[/math]的算符。其中,对应关系的细节(例如[math]\displaystyle{ q^{2}p }[/math]应该成为[math]\displaystyle{ \hat{q}^{2}\hat{p} }[/math]还是[math]\displaystyle{ \hat{q}\hat{p}\hat{q} }[/math])还需要进一步讨论,但是有了正则对易关系之后,其他的物理量都成了一般情况下不相互对易的算符。于是,共同本征矢量不存在了,密度矩阵的表述需要非对角元了,量子干涉现象就出现了。我们的下一个例子就是一维谐振子的量子化。在符号上,这一节我们把位置算符[math]\displaystyle{ \hat{q} }[/math]重新还原成[math]\displaystyle{ \hat{x} }[/math],特指位置表象,而不是更一般的广义坐标表象。

在讨论这个具体例子之前,我们来看一下,位置表象是什么,位置表象下的算符,包含动量、能量等,又如何在位置表象下通过一定的基矢表达出来。首先,我们来看位置算符[math]\displaystyle{ \hat{x} }[/math]的本征值[math]\displaystyle{ x }[/math]和本征向量[math]\displaystyle{ {\left|}x {\right\rangle} }[/math][math]\displaystyle{ \begin{aligned} \hat{x}{\left|}x {\right\rangle}= x {\left|}x {\right\rangle}.\end{aligned} }[/math] 这个时候我们需要知道[math]\displaystyle{ x }[/math]的取值范围。

从物理问题上,我们就可以知道,这个问题的答案是所有的实数,因为在实验上我们可以观察粒子到达任何一个点的这样一个事件。假设将来有一个状态[math]\displaystyle{ {\left|}\psi {\right\rangle}= \sum_{x} \psi\left(x\right) {\left|}x {\right\rangle} }[/math],或者说[math]\displaystyle{ {\left|}\psi {\right\rangle}= \int dx \psi\left(x\right) {\left|}x {\right\rangle} }[/math](为了记号简单,连续变量的积分符号和离散变量的求和符号不再区分),其中[math]\displaystyle{ {\left|}x {\right\rangle} }[/math]表示基矢,[math]\displaystyle{ \psi\left(x\right) }[/math]这个基矢下的分量,然后我们做一个位置[math]\displaystyle{ \hat{x} }[/math]的测量,按照量子力学的一般框架就应该有 [math]\displaystyle{ \begin{aligned} P_{x} = {\left\langle}x {\right|}\left({\left|}\psi {\right\rangle}{\left\langle}\psi {\right|}\right){\left|}x {\right\rangle}= {\left|}\psi\left(x\right){\right|}^{2}.\end{aligned} }[/math] 于是,既然各个点原则上都有测得粒子的概率,那么,至少[math]\displaystyle{ \psi\left(x\right) }[/math]原则上应该有可能不为零的值。我们再从数学上来看[math]\displaystyle{ x }[/math]的取值范围。

先假设我们有某一个本征值[math]\displaystyle{ x_{0} }[/math]和本征向量[math]\displaystyle{ {\left|}x_{0} {\right\rangle} }[/math],然后我们来构造一个本征向量[math]\displaystyle{ {\left|}x+x_{0} {\right\rangle} }[/math]:定义一个矢量[math]\displaystyle{ e^{-ix\hat{p}} {\left|}x_{0} {\right\rangle} }[/math]。我们考虑[math]\displaystyle{ \hat{x} e^{-ix\hat{p}} {\left|}x_{0} {\right\rangle} }[/math]。运用公式[math]\displaystyle{ \left(\ref{eq:pqcommutator}\right) }[/math],我们可以写出如下表达式, [math]\displaystyle{ \begin{aligned} \hat{x} e^{-ix\hat{p}} {\left|}x_{0} {\right\rangle}& = & \hat{x}\sum_{n} \frac{\left(-ix\right)^{n}}{n!}\hat{p}^{n}{\left|}x_{0} {\right\rangle}\notag \\ & = & \sum_{n}\frac{\left(-ix\right)^{n}}{n!} \hat{x}\hat{p}^{n}{\left|}x_{0} {\right\rangle}\notag \\ & = & \sum_{n}\frac{\left(-ix\right)^{n}}{n!} \hat{x}\hat{p}\hat{p}^{n-1}{\left|}x_{0} {\right\rangle}\notag \\ & = & \sum_{n}\frac{\left(-ix\right)^{n}}{n!} \left(i+\hat{p}\hat{x}\right)\hat{p}^{n-1}{\left|}x_{0} {\right\rangle}\notag \\ & = & \sum_{n}\frac{\left(-ix\right)^{n}}{n!} \left(i\hat{p}^{n-1}+\hat{p}\hat{x}\hat{p}^{n-1}\right){\left|}x_{0} {\right\rangle}\notag \\ & = & \sum_{n}\frac{\left(-ix\right)^{n}}{n!} \left(in\hat{p}^{n-1}+\hat{p}^{n}\hat{x}\right){\left|}x_{0} {\right\rangle}\notag \\ & = & \left(x+x_{0}\right)e^{-ix\hat{p}} {\left|}x_{0} {\right\rangle}\end{aligned} }[/math] 于是[math]\displaystyle{ e^{-ix\hat{p}} {\left|}x_{0} {\right\rangle} }[/math]也是算符[math]\displaystyle{ \hat{x} }[/math]的本征向量,而且其本征值为[math]\displaystyle{ \left(x+x_{0}\right) }[/math]。从这里,我们看到,由于任意[math]\displaystyle{ x }[/math]的值,[math]\displaystyle{ e^{-ix\hat{p}} {\left|}x_{0} {\right\rangle} }[/math]都是[math]\displaystyle{ \hat{x} }[/math]的本征向量,于是算符[math]\displaystyle{ \hat{x} }[/math]的取值空间是所有的实数(联系到测量的实验,位置空间的点是实数)。换过来说,把位置和动量算符的对易关系取为公式[math]\displaystyle{ \left(\ref{eq:pqcommutator}\right) }[/math],与我们可以测量位置空间中的任意一个点粒子到达的几率这件事情没有矛盾。这个计算的倒数第三式到倒数第二式的推导用到了对易关系公式[math]\displaystyle{ \left(\ref{eq:pqcommutator}\right) }[/math],并且把这个对易关系重复了足够多次来把算符[math]\displaystyle{ \hat{x} }[/math]移到表达式的最右边。也就是 [math]\displaystyle{ \begin{aligned} \hat{x}\hat{p}^{n}=in \hat{p}^{n-1} + \hat{p}^{n}\hat{x}.\end{aligned} }[/math]

有了位置空间的所有的本征矢量[math]\displaystyle{ \left\{{\left|}x {\right\rangle}\right\} }[/math]构成的矢量空间之后,我们来研究算符[math]\displaystyle{ \hat{x},\hat{p} }[/math]在这个空间中的表达式。对于算符[math]\displaystyle{ \hat{x} }[/math],我们有 [math]\displaystyle{ \begin{aligned} \hat{x} {\left|}x {\right\rangle}= x {\left|}x {\right\rangle}.\end{aligned} }[/math] 正交归一关系表达为, [math]\displaystyle{ \begin{aligned} {\left\langle}x {\right|}{\left.}x^{\prime} {\right\rangle}= \delta\left(x-x^{\prime}\right).\end{aligned} }[/math] 完全性关系表达为 [math]\displaystyle{ \begin{aligned} \sum_{x} {\left|}x {\right\rangle}{\left\langle}x {\right|}= I.\end{aligned} }[/math] 当算符的本征值为连续变量的时候,实际上,归一化和完全性关系都会有问题[29]。在此,我们按照离散取值的本征值来看待连续取值情形。更深入的讨论见Ballentine的《Quantum Mechanics – a modern development》。

于是 [math]\displaystyle{ \begin{aligned} \hat{x} = \sum_{x} \hat{x}{\left|}x {\right\rangle}{\left\langle}x {\right|}= \sum_{x} x {\left|}x {\right\rangle}{\left\langle}x {\right|}.\end{aligned} }[/math] 我们来看看满足以上对易关系的[math]\displaystyle{ \hat{p} }[/math]会是什么?我们先给出答案,再给出一个直观的说明。答案是在[math]\displaystyle{ {\left|}x {\right\rangle} }[/math]的表象下,任意一个函数[math]\displaystyle{ \psi\left(x\right) }[/math]成了一个如下的矢量, [math]\displaystyle{ \begin{aligned} {\left|}\psi{\right\rangle}= \sum_{x} \psi\left(x\right){\left|}x {\right\rangle},\end{aligned} }[/math] 算符[math]\displaystyle{ \hat{x} }[/math]作用在[math]\displaystyle{ {\left|}\psi{\right\rangle} }[/math]可以表达成其如何做用在分量[math]\displaystyle{ \psi\left(x\right) }[/math]上: [math]\displaystyle{ \begin{aligned} \hat{x}{\left|}\psi{\right\rangle}= \sum_{x} \hat{x}\psi\left(x\right){\left|}x {\right\rangle}= \sum_{x} x\psi\left(x\right){\left|}x {\right\rangle}, \end{aligned} }[/math] 于是,从分量形式来看, [math]\displaystyle{ \begin{aligned} \hat{x}\psi\left(x\right) = x\psi\left(x\right). \end{aligned} }[/math] 那么,在这个意义上,从分量形式来看, [math]\displaystyle{ \begin{aligned} \hat{p}\psi\left(x\right) = -i\frac{\partial}{\partial x}\psi\left(x\right). \end{aligned} }[/math] 可以验证如下: [math]\displaystyle{ \begin{aligned} \left(\hat{x}\hat{p}-\hat{p}\hat{x}\right)\psi\left(x\right) = -ix\frac{\partial}{\partial x}\psi\left(x\right) + i\frac{\partial}{\partial x}x\psi\left(x\right) = i\psi\left(x\right). \end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} \left[x, -i\frac{\partial}{\partial x}\right]=i. \end{aligned} }[/math] 现在我们来给一个更数学的说明(更严格的证明见喀兴林的《高等量子力学》)。从正则对易关系出发, [math]\displaystyle{ \begin{aligned} {\left\langle}x^{\prime} {\left|}i {\right|}x {\right\rangle}= {\left\langle}x^{\prime} {\left|}\left(\hat{x}\hat{p}-\hat{p}\hat{x}\right) {\right|}x {\right\rangle}= {\left\langle}x^{\prime} {\left|}\hat{p}\left(x^{\prime}-x\right) {\right|}x {\right\rangle}= \left(x^{\prime}-x\right) {\left\langle}x^{\prime} {\left|}\hat{p}{\right|}x {\right\rangle}\end{aligned} }[/math] 因此 [math]\displaystyle{ \begin{aligned} {\left\langle}x^{\prime} {\left|}\hat{p}{\right|}x {\right\rangle}= i\frac{{\left\langle}x^{\prime} {\left|}\right. x {\right\rangle}}{\left(x^{\prime}-x\right)} = i\frac{\delta\left(x^{\prime}-x\right)}{\left(x^{\prime}-x\right)} =-i\frac{\partial}{\partial x^{\prime}}\delta\left(x^{\prime}-x\right).\end{aligned} }[/math] 最后一步,我们利用了的性质,[math]\displaystyle{ x\delta^{\prime}\left(x\right) = -\delta\left(x\right) }[/math]或者说[math]\displaystyle{ -\delta^{\prime}\left(x\right) = \frac{\delta\left(x\right)}{x} }[/math](这两个表达式可以用分步积分证明。更严格的数学证明可以避开这两个等式。)。这个就是算符[math]\displaystyle{ \hat{p} }[/math][math]\displaystyle{ \hat{x} }[/math]的本征矢量的表象下的分量形式。这个表象称为位置表象。如果我们愿意,我们可以验证 [math]\displaystyle{ \begin{aligned} {\left\langle}x{\right|}\hat{p}{\left|}\psi {\right\rangle}= \sum_{x^{\prime}} {\left\langle}x{\right|}\hat{p} \left({\left|}x^{\prime}{\right\rangle}{\left\langle}x^{\prime}{\right|}\right){\left|}\psi {\right\rangle}= \sum_{x^{\prime}} -i\frac{\partial}{\partial x}\delta\left(x-x^{\prime}\right) \psi\left(x^{\prime}\right) = -i\frac{\partial}{\partial x}\psi\left(x\right). \end{aligned} }[/math] 以后,在位置表象下,当我们把一个状态矢量[math]\displaystyle{ {\left|}\psi {\right\rangle} }[/math]的投影函数[math]\displaystyle{ \psi\left(x\right) }[/math]看作我们所关注的状态的时候(默认基矢是[math]\displaystyle{ {\left|}x {\right\rangle} }[/math]),我们就简单把动量算符[math]\displaystyle{ \hat{p} }[/math]记作 [math]\displaystyle{ \begin{aligned} \hat{p} = -i\frac{\partial}{\partial x}. \end{aligned} }[/math] 现在,我们准备好了来写下和求解位置空间的Schrödinger方程了:用[math]\displaystyle{ H\left(\hat{x},\hat{p}\right) }[/math]来代替[math]\displaystyle{ H\left(x,p\right) }[/math],其中,在位置表象下[math]\displaystyle{ \hat{x}=x, \hat{p}=-i\frac{\partial}{\partial x} }[/math]。通常的量子力学书从这个方程开始学习量子力学。

[一维谐振子的量子化与求解]:经典一维谐振子的Langrangian是[math]\displaystyle{ L=\frac{1}{2}m\dot{x}^{2}-\frac{1}{2}m\omega^{2}_{0}x^{2} }[/math],求解对应的量子系统的Hamiltonian,以及最小能量值的本征态对应的本征函数,以及其时间演化。

首先,我们需要求出正则坐标和动量,其次要把它们看成算符,在位置表象下把这两个算符的具体分量形式写下来,然后我们把这些分量形式代入Schrödinger方程,求解本征函数以及时间演化。

[math]\displaystyle{ q=x }[/math],则[math]\displaystyle{ p=\frac{\partial}{\partial \dot{q}} = m\dot{x} \Rightarrow \dot{q}=\frac{p}{m} }[/math],于是[math]\displaystyle{ H=p\dot{q}-L = \frac{p^{2}}{2m}+\frac{1}{2}m\omega^{2}_{0}x^{2} }[/math]成了[math]\displaystyle{ q,p }[/math]的函数。然后,我们需要把[math]\displaystyle{ q,p }[/math]看作算符[math]\displaystyle{ \hat{q}, \hat{p} }[/math],并且让其对易关系[math]\displaystyle{ \left[\hat{q},\hat{p}\right]=i }[/math]。按照这个对易关系,我们已经知道在位置表象下,位置算符和动量算符的形式。于是,对于一维谐振子系统,其在位置表象下的形式是, [math]\displaystyle{ \begin{aligned} i\frac{\partial}{\partial t} \psi\left(x,t\right) = \left(-\frac{1}{2m}\frac{\partial^{2}}{\partial x^{2}} + \frac{1}{2}m\omega^{2}_{0}x^{2}\right) \psi\left(x,t\right). \end{aligned} }[/math]

在位置表象下,我们求解的程序还是和一般的抽象的算符,或者任何其他表象,一样的。首先,求得[math]\displaystyle{ H }[/math]的本征值[math]\displaystyle{ E_{n} }[/math]和本征向量[math]\displaystyle{ \phi_{n}\left(x\right) }[/math],这里称为本征函数;然后,利用这些个本征函数加上时间项组合起来([math]\displaystyle{ {\left|}\psi\left(t\right){\right\rangle}= \sum_{n} c_{n}{\left|}\phi_{n} {\right\rangle}e^{-iE_{n}t} }[/math],其中[math]\displaystyle{ c_{n} = {\left\langle}\phi_{n} {\right|}{\left.}\psi\left(0\right){\right\rangle} }[/math],或者合起来[math]\displaystyle{ {\left|}\psi\left(t\right){\right\rangle}= \sum_{n} {\left|}\phi_{n} {\right\rangle}e^{-iE_{n}t}{\left\langle}\phi_{n} {\right|}{\left.}\psi\left(0\right){\right\rangle} }[/math]),得到, [math]\displaystyle{ \begin{aligned} \psi\left(x,t\right) = \sum_{n} c_{n}\phi_{n}\left(x\right)e^{-iE_{n}t}, \end{aligned} }[/math] 其中 [math]\displaystyle{ \begin{aligned} c_{n} = \int^{\infty}_{-\infty} dx \phi^{*}_{n}\left(x\right)\psi\left(x,0\right),\end{aligned} }[/math] [math]\displaystyle{ \psi\left(x,0\right) }[/math]为初始状态对应着的波函数。

现在,我们来看看谐振子的本征波函数,其满足 [math]\displaystyle{ \begin{aligned} \left(-\frac{1}{2m}\frac{d^{2}}{dx^{2}} + \frac{1}{2}m\omega^{2}_{0}x^{2}\right) \phi_{n}\left(x\right) = E_{n} \phi_{n}\left(x\right). {\label{eq:HOSSE}}\end{aligned} }[/math] 这个方程当然是可以想办法直接求解的。我们这里,作为一个例子,我们仅仅想考虑这个方程最简单的解(除了[math]\displaystyle{ \phi_{n}\left(x\right)=0 }[/math]以外)。我们看到,如果[math]\displaystyle{ \phi_{n}\left(x\right) }[/math]的二阶导数刚好给出[math]\displaystyle{ x^{2} }[/math]项,那么方程左边的系数就会不依赖于[math]\displaystyle{ x }[/math],这样整个方程就简单了。也就是说大概[math]\displaystyle{ \phi\left(x\right)=e^{\alpha x^{2}} }[/math]就行:[math]\displaystyle{ \frac{d^{2}}{dx}\phi\left(x\right)=2\alpha e^{\alpha x^{2}} + 4\alpha^{2}x^{2} e^{\alpha x^{2}} }[/math]。于是[math]\displaystyle{ \alpha^{2}=\frac{1}{4}m^{2}\omega_{0}^2\Longrightarrow \alpha= -\frac{1}{2}m\omega_{0} }[/math](实际上正的[math]\displaystyle{ \alpha }[/math]是没有物理意义的,在[math]\displaystyle{ x }[/math]很大的时候发散。物理系统一般要求[math]\displaystyle{ \phi\left(x\right) }[/math]有限),而这个时候的本征能量[math]\displaystyle{ E_{0}=\frac{1}{2}\omega_{0} }[/math](能量下标[math]\displaystyle{ 0 }[/math]是有含义的。这里,我们不讨论这个问题)。因此, [math]\displaystyle{ \begin{aligned} \phi_{0}\left(x\right)=e^{-\frac{1}{2}m\omega_{0}x^{2}}, E_{0}=\frac{1}{2}\omega_{0}.\end{aligned} }[/math] 系统如果处于这个状态,那么其时间演化为 [math]\displaystyle{ \begin{aligned} \psi\left(x,t\right)=e^{-\frac{1}{2}m\omega_{0}x^{2}}e^{-i\frac{1}{2}\omega_{0}t}.\end{aligned} }[/math]

在这个例子中,我们讨论了位置表象下的[math]\displaystyle{ \hat{x} }[/math][math]\displaystyle{ \hat{p} }[/math],然后利用他们的形式,求解了一维谐振子的基态波函数(我们没有证明这个是基态,在下一个例子中,我们会顺便补充这个证明)。我们还以谐振子为例讨论了正则量子化的一般手续。

下面,我们再举一个例子,还是求解一维谐振子的Hamiltonian的本征值和本征态,但是不在任何表象中求解,而是直接利用对易关系。这个解法也因此被称为代数解法。这个解法是科学发展历史上的一件艺术品,是很多量子力学的进一步理论的发展的基础。科学中有大美——用简单和统一的理论来描述这个世界,也有精巧的小美——妙手偶得的有时候还意义深远的优雅小品。

代数解法与能量表象

[一维谐振子的代数解法]:经典一维谐振子的Hamiltonian是[math]\displaystyle{ H=\frac{\hat{p}^{2}}{2m}+\frac{1}{2}m\omega^{2}_{0}\hat{x}^{2} }[/math],求解其本征能量。

上一节我们已经利用Shrödinger绘景的运动方程——Shrödinger把谐振子的本征值的问题转化为一个微分方程的本征函数的问题,见公式[math]\displaystyle{ \left(\ref{eq:HOSSE}\right) }[/math]。这一节,我们用Heisenberg绘景的运动方程——Heisenberg方程来求解同一个问题。在上一节中,我们已经能够注意到所有的计算都从最基本的对易关系,公式[math]\displaystyle{ \left(\ref{eq:pqcommutator}\right) }[/math]开始。现在,我们还是从这里开始。

首先,让我们来写下算符[math]\displaystyle{ \hat{x}^{H} }[/math][math]\displaystyle{ \hat{p}^{H} }[/math]的演化方程。为了记号简单,对于算符[math]\displaystyle{ \hat{x}^{H},\hat{p}^{H} }[/math],我们就直接用[math]\displaystyle{ x,p }[/math]了。注意,在这里它们是时间的函数。 [math]\displaystyle{ \begin{aligned} \dot{x}=-i\left[x,H\right] = -i\frac{1}{2m}\left[x,p^{2}\right] = -i\frac{1}{2m}\left(p\left[x,p\right]+\left[x,p\right]p\right) = \frac{1}{m}p, \\ \dot{p}=-i\left[p,H\right] = -i\frac{1}{2}m\omega^{2}_{0}\left[p,x^{2}\right] = -m\omega^{2}_{0}x.\end{aligned} }[/math] 联合这两个方程,我们得到 [math]\displaystyle{ \begin{aligned} \ddot{x}= -\omega^{2}_{0}x.\end{aligned} }[/math] 考虑到初始条件 [math]\displaystyle{ \begin{aligned} x\left(0\right)=x^{S}, \\ p\left(0\right)=p^{S},\end{aligned} }[/math] 我们有 [math]\displaystyle{ \begin{aligned} x\left(t\right)=x^{S}\cos{\left(\omega_{0}t\right)} + \frac{p^{S}}{m\omega_{0}}\sin{\left(\omega_{0}t\right)}, \\ p\left(t\right)=p^{S}\cos{\left(\omega_{0}t\right)} - x^{S}m\omega_{0}\sin{\left(\omega_{0}t\right)}. \end{aligned} }[/math] 于是,任何其他物理量都可以通过这两个算符得到。例如, [math]\displaystyle{ \begin{aligned} x^{2}\left(t\right)=x^{S}x^{S}\cos^{2}{\left(\omega_{0}t\right)} + \frac{p^{S}p^{S}}{m^{2}\omega^{2}_{0}}\sin^{2}{\left(\omega_{0}t\right)} \notag \\ + \cos{\left(\omega_{0}t\right)} \sin{\left(\omega_{0}t\right)}\frac{p^{S}}{m\omega_{0}}\left(x^{S}p^{S}+p^{S}x^{S}\right).\end{aligned} }[/math] 如果我们需要把理论的结果于实验的对比,那么,我们就可以从[math]\displaystyle{ {\left\langle}x^{s}{\right\rangle}={\left\langle}\psi\left(0\right){\right|}x^{s}{\left|}\psi\left(0\right){\right\rangle} }[/math][math]\displaystyle{ {\left\langle}p^{s}{\right\rangle} }[/math][math]\displaystyle{ {\left\langle}x^{s}x^{s}{\right\rangle} }[/math][math]\displaystyle{ {\left\langle}p^{s}p^{s}{\right\rangle} }[/math]等等得到所有的可观测量的理论值了。

到这里,量子力学的问题似乎也完全解决了。但是,我们却没有解开这个例题所问的问题:本征能量是多少?解决这个问题需要一些额外的技巧。

定义湮灭算符(这个名字之后会解释) [math]\displaystyle{ \begin{aligned} a=\frac{1}{\sqrt{2m\omega_{0}}}\left(m\omega_{0}x+ip\right),\end{aligned} }[/math] 则产生算符(这个名字之后会解释) [math]\displaystyle{ \begin{aligned} a^{\dag}=\frac{1}{\sqrt{2m\omega_{0}}}\left(m\omega_{0}x-ip\right).\end{aligned} }[/math] 可以验证, [math]\displaystyle{ \begin{aligned} H=\omega_{0}\left(a^{\dag}a+\frac{1}{2}\right), {\label{eq:HSOaadag}}\end{aligned} }[/math] 而且 [math]\displaystyle{ \begin{aligned} \left[a,a^{\dag}\right]=1. {\label{eq:Commutatoraadag}}\end{aligned} }[/math] 按照我们上一节的经验,公式[math]\displaystyle{ \left(\ref{eq:HSOaadag}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:Commutatoraadag}\right) }[/math]就完整地定义了一个量子力学系统——对于量子系统,我们只需要一个Hamiltonian和一个对易关系。现在,我们开始讨论公式[math]\displaystyle{ \left(\ref{eq:HSOaadag}\right) }[/math]——这个新的形式下的谐振子。

第一步,我们来看一看产生湮灭算符的方程, [math]\displaystyle{ \begin{aligned} \dot{a}=-i\omega_{0}a, \\ \dot{a}^{\dag}=i\omega_{0}a^{\dag}.\end{aligned} }[/math] 于是,其解就是 [math]\displaystyle{ \begin{aligned} a=e^{-i\omega_{0}t}a^{S}, \\ a^{\dag}=e^{i\omega_{0}t}a^{\dag,S}.\end{aligned} }[/math] 这一步,如果你仔细看的话,实际上就是把[math]\displaystyle{ x,p }[/math]满足的方程做了对角化。结果就是,得到的算符的方程非常简单,方程中仅仅包含自己这个算符,不包含其它算符。这个特征——不相互耦合的方程——对于求解方程非常重要。到这里,我们也就是再一次求解了一次Heisenberg方程。关键在于下面的步骤。

第二步,我们来证明:如果[math]\displaystyle{ a^{\dag}a }[/math](与[math]\displaystyle{ H }[/math]仅仅相差一个常数)的本征值是[math]\displaystyle{ n }[/math]的话(相应的本征向量为[math]\displaystyle{ {\left|}n {\right\rangle} }[/math]),[math]\displaystyle{ a{\left|}n {\right\rangle} }[/math]以及[math]\displaystyle{ a^{\dag}{\left|}n {\right\rangle} }[/math]也是[math]\displaystyle{ a^{\dag}a }[/math]的本征向量,仅仅本征值不一样。 [math]\displaystyle{ \begin{aligned} a^{\dag}a \cdot a {\left|}n {\right\rangle}= \left(a^{\dag}a-aa^{\dag}+aa^{\dag}\right) \cdot a {\left|}n {\right\rangle}= \left(-1+n\right) a{\left|}n {\right\rangle}, \\ a^{\dag}a \cdot a^{\dag} {\left|}n {\right\rangle}= a^{\dag}\left(aa^{\dag}-a^{\dag}a+a^{\dag}a\right) \cdot a {\left|}n {\right\rangle}= \left(1+n\right) a^{\dag}{\left|}n {\right\rangle}.\end{aligned} }[/math] 于是,看起来 [math]\displaystyle{ \begin{aligned} a {\left|}n {\right\rangle}\propto {\left|}n-1 {\right\rangle}, \\ a^{\dag} {\left|}n {\right\rangle}\propto {\left|}n+1 {\right\rangle}.\end{aligned} }[/math] 我们可以求得系数, [math]\displaystyle{ \begin{aligned} \left({\left\langle}n {\right|}a^{\dag}\right) \left(a {\left|}n {\right\rangle}\right) = n \Rightarrow a {\left|}n {\right\rangle}= \sqrt{n}{\left|}n-1 {\right\rangle}.\end{aligned} }[/math] 以及类似的 [math]\displaystyle{ \begin{aligned} a^{\dag} {\left|}n {\right\rangle}= \sqrt{n+1}{\left|}n+1 {\right\rangle}.\end{aligned} }[/math] 现在,我们知道,[math]\displaystyle{ H }[/math]的本征值就是这些[math]\displaystyle{ n }[/math],考虑到常数和系数,我们有 [math]\displaystyle{ \begin{aligned} E_{n} = \omega_{0}\left(n+\frac{1}{2}\right).\end{aligned} }[/math]

第三步,我们来证明这些[math]\displaystyle{ n }[/math]只能够是非负整数。从某一个[math]\displaystyle{ n }[/math]开始,我们用算符[math]\displaystyle{ a }[/math],可以得到所有的本征值小于[math]\displaystyle{ n }[/math]的所有的本征向量,这个本征向量可以是无穷多个, [math]\displaystyle{ \begin{aligned} {\left|}n-1 {\right\rangle}= \frac{1}{\sqrt{n}}a {\left|}n {\right\rangle}.\end{aligned} }[/math] 总有一天,这个本征向量的本征值会小于零,例如[math]\displaystyle{ {\left|}n-\left[n+1\right] {\right\rangle}\propto a^{\left[n+1\right]}{\left|}n {\right\rangle} }[/math]。只要这个本征值小于零,那么 [math]\displaystyle{ \begin{aligned} \left({\left\langle}n -\left[n+1\right] {\right|}a^{\dag}\right) \left(a {\left|}n -\left[n+1\right] {\right\rangle}\right) = n-\left[n+1\right]\lt 0.\end{aligned} }[/math] 但是,[math]\displaystyle{ \left({\left\langle}n -\left[n+1\right] {\right|}a^{\dag}\right) \left(a {\left|}n -\left[n+1\right] {\right\rangle}\right)\geq 0 }[/math]是一个向量自身的内积。于是,这个把本征值不停地减少的过程就不能一直做下去,必须在大于等于零的地方自然截断。唯一满足着个要求的可能就是[math]\displaystyle{ n }[/math]是非负整数,于是,[math]\displaystyle{ \sqrt{n-\left[n\right]}=0 }[/math]。于是,如果继续减少本征值,就会出现 [math]\displaystyle{ \begin{aligned} {\left|}-1 {\right\rangle}\propto a{\left|}0 {\right\rangle}= \sqrt{0}{\left|}-1 {\right\rangle}= 0.\end{aligned} }[/math]

结论,[math]\displaystyle{ H }[/math]的本征值是[math]\displaystyle{ \omega_{0}\left(n+\frac{1}{2}\right) }[/math],其中[math]\displaystyle{ n }[/math]为非负整数。

这个问题回答完了,但是这个求解方法具有一般的意义。算符[math]\displaystyle{ a }[/math]的含义是把本征值不停地减少,算符[math]\displaystyle{ a^{\dag} }[/math]的含义是把本征值不停地增加。如果我们把本征向量[math]\displaystyle{ {\left|}n {\right\rangle} }[/math]看做是一个有[math]\displaystyle{ n }[/math]个能量粒子的状态,那么算符[math]\displaystyle{ a }[/math]的含义就是消灭粒子,算符[math]\displaystyle{ a^{\dag} }[/math]的含义是产生粒子。所以,它们被叫做湮灭和产生算符。更进一步,我们可以通过真空状态[math]\displaystyle{ {\left|}0 {\right\rangle} }[/math]和产生算符来定义所有的本征态, [math]\displaystyle{ \begin{aligned} {\left|}n {\right\rangle}= \frac{\left(a^{\dag}\right)^{n}}{\sqrt{n!}}{\left|}0 {\right\rangle}.\end{aligned} }[/math]

在能量本征态[math]\displaystyle{ \left\{{\left|}n {\right\rangle}\right\} }[/math]构成的表象下,我们来计算几个算符。例如 [math]\displaystyle{ \begin{aligned} H = \sum_{n}E_{n}{\left|}n {\right\rangle}{\left\langle}n {\right|}= \sum_{n}\left(n+\frac{1}{2}\right)\omega_{0}{\left|}n {\right\rangle}{\left\langle}n {\right|},\end{aligned} }[/math] [math]\displaystyle{ \begin{aligned} a = \sum_{n}a{\left|}n {\right\rangle}{\left\langle}n {\right|}= \sum_{n}\sqrt{n}{\left|}n-1 {\right\rangle}{\left\langle}n {\right|},\end{aligned} }[/math][math]\displaystyle{ \begin{aligned} a^{\dag} = \sum_{n}a^{\dag}{\left|}n {\right\rangle}{\left\langle}n {\right|}= \sum_{n}\sqrt{n+1}{\left|}n+1 {\right\rangle}{\left\langle}n {\right|}.\end{aligned} }[/math] 注意,现在这些算符都成了矩阵。利用[math]\displaystyle{ \hat{x}, \hat{p} }[/math][math]\displaystyle{ a,a^{\dag} }[/math]算符的关系,我们就可以得到能量表象下算符[math]\displaystyle{ \hat{x}, \hat{p} }[/math]的形式。于是,[math]\displaystyle{ \hat{x}, \hat{p} }[/math]也成了矩阵。

代数解法的更多细节:一切都是对易关系[math]\displaystyle{ ^{*} }[/math]

这一节为选读内容。

回到我们一开始的[math]\displaystyle{ \hat{x}, \hat{p} }[/math]算符的形式,我们发现在谐振子的问题中的任意一个算符都能够用[math]\displaystyle{ \hat{x}, \hat{p} }[/math]来表达,而[math]\displaystyle{ \hat{x}, \hat{p} }[/math]可以用[math]\displaystyle{ a,a^{\dag} }[/math]来表达,例如 [math]\displaystyle{ \begin{aligned} \hat{A} = A\left(a,a^{\dag}\right) = \sum_{m=0,n=0}^{\infty} A_{m,n}\left(a^{\dag}\right)^{m}a^{n}.\end{aligned} }[/math] 后者的时间演化又是完全已知的。于是, [math]\displaystyle{ \begin{aligned} \hat{A}^{H}\left(t\right) = \sum_{m=0,n=0}^{\infty} e^{-i\left(n-m\right)\omega_{0}t}A_{m,n}\left(a^{\dag}\right)^{m}a^{n}\end{aligned} }[/math] 给定任何一个初始状态——波函数或者密度矩阵,这里以波函数[math]\displaystyle{ {\left|}\psi\left(0\right) {\right\rangle} }[/math]为例,肯定可以写成本征向量的叠加,也就是 [math]\displaystyle{ \begin{aligned} {\left|}\psi\left(0\right) {\right\rangle}= \sum_{n} C_{n} {\left|}n {\right\rangle}= \sum_{n} C_{n}\frac{\left(a^{\dag}\right)^{n}}{\sqrt{n!}}{\left|}0 {\right\rangle}.\end{aligned} }[/math] 于是,算符[math]\displaystyle{ \hat{A} }[/math]在任意时刻的平均值可以写成, [math]\displaystyle{ \begin{aligned} {\left\langle}\psi\left(0\right) {\right|}\hat{A}^{H}\left(t\right) {\left|}\psi\left(0\right) {\right\rangle}\notag \\ = \sum_{i} C^{*}_{i}\frac{a^{i}}{\sqrt{i!}}{\left\langle}0 {\right|}\sum_{m=0,n=0}^{\infty} e^{-i\left(n-m\right)\omega_{0}t}A_{m,n}\left(a^{\dag}\right)^{m}a^{n} \sum_{j} C_{j}\frac{\left(a^{\dag}\right)^{j}}{\sqrt{j!}}{\left|}0 {\right\rangle}\notag \\ = \sum_{ijmn} e^{-i\left(n-m\right)\omega_{0}t}C^{*}_{i}C_{j}A_{m,n}\frac{1}{\sqrt{i!j!}}{\left\langle}0 {\right|}a^{i}\left(a^{\dag}\right)^{m}a^{n} \left(a^{\dag}\right)^{j}{\left|}0 {\right\rangle}.\end{aligned} }[/math] 这样所有的物理量的计算的问题就成了计算 [math]\displaystyle{ \begin{aligned} {\left\langle}0 {\right|}a^{i}\left(a^{\dag}\right)^{m}a^{n} \left(a^{\dag}\right)^{j}{\left|}0 {\right\rangle}\end{aligned} }[/math] 的问题,而这个问题可以完全通过对易来求解——交换[math]\displaystyle{ a^{n} }[/math][math]\displaystyle{ \left(a^{\dag}\right)^{j} }[/math]的顺序,我们得到形如[math]\displaystyle{ a{\left|}0 {\right\rangle} }[/math]的表达式,它就是零;交换[math]\displaystyle{ a^{i} }[/math][math]\displaystyle{ \left(a^{\dag}\right)^{m} }[/math]的顺序,我们得到形如[math]\displaystyle{ {\left\langle}0 {\right|}a^{\dag} }[/math]的表达式,它就是零。于是,[math]\displaystyle{ {\left\langle}0 {\right|}a^{i}\left(a^{\dag}\right)^{m}a^{n} \left(a^{\dag}\right)^{j}{\left|}0 {\right\rangle} }[/math]的非零部分就是通过一系列的对易关系计算以后得到的剩余项。

通过这个讨论,我们得到一个认识:关于一维谐振子的任意物理量在任何时刻的平均值都可以通过一系列算符[math]\displaystyle{ a,a^{\dag} }[/math]的对易关系得到。这个结论是一个非常强的结论,以后的进一步的量子理论例如量子场论的学习都从这里开始。这一节的内容有一定的难度,计算也跳过了很多步骤,是选学内容。

作业

对于[math]\displaystyle{ L=\frac{1}{2}m\dot{x}^2-V\left(x\right) }[/math]的系统,推导出来位置表象下的Schrödinger方程。

对于[math]\displaystyle{ L=\frac{1}{2}m\dot{x}^2-V\left(x\right) }[/math]的系统,推导出来动量表象下的Schrödinger方程。

对于满足如下形式的[math]\displaystyle{ V\left(x\right) }[/math]的量子系统,求解位置表象下的Schrödinger方程(求出本征向量,本征值,给定一般的初始条件的本征态组合系统的确定方式), [math]\displaystyle{ \begin{aligned} V\left(x\right) = \begin{cases} 0 & {\left|}x{\right|}\leq 1\\ \infty & \mbox{otherwise} \end{cases}\end{aligned} }[/math] 这样的[math]\displaystyle{ V }[/math]被称作一维无线深势阱。

独立(不看书,或者看完书以后)完成一维谐振子的代数解法。产生湮灭算符对于深入理解和进一步学习量子力学非常的重要。

一维谐振子的算符[math]\displaystyle{ \hat{x} }[/math][math]\displaystyle{ \hat{p} }[/math],还有[math]\displaystyle{ H }[/math]对应的[math]\displaystyle{ A_{m,n} }[/math]的形式。

本章小结

这一章,我们学习了位置表象中的量子力学算符、态矢量和演化方程的形式,以及它们与一般的抽象的不在某个表象下的量子力学的形式的联系。

在这里,我们还发现,一个量子力学系统的最核心的内容是基本算符的对易关系——位置算符和动量算符的对易子不为零。基于这个对易关系的从经典力学到量子力学的过度叫做正则量子化。通过量子实验与经典概率论的对比,我们已经知道密度矩阵的非对角元对于解释量子现象的重要性。如果所有的算符都对易,那么它们存在共同本征向量,在这个本征向量构成的基矢下面,所有的算符只有对角元。因此,非对角元就没有存在的必要了。于是,量子力学的实验就不可能得到解释。在这个意义上,有的人说,量子力学的核心就是算符的非对易关系。当然,我们更加强调,量子力学的核心是,在一般的表象下,密度矩阵的非对角元的存在。两者是一致的。

除了正则量子化,一个经典系统的对应的量子理论还可以通过路径积分量子化等其它方法来构建。这里就不再讨论关于路径积分量子化的方法,尽管正像Feynman说的,任何一个严肃的物理学家都应该在脑子里对一种理论存在多种等价的表述方式。我们这里提到的表象理论,是指一个抽象定义的算符,通常仅仅通过对易关系定义的算符,可以在某一个算符的本征矢量做基矢的情况下表示出来(把各个分量求出来)。这个时候,有可能一个算符在一套基矢下的形式和另外一套基矢下的形式完全不一样,但是它们表示同一个算符。更一般地来说,一个理论的不同形式,也可以看成是这个理论的不同表象。

再次强调,具体采用什么算符的本征态当作表象的基矢不重要,抽象算符之间的对易关系最重要。

耦合量子系统的状态与测量

[Chap:EngtangleMeasure]

我们已经学习了量子力学的基本内容:状态是Hilbert空间内的矢量或者跟一般地密度矩阵,物理量是这个空间上的算符,测量就是建立一个从这个密度算符到一个以被测量算符的本征值和本征态构成的事件空间的概率分布的映射,演化就是给定一个外界对系统的作用形式[math]\displaystyle{ H }[/math]以后得到状态的一个以时间为参数的幺正变换。一直到现在,我们考虑的系统都是一个二维的可以看作是一个叫自旋的东西。现在,在这个部分,我们来考虑两个自旋构成的耦合系统。

按照经典概率论,从一个硬币的状态到两个硬币状态,概率论还是原来的概率论,唯一需要额外考虑的东西就是两个自旋的关联,也就是[math]\displaystyle{ P\left(S_{1},S_{2}\right) }[/math]是否等于[math]\displaystyle{ P\left(S_{1}\right)P\left(S_{2}\right) }[/math]。对于量子系统,我们来看一下,这个时候需要额外考虑的是什么。

直积空间

正如两个硬币的状态是[math]\displaystyle{ 2^{2}=4 }[/math]个(正正、正反、反正、反反),两个自旋的状态的空间维数也是两个各自的自旋的状态的维数的乘积[math]\displaystyle{ 4=2^{2} }[/math],基本的状态——也就是空间的一组自然的基矢也可以写成如下四个, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}, {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}, {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}, {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle},\end{aligned} }[/math] 其中写在第一和第二位置的自旋状态符号分别表示第一个和第二个自旋的状态。这[math]\displaystyle{ 4 }[/math]个基矢中的每一个都是原来的二维空间的基矢的直积形式,因此有的时候被称作直积基矢。由于量子系统状态矢量的可叠加性(硬币没有),这个[math]\displaystyle{ 4 }[/math]维空间的基矢还可以换成另外的一组,例如, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}, \frac{{\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}+ {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}}{\sqrt{2}}, {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}, \frac{{\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}}{\sqrt{2}}.\end{aligned} }[/math] 这一组基矢的特点是,当我们交换两个自旋的编号的时候,前面的[math]\displaystyle{ 3 }[/math]个不变,最后的那个改变一个符号。这样的特殊的对称性在很多问题中有特别的意义。前面三个被称为对称基矢,后面的一个被称为反称基矢。有的时候,我们也会采用一组叫做Bell态的基矢, [math]\displaystyle{ \begin{aligned} \frac{{\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}}{\sqrt{2}}, \frac{{\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}}{\sqrt{2}}, \frac{{\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}+ {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}}{\sqrt{2}}, \frac{{\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}}{\sqrt{2}}.\end{aligned} }[/math] 这组基矢的对称性与上一组一样。在下面的讨论中,我们会用到这组基矢。有的时候,我们用一组特定的符号来表示这四个Bell态,分别记为[math]\displaystyle{ {\left|}\Phi^{+}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\Phi^{-}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\Psi^{+}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\Psi^{-}{\right\rangle} }[/math]

这四个基矢构成的[math]\displaystyle{ 4 }[/math]维的Hilbert空间实际上是两个[math]\displaystyle{ 2 }[/math]维的Hilbert空间的直积,[math]\displaystyle{ H=H^{1}\otimes H^{2} }[/math]。一个一般的状态矢量可以是, [math]\displaystyle{ \begin{aligned} {\left|}\psi{\right\rangle}= \alpha {\left|}\Phi^{+}{\right\rangle}+ \beta {\left|}\Phi^{-}{\right\rangle}+ \gamma {\left|}\Psi^{+}{\right\rangle}+ \eta {\left|}\Psi^{-}{\right\rangle},\end{aligned} }[/math] 其中[math]\displaystyle{ {\left|}\alpha^{2}{\right|}+ {\left|}\beta^{2}{\right|}+ {\left|}\gamma^{2}{\right|}+ {\left|}\eta^{2}{\right|}= 1 }[/math]。这个空间的状态也可以用第一组直积形式的基矢来表达,例如 [math]\displaystyle{ \begin{aligned} {\left|}\psi{\right\rangle}= \alpha^{\prime} {\left|}\uparrow_{z}\uparrow_{z}{\right\rangle}+ \beta^{\prime} {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}+ \gamma^{\prime} {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}+ \eta^{\prime} {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}.\end{aligned} }[/math] 这样的一个状态一般不能写成两个二维空间矢量的直积,也就是 [math]\displaystyle{ \begin{aligned} {\left|}\psi{\right\rangle}\neq {\left|}\psi^{1}{\right\rangle}{\left|}\psi^{2}{\right\rangle}.\end{aligned} }[/math][math]\displaystyle{ \alpha^{\prime}=1 }[/math],其它分量等于零的时候, [math]\displaystyle{ \begin{aligned} {\left|}\psi{\right\rangle}= {\left|}\uparrow_{z}\uparrow_{z}{\right\rangle},\end{aligned} }[/math] 是一个直积状态。当[math]\displaystyle{ \alpha^{\prime} }[/math][math]\displaystyle{ \eta^{\prime} }[/math]不等于零,其它等于零的时候,就不是直积状态。在Bell态作为基矢的展开形式下,就算其中的一个分量唯一,其它都为零——也就是状态就是Bell态本身——也不是直积状态。这个直积态和非直积态的区别与经典概率论的独立分布函数和关联分布函数非常像,但是我们很快会看见它们的区别。更一般地来说,用密度矩阵的语言,满足下面等式的状态就叫做直积态,否则称为非直积态, [math]\displaystyle{ \begin{aligned} \rho = \rho^{1}\otimes \rho^{2},\end{aligned} }[/math] 其中[math]\displaystyle{ \rho^{i} = tr^{\left(-i\right)}\left(\rho\right) }[/math],而[math]\displaystyle{ tr^{\left(-i\right)} }[/math]表示对除了[math]\displaystyle{ i }[/math]系统的自由度之外的其它自由度都求迹。

在经典概率论中,非直积态被称为关联态。在量子力学中,非直积态有的时候也被称为关联态,或者纠缠态。在有的物理学家的语言中,纠缠态是一个更严格的概念,代表了更小的状态集合。这个更狭义的纠缠态的定义我们会在本节的稍后一点介绍。

有了耦合系统的状态的一般概念之后,我们按照我们之前讨论量子系统的惯例,来讨论耦合量子系统的测量和状态演化。在此之前,我们先来回顾一下经典耦合系统的测量。

经典关联态的测量

我们从最简单的开始,测量两个独立的完全对称的硬币,其状态为 [math]\displaystyle{ \begin{aligned} \rho^{12,C} = \frac{1}{4}{\left|}\uparrow\uparrow {\right\rangle}{\left\langle}\uparrow\uparrow {\right|}+\frac{1}{4}{\left|}\uparrow\downarrow {\right\rangle}{\left\langle}\uparrow\downarrow {\right|}+\frac{1}{4}{\left|}\downarrow\uparrow {\right\rangle}{\left\langle}\downarrow\uparrow {\right|}+\frac{1}{4}{\left|}\downarrow\downarrow {\right\rangle}{\left\langle}\downarrow\downarrow {\right|}.\end{aligned} }[/math] 测量得到的可能的状态是 [math]\displaystyle{ \begin{aligned} {\left|}\uparrow\uparrow {\right\rangle}{\left\langle}\uparrow\uparrow {\right|}, {\left|}\uparrow\downarrow {\right\rangle}{\left\langle}\uparrow\downarrow {\right|}, {\left|}\downarrow\uparrow {\right\rangle}{\left\langle}\downarrow\uparrow {\right|}, {\left|}\downarrow\downarrow {\right\rangle}{\left\langle}\downarrow\downarrow {\right|}\end{aligned} }[/math] 这四个,得到这些状态的几率分别是 [math]\displaystyle{ \begin{aligned} P_{\uparrow\uparrow}, P_{\uparrow\downarrow}, P_{\downarrow\uparrow}, P_{\downarrow\downarrow}.\end{aligned} }[/math] 它们的取值都是[math]\displaystyle{ \frac{1}{4} }[/math]

于是,当我们发现第一个硬币是正面的时候,我们得到第二个硬币的状态为[math]\displaystyle{ S^{2} }[/math]概率为, [math]\displaystyle{ \begin{aligned} P\left(S^{2}\left|\right.S^{1}=\uparrow\right)=\frac{P\left(S^{2},S^{1}=\uparrow\right)}{P\left(S^{1}=\uparrow\right)}=\frac{1}{2}.\end{aligned} }[/math] 也就是说,知道了关于第一个硬币的知识不增加我们任何关于第二个硬币的知识。这也就是独立硬币的含义。

现在,我们来考虑两个用一根神奇的“红线”连接在一起的硬币,它们俩总是显示相同的一面(我们暂时忽略在经典硬币上是如何实现这个“总是显示相同”这个问题),也就是 [math]\displaystyle{ \begin{aligned} \rho^{12,C} = \frac{1}{2}{\left|}\uparrow\uparrow {\right\rangle}{\left\langle}\uparrow\uparrow {\right|}+ \frac{1}{2}{\left|}\downarrow\downarrow {\right\rangle}{\left\langle}\downarrow\downarrow {\right|}.\end{aligned} }[/math] 测量得到的可能的状态是 [math]\displaystyle{ \begin{aligned} {\left|}\uparrow\uparrow {\right\rangle}{\left\langle}\uparrow\uparrow {\right|}, {\left|}\downarrow\downarrow {\right\rangle}{\left\langle}\downarrow\downarrow {\right|}\end{aligned} }[/math] 这两个,得到这些状态的几率分别是 [math]\displaystyle{ \begin{aligned} P_{\uparrow\uparrow}, P_{\downarrow\downarrow}.\end{aligned} }[/math] 它们的取值都是[math]\displaystyle{ \frac{1}{2} }[/math]

于是,当我们发现第一个硬币是正面的时候,我们得到第二个硬币的状态为[math]\displaystyle{ S^{2} }[/math]概率为, [math]\displaystyle{ \begin{aligned} P\left(S^{2}=\uparrow\left|\right.S^{1}=\uparrow\right)=\frac{P\left(S^{2}=\uparrow,S^{1}=\uparrow\right)}{P\left(S^{1}=\uparrow\right)}=\frac{P\left(S^{2}=\uparrow,S^{1}=\uparrow\right)}{P\left(S^{2}=\uparrow, S^{1}=\uparrow\right)}=1.\end{aligned} }[/math] 在这里我们发现,当知道第一个硬币的状态是向上的时候,第二个硬币的状态必然向上,不可能向下。这个也就是完全相同(两个状态百分之一百关联在一起)的硬币的含义。考虑两个完全相反的硬币,我们可以得到类似的结果。

这样的完全关联在一起的随机变量是一个可以想象的东西,而且,想象这样一个东西的难度不会比想象一个随机的硬币的难度高,尽管想象一个随机的硬币已经不是一件简单的事情。如果有一个随机的硬币,我们找出来其中的随机的核心——例如一个随机数生成器,然后利用这个生成器产生的数据同时来控制这两个硬币的状态就可以了。因此,如果我们假设一份经典随机数可以用来控制两个系统的状态,那么,想象两个关联在一起的硬币的难度,完全就是想象一个随机硬币的难度。对于存在一个真随机的硬币,我们没有觉得多么不可思议。于是,对于存在两个完全关联的硬币,我们也没有觉得多么不可思议。顺便说一下,这个“一份随机数可以用来控制两个系统”的假设,实际上依赖于经典信号的可复制性——给定一个经典信号[math]\displaystyle{ 0 }[/math]或者[math]\displaystyle{ 1 }[/math],我们可以在不用观察得到这个信号的真值的条件下,复制一个相同的信号。以后,我们还会回到这个问题。

下面,我们来看耦合起来的两个量子自旋的测量。

量子纠缠态的测量

[Sec:EngtangleMeasure]

我们来考虑两个处于下面这个状态的自旋的测量, [math]\displaystyle{ \begin{aligned} \rho^{12,Q} = \frac{1}{2}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}\right)\left({\left\langle}\uparrow_{z}\uparrow_{z} {\right|}+ {\left\langle}\downarrow_{z}\downarrow_{z} {\right|}\right).\end{aligned} }[/math] 例如,我们考虑测量第一个自旋的[math]\displaystyle{ z }[/math]方向,第二个自旋的[math]\displaystyle{ z }[/math]方向。对于这个测量,我们的相当于测量一组相互对易的两个算符的本征值和相应的几率, [math]\displaystyle{ \begin{aligned} O_{1} = \sigma^{1}_{z}\otimes I^{2}, O_{2} = I^{1} \otimes \sigma^{2}_{z}.\end{aligned} }[/math] 其本征向量分别为如下四个(这里我们取了相互对易的两个算符的共同本征态,证明这些状态就是这样的共同本征态的任务留作练习), [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}, {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}, {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}, {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}.\end{aligned} }[/math] 于是这四个状态出现的相应的几率分别是,

[math]\displaystyle{ \begin{aligned} P_{\uparrow_{z}\uparrow_{z}} = {\left\langle}\uparrow_{z}\uparrow_{z} {\right|}\rho^{12,Q} {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}= \frac{1}{2}, \\ P_{\uparrow_{z}\downarrow_{z}} = {\left\langle}\uparrow_{z}\downarrow_{z} {\right|}\rho^{12,Q} {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}= 0, \\ P_{\downarrow_{z}\uparrow_{z}} = {\left\langle}\downarrow_{z}\uparrow_{z} {\right|}\rho^{12,Q} {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}= 0, \\ P_{\downarrow_{z}\downarrow_{z}} = {\left\langle}\downarrow_{z}\downarrow_{z} {\right|}\rho^{12,Q} {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}= \frac{1}{2}. \end{aligned} }[/math]

也就是得到的结果是两个自旋都向上的可能性是[math]\displaystyle{ \frac{1}{2} }[/math],都向下的可能性也是[math]\displaystyle{ \frac{1}{2} }[/math],但是不会有不相同的时候。这个结论和上面那个测量两个完全关联的硬币是一样的。我们还可以得到更有意思的结果。

计算视角一:一组对易算符的测量

假设我们测量一个自旋的[math]\displaystyle{ x }[/math]方向,第二个自旋的[math]\displaystyle{ x }[/math]方向。对于这个测量,我们的相当于测量一组相互对易的两个算符的本征值和相应的几率, [math]\displaystyle{ \begin{aligned} O_{1} = \sigma^{1}_{x}\otimes I^{2}, O_{2} = I^{1} \otimes \sigma^{2}_{x}.\end{aligned} }[/math] 其本征向量分别为如下四个, [math]\displaystyle{ \begin{aligned} {\left|}\uparrow_{x}\uparrow_{x} {\right\rangle}, {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle}, {\left|}\downarrow_{x}\uparrow_{x} {\right\rangle}, {\left|}\downarrow_{x}\downarrow_{x} {\right\rangle}.\end{aligned} }[/math] 于是这四个状态出现的相应的几率分别是,

[math]\displaystyle{ \begin{aligned} P_{\uparrow_{x}\uparrow_{x}} = {\left\langle}\uparrow_{x}\uparrow_{x} {\right|}\rho^{12,Q} {\left|}\uparrow_{x}\uparrow_{x} {\right\rangle}= \frac{1}{2}, {\label{eq:entanglmentX1}}\\ P_{\uparrow_{x}\downarrow_{x}} = {\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\rho^{12,Q} {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle}= 0, {\label{eq:entanglmentX2}}\\ P_{\downarrow_{x}\uparrow_{x}} = {\left\langle}\downarrow_{x}\uparrow_{x} {\right|}\rho^{12,Q} {\left|}\downarrow_{x}\uparrow_{x} {\right\rangle}= 0, \\ P_{\downarrow_{x}\downarrow_{x}} = {\left\langle}\downarrow_{x}\downarrow_{x} {\right|}\rho^{12,Q} {\left|}\downarrow_{x}\downarrow_{x} {\right\rangle}= \frac{1}{2}. \end{aligned} }[/math]

也就是得到的结果是两个自旋都向上的可能性是[math]\displaystyle{ \frac{1}{2} }[/math],都向下的可能性也是[math]\displaystyle{ \frac{1}{2} }[/math],但是不会有不相同的时候。这个结果和同时测量两个自旋的[math]\displaystyle{ z }[/math]方向完全一致。

我们举例计算其中的第二个等式,公式[math]\displaystyle{ \left(\ref{eq:entanglmentX2}\right) }[/math]

[math]\displaystyle{ \begin{aligned} {\label{eq:EntangleDiagonal}} P_{\uparrow_{x}\downarrow_{x}} = {\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\rho^{12,Q} {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle}= \frac{1}{2}{\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z}\uparrow_{z} {\right|}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}{\left\langle}\downarrow_{z}\downarrow_{z} {\right|}\right) {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle}\\ + \frac{1}{2}{\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}{\left\langle}\downarrow_{z}\downarrow_{z} {\right|}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}{\left\langle}\uparrow_{z}\uparrow_{z} {\right|}\right) {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle}\\ = \frac{1}{4} - \frac{1}{4} = 0\end{aligned} }[/math]

其中第一部分和第二部分相互抵消。

假设,我们只有第一部分那个对角项公式[math]\displaystyle{ \left(\ref{eq:EntangleDiagonal}\right) }[/math],也就是 [math]\displaystyle{ \begin{aligned} \rho^{12} = \frac{1}{2}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z}\uparrow_{z} {\right|}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}{\left\langle}\downarrow_{z}\downarrow_{z} {\right|}\right).\end{aligned} }[/math] 那么,我们就会得到 [math]\displaystyle{ \begin{aligned} P_{\uparrow_{x}\downarrow_{x}} = {\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\rho^{12} {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle}= \frac{1}{4}.\end{aligned} }[/math] 也就是说,如果让我们的两个自旋的量子态长的跟两个经典硬币的关联状态一样,那么,我们的测量结果就会完全不一样。在量子态[math]\displaystyle{ \rho^{12,Q} }[/math]的情形,对于任何一个方向的对两个自旋的同时同方向测量(这里我们只计算了同时测量[math]\displaystyle{ z }[/math]和同时测量[math]\displaystyle{ x }[/math])我们都得到两个自旋的方向完全相同的结果。在量子态[math]\displaystyle{ \rho^{12} }[/math](看起来很像很像[math]\displaystyle{ \rho^{12,C} }[/math])的情形,对于两个自旋的同时同方向测量我们有的时候得到两个自旋的方向完全相同的结果(例如测量[math]\displaystyle{ z }[/math]方向),有的时候得到两个自旋的方向不同的结果(例如测量[math]\displaystyle{ x }[/math]方向)。

在得到这个结果的计算过程中,我们注意到最关键的地方在于矢量之间的内积[math]\displaystyle{ {\left\langle}\uparrow_{x}\downarrow_{x} {\right|}{\left.}\downarrow_{z}\downarrow_{z} {\right\rangle} }[/math]不等于非[math]\displaystyle{ 0 }[/math][math]\displaystyle{ 1 }[/math],而是由某个线性叠加关系给出,例如[math]\displaystyle{ {\left|}\uparrow_{x}{\right\rangle}= \frac{1}{\sqrt{2}}{\left|}\uparrow_{z}{\right\rangle}+ \frac{1}{\sqrt{2}}{\left|}\downarrow_{z}{\right\rangle} }[/math]。这个叠加关系正是我门一直以来强调的量子力学和经典力学的不同:量子系统的状态之间允许做线性叠加。

也就是说,状态[math]\displaystyle{ \rho^{12,Q} }[/math]具有对两个自旋做各方向的配对测量都得到相同状态的性质——两个自旋的状态在各方向上的同时测量的结果都完全相同,但是[math]\displaystyle{ \rho^{12} }[/math]没有这个性质——两个自旋可以有相反的状态,而两者之间的差别仅仅是非对角元[math]\displaystyle{ \frac{1}{2}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}{\left\langle}\downarrow_{z}\downarrow_{z} {\right|}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}{\left\langle}\uparrow_{z}\uparrow_{z} {\right|}\right) }[/math]存在与否。[math]\displaystyle{ \rho^{12,Q} }[/math]这种在各个方向上都完全相关的量子态被称为纠缠态。[math]\displaystyle{ \rho^{12} }[/math]这种在某个方向上完全相关的量子态被称为关联态。能够表达成两个系统的状态的密度矩阵的直积的状态称为直积态,或者独立状态。实际上,纠缠态可以比这个各个方向完全相关广泛。甚至可以定义纠缠度——给定一个状态,就算出来纠缠的程度是多少。更一般地来说,非直积态都可以被认为是相关态,所有的相关态中除去经典关联态(可以表达成为[math]\displaystyle{ \rho^{12} }[/math]这样的在各个自旋的某种基矢的乘积作为整个系统的基矢的表象下完全对角的状态),都是纠缠态。本书中,我们只关心[math]\displaystyle{ \rho^{12,Q} }[/math]这样的完全纠缠态。

历史上,当大家发现完全纠缠态的这个性质——在任意同一个方向上做量子自旋的测量得到状态相同的结果——的时候,很多科学家都认为这是一件非常神奇的事情。现在,我们看见,这件事情的本质,仍然是非对角元,仍然是量子态的叠加原理。如果仅仅从关联的建立的角度,两个粘在一起的硬币也能够得到观测值完全相同(或者相反,取决于如何粘)的结果。最关键的地方不是存在着关联的测量结果,而是“在任何一个方向上”都可以得到关联。因此,量子纠缠的特性,还是来源于量子相干性,或者说态叠加原理,或者说非对角元的存在,或者说算符的非对易性,或者说Hilbert空间允许的矢量加法。这些表述都是等价的。纠缠仅仅是这些个等价的原理的结果和表现。

计算视角二:“先后”测量

在上面测量结果的计算中,对于观测者一——称为Alice——测量第一个自旋的[math]\displaystyle{ \sigma_{x} }[/math]方向,观测者二——称为Bob——测量第二个自旋的[math]\displaystyle{ \sigma_{x} }[/math]方向这件事情,我们采用了一组对易的关于两个自旋系统的算符[math]\displaystyle{ O_{1}, O_{2} }[/math]来整体描述。现在,我们用另一个视角——先让Alice测量第一个自旋,然后再让Bob测量第二个自旋——来看待这件事情,看看算出来这个测量会得到什么结果。也就是说,我们先看[math]\displaystyle{ O_{1}=\sigma^{1}_{x}\otimes I^{2} }[/math]的测量结果,然后再来看在这个测量结果的基础上,做[math]\displaystyle{ \sigma^{2}_{x} }[/math]的测量的结果。对于这个计算,显然我们的依据是量子力学的公理[axiom:Quantum3] 和公理[axiom:Quantum4],而按照这两个公理,只要我们把密度矩阵[math]\displaystyle{ \rho }[/math]写成所测量的算符——这里主要是[math]\displaystyle{ \sigma^{1}_{x} }[/math]——的本征向量的展开,我们就可以直接把测量结果和测量后状态读出来。现在,我们来做一下这个。为了简化记号,由于我们的密度矩阵[math]\displaystyle{ \rho^{12} }[/math]实际上是一个纯态,也就是说存在[math]\displaystyle{ {\left|}\Psi {\right\rangle} }[/math]使得[math]\displaystyle{ \rho^{12} = {\left|}\Psi {\right\rangle}{\left\langle}\Psi {\right|} }[/math],我们直接在[math]\displaystyle{ {\left|}\Psi {\right\rangle} }[/math]上做计算。另外,为了简化符号,[math]\displaystyle{ x }[/math](z)方向的本征态,我们用[math]\displaystyle{ {\left|}\pm {\right\rangle} }[/math][math]\displaystyle{ \uparrow\downarrow }[/math])来表示。 [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{12}{\right\rangle}& = & \frac{\sqrt{2}}{2}\left({\left|}\uparrow\uparrow {\right\rangle}+ {\left|}\downarrow\downarrow {\right\rangle}\right) \notag\\ & = & \frac{\sqrt{2}}{2}\left(\frac{\sqrt{2}}{2}\left({\left|}+ {\right\rangle}+ {\left|}- {\right\rangle}\right){\left|}\uparrow{\right\rangle}+ \frac{\sqrt{2}}{2}\left({\left|}+ {\right\rangle}- {\left|}- {\right\rangle}\right){\left|}\uparrow{\right\rangle}\right) \notag\\ & = & \frac{\sqrt{2}}{2}\left({\left|}+{\right\rangle}\frac{\sqrt{2}}{2}\left({\left|}\uparrow {\right\rangle}+ {\left|}\downarrow {\right\rangle}\right) + {\left|}-{\right\rangle}\frac{\sqrt{2}}{2}\left({\left|}\uparrow {\right\rangle}- {\left|}\downarrow {\right\rangle}\right) \right) \notag\\ & = & \frac{\sqrt{2}}{2}\left({\left|}+{\right\rangle}{\left|}+{\right\rangle}+ {\left|}-{\right\rangle}{\left|}-{\right\rangle}\right).\end{aligned} }[/math] 于是,由于测量的算符是[math]\displaystyle{ \sigma^{1}_{x} }[/math],我们发现得到的结果有两个:[math]\displaystyle{ {\left|}+{\right\rangle} }[/math]或者[math]\displaystyle{ {\left|}-{\right\rangle} }[/math],各自的几率是[math]\displaystyle{ \frac{1}{2} }[/math][math]\displaystyle{ \frac{1}{2} }[/math]。如果观测得到[math]\displaystyle{ {\left|}+{\right\rangle} }[/math][math]\displaystyle{ {\left|}-{\right\rangle} }[/math]),则系统在测量之后的状态是 [math]\displaystyle{ \begin{aligned} {\left|}+{\right\rangle}{\left|}+ {\right\rangle}({\left|}-{\right\rangle}{\left|}- {\right\rangle}).\end{aligned} }[/math] 接着在这个状态上测量第二个自旋的[math]\displaystyle{ x }[/math]方向,我们得到测量结果[math]\displaystyle{ 100\% }[/math][math]\displaystyle{ {\left|}+{\right\rangle} }[/math][math]\displaystyle{ 100\% }[/math][math]\displaystyle{ {\left|}-{\right\rangle} }[/math])。

在这个计算里面,我们不去寻找[math]\displaystyle{ O_{1}, O_{2} }[/math]算符的共同本征态,而是先看看Alice测量的结果,再来看Bob在Alice测量之后的状态上测量的结果。我们可以反过来,先看Bob,再看Alice。结果是一样的。这个给我们一个启示,在上面的计算中所谓的先后,仅仅是逻辑上的先后,不是实际物理过程的先后。实际上,Bob测量的方向不一定和Alice的一致,这个时候上面的计算(或者看作两个对易算符[math]\displaystyle{ O_{1}, O_{2} }[/math]的计算),也能够给出与实验相符的结果。 这个留做作业。 如果看作是物理过程的先后,我们上面的计算“可以这样来理解”:第二个自旋“了解到”Alice测量的方向,然后按照Alice的结果向上还是向下来“决定”呈现给Bob状态[math]\displaystyle{ {\left|}+ {\right\rangle} }[/math]还是状态[math]\displaystyle{ {\left|}- {\right\rangle} }[/math]。于是,看起来好像第二个自旋跟Alice之间可能存在某种信息的交流。或者反过来,第一个自旋和Bob之间存在着某种信息交流。在真实的实验中,两个自旋可以相距非常远,两个观测者做出观测的时间间隔可以非常小,以至于,如果存在这样的交流,这个交流必须是以超光速的方式来传递的。当然,我们看到,这个看起来像个问题的问题,并不是量子力学的理论结构导致的,如果把Alice和Bob的测量看作是整体系统的测量(一组对易算符[math]\displaystyle{ O_{1}, O_{2} }[/math]),量子理论完全解释了实验观察。这个问题是我们企图用先分析一个观测者然后再分析另外一个观测者,而且企图通过这个先后测量来“理解”这个计算结果导致的。实际上,量子力学给出来的对测量结果的预测是一样的,跟谁先谁后无关。

也就是说,不管从整体测量的角度来运用公理[axiom:Quantum3]和公理[axiom:Quantum4],还是从先考虑某一个观测者然后另外一个的角度,给出来的结果都符合实验观察。存在问题的地方在于我们去“理解”这个量子现象的企图。顺便,我们指出来,在经典关联态的测量中,如果我们从真随机的经典客体的角度来“理解”,那么,看起来第二个硬币也需要先了解第一个观测者的结果,因此,也存在这个信息交流的问题。当然,在经典的情形下,第二个硬币只需要知道测量的结果——向上还是向下,而在量子的情形下,第二个自旋需要知道Alice测量的方向——所测量的自旋的空间方向[math]\displaystyle{ \hat{r} }[/math],以及测量的结果——向上还是向下。

这个多出来的需要知道Alice所测量的自旋的空间方向[math]\displaystyle{ \hat{r} }[/math]的根本原因,还是量子态可以做表象变换,也就是线性叠加运算,于是对于一个给定方向的本征态的测量可以是在任意方向上的。于是,纠缠态区别与经典关联态的地方还是态叠加原理。

我们已经看到,除了经典关联态已经具有的神奇之处——长程关联,纠缠态的独特特性——对两个自旋做任意一对方向上的测量结果之间都存在关联——的根本原因还是量子态的叠加原理,或者说表象变换,或者说不是所有算符都对易。当然,以后我们会看到,这样的纠缠,在具体应用上确实有独特的地方,可以成为很多量子信息问题和量子计算问题的基础。这一章的主要任务是说明在理论上纠缠是什么。纠缠态的上面这个属性和测量的时候两个自旋的距离没有关系,可以相距很远很远。这个时候,有的人就会问那么如何来理解一个自旋知道另外一个自旋已经被测量而且得到某个状态的结果呢,“因为这个自旋必须知道这个情况才能决定在自己被测量的时候显示什么状态呀”?例如,“第二个自旋怎么知道第一个的自旋被测量的是[math]\displaystyle{ z }[/math]方向并且得到结果向上,于是把自己的状态调整为向上态”。这其实是一个不好的问题。没有什么理由这个自旋必须知道另一个自旋被测量的情况才能决定自身的被侧量结果。在经典关联硬币的例子中,两个硬币,只要关联没有被破坏,也可以相距很远很远。如果这个时候,你不觉得理解上有问题,那么在量子自旋的情况,你也不应该觉得有问题。真正量子和经典的不同不在于出现与否长程关联,而在于量子的纠缠态能够保证任何一组相同的方向的测量都有关联的结果,而经典的情形仅仅能够保证在特定的方向上有关联的结果。而给定一个状态,对任何一个方向上的测量都能够给出正确的结果,这件事情,量子力学是通过引入态叠加(等价于表象变换、算符非对易、用有非对角元的密度矩阵代替密度分布函数)来实现的。

计算视角三:可分辨性

在本小结的最后,我们用另一个方式来运用公理[axiom:Quantum3]和公理[axiom:Quantum4]对纠缠态的测量给出一个计算结果。对于同一个问题,不同的呈现方式有的时候可以给我们不同的启发。

对于[math]\displaystyle{ O_{1}=\sigma^{1}_{x}\otimes I^{2} }[/math]的测量,我们来计算这个算符的本征向量。由于简并的本征值(一个本征值对应着多个本征向量)我们需要认为引入额外的记号来区分这些简并态:[math]\displaystyle{ {\left|}+ {\right\rangle}{\left|}r_{+} {\right\rangle}, {\left|}+ {\right\rangle}{\left|}r_{-} {\right\rangle}, {\left|}- {\right\rangle}{\left|}r_{+} {\right\rangle}, {\left|}- {\right\rangle}{\left|}r_{-} {\right\rangle} }[/math]。其中[math]\displaystyle{ {\left|}r_{\pm} {\right\rangle} }[/math]是第二个自旋的状态空间中的任意一组相互正交的态。可以验证,这四个矢量确实是算符[math]\displaystyle{ O_{1} }[/math]的本征矢量。按照公理[axiom:Quantum3],我们先来计算概率, [math]\displaystyle{ \begin{aligned} P_{+r_{+}} & = & {\left\langle}r_{+} {\right|}{\left\langle}+ {\right|}\rho^{12}{\left|}+ {\right\rangle}{\left|}r_{+} {\right\rangle}& = & \frac{1}{2}{\left\langle}r_{+} {\right|}\left({\left|}+ {\right\rangle}{\left\langle}+ {\right|}\right){\left|}r_{+} {\right\rangle}\\ P_{+r_{-}} & = & {\left\langle}r_{-} {\right|}{\left\langle}+ {\right|}\rho^{12}{\left|}+ {\right\rangle}{\left|}r_{-} {\right\rangle}& = & \frac{1}{2}{\left\langle}r_{-} {\right|}\left({\left|}+ {\right\rangle}{\left\langle}+ {\right|}\right){\left|}r_{-} {\right\rangle}\\ P_{-r_{+}} & = & {\left\langle}r_{+} {\right|}{\left\langle}- {\right|}\rho^{12}{\left|}- {\right\rangle}{\left|}r_{+} {\right\rangle}& = & \frac{1}{2}{\left\langle}r_{+} {\right|}\left({\left|}- {\right\rangle}{\left\langle}- {\right|}\right){\left|}r_{+} {\right\rangle}\\ P_{-r_{-}} & = & {\left\langle}r_{-} {\right|}{\left\langle}- {\right|}\rho^{12}{\left|}- {\right\rangle}{\left|}r_{-} {\right\rangle}& = & \frac{1}{2}{\left\langle}r_{-} {\right|}\left({\left|}- {\right\rangle}{\left\langle}- {\right|}\right){\left|}r_{-} {\right\rangle}.\end{aligned} }[/math] 毫无疑问,这四个数都是非负实数,但是,具体的值,依赖于我们选择的[math]\displaystyle{ {\left|}r_{\pm} {\right\rangle} }[/math]。看起来,我们的测量结果依赖于一个任意的选择!

实际上,当我们关注Alice的测量的时候,我们关心的是 [math]\displaystyle{ \begin{aligned} P_{+}=P_{+r_{+}} + P_{+r_{-}}.\end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} P_{+} & = & \frac{1}{2}{\left\langle}r_{+} {\right|}\left({\left|}+ {\right\rangle}{\left\langle}+ {\right|}\right){\left|}r_{+} {\right\rangle}+ \frac{1}{2}{\left\langle}r_{-} {\right|}\left({\left|}+ {\right\rangle}{\left\langle}+ {\right|}\right){\left|}r_{-} {\right\rangle}\\ & = & \frac{1}{2}tr\left({\left|}+ {\right\rangle}{\left\langle}+ {\right|}\right)\notag \\ & = & \frac{1}{2}.\end{aligned} }[/math] 这个是与实验相符的结果。也就是说,对于Alice测量的结果来说,我们不关心第二个自旋处于什么状态。

下面来计算Alice观测结果得到向上的时候的测量后状态:当我们观测结果是[math]\displaystyle{ +r_{+} }[/math]的时候,我们得到相应状态,[math]\displaystyle{ {\left|}+ {\right\rangle}{\left|}r_{+} {\right\rangle} }[/math];当我们观测结果是[math]\displaystyle{ +r_{-} }[/math]的时候,我们得到相应状态,[math]\displaystyle{ {\left|}+ {\right\rangle}{\left|}r_{-} {\right\rangle} }[/math]。现在的问题是如何把这两个结果合起来,下面的两个密度矩阵的哪一个?是 [math]\displaystyle{ \begin{aligned} {\label{eq:entangleSum}} \rho^{f} = P_{+r_{+}} {\left|}+ r_{+} {\right\rangle}{\left\langle}+ r_{+} {\right|}+ P_{+r_{-}} {\left|}+ r_{-} {\right\rangle}{\left\langle}+ r_{-} {\right|}\notag \\ = \left({\left|}+ {\right\rangle}{\left\langle}+ {\right|}\right)\left(P_{+r_{+}} {\left|}r_{+} {\right\rangle}{\left\langle}r_{+} {\right|}+ P_{+r_{-}} {\left|}r_{-} {\right\rangle}{\left\langle}r_{-} {\right|}\right),\end{aligned} }[/math] 还是, [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{f}{\right\rangle}= {\left\langle}r_{+} {\right|}{\left.}+ {\right\rangle}{\left|}+r_{+} {\right\rangle}+ {\left\langle}r_{-} {\right|}{\left.}+ {\right\rangle}{\left|}+r_{-} {\right\rangle}\notag \\ = \left({\left|}+ {\right\rangle}\right)\left({\left|}r_{+} {\right\rangle}{\left\langle}r_{+} {\right|}{\left.}+{\right\rangle}+ {\left|}r_{-} {\right\rangle}{\left\langle}r_{-} {\right|}{\left.}+ {\right\rangle}\right) \notag \\ = \left({\left|}+ {\right\rangle}\right)\left({\left|}+{\right\rangle}\right). {\label{eq:entangleSupper}}\end{aligned} }[/math]

按照实验的结果,我们知道当然公式[math]\displaystyle{ \left(\ref{eq:entangleSupper}\right) }[/math]与实验相符——当Alice测量得到向上的时候,整体系统的状态是[math]\displaystyle{ \left({\left|}+ {\right\rangle}\right)\left({\left|}+{\right\rangle}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:entangleSum}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:entangleSupper}\right) }[/math]理论上的区别在于:前者是概率叠加——把两个密度矩阵相加,不存在交叉项,后者是相干性叠加——把两个态矢量相加,于是转化成密度矩阵的语言的时候存在交叉项。那为什么这里相干性叠加给出正确的结果,概率性叠加不能呢?因为在讨论Alice的测量结果的时候,第二个自旋的状态是不可区分的。这个就好像是在讨论which-way实验的时候一样,对于不能区分的状态,我们用相干性叠加。

我们看到这三个计算的视角不一样,但是结果是完全一样的。给我们的启发也不一样:对于完全确定的没有简并的本征态的耦合系统上的测量算符集合(就算看起来是单个系统的测量也需要写成耦合系统上的测量算符),直接运用公理[axiom:Quantum3]和公理[axiom:Quantum4]给出结果就行;如果我们把耦合系统的测量看作是逻辑上先后的测量,那么这个先后不可能是物理上的时间因果过程,仅仅是逻辑上的,因为无论哪个为先哪个当后,给出的测量结果预测是一样的;对于存在简并本征态的耦合系统上的测量算符,在运用公理[axiom:Quantum4]写下测量后状态的时候,需要考虑测量结果的是否可分辨。不可分辨的时候测量后状态需要用矢量叠加,可分辨的时候用概率叠加。

总而言之,第一,对于耦合系统,公理[axiom:Quantum3]和公理[axiom:Quantum4]仍然给出与实验相符的结果;第二,量子纠缠态的各个方向的测量都有关联的特性是态叠加原理的结果;第三,有的时候“理解”量子力学是个问题,尤其是用熟悉了经典世界的人的理解能力来理解的时候。

作业

验证[math]\displaystyle{ {\left|}\psi{\right\rangle}= \alpha^{\prime} {\left|}\uparrow_{z}\uparrow_{z}{\right\rangle}+ \eta^{\prime} {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle} }[/math]不可能是直积状态。

对易算符的本征向量:计算[math]\displaystyle{ O_{1} = \sigma^{1}_{z}\otimes I^{2}, O_{2}=I^{1} \otimes \sigma^{2}_{z} }[/math]的共同本征向量。给定状态[math]\displaystyle{ {\left|}\Phi_{-} {\right\rangle} }[/math],按照这些共同本征态来计算Alice测量[math]\displaystyle{ \sigma_{z} }[/math],Bob测量[math]\displaystyle{ \sigma_{z} }[/math]的结果。

对易算符的本征向量:计算[math]\displaystyle{ O_{1} = \sigma^{1}_{z}\otimes I^{2}, O_{2}=I^{1} \otimes \sigma^{2}_{x} }[/math]的共同本征向量。给定状态[math]\displaystyle{ {\left|}\Phi_{-} {\right\rangle} }[/math],按照这些共同本征态来计算Alice测量[math]\displaystyle{ \sigma_{z} }[/math],Bob测量[math]\displaystyle{ \sigma_{x} }[/math]的结果。

先后测量:给定状态[math]\displaystyle{ {\left|}\Phi_{-} {\right\rangle} }[/math],计算Alice先测量[math]\displaystyle{ \sigma_{z} }[/math],Bob再测量[math]\displaystyle{ \sigma_{x} }[/math]的结果,以及反过来计算Bob先测量[math]\displaystyle{ \sigma_{x} }[/math],Alice再测量[math]\displaystyle{ \sigma_{z} }[/math]的结果。

纠缠态的非对角元:计算[math]\displaystyle{ {\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\rho^{12,Q} {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle} }[/math][math]\displaystyle{ {\left\langle}\uparrow_{x}\downarrow_{x} {\right|}\rho^{12} {\left|}\uparrow_{x}\downarrow_{x} {\right\rangle} }[/math]。其中[math]\displaystyle{ \rho^{12,Q} = \frac{1}{2}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}\right)\left({\left\langle}\uparrow_{z}\uparrow_{z} {\right|}+ {\left\langle}\downarrow_{z}\downarrow_{z} {\right|}\right) }[/math][math]\displaystyle{ \rho^{12} = \frac{1}{2}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}{\left\langle}\uparrow_{z}\uparrow_{z} {\right|}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}{\left\langle}\downarrow_{z}\downarrow_{z} {\right|}\right) }[/math]

本章小结

本章中我们主要介绍了两个自旋的状态空间是什么——[math]\displaystyle{ 4 }[/math]维Hilbert空间,这个空间和两个自旋的本身的空间的关系是什么——直积空间。然后我们介绍了经典关联态的测量和量子纠缠态的测量。其中,Bell态的定义需要了解,在以后的章节中我们会用到。对于纠缠态的测量,我们用不同的计算方式,根据公理[axiom:Quantum3]和公理[axiom:Quantum4],得到了与实验相符的结果。同时,通过这些计算,我们发现,纠缠态的除了与经典关联一样的具有长程关联之外的特殊性质——对两个自旋做任意一对方向上的测量,其结果都有关联,就是态叠加原理的结果。

耦合量子系统的演化与纠缠

[Chap:EvolutionAndEntanglement] 这一章,我们来回答耦合系统的状态如何在这个[math]\displaystyle{ 4 }[/math]维Hilbert空间里面演化,这样的演化如何计算,一个系统能够从非纠缠的状态到达纠缠的状态吗?量子力学的基本理论不会随着Hilbert空间维数的变化而变化,所有之前学习过的量子力学的一般理论都成立。

演化以及演化导致的纠缠

量子力学的一般理论告诉我们从系统的Halmitonian开始,演化算符是[math]\displaystyle{ U=e^{-iHt} }[/math],而系统的Hamiltonian对应着外界对系统或者系统的各个部分之间的相互作用。我们还是利用具体的例子来展示一个独立状态如何可以演化成为一个纠缠态。

[演化导致的纠缠]:在基矢集合[math]\displaystyle{ {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle} }[/math]的表象(按照顺序)下,给定如下Hamiltonian, [math]\displaystyle{ \begin{aligned} H=\left(\begin{array}{cc}H_{0} & 0 \\0 & H_{0} \end{array}\right), \end{aligned} }[/math] 其中 [math]\displaystyle{ \begin{aligned} H_{0}=\frac{1}{4+2\sqrt{2}}\left(\begin{array}{cc}1 & -1-\sqrt{2} \\ -1-\sqrt{2} & 3+2\sqrt{2}\end{array}\right). \end{aligned} }[/math] 计算[math]\displaystyle{ t=\pi }[/math]时刻的演化算符,并讨论这个演化算符把独立状态[math]\displaystyle{ {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle} }[/math]分别映射成为什么状态。

演化算符[math]\displaystyle{ U=e^{-iHt} }[/math]可以通过求解[math]\displaystyle{ H }[/math]的本征值和本征向量得到。我们先来计算[math]\displaystyle{ H_{0} }[/math]的本征向量,得到,

[math]\displaystyle{ \begin{aligned} {\left|}E_{1}=0{\right\rangle}=\frac{1}{\sqrt{4+2\sqrt{2}}}\left[\begin{array}{c}1+\sqrt{2} \\ 1\end{array}\right], \\ {\left|}E_{2}=1{\right\rangle}=\frac{1}{\sqrt{4+2\sqrt{2}}}\left[\begin{array}{c}1 \\ -1-\sqrt{2}\end{array}\right].\end{aligned} }[/math]

于是,[math]\displaystyle{ H_{0} }[/math]所对应的演化算符[math]\displaystyle{ U_{0} }[/math]可以表达成为, [math]\displaystyle{ \begin{aligned} U_{0} = e^{-iE_{1}t}{\left|}E_{1}{\right\rangle}{\left\langle}E_{1}{\right|}+ e^{-iE_{2}t}{\left|}E_{2}{\right\rangle}{\left\langle}E_{2}{\right|}\notag \\ =\frac{1}{\sqrt{2}}\left[\begin{array}{cc}1 & 1 \\ 1 & -1\end{array}\right].\end{aligned} }[/math] 于是,整体的演化算符是 [math]\displaystyle{ \begin{aligned} U=\frac{1}{\sqrt{2}}\left[\begin{array}{cccc}1 & 1 & 0 & 0\\ 1 & -1 & 0 & 0 \\0 & 0 & 1 & 1\\ 0 & 0 & 1 & -1 \end{array}\right].\end{aligned} }[/math] 这个算符作用在[math]\displaystyle{ \left[1,0,0,0\right]^{T} }[/math]得到[math]\displaystyle{ \frac{1}{\sqrt{2}}\left[1,1,0,0\right]^{T} }[/math],也就是。 [math]\displaystyle{ \begin{aligned} U{\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}\uparrow_{z}\uparrow_{z} {\right\rangle}+ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle}\right) {\label{eq:Lead2Entanglement}}\end{aligned} }[/math]

我们看到这个演化算符把独立状态映射成为纠缠态。如果我们知道如何实现[math]\displaystyle{ H_{0} }[/math]那么,我们就能够实现[math]\displaystyle{ H }[/math]也就能够实现[math]\displaystyle{ U }[/math]了。注意到这里的[math]\displaystyle{ U_{0} }[/math]其实是。

在这个计算中,我们特意采用了交换了顺序的一组基矢。更加常用的基矢其实是[math]\displaystyle{ {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle} }[/math]。如果采用这一组基矢,我们的Hamiltonian需要定义为, [math]\displaystyle{ \begin{aligned} H=\frac{1}{4+2\sqrt{2}}\left(\begin{array}{cccc}1 & 0 & 0 &-1-\sqrt{2} \\0& 1 &-1-\sqrt{2} & 0\\0 & -1-\sqrt{2} & 3+2\sqrt{2} & 0\\ -1-\sqrt{2} & 0 & 0 & 3+2\sqrt{2}\end{array}\right). \end{aligned} }[/math] 读者不妨验证一下,是否如公式[math]\displaystyle{ \left(\ref{eq:Lead2Entanglement}\right) }[/math]一样,这个Hamiltonian对应着的演化算符确实把独立状态映射到相应的纠缠态。

这个[math]\displaystyle{ H }[/math]实际上反映了两个自旋的相互作用。

测量导致的纠缠

上一节我们已经看到通过演化,某些形式的Hamiltonian可以把独立状态转化成为纠缠态。现在,我们试试用另一个角度来构造纠缠态。这个角度就是测量,因为我们已经知道测量和演化都可以使得量子系统的状态发生变化。我们也通过一个例子来展示通过测量建立纠缠。假设我们已经得到了两个光子的纠缠态,现在我们想得到四个光子的纠缠态。当然,我们可以构造四个光子的相互作用来通过演化得到四个光子的纠缠态。这里,我们用另一种方式,来自于文献。

考虑两对已经分别实现纠缠的光子,其中[math]\displaystyle{ 12 }[/math][math]\displaystyle{ 34 }[/math]都处于如下纠缠态(在实际实验中,经常用另一个Bell态[math]\displaystyle{ {\left|}\Psi^{12}_{-} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}HV {\right\rangle}- {\left|}VH {\right\rangle}\right) }[/math],为了描述简单,这里我们采用下面这个Bell态), [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{12} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}HH {\right\rangle}+ {\left|}VV {\right\rangle}\right) \triangleq {\left|}\Phi^{+} {\right\rangle}= {\left|}\Psi^{34} {\right\rangle},\end{aligned} }[/math] 那么整个系统的状态就是 [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{1234} {\right\rangle}= {\left|}\Phi^{+} {\right\rangle}{\left|}\Phi^{+} {\right\rangle}\notag \\ = \frac{1}{2}\left({\left|}HHHH {\right\rangle}+ {\left|}HHVV {\right\rangle}+ {\left|}VVHH {\right\rangle}+ {\left|}VVVV {\right\rangle}\right). \end{aligned} }[/math] 这里我们用了Bell态的记号。测量导致纠缠的基本思想就是从上面的四个状态里面,我们想办法把不需要的状态去掉,通过测量只留下需要的状态。例如,在这里,我们希望去掉这个部分, [math]\displaystyle{ \begin{aligned} {\left|}HHVV {\right\rangle}+ {\left|}VVHH {\right\rangle}.\end{aligned} }[/math] 我们如何去掉这个部分呢,选择留下测量结果的一部分来做下一步的实验。

fig: fig:

[fig:FourEntangle]

[math]\displaystyle{ 4 }[/math]光子纠缠实验:从两对已经实现纠缠的光子中选择其中一个经过反射之后到达内部方向是[math]\displaystyle{ 0^{0} }[/math]的偏振分束器——它透射[math]\displaystyle{ 0^{0} }[/math](标记为[math]\displaystyle{ H }[/math])的光,反射[math]\displaystyle{ 90^{0} }[/math](标记为[math]\displaystyle{ V }[/math])的光。按照偏振分束器的出射光子的情况来决定是否让光子进入下一步的实验:如果有两个方向的输出的情况,继续后续的实验,否则终止。问:对于能够进入后续实验的例子来说,它们处于什么状态?在实验中,实际上,我们还需要,制备纠缠态的技术,以及探测光子从偏振分束器的哪一边出来又不破坏光子的偏振态的技术。在此,不讨论这些技术如何实现。

两对光子的状态组合有四种[math]\displaystyle{ \left(HH, HH\right) }[/math][math]\displaystyle{ \left(HH, VV\right) }[/math][math]\displaystyle{ \left(VV, HH\right) }[/math][math]\displaystyle{ \left(VV, VV\right) }[/math]。下面我们会看到通过选择出射光子的情况(丢弃两个光子都从偏振分束器左侧或者右侧出射的情况),实际上进入后续实验的光子的状态肯定是[math]\displaystyle{ \frac{{\left|}HHHH {\right\rangle}+ {\left|}VVVV {\right\rangle}}{\sqrt{2}} }[/math]

这里,我们让这样的两对光子的各自的其中一个光子,我们称为光子2、4,经过一个偏振分束器(PBS),如[math]\displaystyle{ \ref{fig:FourEntangle} }[/math]。我们发现,这个时候有三个可能的结果,两个光子都从左侧出来,两个光子都从右侧出来,两个光子分别从左侧和右侧出来。前两个结果对应着的光子的状态分别是[math]\displaystyle{ {\left|}HV {\right\rangle} }[/math][math]\displaystyle{ {\left|}VH {\right\rangle} }[/math]。例如[math]\displaystyle{ {\left|}HV {\right\rangle} }[/math]会让光子2透射,光子4反射,于是它们一起出现在右边。同理[math]\displaystyle{ {\left|}VH {\right\rangle} }[/math]会让光子同时出现在左边。

对于两边都有光子的情形,[math]\displaystyle{ {\left|}HH {\right\rangle} }[/math][math]\displaystyle{ {\left|}VV {\right\rangle} }[/math]都有可能,并且不可区分。于是,我们将来需要采用矢量叠加。当光子2、4处于[math]\displaystyle{ {\left|}HH {\right\rangle} }[/math]态的时候,由于1、3分别和2、4的纠缠,整体必然这个时候是[math]\displaystyle{ {\left|}HHHH {\right\rangle} }[/math]态。同理,当光子2、4处于[math]\displaystyle{ {\left|}VV {\right\rangle} }[/math]态的时候,整体必然这个时候是[math]\displaystyle{ {\left|}VVVV {\right\rangle} }[/math]态。两者不可区分而且概率幅相同。于是, [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{1234} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}HHHH {\right\rangle}+ {\left|}VVVV {\right\rangle}\right). \end{aligned} }[/math] 实际上我们为了确定偏振分束器的两侧都接收到光子,我们需要做一个不改变光子自旋状态却能够确定光子从偏振分束器的哪一侧出射的测量,然后才能把都从右侧出来或者都从左侧出来的结果排除在后续的实验中。具体技术细节就不在这里讨论了。一个简单的后续实验可以这样:例如,在四个方向上分别安装探测器的话,同时四个方向都有探测到光子的结果就可以验证我们得到了目标纠缠态。另外,实际上,实验中用的状态是另一种纠缠,[math]\displaystyle{ {\left|}\Psi^{12}_{-} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}HV {\right\rangle}- {\left|}VH {\right\rangle}\right) }[/math],但是原理是一样的。

实际上,这个方案是从另外一个更早一点的工作发展过来的。在那个工作中,两对纠缠的光子被用来制备三个纠缠的光子,其中的一个光子在测量的时候用掉了。其方案非常简单,这里再作进一步的简化。我们用同样的仪器,但是在偏振分束器(PBS,内部方向[math]\displaystyle{ 0^{0} }[/math],透射水平偏振光反射竖直偏振光)后面的左侧增加一个探测器。然后,我们按照这个探测器上的结果来作进一步的实验。这个探测器有三种可能的结果,得到两个光子,得到一个光子,没有得到任何一个光子。对于得到两个光子和没有得到光子的情形,我们忽略所有可能的下一步的实验得到的结果。于是,我们的下一步实验仅仅记录这个探测器得到一个光子的情形。现在,我们来思考得到一个光子的情形对应的光子的状态。相比于上面的[math]\displaystyle{ 4 }[/math]光子纠缠实验,这个[math]\displaystyle{ 3 }[/math]光子的实验更加容易实现:只要探测器能够区分收到[math]\displaystyle{ 0,1,2 }[/math]三个光子的情形就可以,而不用一定需要探测光子经过但是不破坏其偏振状态的技术。

这个光子可能是反射过来的光子[math]\displaystyle{ 2 }[/math],于是其状态为[math]\displaystyle{ V }[/math],于是光子[math]\displaystyle{ 1 }[/math]的状态也是[math]\displaystyle{ V }[/math]。同时,由于光子[math]\displaystyle{ 4 }[/math]没有投射过来,也就是被反射了,于是[math]\displaystyle{ 4 }[/math]的状态就是[math]\displaystyle{ V }[/math],因此[math]\displaystyle{ 3 }[/math]的状态也是[math]\displaystyle{ V }[/math]。也就是说,[math]\displaystyle{ 134 }[/math]的光子会进入下一步的实验,其状态是[math]\displaystyle{ VVV }[/math]。这个光子可能是透射过来的光子[math]\displaystyle{ 4 }[/math],于是其状态为[math]\displaystyle{ H }[/math],于是光子[math]\displaystyle{ 3 }[/math]的状态也是[math]\displaystyle{ H }[/math]。同时,由于光子[math]\displaystyle{ 2 }[/math]没有反射过来,也就是被透射了,于是[math]\displaystyle{ 2 }[/math]的状态就是[math]\displaystyle{ H }[/math],因此[math]\displaystyle{ 1 }[/math]的状态也是[math]\displaystyle{ H }[/math]。也就是说,[math]\displaystyle{ 123 }[/math]的光子会进入下一步的实验,其状态是[math]\displaystyle{ HHH }[/math]。如果这两种可能的状态哪一种发生了完全不能从实验过程上区分(注意不管哪一种状态其出口都是[math]\displaystyle{ 136 }[/math]),那么系统的状态就是, [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{136} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}HHH {\right\rangle}+ {\left|}VVV {\right\rangle}\right). \end{aligned} }[/math] 于是,通过测量和选择,我们把两对双光子纠缠态转化成了三光子纠缠态。

在实际实验中,双光子的纠缠比较容易实现,多光子的纠缠如果通过相互作用来实现有一定的难度。因此,这种通过测量来实现多光子纠缠的方法经常被使用。

作业

给定如下Hamiltonian, [math]\displaystyle{ \begin{aligned} H_{0}=\frac{1}{4+2\sqrt{2}}\left(\begin{array}{cc}1 & -1-\sqrt{2} \\ -1-\sqrt{2} & 3+2\sqrt{2}\end{array}\right). \end{aligned} }[/math] 请用自旋算符,例如[math]\displaystyle{ I, \sigma_{x}, \sigma_{y}, \sigma_{z} }[/math]之类的形式写出这个[math]\displaystyle{ H_{0} }[/math]。有了上面这个题的经验之后,来思考下面的问题。 给定如下Hamiltonian, [math]\displaystyle{ \begin{aligned} H=\frac{1}{4+2\sqrt{2}}\left(\begin{array}{cccc}1 & 0 & 0 &-1-\sqrt{2} \\0& 1 &-1-\sqrt{2} & 0\\0 & -1-\sqrt{2} & 3+2\sqrt{2} & 0\\ -1-\sqrt{2} & 0 & 0 & 3+2\sqrt{2}\end{array}\right). \end{aligned} }[/math] 请用自旋算符,例如[math]\displaystyle{ \sigma^{1}_{x}\sigma^{2}_{x}, \sigma^{1}_{x}\sigma^{2}_{y} }[/math]之类的形式写出这个[math]\displaystyle{ H }[/math]

CNOT量子逻辑门的Hamiltonian:给定如下Hamiltonian, [math]\displaystyle{ \begin{aligned} H=\left(\begin{array}{cccc}0 & 0 & 0 & 0 \\0 & 0 & 0 & 0 \\0 & 0 & 0.5 & -0.5 \\0 & 0 & -0.5 & 0.5 \end{array}\right), \end{aligned} }[/math] 计算[math]\displaystyle{ t=\pi }[/math]时刻的演化算符,并讨论这个演化算符把独立状态[math]\displaystyle{ {\left|}\uparrow_{z}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{z}\downarrow_{z} {\right\rangle} }[/math]分别映射成为什么状态。这个演化算符有一个自己的名字——CNOT逻辑门,实现控制非(Controlled-NOT)计算。

两个自旋的关联[math]\displaystyle{ 1 }[/math]:假设氢原子电离之后,电子-质子处于如下的自旋态(仅仅考虑自旋的自由度)[math]\displaystyle{ {\left|}\uparrow_{\alpha}\downarrow_{\theta} {\right\rangle} }[/math]状态。其中[math]\displaystyle{ {\left|}\uparrow_{\theta}{\right\rangle} }[/math][math]\displaystyle{ {\left|}\downarrow_{\theta}{\right\rangle} }[/math])表示[math]\displaystyle{ \hat{r}_{\theta}=\sin{\left(\theta\right)}\hat{i}+\cos{\left(\theta\right)}\hat{k} }[/math]方向的向上(向下)本征态,也就是自旋算符[math]\displaystyle{ S_{{\theta}}=\vec{\hat{S}}\cdot \hat{r}_{\theta} }[/math]的向上本征态。

  1. 求在该自旋态测量电子自旋[math]\displaystyle{ S^{e}_{{\alpha}} }[/math]得到的各个可能取值的概率。测量之后,假设得到这个方向的向上状态,该系统的自旋状态是什么?对电子自旋的测量是否改变了质子的自旋状态?
  2. 计算在该自旋态下,测量质子自旋[math]\displaystyle{ S^{p}_{{\beta}} }[/math]得到的各个可能取值的概率。
  3. 计算在该自旋态下,“先”测量电子自旋[math]\displaystyle{ S^{e}_{{\alpha}} }[/math]得到某个可能的取值,“后”在所得到的状态下测量质子自旋[math]\displaystyle{ S^{p}_{{\beta}} }[/math]得到的各个可能取值的概率。
  4. 计算上面的测量得到的结果的关联系数[math]\displaystyle{ E\left(\alpha,\beta\right)=\frac{{\left\langle}S^{e}_{\alpha}S^{p}_{\beta} {\right\rangle}- {\left\langle}S^{e}_{\alpha} {\right\rangle}{\left\langle}S^{p}_{\beta} {\right\rangle}}{\Delta S^{e}_{\alpha}\Delta S^{p}_{\beta}} }[/math]。其中[math]\displaystyle{ \Delta S^{e}_{\alpha} }[/math]表示测量电子的[math]\displaystyle{ \hat{r}_{\alpha} }[/math]方向的自旋得到的结果的标准差。

两个自旋的关联[math]\displaystyle{ 2 }[/math]:假设氢原子电离之后,电子-质子处于如下的自旋态(仅仅考虑自旋的自由度)[math]\displaystyle{ \frac{1}{\sqrt{2}}\left({\left|}\uparrow_{\alpha}\downarrow_{\theta} {\right\rangle}- {\left|}\downarrow_{\alpha}\uparrow_{\theta} {\right\rangle}\right) }[/math]状态。重复以上计算。

本章小结

本章主要展示了在耦合系统中,利用相互作用和测量——这两种改变系统状态的方法——可以得到纠缠态。纠缠态的独特的性质在上一章已经讨论过。在下一章,以及量子信息部分,我们还会再一次见到具有这样的性质的纠缠态能够用来做什么。

在耦合系统的最后我们提一下从单个粒子到耦合粒子系统理论上需要考虑的真正多出来的一个因素:全同粒子的状态的问题。我们一直没有讨论这个问题。在我们之前的讨论中,我们总是能够区分粒子[math]\displaystyle{ 1 }[/math]和粒子[math]\displaystyle{ 2 }[/math]的。如果在某些问题中,粒子是不可以区分的,量子系统的实验告诉我们,这样的粒子的状态只能够在直积空间的某些子空间内取值。例如费米子(Fermion)只能够在交换粒子编号反对称的子空间取值,而波色子(Boson)只能够在交换粒子编号对称的子空间取值。这个问题相当于对量子系统提出了一个额外的约束,或者说在粒子之间建立了额外的关联。这个问题具有非常深刻的根源和非常深刻的影响。在本书中,我们不再讨论。

下一章,以及后续的章节是纠缠态——我们也会看到其本质还是量子态叠加原理——的应用。

量子力学的确定性经典理论的再一次讨论

[Chap:Bell]

在引论部分,我们已经讨论了量子系统的测量行为,以及用建立在确定性经典理论和随机性经典理论——这个随机性可以使内禀真随机性也可以是由于信息不完备导致的伪随机性,在后者的情况下随机性经典理论等价于确定性经典理论——来描述量子系统的测量行为的可能性。我们已经基本否定了这样的可能性,所以在后面的章节中转而讨论允许使用非对角元,突破经典概率论框架的数学模型来描述量子系统的测量行为。在这一章,我们再次回到这个量子系统的经典理论的可能性的问题,只是稍微改变一下我们的测量对象,使得这个测量得到的结果看起来更加具有特殊性,并且来思考什么样的经典理论可能可以描述这样的特殊行为。这个测量就是一个纠缠态的测量。

本章推荐阅读材料:J. Bell 《Speakable and Unspeakable of Quantum Mechanics》。

纠缠态上的量子测量的结果

考虑一个纠缠态, [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{-} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}\right),\end{aligned} }[/math] 计算测量[math]\displaystyle{ \sigma^{1}_{z}\sigma^{2}_{r} }[/math]的平均值。 [math]\displaystyle{ \begin{aligned} {\left\langle}\sigma^{1}_{z}\sigma^{2}_{r} {\right\rangle}= \frac{1}{2}\left({\left\langle}\uparrow_{z}\downarrow_{z} {\right|}- {\left\langle}\downarrow_{z}\uparrow_{z} {\right|}\right)\sigma^{1}_{z}\sigma^{2}_{r}\left({\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}\right) \notag \\ = \frac{1}{2}\left({\left\langle}\downarrow_{z} {\right|}\sigma^{2}_{r}{\left|}\downarrow_{z} {\right\rangle}- {\left\langle}\uparrow_{z} {\right|}\sigma^{2}_{r}{\left|}\uparrow_{z} {\right\rangle}\right) \notag \\ = -\cos{\theta}, {\label{eq:Bellcorrelation}}\end{aligned} }[/math] 其中[math]\displaystyle{ \theta }[/math]就是[math]\displaystyle{ \hat{r} }[/math][math]\displaystyle{ z }[/math]方向的夹角。

现在量子系统的经典理论的可能性的问题就成了是否存在一种经典概率分布,和一组对应的测量,其结果与上面的两个不同方向的自旋测量的结果一致。这里我们只关心测量的平均值。在引论部分第[Chap:PhysicsModels]章的讨论中,我们关心单次测量的结果及其平均值,还有测量以后马上再测量的单次的结果及其平均值。这一章里面,我们就不再关心单次的结果而仅仅关心平均值,也不再关心测量以后再次测量的单次结果和平均值的问题了。因此,本章在理论要符合哪些实验结果要求比引论部分的讨论要低。需要注意的是,如果我们只关心测量的平均值,对于单个的自旋,满足测量平均值与量子理论和量子实验得到的结果一样的经典概率论是能够构造出来的。在仅仅考虑平均值的情况下,Bell就提供了一个与二维量子系统一致的。在引言部分,我们的结论是在非常宽泛的条件下,考虑了再测量之后,与量子实验的结果相一致的经典理论基本上是不存在的。所以,我们在引言部分的讨论和这里的讨论不是重复的,尽管企图解决的问题是同一个:我们希望说明满足公式[math]\displaystyle{ \left(\ref{eq:Bellcorrelation}\right) }[/math]测量结果关联性的经典对象是不存在的。当然,在这个时候,我们就需要对什么系统是经典对象有一个界定:凡是由经典概率论——也就是概率三元体和经典概率论公理[axiom:CPT1]-[axiom:CPT4]——所描述的系统,我们称为经典对象。

经典关联态上的测量的Bell不等式

现在,我们来展示符合经典概率论的状态是不可能遵循上面的这个测量结果之间的关联关系的。考虑这样一个系统,这个系统的状态由某一个隐藏起来的不能直接测量和确定的随机变量[math]\displaystyle{ \lambda }[/math]决定。在这个系统上,我们可以测量两个量[math]\displaystyle{ A\left(\vec{a}, \lambda\right) }[/math][math]\displaystyle{ B\left(\vec{b}, \lambda\right) }[/math],例如[math]\displaystyle{ \vec{a}=\hat{z} }[/math][math]\displaystyle{ \hat{b}=\hat{r} }[/math][math]\displaystyle{ A }[/math][math]\displaystyle{ B }[/math]就是着两个方向上的自旋。我们想知道,如果上面的两个自旋的量子系统用经典概率分布来描述的话,这样的所测量到的关联值满足什么约束。然后,我们考察量子系统的上述结果公式[math]\displaystyle{ \left(\ref{eq:Bellcorrelation}\right) }[/math]是否满足这个约束。

下面,我们来计算按照经典概率分布的理论这个每一次测量之后的得到的[math]\displaystyle{ AB }[/math]乘积的平均值。注意,在这里,我们假设[math]\displaystyle{ \lambda }[/math]取什么值和选择的测量的方向[math]\displaystyle{ \vec{a} }[/math][math]\displaystyle{ \vec{b} }[/math]是没有关系的。这个假设实际上是要求我们的测量和被测量物理对象的状态之间存在着某种客观性:被测量物理对象的状态是独立于测量者希望来测量的物理量之外的。违反这一条的理论相当于允许被测量物理对象了解测量者的企图。这样的理论,尽管没有什么原理说不能成立,不是物理学理论追求的目标——试想一下让一个自旋了解实验者到底要测量“它自己”的什么方向然后这个自旋甚至会做相应的调整这件事情有多么的不可接受。

在这个假设下,当然这个[math]\displaystyle{ \lambda }[/math]就更加不能是同时依赖于[math]\displaystyle{ \vec{a}, \vec{b} }[/math]的函数了。不管实验者选择的测量方向是什么,被测量的物理对象的状态是由一个预先已经给定概率分布给出的某个样本决定的,而不是由某一个实验者,或者是所有的实验者所选择的方向决定的。

在这个条件下,我们来求[math]\displaystyle{ AB }[/math]乘积的平均值, [math]\displaystyle{ \begin{aligned} {\left\langle}A\left(\vec{a}, \lambda\right) B\left(\vec{b}, \lambda\right){\right\rangle}= \int d\lambda \rho\left(\lambda\right) A\left(\vec{a}, \lambda\right) B\left(\vec{b}, \lambda\right). {\label{eq:BellSpinMeasure}}\end{aligned} }[/math] 这个表达式“表示”:系统的状态是由参数[math]\displaystyle{ \lambda }[/math]决定的,[math]\displaystyle{ \lambda }[/math]自己符合某个概率分布,然后,给定某一个[math]\displaystyle{ \lambda }[/math]的值以后,任何测量——例如A测量[math]\displaystyle{ \vec{a} }[/math]方向的自旋以及B测量[math]\displaystyle{ \vec{b} }[/math]方向的自旋——结果是确定的;在这个随机客体的测量的解释下,我们需要保证测量结果之间的关联与实验观察相符。在这里,我们隐含着一个要求,[math]\displaystyle{ \lambda }[/math][math]\displaystyle{ \vec{a}, \vec{b} }[/math]没有关系[math]\displaystyle{ \lambda }[/math]代表了客观系统的状态,尽管未知,尽管[math]\displaystyle{ \lambda }[/math]是隐藏变量。[math]\displaystyle{ \vec{a} }[/math][math]\displaystyle{ \vec{b} }[/math])代表第一(二)个观测者Alice(Bob)的意图。一个好的经典理论,我们希望客观系统的状态和观测者的意图是分开的,也就是说,一定程度上客观实在性是存在的。同时这个表达式还有另一重假设[math]\displaystyle{ \vec{a} }[/math][math]\displaystyle{ \vec{b} }[/math]应该是独立的,不能通过[math]\displaystyle{ \lambda }[/math]建立起来某种联系。我们也可以形式上写下来一个Alice和Bob的整体测量结果表达式,例如 [math]\displaystyle{ \begin{aligned} {\left\langle}AB\left(\vec{a}, \vec{b}; \lambda\right) {\right\rangle}= \int d\lambda \rho\left(\lambda\right) AB\left(\vec{a}, \vec{b}; \lambda\right).\end{aligned} }[/math] 公式[math]\displaystyle{ \left(\ref{eq:BellSpinMeasure}\right) }[/math]相当于是假设了 [math]\displaystyle{ \begin{aligned} AB\left(\vec{a}, \vec{b}; \lambda\right) = A\left(\vec{a}, \lambda\right)B\left(\vec{b}, \lambda\right). {\label{eq:EinsteinLocality}}\end{aligned} }[/math] 这个假设被称为。

当然,在实验中,我们可以不仅仅要求测量结果的关联性与实验相符,还可以要求[math]\displaystyle{ A\left(\vec{a}, \lambda\right) }[/math]必须是[math]\displaystyle{ \pm 1 }[/math]等其它条件得到满足。在下面的讨论中,我们仅关心这个测量结果之间的统计关联性,因为这个是我们将要讨论的所关注的量。因此,这一章的主要任务就是检验,包含隐变量的经典理论计算出来的关联公式[math]\displaystyle{ \left(\ref{eq:BellSpinMeasure}\right) }[/math] 是否和量子系统测量得到的关联公式[math]\displaystyle{ \left(\ref{eq:Bellcorrelation}\right) }[/math]存在矛盾。

为了这个目的,我们来考查这样的关联所满足的约束, [math]\displaystyle{ \begin{aligned} C\left(\vec{a}, \vec{b}\right)\triangleq {\left\langle}A\left(\vec{a}, \lambda\right) B\left(\vec{b}, \lambda\right){\right\rangle}.\end{aligned} }[/math] 以下计算的过程如果太抽象,想着这里我们关心的是两个不同方向的自旋的测量值的关联,也就是[math]\displaystyle{ {\left\langle}s\left(\vec{a}, \lambda\right) s\left(\vec{b}, \lambda\right){\right\rangle} }[/math]

以下的讨论来自于Ballentine的《Quantum Mechanics – a modern development》。首先,对于任意一个方向的单个自旋的测量,我们有 [math]\displaystyle{ \begin{aligned} {\left|}A\left(\vec{a}, \lambda\right){\right|}\leq 1, {\left|}B\left(\vec{b}, \lambda\right){\right|}\leq 1.\end{aligned} }[/math] 然后,我们来证明下面的结果——称为 [math]\displaystyle{ \begin{aligned} {\left|}C\left(\vec{a}, \vec{b}\right) - C\left(\vec{a}, \vec{b}^{\prime}\right) {\right|}+ {\left|}C\left(\vec{a}^{\prime}, \vec{b}^{\prime}\right) + C\left(\vec{a}^{\prime}, \vec{b}\right) {\right|}\leq 2. \end{aligned} }[/math] 证明如下, [math]\displaystyle{ \begin{aligned} C\left(\vec{a}, \vec{b}\right) - C\left(\vec{a}, \vec{b}^{\prime}\right) & = & \int d\lambda \rho\left(\lambda\right) \left[A\left(\vec{a}, \lambda\right) B\left(\vec{b}, \lambda\right)-A\left(\vec{a}, \lambda\right) B\left(\vec{b}^{\prime}, \lambda\right)\right] \notag \\ & = & \int d\lambda \rho\left(\lambda\right) A\left(\vec{a}, \lambda\right) B\left(\vec{b}, \lambda\right)\left[1\pm A\left(\vec{a}^{\prime}, \lambda\right) B\left(\vec{b}^{\prime}, \lambda\right)\right] \notag \\ & - & \int d\lambda \rho\left(\lambda\right) A\left(\vec{a}, \lambda\right) B\left(\vec{b}^{\prime}, \lambda\right)\left[1\pm A\left(\vec{a}^{\prime}, \lambda\right) B\left(\vec{b}, \lambda\right)\right],\notag\end{aligned} }[/math] 得到, [math]\displaystyle{ \begin{aligned} {\left|}C\left(\vec{a}, \vec{b}\right) - C\left(\vec{a}, \vec{b}^{\prime}\right) {\right|}& \leq & \int d\lambda \rho\left(\lambda\right) \left[1\pm A\left(\vec{a}^{\prime}, \lambda\right) B\left(\vec{b}^{\prime}, \lambda\right)\right] \notag \\ & + &\int d\lambda \rho\left(\lambda\right) \left[1\pm A\left(\vec{a}^{\prime}, \lambda\right) B\left(\vec{b}, \lambda\right)\right],\notag \\ & = & 2 \pm \left[C\left(\vec{a}^{\prime}, \vec{b}^{\prime}\right) + C\left(\vec{a}^{\prime}, \vec{b}\right)\right] .\end{aligned} }[/math]

现在,我们取[math]\displaystyle{ \vec{a},\vec{b}, \vec{a}^{\prime}, \vec{b}^{\prime} }[/math]都在一个平面内,并且,[math]\displaystyle{ \vec{a} }[/math]在零度,[math]\displaystyle{ \vec{b}=\vec{a}^{\prime} }[/math][math]\displaystyle{ \theta }[/math]的角度,[math]\displaystyle{ \vec{b}^{\prime} }[/math][math]\displaystyle{ 2\theta }[/math]的角度,我们得到, [math]\displaystyle{ \begin{aligned} {\left|}C\left(\theta\right) - C\left(2\theta\right) {\right|}+ {\left|}C\left(\theta\right) + C\left(0\right) {\right|}\leq 2. \end{aligned} }[/math] 对于量子系统,我们有[math]\displaystyle{ C\left(\theta\right)=-\cos{\left(\theta\right)} }[/math],于是,我们考察以下不等式是否永远满足, [math]\displaystyle{ \begin{aligned} 2\cos{\left(\theta\right)} - \cos{\left(2\theta\right)} \leq 1.\end{aligned} }[/math] 我们发现,当例如[math]\displaystyle{ \theta=\frac{\pi}{3} }[/math]的时候,左边等于[math]\displaystyle{ \frac{3}{2}\gt 1 }[/math]。于是,量子系统不满足,而则是经典概率论的直接推论。

于是,如果实验证明,量子系统的行为符合公式[math]\displaystyle{ \left(\ref{eq:Bellcorrelation}\right) }[/math],但是不符合,则,证明符合经典概率论的量子系统的理论是不可能的。下一节,我们就来看量子系统的实验结果。

Bell定理的实验检验以及Die Hard教授的吹毛求疵

始于1935年的爱因斯坦和玻尔关于量子力学对物理实在的描述是否完备,是否存在定域隐变量等问题的论争,长期停留在思辨性的层面。1964年,为这场论证导出一个简洁的、实验可行的不等式作为谁是谁非的判据,论证于是转化为由实验结果裁定的时代,物理学家开始努力完成验证的各种类型的实验。验证的实验可以大致分为4代。

第一代是在1970年代完成的几个实验, 典型的实验装置如下[math]\displaystyle{ \ref{fig:Aspect1982a} }[/math]

文件:Aspect1982a
caption 一对纠缠光子经过偏振片I和II以后,再做测量。图取自。

[fig:Aspect1982a]

这基本上就是的纠缠光子对实现Einstein-Podolsky-Rosen-Bohm思想实验的原理图。光源S利用原子级联跃迁产生的纠缠光子对,发出一对处于纠缠态的光子 [math]\displaystyle{ \nu_{1} }[/math][math]\displaystyle{ \nu_{2} }[/math], 分别通过两个线偏振片I和II,光子经过I之后的极化方向为[math]\displaystyle{ \vec{a} }[/math],光子经过II之后的极化方向为[math]\displaystyle{ \vec{b} }[/math] 。它们分别通过两个光电倍增管PM1和PM2,把微弱的光子信号放大,最后到达符合计数器CM。 符合计数法的作用是对接收到的一对光子的极化关联进行测量。

这几个实验的结果都给出来量子系统的行为违反或者(后者是的另一种形式,更便于实验的验证,见),支持量子力学的预言。但是这类实验有一些漏洞,主要的漏洞是:实验采用两个固定于实验室内的单路偏振片,它们预先设定了偏振方向,这样尚不足以完全否定量子力学是定域实在的理论。粗略地来说,由于偏振片I和II的方向事先就给定,存在者一种可能的经典理论,能够得到满足所测量到的关联性的结果。关于更多的这个漏洞的讨论可见“Wikipedia上的检验”的条目[30]以及“的检验的漏洞”的条目[31]

第二代实验开始于1982年Aspect等人的实验。最重要的改进是把第一代的单路偏振片改为双路偏振片(见下[math]\displaystyle{ \ref{fig:Aspect1982b} }[/math]),在 [math]\displaystyle{ \nu_{1} }[/math]光子这一方,两个偏振片分别为 I和I[math]\displaystyle{ ^{'} }[/math],偏振方向分别为[math]\displaystyle{ \vec{a} }[/math][math]\displaystyle{ \vec{a}^{'} }[/math] ;在 [math]\displaystyle{ \nu_{2} }[/math]光子这一方,两个偏振片分别为II和II[math]\displaystyle{ ^{'} }[/math], 偏振方向分别为[math]\displaystyle{ \vec{b} }[/math][math]\displaystyle{ \vec{b}^{'} }[/math]。开关[math]\displaystyle{ C_{1} }[/math][math]\displaystyle{ C_{2} }[/math]分别连接在每一方的两个偏振片组之间。在光子由光源飞向偏振片的途中,开关随机地选择偏振的取向([math]\displaystyle{ \vec{a} }[/math] 或者[math]\displaystyle{ \vec{a}^{'} }[/math][math]\displaystyle{ \vec{b} }[/math] 或者[math]\displaystyle{ \vec{b}^{'} }[/math] ) ,这样做是为了避免在光源和偏振片之间,或测量光子偏振的两个事件之间,可以用任何等于或小于光信号的速度建立联系,这样做更为接近爱因斯坦等人的理想的实验方案。这个实验的结果明显违反,支持量子力学。

文件:Aspect1982b
caption 一对纠缠光子经过偏振片I(或者I[math]\displaystyle{ ^{'} }[/math])和II(或者II[math]\displaystyle{ ^{'} }[/math])以后,再做测量。其中到底经过I,II还是I[math]\displaystyle{ ^{'} }[/math],II[math]\displaystyle{ ^{'} }[/math]由开关在光子飞行途中决定。图取自。

[fig:Aspect1982b]

第三代实验始于1980年代后期,仍然是用纠缠光子完成的,让紫外光子通过非线性晶体下转换为一对纠缠光子,这样光源具有更高的效率。两路偏振探测器的距离拉大。1998年,等人的实验也是采用下转换光子做到了[math]\displaystyle{ 10 }[/math]公里的距离。1998年,等人的实验两个偏振片组之间的距离为400米(1982年,等人的实验为[math]\displaystyle{ 12 }[/math]米),检验的对象从换成了。这些实验尽量避免了所有可能的漏洞,向爱因斯坦等人的理想中的实验更前进一步。

以上三代实验均是用纠缠光子对作为对象,验证量子力学幽灵般的超距作用是否存在。这些实验虽然不断改进,但是存在两个共同的漏洞—探测漏洞。探测漏洞指实验不能探测到所有用于实验的光子,甚至漏掉[math]\displaystyle{ 80\% }[/math]。这样的取样是不“公正的”,实验者只能假定所探测到的光子的性质代表了全部光子群体。

第四代实验,是荷兰的 等人利用纠缠电子完成的。它避免了使用光子的探测漏洞。为了避免另一种漏洞—通信漏洞(即电子相距很远时,纠缠态会遭到破坏),采用了纠缠交换技术(entanglement swapping )将光子和电子的优点结合在一起。这被认为是没有漏洞的的验证实验,完全实现了爱因斯坦等人的假想实验。但是,实验结果不支持爱因斯坦的定域实在论中的观点。他们利用的两个实验室,把两个电子分别存放在这两个实验室内的金刚石A和B中 ,A和B相距[math]\displaystyle{ 1280 }[/math]米。这两个电子处于非纠缠态,但是它们在分别与两个光子纠缠,而这两个光子都被发送到第三个实验室C,在第C让这两个光子纠缠,这就导致了与光子纠缠的两个电子也处于纠缠态。实验装置如[math]\displaystyle{ \ref{fig:Hensen} }[/math]所示。

文件:Hensen2015
caption 利用电子代替了光子避免了其他检验的漏洞。图取自。

[fig:Hensen]

[math]\displaystyle{ 9 }[/math]天内,该实验组共产生了[math]\displaystyle{ 245 }[/math]对纠缠电子,最终测量结果表明,两个电子之间的相干性超过了的上限支持量子力学。由于电子易于检测,所以避免了探测漏洞,又由于两个电子的距离足够远,所以避免了通讯漏洞。到这个实验为止,应该说,就算是DieHard教授,也应该可以接受了:量子系统的行为不满足。然而,所有的定域实在经典理论都满足。因此,量子系统的理论不可能是定域实在的经典理论。也就是说,量子系统的理论有必要采用目前的基于包含了非对角元的密度矩阵的量子力学的理论,或者说基于可线性叠加的矢量和非对易算符的量子力学的理论。

实际上,作者对于量子力学的基本问题的兴趣,也是从这个利用最一般的经典理论来描述量子系统的行为的可能性开始的。可以看到,本书在结构上和内容上,一再回到这个主题:是否能够用经典概率论来描述量子系统的行为。实际上,作者在开始讨论这个问题的时候,已经有大量的检验的实验,当然更加已经有了定域实在经典系统的Bell定理。但是,那个时候,作者提出来的思路是,如果我们不再进行进一步的实验,是否现在已经知道的量子系统的行为,就能够告诉我们:不可能构造一个能够解释一个自旋的单次测量的结果及其平均值,以及测量以后马上再次测量得到的单次结果及其平均值的实验结果的经典理论。我们的研究发现,这样的经典理论会非常的难以理解,需要破坏大量的一个理论应该有的自然的合理的性质。甚至,我们必须放弃以下的测量的“直观理解”:测量得到一个状态表示这个系统当前处于这个状态,而代之以:测量的到一个状态表示如果接着马上再一次重复同样的测量我们将获得一样的结果。这是弱很多的一个条件。在这个条件下,我们将不再能够问这个时候的状态是什么的问题,仅仅能够回答这个时候的这个状态下做那样的测量得到的结果是什么。也就是说,量子状态和量子测量不再是能够分开的问题。因此,实际上,在这个工作中,我们得到:不满足矢量叠加原理的以经典概率论为最一般的形式的经典理论不能描述量子系统的行为。

前后两次测量的关联的量子力学计算

[sec:Quantum_r1r2Final]

[math]\displaystyle{ \ref{sec:Classical_r1r2Final} }[/math]中,我们企图构建一个能够复现量子系统前后两次测量的关联的经典理论,现在,我们来写下来相应的量子理论,然后再一次来讨论这个经典理论的可能性。

首先,我们写下来量子力学对公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math]的计算。 [math]\displaystyle{ \begin{aligned} {\left\langle}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\right\rangle}& = & \sum_{s_{\hat{r}_{1}}=\pm 1, s_{\hat{r}_{2}}=\pm 1} s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\left\langle}s_{\hat{r}_{1}} {\right|}\rho_{0} {\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{2}} {\right|}\left({\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{1}} {\right|}\right) {\left|}s_{\hat{r}_{2}} {\right\rangle}\notag \\ & = & \sum_{s_{\hat{r}_{1}}} {\left\langle}s_{\hat{r}_{1}} {\right|}\rho_{0} {\left|}s_{\hat{r}_{1}} {\right\rangle}\left[\sum_{s_{\hat{r}_{2}}}s_{\hat{r}_{1}}s_{\hat{r}_{2}} {\left\langle}s_{\hat{r}_{2}} {\right|}{\left.}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{1}} {\right.}{\left|}s_{\hat{r}_{2}} {\right\rangle}\right] \notag \\ & = & \sum_{s_{\hat{r}_{1}}} {\left\langle}s_{\hat{r}_{1}} {\right|}\rho_{0} {\left|}s_{\hat{r}_{1}} {\right\rangle}\hat{r}_{1}\cdot \hat{r}_{2}\notag \\ & = & \hat{r}_{1}\cdot \hat{r}_{2}. {\label{eq:Quantum_r1r2Final}}\end{aligned} }[/math] 其中[math]\displaystyle{ \rho_{0} }[/math]是任意一个初始状态,[math]\displaystyle{ s_{\hat{r}_{1}}{\left\langle}s_{\hat{r}_{1}} {\right|}\rho_{0} {\left|}s_{\hat{r}_{1}}{\right\rangle} }[/math]表示测量到第一个自旋的取值为[math]\displaystyle{ s_{\hat{r}_{1}}\in \pm 1 }[/math]并且其的几率为[math]\displaystyle{ {\left\langle}s_{\hat{r}_{1}} {\right|}\rho_{0} {\left|}s_{\hat{r}_{1}} {\right\rangle} }[/math][math]\displaystyle{ s_{\hat{r}_{2}} {\left\langle}s_{\hat{r}_{2}} {\right|}\left({\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{1}} {\right|}\right) {\left|}s_{\hat{r}_{2}} {\right\rangle} }[/math]表示对于以上测量后的状态[math]\displaystyle{ \left({\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{1}} {\right|}\right) }[/math]来说,测量到[math]\displaystyle{ s_{\hat{r}_{2}}\in \pm 1 }[/math]及其几率为[math]\displaystyle{ {\left\langle}s_{\hat{r}_{2}} {\right|}\left({\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{1}} {\right|}\right) {\left|}s_{\hat{r}_{2}} {\right\rangle} }[/math]。因此,我们看到很难构造出来经典概率分布函数来符合的实验结果公式[math]\displaystyle{ \left(\ref{eq:r1r2Final}\right) }[/math],在量子力学的数学框架里面,用了量子力学的公理[axiom:Quantum3]和公理[axiom:Quantum4],是一件非常简单的事情: 测量[math]\displaystyle{ \hat{r}_{1} }[/math]方向的自旋得到取值为[math]\displaystyle{ s_{\hat{r}_{1}} }[/math]以后,系统的密度矩阵是, [math]\displaystyle{ \begin{aligned} \hat{\rho}\left(s_{\hat{r}_{1}}\right) = {\left|}s_{\hat{r}_{1}} {\right\rangle}{\left\langle}s_{\hat{r}_{1}} {\right|},\end{aligned} }[/math] 这个时候如果测量[math]\displaystyle{ \hat{r}_{2} }[/math]方向的自旋,得到取值为[math]\displaystyle{ s_{\hat{r}_{2}} }[/math]的几率是 [math]\displaystyle{ \begin{aligned} p\left(s_{\hat{r}_{2}}|s_{\hat{r}_{1}}\right) = {\left\langle}s_{\hat{r}_{2}} {\right|}\left({\left\langle}s_{\hat{r}_{1}} {\right|}{\left|}s_{\hat{r}_{1}} {\right\rangle}\right) {\left|}s_{\hat{r}_{2}} {\right\rangle}.\end{aligned} }[/math]

互斥构造和独立构造的经典理论的非定域性

[sec:NonLocal]

现在让我们用第[Chap:PhysicsModels]章所构建的基于互斥随机变量或者独立随机变量的量子系统的经典理论来描述处于纠缠态的两个自旋的测量。我们先给出量子力学的描述。状态为 [math]\displaystyle{ \begin{aligned} {\left|}\Psi^{-} {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}\right).\end{aligned} }[/math] 测量结果的计算可以直接计算两个所测量的算符的乘积的平均值,也就是

[math]\displaystyle{ \begin{aligned} {\left\langle}\sigma^{1}_{z}\sigma^{2}_{r} {\right\rangle}= \frac{1}{2}\left({\left\langle}\uparrow_{z}\downarrow_{z} {\right|}- {\left\langle}\downarrow_{z}\uparrow_{z} {\right|}\right)\sigma^{1}_{z}\sigma^{2}_{r}\left({\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}- {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}\right) \\ = \frac{1}{2}\left({\left\langle}\uparrow_{z}\downarrow_{z} {\right|}\sigma^{1}_{z}\sigma^{2}_{r} {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}+ {\left\langle}\downarrow_{z}\uparrow_{z} {\right|}\sigma^{1}_{z}\sigma^{2}_{r} {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}\right) {\label{eq:localityquantum1}}\\ - \frac{1}{2}\left({\left\langle}\uparrow_{z}\downarrow_{z} {\right|}\sigma^{1}_{z}\sigma^{2}_{r} {\left|}\downarrow_{z}\uparrow_{z} {\right\rangle}+ {\left\langle}\downarrow_{z}\uparrow_{z} {\right|}\sigma^{1}_{z}\sigma^{2}_{r} {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}\right) {\label{eq:localityquantum2}} \\ = \frac{1}{2}\left({\left\langle}\downarrow_{z} {\right|}\sigma^{2}_{r}{\left|}\downarrow_{z} {\right\rangle}- {\left\langle}\uparrow_{z} {\right|}\sigma^{2}_{r}{\left|}\uparrow_{z} {\right\rangle}\right) \\ = -\hat{r}\cdot \hat{z}.\end{aligned} }[/math]

注意公式[math]\displaystyle{ \left(\ref{eq:localityquantum1}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:localityquantum2}\right) }[/math]中的每一项,我们都可以展开成乘积项,也就是形如, [math]\displaystyle{ \begin{aligned} {\left\langle}\uparrow_{z}\downarrow_{z} {\right|}\sigma^{1}_{z}\sigma^{2}_{r} {\left|}\uparrow_{z}\downarrow_{z} {\right\rangle}= \left({\left\langle}\uparrow_{z} {\right|}\sigma^{1}_{z} {\left|}\uparrow_{z}{\right\rangle}\right)\left({\left\langle}\downarrow_{z} {\right|}\sigma^{2}_{r} {\left|}\downarrow_{z} {\right\rangle}\right). {\label{eq:localityquantum}}\end{aligned} }[/math] 这个就是量子版本的[math]\displaystyle{ AB\left(\vec{a}, \vec{b}; \lambda\right) = A\left(\vec{a}, \lambda\right)B\left(\vec{b}; \lambda\right) }[/math],也就是公式[math]\displaystyle{ \left(\ref{eq:EinsteinLocality}\right) }[/math]的。因此,量子力学的状态和测量的公理[axiom:Quantum3]和公理[axiom:Quantum4],不仅能够描述量子纠缠系统的测量,还能够在数学形式上满足。用量子力学来解释纠缠系统测量的结果还可以不采用算符乘积形式而是看做逻辑上“先后”测量。我们已经在第[Chap:EngtangleMeasure]章[math]\displaystyle{ \ref{Sec:EngtangleMeasure} }[/math]做过这一个计算。

现在,我们来看一看第[Chap:PhysicsModels]章所构建的基于互斥随机变量或者独立随机变量的量子系统的经典理论能否给出同样和实验相符的结果并且数学形式上满足公式[math]\displaystyle{ \left(\ref{eq:EinsteinLocality}\right) }[/math]的。我们先尝试着从公式[math]\displaystyle{ \left(\ref{eq:classicalsum}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:classicalprod}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:classicalrho}\right) }[/math]写下来两个自旋的经典理论, [math]\displaystyle{ \begin{aligned} \rho^{c} = \frac{1}{\mathcal{N}}\sum_{\hat{r}_{1},\hat{r}_{2}} \rho^{c}\left(s_{\hat{r}_{1}}, s_{\hat{r}_{2}}\right), {\label{eq:classicalsum2}}\end{aligned} }[/math][math]\displaystyle{ \begin{aligned} \rho^{c} = \prod_{\hat{r}_{1}, \hat{r}_{2}} \rho^{c}\left(s_{\hat{r}_{1}}, s_{\hat{r}_{2}}\right), {\label{eq:classicalprod2}}\end{aligned} }[/math] 其中 [math]\displaystyle{ \begin{aligned} \rho^{c}\left(s_{\hat{r}_{1}}, s_{\hat{r}_{2}}\right) = p_{\uparrow\uparrow}\left(\hat{r}_{1}, \hat{r}_{2}\right){\left|}\uparrow_{\hat{r}_{1}}\uparrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}_{1}} \uparrow_{\hat{r}_{2}} {\right|}\notag \\ + p_{\uparrow\downarrow}\left(\hat{r}_{1}, \hat{r}_{2}\right){\left|}\uparrow_{\hat{r}_{1}}\downarrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}_{1}} \downarrow_{\hat{r}_{2}} {\right|}\notag \\ + p_{\downarrow\uparrow}\left(\hat{r}_{1}, \hat{r}_{2}\right){\left|}\downarrow_{\hat{r}_{1}}\uparrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}_{1}} \uparrow_{\hat{r}_{2}} {\right|}\notag \\ + p_{\downarrow\downarrow}\left(\hat{r}_{1}, \hat{r}_{2}\right){\left|}\downarrow_{\hat{r}_{1}}\downarrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\downarrow_{\hat{r}_{1}} \downarrow_{\hat{r}_{2}} {\right|}. {\label{eq:classicalrho2}}\end{aligned} }[/math] 这里 [math]\displaystyle{ \begin{aligned} p_{\uparrow\uparrow}\left(\hat{r}_{1}, \hat{r}_{2}\right)=\frac{1-\hat{r}_{1}\cdot \hat{r}_{2}}{4}, \notag \\ p_{\uparrow\downarrow}\left(\hat{r}_{1}, \hat{r}_{2}\right)=\frac{1+\hat{r}_{1}\cdot \hat{r}_{2}}{4}, \notag \\ p_{\downarrow\uparrow}\left(\hat{r}_{1}, \hat{r}_{2}\right)=\frac{1+\hat{r}_{1}\cdot \hat{r}_{2}}{4},\notag \\ p_{\downarrow\downarrow}\left(\hat{r}_{1}, \hat{r}_{2}\right)=\frac{1-\hat{r}_{1}\cdot \hat{r}_{2}}{4}.\end{aligned} }[/math] 可以验证如果实际上Alice和Bob选择了观测[math]\displaystyle{ \hat{r}_{1}, \hat{r}_{2} }[/math],则得到[math]\displaystyle{ s_{\hat{r}_{1}}=\pm 1, s_{\hat{r}_{2}}=\pm 1 }[/math]的四个结果的概率和量子力学预测的相符,和量子系统的实验相符。这四个观测导致的合起来的关联函数也正好是[math]\displaystyle{ -\hat{r}_{1}\cdot \hat{r}_{2} }[/math]。看起来我们的经典理论和实验结果相符啊!

当然,你可以说我作弊,实际上我在构造经典理论的时候的所有的这些概率都是先通过量子力学计算出来然后写成经典理论的形式的。但是,至少我有了一个能够给出和实验结果相符的经典理论啊。当然,它有一切单个自旋的经典理论的毛病:破坏自旋算符之间的内部关系(各个方向的自旋成为独立或互斥的随机变量)、实验者不再能够决定希望观测的自旋方向大多数时候观测不到想要的方向、测量独立随机变量当中的一个会改变其他“独立”随机变量的分布函数。但是,万一,Die Hard宁愿接受这些也不愿意接受量子力学呢?量子力学的密度矩阵的非对角元确实超越经典概率论,而且也正是这些非对角元才导致了对量子系统的测量看起来会改变其状态,不再是一个克隆,或者说一个传播。我们来揭示这样的理论的另外一个有可能Die Hard也不想接受的性质:非定域性。

如果成立,我们应该有公式[math]\displaystyle{ \left(\ref{eq:EinsteinLocality}\right) }[/math],在这里测量的是[math]\displaystyle{ s_{\hat{r}_{1}}, s_{\hat{r}_{2}} }[/math],于是 [math]\displaystyle{ \begin{aligned} s_{1}s_{2}\left(\hat{r}_{1}, \hat{r}_{2}; \lambda\right) = s_{1}\left(\hat{r}_{1}, \lambda\right)s_{2}\left(\hat{r}_{2}, \lambda\right).\end{aligned} }[/math] 而且,[math]\displaystyle{ \lambda }[/math][math]\displaystyle{ \hat{r}_{1}, \hat{r}_{2} }[/math]没有关系,是独立于被测量方向的描述系统状态的客观实在的隐变量。从公式[math]\displaystyle{ \left(\ref{eq:localityquantum}\right) }[/math]我们也已经看到,量子力学的数学形式是满足这一条的。

然后,在我们现在构造的描述量子纠缠态的经典理论中,我们注意到,实际上测量单个自旋对应着的随机变量根本没有意义,我们的基本事件是有一对随机变量[math]\displaystyle{ \hat{r}_{1}, \hat{r}_{2} }[/math]所标记的事件[math]\displaystyle{ {\left|}\uparrow_{\hat{r}_{1}}\uparrow_{\hat{r}_{2}}{\right\rangle}{\left\langle}\uparrow_{\hat{r}_{1}} \uparrow_{\hat{r}_{2}} {\right|} }[/math]等。因此,在求平均的过程中真正发挥作用的是, [math]\displaystyle{ \begin{aligned} s_{1}s_{2}\left(\hat{r}_{1}, \hat{r}_{2}; \lambda_{\hat{r}_{1}\hat{r}_{2}}\right) = s_{1}\left(\hat{r}_{1}, \lambda_{\hat{r}_{1}\hat{r}_{2}}\right)s_{2}\left(\hat{r}_{2}, \lambda_{\hat{r}_{1}\hat{r}_{2}}\right).\end{aligned} }[/math] 也就是不仅被测量系统和观测者之间的独立的客观实在不存在,两个自旋的独立的客观实在也不存在。现在,我们终于清楚了,为什么我们能够写下来量子系统的经典理论了,除了前面已在提到的这个理论的问题,还有一个很大的问题:不满足。当然,你可以继续追问,为什么我们希望我们的理论满足呢?这个和物理学关于客观实在的梦想有关:被观测系统总在那里(有某个状态)不管观测者是否观测这个系统。破坏这个梦想,就相当于让被测量系统具有某种渠道可以了解观测者的意图:看了它才显示相应的状态,才在那里。这总是一件很奇怪的事情。能够不牵扯这一步还是不要牵扯了。而且,量子力学在数学形式满足这个要求,不需要破坏非定域性。

在本章和第[Chap:PhysicsModels]章中,我们对于量子系统的经典理论的可能性做了非常深入和有一定难度的讨论。我们希望读者能够跟着这个思路想一想,甚至超越这个思路再想一想这个问题。其实,这是量子力学的魅力的一部分,非常重要的一部分。

作业

补充公式[math]\displaystyle{ \left(\ref{eq:Quantum_r1r2Final}\right) }[/math]的推导。具体计算的时候为了方便(但是要交代为什么可以)可以取[math]\displaystyle{ \hat{r}_{1}=\hat{z} }[/math]。你可能会用到三角函数的倍角公式或者积化和差、和差化积公式。

从量子力学推导公式[math]\displaystyle{ \left(\ref{eq:classicalrho2}\right) }[/math]中的形如[math]\displaystyle{ p_{\uparrow\uparrow}\left(\theta_{1}, \phi_{1}; \theta_{2}, \phi_{2}\right) }[/math]的四个概率的表达式。具体计算的时候为了方便(但是要交代为什么可以)可以取[math]\displaystyle{ \hat{r}_{1}=\hat{z} }[/math]。你可能会用到三角函数的倍角公式或者积化和差、和差化积公式。

检索和阅读“GHZ状态和GHZ实验”,做一个综述,包含整理、总结、评价。

阅读David Mermin的《Is the moon there when nobody looks? Reality and the quantum theory》,做一个阅读报告,包含整理、总结、评价。

本章小结

这一章,我们用纠缠自旋态的两个不同方向上的自旋的测量关联值来讨论,量子系统的行为——它满足量子的理论预测[math]\displaystyle{ -\cos{\theta} }[/math]的关联——是否能够用满足经典概率分布的理论模型来描述。我们发现,至少数学结果上,这个经典关联必须满足一个不等式的约束:,而量子关联数学上不满足这个约束。实验上,系统是否遵循量子关联,还是经典关联就是另外一个问题了,尽管看起来量子系统的行为不满足,除了一些吹毛求疵的漏洞问题。尤其是2015年的等人的实验被认为是没有漏洞的实验。

不过从Die Hard教授的角度来说,漏洞就是漏洞。是否真的就不能找出来等人的实验的漏洞也是一个问题。因此,仅仅从的实验检验的角度来考察量子系统是否就真的不能用满足经典概率的理论(而且这个经典概率可以看作是信息不完全的时候的确定性理论的表现)来描述,还是一个还可以继续研究的问题。

然而,在引论部分,我们考虑了满足量子系统单次测量的结果及其系综测量的平均值以及测量后再次测量的单次结果及其系综测量的平均值的经典理论的可能性。从这个角度来说,第[Chap:PhysicsModels]章构建的能够给出和量子系统的实验相符的结果的经典理论和本章最后两节对这个经典理论的讨论,一定程度上回答了这个问题:如果非要这样的理论不可,代价相当大——非定域、破坏自旋算符之间的内部关系(各个方向的自旋成为独立或互斥的随机变量)、实验者不再能够决定希望观测的自旋方向大多数时候观测不到想要的方向、测量独立随机变量当中的一个会改变其他“独立”随机变量的分布函数。相比于这个经典理论。量子系统的量子理论具有以下特征:定域性,自旋算符之间的内部关系得到了保持,实验者可以选择观察方向,独立变量的测量真的独立。

在思路上,的思路是证明符合经典概率论的理论的一般性质,然后通过实验来检验这样的约束是否得到满足;引论中的讨论则是,企图显式地构造出来满足量子单次和再次测量实验的单次结果和平均值的实验结果的经典概率论形式的理论,然后来考察这样的理论是否存在是否比现有的量子理论看起来更加合理。从证明不可能的严谨性来说,的思路更加合理,因为显式构造的思路上可能没有办法穷尽所有可能的理论的形式。不过,我认为,后者这样的构造性思路更加能够促进对一个理论的理解。

测量的量子力学?

[Chap:Measurement]

在我们已经学习过的目前的量子理论中,测量是通过形式化的公理——关于测量得到的结果的公理[axiom:Quantum3]、关于测量后状态的公理[axiom:Quantum4]——来表达的,而不涉及实际的测量如何实现。实际上,在量子力学的实验中,测量是通过具体的装置来实现的。也就是说,原则上,测量的过程,是通过我们所关心的量子系统和装置的相互作用来实现的。于是,自然地,我们可以问这样的问题:是否,测量过程,也应该是量子力学相互作用导致的演化过程的一部分?到底是否存在一个关于测量的动力学的描述?在这一章里面,我们来讨论一下这个问题。这个问题,目前为止,还没有很好的答案。

经典硬币的测量:克隆

我们先来看经典状态的测量。我们还是关心最简单的经典系统:的测量。一个二态经典系统[math]\displaystyle{ c }[/math],例如硬币,的一般状态由如下密度矩阵描述, [math]\displaystyle{ \begin{aligned} \rho^{c} = p{\left|}\uparrow {\right\rangle}{\left\langle}\uparrow {\right|}+ \left(1-p\right){\left|}\downarrow {\right\rangle}{\left\langle}\downarrow {\right|},\end{aligned} }[/math] 其中[math]\displaystyle{ p\in\left[0,1\right] }[/math]是唯一的变量。我们如果测得[math]\displaystyle{ p }[/math]的值,也就知道了这个系统的状态。

为了完成这件事情,我们可以考虑引入一个三个状态——状态[math]\displaystyle{ 0 }[/math][math]\displaystyle{ 1 }[/math][math]\displaystyle{ -1 }[/math]——的系统(例如人的眼睛)[math]\displaystyle{ m }[/math]。其初始处于某个状态[math]\displaystyle{ 0 }[/math]。然后我们设计一种机制,让这个[math]\displaystyle{ m }[/math]的末状态和[math]\displaystyle{ \rho^{c} }[/math]的状态之间建立起来关联:例如当[math]\displaystyle{ c }[/math]处于[math]\displaystyle{ \uparrow }[/math][math]\displaystyle{ \downarrow }[/math])态的时候,[math]\displaystyle{ m }[/math]会相应地处于[math]\displaystyle{ 1 }[/math][math]\displaystyle{ -1 }[/math])态。这样的一种机制,其实本质上必须是某个动力学过程的结果,例如,人的眼睛看到硬币的状态这样的一个过程。实际写出来这个动力学过程通常是比较困难的[32]。如果我们假设这样的过程存在,那么我们的讨论会边的简单很多。也就是,某个过程[math]\displaystyle{ U }[/math]满足, [math]\displaystyle{ \begin{aligned} \rho^{cm}_{0} = \rho^{c}\otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|}\longrightarrow p{\left|}\uparrow ,1{\right\rangle}{\left\langle}\uparrow, 1 {\right|}+ \left(1-p\right){\left|}\downarrow, -1 {\right\rangle}{\left\langle}\downarrow, -1 {\right|}.\end{aligned} }[/math] 我们统一了经典和量子演化的形式[math]\displaystyle{ \rho\left(t\right)=U\left(t\right)\rho\left(0\right)U^{\dag}\left(t\right) }[/math]。于是,我们相当于寻找这样的[math]\displaystyle{ U }[/math],使得 [math]\displaystyle{ \begin{aligned} U\left(t\right)\rho^{c}\otimes {\left|}0 {\right\rangle}{\left\langle}0 {\right|}U^{\dag}\left(t\right)=p{\left|}\uparrow ,1{\right\rangle}{\left\langle}\uparrow, 1 {\right|}+ \left(1-p\right){\left|}\downarrow, -1 {\right\rangle}{\left\langle}\downarrow, -1 {\right|}.\end{aligned} }[/math] 可以验证,形式上,如下算符就可以满足要求, [math]\displaystyle{ \begin{aligned} \tilde{U}\left(t\right)=\frac{1+\sigma^{c}_{z}}{2}{\left|}1^{m} {\right\rangle}{\left\langle}0^{m} {\right|}+ \frac{1-\sigma^{c}_{z}}{2}{\left|}-1^{m} {\right\rangle}{\left\langle}0^{m} {\right|}.\end{aligned} }[/math] 可惜这个算符不满足幺正性,于是,我们构造, [math]\displaystyle{ \begin{aligned} U\left(t\right)=-i\left({\left|}\uparrow ,1{\right\rangle}{\left\langle}\uparrow, 0 {\right|}+ {\left|}\uparrow ,0{\right\rangle}{\left\langle}\uparrow, 1 {\right|}+ {\left|}\downarrow ,-1{\right\rangle}{\left\langle}\downarrow, 0 {\right|}+ {\left|}\downarrow ,0{\right\rangle}{\left\langle}\downarrow, -1 {\right|}\right. \notag\\ \left. + {\left|}\uparrow ,-1{\right\rangle}{\left\langle}\uparrow, -1 {\right|}+ {\left|}\downarrow ,1{\right\rangle}{\left\langle}\downarrow, 1 {\right|}\right).\end{aligned} }[/math] 可以验证[math]\displaystyle{ U^{\dag}U=I=UU^{\dag} }[/math]。 那下一步的问题是,什么样的相互作用[math]\displaystyle{ H }[/math]会导致这样的[math]\displaystyle{ U\left(t\right) }[/math]。具体计算过程不难但是比较复杂:求出来[math]\displaystyle{ U }[/math]的本征向量,然后凑出合适的[math]\displaystyle{ H }[/math]。这里我们直接给出答案, [math]\displaystyle{ \begin{aligned} H={\left|}\uparrow ,1{\right\rangle}{\left\langle}\uparrow, 0 {\right|}+ {\left|}\uparrow ,0{\right\rangle}{\left\langle}\uparrow, 1 {\right|}+ {\left|}\downarrow ,-1{\right\rangle}{\left\langle}\downarrow, 0 {\right|}+ {\left|}\downarrow ,0{\right\rangle}{\left\langle}\downarrow, -1 {\right|},\end{aligned} }[/math] 并且 [math]\displaystyle{ \begin{aligned} t=\frac{\pi}{2}.\end{aligned} }[/math] 反过来,很容易验证[math]\displaystyle{ U\left(t\right)=e^{-iHt} }[/math]得到上面的演化算符。至于我们的眼睛如何实现这样的[math]\displaystyle{ H }[/math],甚至是否我们的眼睛真的是这样实现的,就是另外一个问题了。这里仅仅通过这个例子说明,经典客体的状态的测量可以看作这样一个过程, [math]\displaystyle{ \begin{aligned} \rho^{cm}_{0} \longrightarrow \rho^{cm}_{f},\end{aligned} }[/math] 其中,末状态包含经典关联。在我们的例子中,建立起来的经典关联态是, [math]\displaystyle{ \begin{aligned} \rho^{cm}_{f} = p{\left|}\uparrow ,1{\right\rangle}{\left\langle}\uparrow, 1 {\right|}+ \left(1-p\right){\left|}\downarrow, -1 {\right\rangle}{\left\langle}\downarrow, -1 {\right|}.\end{aligned} }[/math] 这个状态有一个很好的性质,

[math]\displaystyle{ \begin{aligned} tr^{m}\left(\rho^{cm}_{f}\right) = p{\left|}\uparrow {\right\rangle}{\left\langle}\uparrow{\right|}+ \left(1-p\right){\left|}\downarrow {\right\rangle}{\left\langle}\downarrow {\right|}= \rho^{c}_{0}, \\ tr^{c}\left(\rho^{cm}_{f}\right) = p{\left|}1{\right\rangle}{\left\langle}1{\right|}+ \left(1-p\right){\left|}-1 {\right\rangle}{\left\langle}-1 {\right|}\sim \rho^{c}_{0}.\end{aligned} }[/math]

其中,我们运用了部分求迹的操作。我们知道这个部分求迹的操作的含义,在概率论中,是忽略某一个变量的取值,而只看留下来那个变量的情况。于是,从上面的部分求迹的结果我们发现,[math]\displaystyle{ \rho^{cm}_{f} }[/math]这个状态有如下的性质:当我们只关心[math]\displaystyle{ c }[/math]系统而不关心[math]\displaystyle{ m }[/math]系统的时候,看起来就是[math]\displaystyle{ c }[/math]系统的初始状态;当我们只关心[math]\displaystyle{ m }[/math]系统而不关心[math]\displaystyle{ c }[/math]系统的时候,看起来还是像是[math]\displaystyle{ c }[/math]系统的初始状态,只不过被“复制”到了[math]\displaystyle{ m }[/math]系统上。后面的状态,只要我们把[math]\displaystyle{ c }[/math]系统和[math]\displaystyle{ m }[/math]系统认同,那么,就直接就是[math]\displaystyle{ \rho^{c}_{0} }[/math]。这也就是,

[math]\displaystyle{ \begin{aligned} tr^{m}\left(\rho^{cm}_{f}\right) = \rho^{c}_{0}, \\ tr^{c}\left(\rho^{cm}_{f}\right) = \rho^{c}_{0}.\end{aligned} }[/math]

我们发现经典测量的结果满足这样的性质。从这个意义上说,经典的测量总是制备了一个所测量的系统的克隆。

波函数塌缩:非对角项的消失

现在,我们再来看量子系统的测量。我们也考虑最简单的,经典[math]\displaystyle{ \frac{1}{2} }[/math]自旋的测量。

由于“克隆”这个词在量子信息的语言中已经被运用,我们先来说一下,量子信息语言中的“克隆”的含义。对于一个[math]\displaystyle{ q }[/math]系统的纯态[math]\displaystyle{ {\left|}\psi^{q} {\right\rangle} }[/math],我们希望能够得到的克隆定义为这样的一个状态, [math]\displaystyle{ \begin{aligned} {\left|}\psi^{q}_{0} {\right\rangle}\otimes {\left|}\phi^{m}_{0} {\right\rangle}\longrightarrow {\left|}\psi^{q}_{0} {\right\rangle}\otimes {\left|}\phi^{m}_{f} {\right\rangle}: {\left|}\phi^{m}_{f} {\right\rangle}\sim {\left|}\psi^{q}_{0} {\right\rangle}.\end{aligned} }[/math] 其中,[math]\displaystyle{ {\left|}\phi^{m}_{f} {\right\rangle}\sim {\left|}\psi^{q}_{0} {\right\rangle} }[/math]的含义是,如果我们把[math]\displaystyle{ m }[/math][math]\displaystyle{ q }[/math]系统的相应本征态重新编号以后一一对应起来,则[math]\displaystyle{ {\left|}\phi^{m}_{f} {\right\rangle}= {\left|}\psi^{q}_{0} {\right\rangle} }[/math],两个状态同构。我们来看看通过量子系统的演化,是否能够实现这样的“克隆”。

假设我们可以克隆任意的[math]\displaystyle{ {\left|}\psi^{q}_{0} {\right\rangle} }[/math]。我们选择两个状态[math]\displaystyle{ {\left|}\psi^{q}_{1} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\psi^{q}_{2} {\right\rangle} }[/math],分别得到 满足要求的[math]\displaystyle{ {\left|}\psi^{q}_{1} {\right\rangle}\otimes {\left|}\phi^{m}_{1} {\right\rangle} }[/math][math]\displaystyle{ {\left|}\psi^{q}_{2} {\right\rangle}\otimes {\left|}\phi^{m}_{2}{\right\rangle} }[/math]。让我们来计算这两个状态的内积。由于量子演化过程内积不变,我们有 [math]\displaystyle{ \begin{aligned} \left({\left\langle}\psi^{q}_{1} {\right|}\otimes {\left\langle}\phi^{m}_{0} {\right|}\right)\left({\left|}\psi^{q}_{2} {\right\rangle}\otimes {\left|}\phi^{m}_{0} {\right\rangle}\right) = \left({\left\langle}\psi^{q}_{1} {\right|}\otimes {\left\langle}\phi^{m}_{1} {\right|}\right)\left({\left|}\psi^{q}_{2} {\right\rangle}\otimes {\left|}\phi^{m}_{2} {\right\rangle}\right) \notag \\ \Rightarrow {\left\langle}\psi^{q}_{1} {\right|}{\left.}\psi^{q}_{2} {\right\rangle}= {\left\langle}\psi^{q}_{1} {\right|}{\left.}\psi^{q}_{2} {\right\rangle}{\left\langle}\phi^{m}_{1} {\right|}{\left.}\phi^{m}_{2} {\right\rangle}\notag \\ \Rightarrow {\left\langle}\psi^{q}_{1} {\right|}{\left.}\psi^{q}_{2} {\right\rangle}\left(1-{\left\langle}\phi^{m}_{1} {\right|}{\left.}\phi^{m}_{2} {\right\rangle}\right)=0\end{aligned} }[/math] 于是,我们得到要么[math]\displaystyle{ {\left\langle}\psi^{q}_{1} {\right|}{\left.}\psi^{q}_{2} {\right\rangle}=0 }[/math]或者[math]\displaystyle{ {\left\langle}\phi^{m}_{1} {\right|}{\left.}\phi^{m}_{2} {\right\rangle}=1 }[/math]。也就是说,对于任意状态我们做不到克隆,除非被克隆的状态要么是一样的,要么是正交的。而对于经典客体的状态,我们知道这一点是满足的:任意两个状态要么相同要么正交,也就是 [math]\displaystyle{ \begin{aligned} {\left\langle}\psi^{c}_{i} {\right|}{\left.}\psi^{c}_{j} {\right\rangle}= \delta_{ij}.\end{aligned} }[/math] 但是量子态不满足这个要求。因此,这个量子不可克隆,经典可以克隆的定理,很好地反应了经典和量子的区别。正是因为这个原因,量子不可克隆定理在量子信息的研究中有一定的地位。未知的经典信号可以通过电路来复制,未知的量子状态是不能复制的。

但是,到此为止,不是克隆的全部。量子不可克隆定理仅仅告诉我们未知的纯态,通过幺正演化的方式,是不能克隆的。那么,未知的混合态呢?如果我们允许一般的过程而不仅仅是幺正演化呢?这个时候,我们必须搞清楚两件事情:经典的混合态是否可以克隆[33]?所谓一般的过程指的是什么?

通过上一节经典测量的讨论,我们发现,经典的混合态可以克隆,其含义是,对于任意[math]\displaystyle{ \rho^{c}_{0} }[/math],存在经典幺正演化过程,满足 [math]\displaystyle{ \begin{aligned} \rho^{c}_{0}\otimes \rho^{m}_{0} \longrightarrow \rho^{cm}_{f}: tr^{m}\left(\rho^{cm}_{f}\right) = \rho^{c}_{0}, tr^{c}\left(\rho^{cm}_{f}\right) = \rho^{c}_{0}.\end{aligned} }[/math] 可以验证,纯态的克隆,仅仅是上面这个一般的克隆的一个特例。那么,在量子的情形,我们相当于问,是否存在量子的幺正演化过程,满足 [math]\displaystyle{ \begin{aligned} \rho^{q}_{0}\otimes \rho^{m}_{0} \longrightarrow \rho^{qm}_{f}: tr^{m}\left(\rho^{qm}_{f}\right) = \rho^{q}_{0}, tr^{q}\left(\rho^{qm}_{f}\right) = \rho^{q}_{0}. {\label{eq:broadcasting}}\end{aligned} }[/math] 实际上,幺正演化过程可以放宽为演化加上部分求迹的过程,并且大多数一般的量子过程都可以看作先和一个外界系统合起来演化,然后部分求迹的过程。当然,也存在一些量子过程不能看作联合演化再部分求迹的过程,见第8.5节“量子算符表示的局限”。如果我们限定在“先联合演化再部分求迹”的一般过程的范围内,就是相当于问是否存在这样的一般过程满足上面的条件。关于这个问题的答案,请参考“量子不可传播定理”的证明:这个形如公式[math]\displaystyle{ \left(\ref{eq:broadcasting}\right) }[/math]的混合态(也包含纯态)的“克隆”在量子信息的语言里面叫做“转播”。在这里,我们只关心,经典的测量过程正好制备了这样的[math]\displaystyle{ \rho^{cm}_{f} }[/math],那么是否量子的测量过程,能够制备类似的满足要求的[math]\displaystyle{ \rho^{qm}_{f} }[/math]。如果不能,为什么?

既然是理想中的测量,那么,对于那些所要测量的物理量的本征态,记为[math]\displaystyle{ {\left|}l {\right\rangle}_{q} }[/math],肯定是要建立起来一一对应的关系的,也就是[math]\displaystyle{ m }[/math]的状态必须是[math]\displaystyle{ {\left|}j\left(l\right) {\right\rangle}_{m} }[/math][math]\displaystyle{ j\left(l\right) }[/math][math]\displaystyle{ l }[/math]的一对一(one-one)函数(不一定到上,onto)。 在这个一一对应条件下,我们先来看一个非常一般的状态[math]\displaystyle{ \rho^{qm} }[/math]的部分求迹[math]\displaystyle{ tr^{m}\left(\rho^{qm}\right) }[/math][math]\displaystyle{ \begin{aligned} \rho^{qm} = \sum_{ln} \rho^{q}_{ln}{\left|}l {\right\rangle}_{q}{\left|}j\left(l\right) {\right\rangle}_{m}{\left\langle}n {\right|}_{q}{\left\langle}k\left(n\right) {\right|}_{m}.\end{aligned} }[/math] 通过部分迹,我们得到, [math]\displaystyle{ \begin{aligned} tr^{m}\left(\rho^{qm}\right) = \sum_{l} \rho^{q}_{ll}{\left|}l {\right\rangle}_{q}{\left\langle}l {\right|}_{q}.\end{aligned} }[/math] 我们发现,那些[math]\displaystyle{ \rho^{q} }[/math]中的非对角元素[math]\displaystyle{ \sum_{l,n\neq l}\rho^{q}_{ln}{\left|}l {\right\rangle}_{q}{\left\langle}n {\right|}_{q} }[/math]都消失了[34]。对于一个任意的状态,非对角元[math]\displaystyle{ \rho^{q}_{ln} }[/math]一般不等于零。于是,对于这样的状态,我们不可能做到 [math]\displaystyle{ \begin{aligned} tr^{m}\left(\rho^{qm}_{f}\right) = \rho^{q}_{0}.\end{aligned} }[/math] 到这里,我们得到结论:如果我们希望对于所要测量算符的本征态满足“克隆”的要求——由于它们完全正交这样的克隆是做得到的,那么,对于不是本征态的那些一般的状态,通过测量过程得到的末状态不能看作是这样的状态的“克隆”,除非,这些状态所对应的密度矩阵在这一套所测量量的本征态下的没有非对角元。也就是说,没有非对角元的密度矩阵是可以“克隆”的,有非对角元的密度矩阵不可以。

回到经典和量子的对比,两个密度矩阵的区别正好就是,在一般的基矢下,量子密度矩阵存在非对角元,而经典密度矩阵不存在非对角元。这个差别的产生的根本原因是量子状态满足矢量叠加原理,因此写成密度矩阵以后存在交叉项。或者说,其原因是量子算符不可对易,因此一般不可能用共同本征向量构成完整的基矢。于是,一个表象下对角的状态,必然在另一个表象下非对角。因此,量子测量不能得到“克隆”态[35]的根本原因,还是态叠加原理。

这个经典测量相当于制备了“克隆”态,量子测量不能看做制备“克隆”态,非对角元被消灭,的事实是一个非常重要的有深远含义的结果。对于经典测量,我们一般认为比较平庸,没有对系统做什么,实际上就是因为,这个经典测量过程就可以看作给所测量的系统做了一个备份,当然,什么改变都没有做。同时,对于量子系统,由于本质上就不能不改变所测量的系统的状态——除非正好就是所测量物理量的本征态或者本征态的概率性叠加,我们就会觉得量子的测量更加神秘——因为它对所测量的系统做了点什么,消灭了所有的非对角元。

经典和量子测量的统一的框架?

可是,换一个角度来看,我们前面讨论的经典和量子测量,其实都遵循了统一的框架。首先,被测量系统有一个初始状态[math]\displaystyle{ \rho^{o}_{0} }[/math](不管是[math]\displaystyle{ \rho^{c}_{0} }[/math]还是[math]\displaystyle{ \rho^{q}_{0} }[/math]),测量仪器也有一个初始状态[math]\displaystyle{ \rho^{m}_{0} }[/math]。接着,通过某个相互作用[math]\displaystyle{ H^{om} }[/math](导致的演化算符[math]\displaystyle{ U^{om} }[/math]),在两个系统之间建立起来关联,得到状态[math]\displaystyle{ \rho^{om}_{f} }[/math]。这一个步骤完全符合量子或者经典的演化过程。我们对于这个末状态密度矩阵有一个要求:如果[math]\displaystyle{ \rho^{o}_{0} }[/math]对应着纯态基矢[math]\displaystyle{ {\left|}l {\right\rangle}_{o} }[/math],则相应地[math]\displaystyle{ \rho^{om}_{f} }[/math]对应着纯态基矢[math]\displaystyle{ {\left|}l {\right\rangle}_{o}{\left|}j\left(l\right) {\right\rangle}_{m} }[/math]——也就是在给定的一组纯态基矢上的测量必须一一对应。得到状态[math]\displaystyle{ \rho^{qm}_{f} }[/math]以后,我们来计算部分迹,得到测量仪器的一个密度矩阵[math]\displaystyle{ \rho^{m}_{f} }[/math]。然后,这个密度矩阵做概率解释:任何一次实验的结果相当于从一个概率分布中随机取一个样本[math]\displaystyle{ j_{*} }[/math],接着反过来运用一一(one-one)函数[math]\displaystyle{ j\left(l\right) }[/math]得到所测量的系统的状态是[math]\displaystyle{ l_{*} }[/math][math]\displaystyle{ \begin{aligned} \rho^{o}_{0}\otimes \rho^{m}_{0} \overset{U}{\longrightarrow} \rho^{qm}_{f} \overset{tr^{o}}{\longrightarrow}\rho^{m}_{f}\overset{sampling}{\longrightarrow} j_{*} \overset{j^{-1}\left(l\right) }{\longrightarrow} l_{*}. {\label{eq:MeasurementTheory}}\end{aligned} }[/math]

在测量的形式语言——也就是不关心测量的可能的动力学——描述里面,人们把公式[math]\displaystyle{ \left(\ref{eq:MeasurementTheory}\right) }[/math]的整个过程——忽略测量仪器系统的话看起来好像我们从一个一般的可以是叠加态或者混合态的[math]\displaystyle{ \rho^{o}_{0} }[/math]开始得到了一个测量量的本征态[math]\displaystyle{ {\left|}l_{*} {\right\rangle} }[/math]——称为波函数的塌缩:整个过程好像是一个叠加态波函数“塌缩”到了其中的一个基矢状态上去一样。

实际上,在以上所有步骤中,[math]\displaystyle{ \overset{U}{\longrightarrow} }[/math]属于经典力学或者量子力学演化过程,[math]\displaystyle{ \overset{sampling}{\longrightarrow} }[/math]在经典随机客体的状态中就是这样,[math]\displaystyle{ \overset{j^{-1}\left(l\right)}{\longrightarrow} }[/math]就是一个逆函数的计算。因此,唯一神奇的地方就在于计算部分迹的过程[math]\displaystyle{ \overset{tr^{o}}{\longrightarrow} }[/math]。可是,在经典随机客体的测量中,我们也要运用这样的部分迹啊:它表示忽略所测量系统的状态,我们仅关心测量仪器的状态。可是这个看起来平庸的部分迹引入了一个对这个系统的非常大的改变——消灭了观测量本征态表象下的所有的非对角元。如果说,被观测系统已开始是一个纯态的话,那么,经过这个部分迹,其状态就是一个混合态。这个过程不是满足幺正演化条件的量子力学和经典力学的演化能够描述的[36]

那么,是否存在着一个不需要求部分迹这一步骤的对测量过程的描述?这个是一个没有得到回答的问题,尽管答案看起来是“否”,因为在我们的描述里面,就算经典客体状态的测量也需要这个求部分迹的步骤。如果这样一个超越幺正演化的步骤确实需要的话,在真实的实验过程中,什么时候需要我们来做这样的一个部分迹——从而消灭非对角元也就是量子相干性,什么时候留着非对角元——从而保持着量子相干性?例如,在Stern-Gerlach实验中,这个部分迹到底是在电子过了磁场以后来做呢,还是电子到达屏幕的时候来做呢?为什么?把通过磁场分开的电子重新通过合起来的实验(见本书实验[math]\displaystyle{ \left(\ref{Exp:SG_WhichWay}\right) }[/math]以及的第八、九章)我们看到在分开路径之后没有到达屏幕之前,实际上相干性都被保持着,重新合起来之后仍然有相干性。于是,一个自然的问题,就是,屏幕的什么特性使得这样的相干性消失了呢?如果把屏幕换成是Schrödinger的猫呢?换成是细菌呢?换成了[math]\displaystyle{ C_{60} }[/math]球呢?这个什么时候需要做部分迹计算从而消灭相干性的问题仍然没有答案,尽管我自己的态度是这个问题不需要回答。我认为(不是科学实验或者科学理论计算的结果,仅仅是认为)只要牵涉到多个子系统构成的整体系统的问题,当我们关心子系统的状态的时候,就一定要做部分迹,不管是量子还是经典系统。也就是说,这个部分迹的操作不是一个物理过程,不发生在实际的时间和空间里面,而是在逻辑上。结果到底得到一个平庸的复制还是得到不平庸的混合态,完全看当时整体系统的状态:纠缠比较弱(整体系统接近一个直积态)则得到的态更像复制态,比较强(整体系统偏离直积态非常大)则得到可能的混合态。

本章讨论的测量都是投影测量,关于更一般的测量的动力学的讨论可以建立在这个投影测量的基础上。

作业

给定一个GHZ状态,[math]\displaystyle{ {\left|}\psi {\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}\uparrow\uparrow\uparrow {\right\rangle}- {\left|}\downarrow\downarrow\downarrow {\right\rangle}\right) }[/math],计算“先后”测量[math]\displaystyle{ \sigma^{1}_{x}, \sigma^{2}_{x}, \sigma^{3}_{x} }[/math]的结果,“先后”测量[math]\displaystyle{ \sigma^{1}_{x}, \sigma^{2}_{y}, \sigma^{3}_{y} }[/math]的结果。按照这个结果,你可以做一些关于GHZ实验的拓展阅读。

再一次看Coleman的讲座《Quantum Mechanics in Your Face》,更新你以前的报告。

再一次看Susskind的网上课程《Quantum Mechanics》的前两课,更新你以前的报告。

再一次看Feynman的《Feynman物理学讲义》第三卷的前三章,更新你以前的报告。

本章小结

在本章中,我们企图去构建一个量子测量的描述过程,而不再仅仅通过运用形式化的关于测量的公理[axiom:Quantum3]和[axiom:Quantum4]来讨论问题。我们发现,测量的过程的第一步其实就是建立起来从被测量系统到测量仪器的状态之间的关联。而这个建立关联的步骤完全可以放到量子力学的演化过程这个量子力学公理[axiom:Quantum5]来描述。测量过程的其他步骤却不能从量子力学的其他公理推导出来。如果所有的步骤都可以用其他公理来代替,那么,我们也就不需要独立的关于测量的公理[axiom:Quantum3]和[axiom:Quantum4]了。

建立起来关联之后,我们发现,不管是经典还是量子的测量,都需要做一个“求部分迹”的运算。其中,对于经典状态,这个运算不引起任何的改变;对于量子状态,这个运算消灭了被测量量本征态表象下的非对角元。完成这一步计算之后的状态的解释完全可以通过经典随机变量的测量来理解。因此,量子测量的问题就成了:为什么和什么时候需要用这个“求部分迹”运算?关于这个问题,量子力学还没有好的答案。

远程传态和Deutsch算法

优秀的量子计算的算法通常是巧妙地利用了纠缠态:考虑给对象系统配上一个辅助的系统,建立起来关联,然后通过部分测量的方式把状态在对象系统和辅助系统之间转换。所谓的“量子并行性”——量子算符能够一次性地作用在叠加态上从而相当于作用在大量的基矢上,不能直接用来加快计算速度。

实际上,我们还会看见量子远程传态,和量子计算类似,也是对纠缠态的一种巧妙运用。我们先来看看在远程传态中量子纠缠的作用,以及状态在对象系统和辅助系统之间的转换。然后再来看一个量子计算的例子。

本章的例子都选了最简单的,最不需要额外学习一些基础的问题。这样的选择不能非常好地反映这一章的主题——纠缠的作用和状态在不同系统之间转换的非凡价值。因此,本章真的仅仅是一个入门,有兴趣的读者需要做一些自学。量子信息和量子计算的书籍已经不少,但是,经典的Nelson和Chuang的《Quantum Computation and Quantum Information》和Preskill的《Lecture Notes for Physics 229: Quantum Information and Computation》还是最推荐的两本。

量子远程传态

我们已经知道,对于一对经典关联起来的处于[math]\displaystyle{ \rho = \frac{1}{2}\left({\left|}11 {\right\rangle}{\left\langle}11 {\right|}+{\left|}00 {\right\rangle}{\left\langle}00 {\right|}\right) }[/math]的真随机硬币,任何时候的观察都得到相同的结果:例如都是正面——记为[math]\displaystyle{ {\left|}11 {\right\rangle}{\left\langle}11 {\right|} }[/math]或者反面——[math]\displaystyle{ {\left|}00 {\right\rangle}{\left\langle}00 {\right|} }[/math]中的一个。对于完全纠缠起来的处于[math]\displaystyle{ {\left|}\Phi^{+}{\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}\uparrow\uparrow {\right\rangle}+{\left|}\downarrow\downarrow {\right\rangle}\right) }[/math]一对自旋,如果我们测量的是同样的方向——可以是任意的[math]\displaystyle{ \hat{r} }[/math]方向但是两个自旋的被测量方向要一致——则也得到都是正面或者都是反面的结果。甚至,当两个方向不相同的时候,在这个状态上做的 量子测量得到的结果也具有特定的关联,见第[Chap:PhysicsModels]章第[Chap:Bell]章。这样的量子的完全纠缠态的性质比经典的更好,对于无论哪一个方向的测量这个结果都成立。于是,我们来思考,是否能够使用这样的状态来实现状态的远程传输:能不能把一个纯态从Alice传给距离非常远的Bob?

最愚蠢的办法是Alice先对这个状态做一个测量,得到完整的描述。例如自旋的纯态需要两个参数([math]\displaystyle{ \cos{\left(\theta\right)}{\left|}\uparrow {\right\rangle}+ \sin{\left(\theta\right)}e^{i\phi} {\left|}\downarrow {\right\rangle} }[/math]),每一个参数需要通过大量的测量来确定。然后,把这个测量出来的参数通过经典渠道,例如电话,传给Bob。接着Bob设计一个实验仪器,把这样的状态制备出来。如果是自旋的纯态,那么选择磁场方向和作用时间,能够实现这样的参数的任意的状态。那远程传态的问题是:如果Alice不去做大量的测量,能否把这个状态正确地传给Bob呢?

量子不可克隆定理已经保证未知的纯态不能被复制,因此,如果Alice从拿着一个状态为[math]\displaystyle{ {\left|}\phi^{o} {\right\rangle} }[/math]的量子客体[math]\displaystyle{ o }[/math]开始,如果最后Alice和Bob都有一份[math]\displaystyle{ {\left|}\phi {\right\rangle} }[/math]的话,就违反了不可克隆定理。因此,传态的结果不可能是复制。由于相对论的限制,也不能是是传物——纠缠态的关联是瞬间的,因此不能指望瞬间的“过程”能够把一个物体送到远处。那到底传的什么呢?把一个量子客体的状态在未知的情况下传给远处的另外一个客体。其特点第一是远处,第二是未知。我们下面还会发现,对纠缠态的运用和把量子态矢量按照系统的不同部分来重新分解和合成,是另一个特点。而且,这个特点,在很多量子计算问题中都有体现。在这三个特点中,其实远程和未知传态在经典系统中能够,通过运用经典关联态,来实现。不能实现的是状态的分解和合成。

下面,我们仔细来考察一个未知状态 [math]\displaystyle{ \begin{aligned} {\left|}\phi^{o} {\right\rangle}=\cos{\left(\theta\right)}{\left|}\uparrow {\right\rangle}+ \sin{\left(\theta\right)}e^{i\phi} {\left|}\downarrow {\right\rangle}\end{aligned} }[/math] 是如何被Alice传送给Bob的。当Alice拿到这个状态[math]\displaystyle{ {\left|}\phi^{o} {\right\rangle} }[/math]之前,Alice和Bob已经分别拿到了纠缠起来的两个自旋中的一个,其纠缠态是, [math]\displaystyle{ \begin{aligned} {\left|}\Phi^{+}{\right\rangle}= \frac{1}{\sqrt{2}}\left({\left|}\uparrow\uparrow {\right\rangle}+{\left|}\downarrow\downarrow {\right\rangle}\right).\end{aligned} }[/math]

现在,三个自旋合起来的状态是 [math]\displaystyle{ \begin{aligned} {\left|}\Phi {\right\rangle}= {\left|}\phi^{o}{\right\rangle}{\left|}\Phi^{+}{\right\rangle}= \left(\cos{\left(\theta\right)}{\left|}\uparrow {\right\rangle}+ \sin{\left(\theta\right)}e^{i\phi} {\left|}\downarrow {\right\rangle}\right)\frac{1}{\sqrt{2}}\left({\left|}\uparrow\uparrow {\right\rangle}+{\left|}\downarrow\downarrow {\right\rangle}\right). {\label{eq:Teleportation}}\end{aligned} }[/math]

下一步就是神奇的一步,Alice对自旋[math]\displaystyle{ o }[/math]和她自己的那个自旋合起来,做Bell态的测量,也就是按照测量所得到的结果对[math]\displaystyle{ {\left|}\Phi {\right\rangle} }[/math]做一个部分投影(并且重新归一化)

[math]\displaystyle{ \begin{aligned} {\left\langle}\Phi_{+}{\right|}{\left.}\Phi{\right\rangle}= \cos{\left(\theta\right)}{\left|}\uparrow {\right\rangle}+ \sin{\left(\theta\right)}e^{i\phi} {\left|}\downarrow {\right\rangle}\\ {\left\langle}\Phi_{-}{\right|}{\left.}\Phi{\right\rangle}= \cos{\left(\theta\right)}{\left|}\uparrow {\right\rangle}- \sin{\left(\theta\right)}e^{i\phi} {\left|}\downarrow {\right\rangle}\\ {\left\langle}\Psi_{+}{\right|}{\left.}\Phi{\right\rangle}= \cos{\left(\theta\right)}{\left|}\downarrow {\right\rangle}+ \sin{\left(\theta\right)}e^{i\phi} {\left|}\uparrow {\right\rangle}\\ {\left\langle}\Psi_{-}{\right|}{\left.}\Phi{\right\rangle}= \cos{\left(\theta\right)}{\left|}\downarrow {\right\rangle}- \sin{\left(\theta\right)}e^{i\phi} {\left|}\uparrow {\right\rangle}.\end{aligned} }[/math]

上面这[math]\displaystyle{ 4 }[/math]个状态分别对应着测量可能得到的[math]\displaystyle{ 4 }[/math]个结果,编号为结果[math]\displaystyle{ 1,2,3,4 }[/math]。这个编号是Alice和Bob的共同知识。于是,我们发现,如果我们测量得到的结果是[math]\displaystyle{ {\left|}\Phi_{+}{\right\rangle} }[/math],Bob的自旋的状态直接就是我们所希望得到的[math]\displaystyle{ {\left|}\phi^{o}{\right\rangle} }[/math]。如果我们得到的状态是[math]\displaystyle{ {\left|}\Psi_{-}{\right\rangle} }[/math],我们需要把[math]\displaystyle{ \cos{\left(\theta\right)}{\left|}\downarrow {\right\rangle}- \sin{\left(\theta\right)}e^{i\phi} {\left|}\uparrow {\right\rangle} }[/math]变成我们需要的[math]\displaystyle{ {\left|}\phi^{o}{\right\rangle} }[/math]。这个非常容易实现,例如 [math]\displaystyle{ \begin{aligned} \sigma_{y} \left(\cos{\left(\theta\right)}{\left|}\downarrow {\right\rangle}- \sin{\left(\theta\right)}e^{i\phi} {\left|}\uparrow {\right\rangle}\right) = -i\left(\cos{\left(\theta\right)}{\left|}\uparrow {\right\rangle}+ \sin{\left(\theta\right)}e^{i\phi} {\left|}\downarrow {\right\rangle}\right). {\label{eq:TeleportationAfter}}\end{aligned} }[/math] 也就是说,Alice做完测量结果之后,需要告诉Bob得到哪一个结果,然后Bob按照这个信息来决定对自己的自旋做一个怎样的操作。例如,得到结果编号为[math]\displaystyle{ 1 }[/math]的结果——对应着[math]\displaystyle{ {\left|}\Phi_{+}{\right\rangle} }[/math],那么Bob什么都不用做——对应于算符[math]\displaystyle{ I }[/math]。这个经典信息传递包含[math]\displaystyle{ 4 }[/math]个值,过程需要两个位来编码。这个传递过程是经典的,不能超光速。

如果你看其他的量子信息的书籍,例如,由于其中用到的Alice的测量是在通常基矢[math]\displaystyle{ {\left|}\uparrow\uparrow {\right\rangle}, {\left|}\uparrow\downarrow {\right\rangle}, {\left|}\downarrow\uparrow {\right\rangle}, {\left|}\downarrow\downarrow {\right\rangle} }[/math]上,因此过程会稍微复杂一点。相当于是需要建立起来Bell态和通常基矢之间的一个映射。从思想上说是一样的:在这里,理论上对整体状态我们做了一个部分系统状态的分解与合成;实验上,我们测量了部分系统[math]\displaystyle{ o }[/math]和Alice的自旋。经过这个部分系统的状态的分解与合成,我们就把[math]\displaystyle{ o }[/math]系统状态前面的系数转给了Bob的自旋。这一点,在量子信息和量子计算中是非常重要的。对于这一步的完成,很多时候,我们需要纠缠的纯态。

因此,我们发现,第一,部分系统的测量非常重要;第二,纠缠是重要的通过部分系统的测量来实现状态的传送、改变的重要工具。

下面,我们来演示一个量子计算的算法问题,从另一个角度来说明以上两点——部分系统的测量和纠缠的重要意义。

Deutsch算法

为了和的符号一致,这一节我们用[math]\displaystyle{ {\left|}0,1{\right\rangle} }[/math]来代表[math]\displaystyle{ {\left|}\uparrow\downarrow{\right\rangle} }[/math]

在演示这个量子算法之前,我们来讨论一下所谓的“量子并行性”的问题。由于量子态的可叠加性,很多人认为量子计算区别于或者说优于经典计算的根本原因就是“并行性”——在一个量子态上的计算就相当于计算了某个基矢集合下的所有的矢量。例如,考虑计算一个函数[math]\displaystyle{ f\left(x\right) }[/math],而[math]\displaystyle{ x=0,1,...,2^{n}-1 }[/math]。为了简单性,我们假设[math]\displaystyle{ f\left(x\right) }[/math]的取值也是[math]\displaystyle{ 0 }[/math][math]\displaystyle{ 2^n-1 }[/math]之间的整数。在经典计算上,我们需要做一个循环,一个接一个来计算,或者采用多个计算核心把任务分开来计算。在量子计算上,确实,我们有可能直接把所有的这样的数[math]\displaystyle{ f\left(0\right), f\left(1\right), ..., f\left(2^{n}-1\right) }[/math]一次性地计算出来。例如,我们可以考虑让[math]\displaystyle{ \hat{f} }[/math]所对应的量子操作作用到下面这样一个矢量上去, [math]\displaystyle{ \begin{aligned} \hat{f}{\left|}\phi {\right\rangle}= \sum_{j=0}^{2^n-1} \phi_{j} \hat{f}{\left|}j {\right\rangle}= \sum_{j=0}^{2^n-1} \phi_{j} {\left|}f\left(j\right) {\right\rangle}.\end{aligned} }[/math] 为了更具体,我们甚至可以让[math]\displaystyle{ \phi_{j}=\frac{1}{\sqrt{2^n}} }[/math]。于是,看起来,一次计算,我们就实际上做了所有的[math]\displaystyle{ f\left(x\right) }[/math]的计算。在有的问题中,我们确实希望能够做到一次性把[math]\displaystyle{ f\left(x\right) }[/math]算出来,并且做后续的操作,例如在量子搜索问题中我们想看一看哪一个对应于零,也就是寻找[math]\displaystyle{ x_{0} }[/math]使得, [math]\displaystyle{ \begin{aligned} f\left(x_{0}\right)=0. \end{aligned} }[/math] 但是,如果我们需要把这样的计算结果取出来并检查,我们需要做测量。例如,我们可以在这样的初始状态上得到的末状态上做一个测量。但是,每次从这个末状态测量得到的唯一的结果(考虑投影测量,也就是仅得到所有[math]\displaystyle{ 2^n }[/math]个状态中的一个,而不是全部)我们不知道实际上得到的状态会是[math]\displaystyle{ \hat{f} }[/math]作用在哪一个态[math]\displaystyle{ {\left|}j {\right\rangle} }[/math]上的结果。因此,都算一遍,很容易实现,但是一次性取出所有结果,不可能。

上面这个计算过程确实一次性计算了所有结果但是取不出来。就算取出一个来,也不知道是哪一个初始状态的计算结果:各个状态出现的几率是一样的。于是,我们自然思考是否可以把来自于哪一个初始状态记录下来,并且检验是否这样就可以一次性地把所有的计算结果都取出来。在这里,我们要的思路是,如果要否定一个东西,要尽量在这个东西成立的条件都满足的情况下,来否定。

现在,我们来构造一个记住初始状态的过程。如果对于CNOT门还有映像,它实现了如下的计算(符号采用), [math]\displaystyle{ \begin{aligned} U_{CNOT}{\left|}x,y {\right\rangle}= {\left|}x, y\oplus x{\right\rangle},\end{aligned} }[/math] 其中运算[math]\displaystyle{ \oplus }[/math]是加起来然后再除以[math]\displaystyle{ 2 }[/math]所得到的余数。这个运算当[math]\displaystyle{ x=0 }[/math]时,[math]\displaystyle{ y\oplus x = y }[/math];这个运算当[math]\displaystyle{ x=1 }[/math]时,[math]\displaystyle{ y\oplus x = 1-y }[/math],翻转[math]\displaystyle{ y }[/math]。我们也可以让[math]\displaystyle{ y=0 }[/math],于是 [math]\displaystyle{ \begin{aligned} U_{CNOT}{\left|}x,0 {\right\rangle}= {\left|}x, x{\right\rangle}.\end{aligned} }[/math] 我们就有了[math]\displaystyle{ x }[/math]的复制。不过,这个时候,[math]\displaystyle{ x=0,1 }[/math]两个正交状态而不是一般的未知态,不违反不可克隆定理。由于这个状态保留着一个自旋的状态[math]\displaystyle{ x }[/math],于是,我们希望能够这个运算来实现 [math]\displaystyle{ \begin{aligned} U_{f}{\left|}x,y {\right\rangle}= {\left|}x, y\oplus f\left(x\right){\right\rangle}.\end{aligned} }[/math] 如果成功,那么, [math]\displaystyle{ \begin{aligned} U_{f}\frac{{\left|}0,0 {\right\rangle}+ {\left|}1,0 {\right\rangle}}{\sqrt{2}}= \frac{{\left|}0, f\left(0\right){\right\rangle}+ {\left|}1, f\left(1\right){\right\rangle}}{\sqrt{2}}. {\label{eq:Uf}}\end{aligned} }[/math] 在这个状态下,每次测量的结果是某一个状态[math]\displaystyle{ {\left|}x, f\left(x\right){\right\rangle} }[/math]。于是,不仅函数值得到了,自变量也得到了。不过,即使如此,我们每一次测量的结果仍然仅仅得到公式[math]\displaystyle{ \left(\ref{eq:Uf}\right) }[/math]中的一项,而不是全部。因此,我们发现,即使引入映射[math]\displaystyle{ U_{f} }[/math],仍然不能一次性取出所有信息。

下面我们来补充说明,这样的[math]\displaystyle{ U_{f} }[/math]原则上是可以存在的。[math]\displaystyle{ U_{f} }[/math]是一个幺正变换。例如可以验证[math]\displaystyle{ U_{f}U_{f}{\left|}x,y {\right\rangle}= {\left|}x,y {\right\rangle} }[/math][37]。量子操作最好保持可逆性,这样容易通过找到某个[math]\displaystyle{ H }[/math]来实现[math]\displaystyle{ U=e^{-iHt} }[/math]。实际上之前在第[Chap:EvolutionAndEntanglement]章的导致纠缠的演化算符就是这样构造出来,然后反过来做为本书的习题的。当然,必要的时候量子操作也可以通过演化加上部分系统的测量来实现,不过这个时候的量子计算是不可逆的。如果允许这样的不可逆操作,那么,我们实现[math]\displaystyle{ {\left|}x,x {\right\rangle}\rightarrow {\left|}x, f\left(x\right){\right\rangle} }[/math] 的方式就更多了。例如,保留第一个[math]\displaystyle{ x }[/math]的自旋,让第二个[math]\displaystyle{ x }[/math]的自旋经过经典计算量子化以后的过程。关于经典计算的量子化对应,可以从找到。

既然不能一次性取出来所有信息——尽管它们包含在[math]\displaystyle{ U_f }[/math]的作用结果里面,愚蠢的方法就是,按照经典的思路,按顺序制备一次一个不同的初态,然后放到这个代表[math]\displaystyle{ \hat{f} }[/math]的相互作用H中去,得到唯一的末状态,然后做测量,得到确实处于这个末状态,识别出来。这样的话,我们需要重复[math]\displaystyle{ 2^n }[/math]次制备、过[math]\displaystyle{ H }[/math]、测量的过程。也可以总是从类似于[math]\displaystyle{ \frac{{\left|}0,0 {\right\rangle}+ {\left|}1,0 {\right\rangle}}{\sqrt{2}} }[/math]的状态出发、经过[math]\displaystyle{ H }[/math]、做[math]\displaystyle{ 2^{n} }[/math]次测量,得到完整的[math]\displaystyle{ f\left(x\right) }[/math]信息。这样的过程的复杂度完全和经典计算的复杂度是一样的。而且,这样的做法,幸好是经典算符[math]\displaystyle{ f\left(x\right) }[/math],给定[math]\displaystyle{ x }[/math]其取值仅是[math]\displaystyle{ 2^n }[/math]个整数中的一个。如果量子的情形,可以存在叠加态的话,那么,针对每一个初态,我们都需要大量的过[math]\displaystyle{ H }[/math]和测量。后面的这个量子的情形的问题被称作量子过程解析(Quantum Process Tomography)的问题。

因此,我们看到了,如何把确实已经包含在“量子并行性”里面的信息拿出来是关键问题,“量子并行性”本身不解决问题。而这个拿出来信息的过程,很多时候,就需要依靠前面说的两条——部分系统的测量和纠缠。

现在,我们来看一个通过一次计算把某个函数的某种函数[math]\displaystyle{ F\left(f\left(x\right)\right) }[/math]计算出来的问题:有一个确定的函数[math]\displaystyle{ f\left(x\right) }[/math][math]\displaystyle{ x=0,1 }[/math](可以更一般,只要考虑多个qubit版本的算法),我们希望计算[math]\displaystyle{ f\left(0\right)\oplus f\left(1\right) }[/math]。这个问题本身基本上没有实际意义,但是,我们会看到运用量子力学,Deutsch确实找到了办法只需要调用一次[math]\displaystyle{ f\left(x\right) }[/math]的计算。经典算法的话,需要调用两次函数[math]\displaystyle{ f }[/math]的计算过程,分别得到[math]\displaystyle{ f\left(0\right) }[/math][math]\displaystyle{ f\left(1\right) }[/math],然后把两者用来计算[math]\displaystyle{ f\left(0\right)\oplus f\left(1\right) }[/math]。其中所用到的用CNOT门来建立对象系统和辅助系统之间的关联的做法,把状态的系数从一个系统写到另一个系统上去的看问题的角度——也就是状态在不同系统之间的分解和合成,是具有一般意义的。同时,Deutsch也启发了更加一般的应用非常广泛的量子Fourier变换的提出。

这个算法依赖于一个外部函数[math]\displaystyle{ f\left(x\right) }[/math]。假设这个函数已经有一个单独的量子操作模块提供。如何实现这个外部函数不是我们讨论的内容。我们要揭示的是一个算法通过调用这个专门的模块一次来计算[math]\displaystyle{ f\left(0\right)\oplus f\left(1\right) }[/math]——记住,经典的情况要计算两次。更一般的[math]\displaystyle{ F\left(f\left(0\right), f\left(1\right)\right) }[/math]也不是我们讨论的内容。我们要利用上面构造的映射[math]\displaystyle{ U_{f} }[/math][math]\displaystyle{ \begin{aligned} U_{f} {\left|}x, y{\right\rangle}= {\left|}x, y\oplus f\left(x\right) {\right\rangle}.\end{aligned} }[/math] 在构造这个映射的过程中,我们引入了辅助系统[math]\displaystyle{ y }[/math]而不仅仅是所计算的系统[math]\displaystyle{ x }[/math]。有了这个映射,剩下的就简单了。

从初始状态 [math]\displaystyle{ \begin{aligned} {\left|}\phi {\right\rangle}= \frac{{\left|}0 {\right\rangle}+ {\left|}1 {\right\rangle}}{\sqrt{2}}\frac{{\left|}0 {\right\rangle}- {\left|}1 {\right\rangle}}{\sqrt{2}}\end{aligned} }[/math] 开始,我们把[math]\displaystyle{ U_{f} }[/math]作用上去, [math]\displaystyle{ \begin{aligned} U_{f}{\left|}\phi {\right\rangle}& = & \frac{1}{2}\left({\left|}0, f\left(0\right){\right\rangle}- {\left|}0, 1-f\left(0\right) {\right\rangle}+ {\left|}1, f\left(1\right) {\right\rangle}- {\left|}1, 1-f\left(1\right) {\right\rangle}\right) \notag \\ & = & \frac{1}{2}\left({\left|}0{\right\rangle}\left({\left|}f\left(0\right) {\right\rangle}- {\left|}1-f\left(0\right) {\right\rangle}\right) + {\left|}1{\right\rangle}\left({\left|}f\left(1\right) {\right\rangle}- {\left|}1-f\left(1\right) {\right\rangle}\right)\right) \notag \\ & = & \frac{{\left|}0{\right\rangle}+ \left(-1\right)^{f\left(0\right)\oplus f\left(1\right)}{\left|}1{\right\rangle}}{\sqrt{2}}\frac{{\left|}f\left(0\right) {\right\rangle}- {\left|}1-f\left(0\right) {\right\rangle}}{\sqrt{2}}\end{aligned} }[/math] 我们对辅助系统的状态仔细观察,发现,其实,它没有变,肯定还是, [math]\displaystyle{ \begin{aligned} \frac{\left({\left|}f\left(0\right) {\right\rangle}- {\left|}1-f\left(0\right) {\right\rangle}\right)}{\sqrt{2}} =\pm \frac{{\left|}0 {\right\rangle}- {\left|}1 {\right\rangle}}{\sqrt{2}}.\end{aligned} }[/math] 整体乘上的常数可以忽略不计。我们发现原来[math]\displaystyle{ U_{f} }[/math]改变的是辅助系统的状态,但是经过我们的再次分解和组合,我们发现,实际上,我们改变了对象系统的状态, [math]\displaystyle{ \begin{aligned} \frac{{\left|}0{\right\rangle}+ {\left|}1 {\right\rangle}}{\sqrt{2}} \rightarrow \frac{{\left|}0{\right\rangle}+ \left(-1\right)^{f\left(0\right)\oplus f\left(1\right)}{\left|}1{\right\rangle}}{\sqrt{2}}.\end{aligned} }[/math] 于是,如果我们进行[math]\displaystyle{ x }[/math]方向本征态的测量,也就是[math]\displaystyle{ \frac{{\left|}0{\right\rangle}\pm {\left|}1 {\right\rangle}}{\sqrt{2}} }[/math]基矢下的测量,我们得到, [math]\displaystyle{ \begin{aligned} \begin{cases} {\left|}\uparrow_{x}{\right\rangle}& \mbox{ if } f\left(0\right)\oplus f\left(1\right) = 0, \\ {\left|}\downarrow_{x}{\right\rangle}& \mbox{ if } f\left(0\right)\oplus f\left(1\right) = 1. \end{cases}\end{aligned} }[/math] 于是,按照我们测量所得到的结果,我们就知道了[math]\displaystyle{ f\left(0\right)\oplus f\left(1\right) }[/math]的值。

当然,这个计算的实际意义有限,而且实现一个一般的函数[math]\displaystyle{ f\left(x\right) }[/math][math]\displaystyle{ U_{f} }[/math]是有一定的难度的,更何况一般的函数的函数[math]\displaystyle{ F\left(f\left(x\right)\right) }[/math]。从这个算法我们需要看见的事情是,对于某些函数,我们可以构造一个比经典算法效率更高的量子算法,并且,在这个构造的过程中,引入辅助系统并且把状态在对象系统和辅助系统之间分解和合成是非常重要的。另外,我们计算的初始状态(上一节的远程传态中是Bell态,这一节的Deutsch算法中是[math]\displaystyle{ x }[/math]方向的本征态),总是计算基矢(指的是[math]\displaystyle{ {\left|}0,1 {\right\rangle} }[/math]或者[math]\displaystyle{ {\left|}00,01,10,11 {\right\rangle} }[/math]这样的态)的叠加态。这一点,也是量子计算的独特之处。不管是状态在系统之间的分解和合成,还是计算基矢的叠加态,其能够成立的条件都是量子态的叠加原理。

因此,所谓量子计算,就是对某些问题创造性地运用好量子态的叠加原理。

作业

检索和阅读“量子不可传播定理”,做一个综述,包含整理、总结、评价。

检索和阅读“量子Fourier变换”,做一个综述,包含整理、总结、评价。

验证书中从公式[math]\displaystyle{ \left(\ref{eq:Teleportation}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:TeleportationAfter}\right) }[/math]的计算。考虑如果得到编号为[math]\displaystyle{ 2 }[/math]的结果,Bob应该如何做。

本章小结

在这一章里面,我们讨论了量子远程传态和Deutsch算法。实际上在这一章里面的所有的讨论都很大程度上借鉴了。连本章强调的深入理解的地方都是和一样的:量子并行性不能直接提高量子计算的效率、纠缠态以及更根本的状态的分解和叠加对于实现量子计算和远程传态等操作是非常重要的。那么,本章的意义在哪里呢?第一,我们还强调了把整个系统的状态从一个子系统的状态分解合成到另一个子系统的状态上面——相当于对整个系统的某一部分的操作可以看作对另一部分的操作。第二,我们选择了最简单的例子来体现以上的思考和理解。这个是本书基本选材原则的又一次体现:选得少,理解的透彻,还希望启发读者思考为什么这样选择。这一章,甚至包含下一章,我们其实都在体现这样一个主题:量子态的叠加原理使得我们能够做经典做不到的计算或通讯(以及下一章的博弈)。

任何一本书,任何一门课,其核心任务,绝对不是传授知识,而是传授对知识的组织和理解,中间当然经常需要通过传授知识来体现。因此,在内容选择上,一定要有背后的思考,一定要有统领全文的目标。书和课程有这些思考和目标,读者和学生才会有思考和目标。进一步,这些被选择的知识一定要尽量地少,在体现这些思考和目标的前提下。这个就是我们一直的呼吁和实践的“Teach Less, Learn More”学习和教学体系的精神,见图[math]\displaystyle{ \ref{fig:TLLM} }[/math]

文件:TeachLessLearnMore.eps
caption 学习的目的是为了创造知识和创造性地使用知识,为了这个目的,我们要强调帮助学生提升对知识的理解和组织,提升对这个学科的感情,掌握学习方法,而不是知识本身。

[fig:TLLM]

量子博弈

[Chap:QGame]

在本书中,我们一再强调,量子系统和经典系统的区别是:经典系统的状态由一个概率分布函数描述,量子系统由一个密度矩阵描述,后者具有非对角元,也就是相干项。通过前面的学习,我们还知道了这个数学形式上的差别是由量子系统的行为和经典系统的行为的不同导致的。现在我们来看看这个数学结构上的区别导致的人类决策行为上的区别。

顺便,我们也提一下所谓的量子决策理论——在那里人们形式上用波函数,也就是密度矩阵,来描述人的决策。这个形式上的描述和我们下面要讨论的量子博弈是不一样的。在我们这里,用密度矩阵来描述决策状态具有坚实的理论基础。当然,这不是说,形式上采用波函数的量子决策理论就没有意义,仅仅是说其没有坚实的理论和实践基础。

这个问题,还牵涉到,到底什么时候,我们用经典的模型或者量子的模型来解释实际系统的行为的问题。一般来说,尽管我自己相信原则上一切都是量子的,这取决于理论和行为的比较:如果经典模型已经大部分能够解释观察到的行为,那么,对于这个现象,我们就不需要量子模型来解释了。那么,下一个问题就是,如果这样的话,量子的现象和模型从哪里来呢?一方面,当然是来自于已经出现的超过经典模型的现象,例如当年的光电效益、黑体辐射、电光子干涉、Stern–Gerlach实验等等。另一方面,理论上,我们也可以通过量子化经典模型、经典现象的方式来启发从经典对象中构造类似的相对应的量子对象,然后通过实验来研究这样的量子系统——它们是通过量子化经典系统得来的。

当然,以上都是“一般来说”。既然如此,就还有“特殊情形”。我们说过,科学就是一个(成体系的)能够用于解释和理解现实的还没有被证伪的理论模型。因此,理论模型本身是否具有坚实的可以理解的基础,是无所谓的,尽管一般情况下,我们希望它有基础、可理解。于是,一个理论,只要它能够用来计算分析,又能够得到跟实际观察相符的结果,总是有价值的。如果这个结果还没有其它的理论来解释,那就更有价值了。到底量子决策,还有量子博弈,属于那一类,一般来说的还是特殊情况的,还是说其实不是科学的,就要看后续的研究了。

本章用到了一点点博弈论,一点点李群。尽管真的是一点点,但是有对这两个内容的一点点比较深刻的理解——了解什么是博弈、博弈理论解决什么样的基本问题、博弈的数学描述怎样、什么是群、群和操作或者说算符的关系、李群是同时有群员之间的乘法和加法(甚至可以做微分,无穷小量的加法)的群,就够了——能够对这一章的内容有更好的理解。

经典客体上的操作和博弈

我们先来看经典博弈。翻硬币游戏是一个典型的经典博弈。我们就从这里开始。

翻硬币游戏是这样的。有一个硬币,初始正面向上。有两个参与者,我们称为Alice和Bob。他们可以选择去“翻”(记为[math]\displaystyle{ X }[/math])或者“不翻”(记为[math]\displaystyle{ I }[/math])这个硬币。选择完成以后,先把Alice的操作作用到硬币上去,然后再把Bob的操作作用到硬币上,然后,得到硬币的末状态。最后,按照这个末状态,来给Alice和Bob收益。例如,如果硬币还是向上则Alice得到1个单位的收益,Bob失去一个单位,否则倒过来。

当我们把这个博弈的结构搞得更加清楚的时候,我们就会发现,实际上,我们可以把硬币这个具体的东西忘了,仅仅考虑双方的策略。例如我们得到:当Alice选择[math]\displaystyle{ I }[/math],Bob选择[math]\displaystyle{ I }[/math]的时候,Alice得到收益[math]\displaystyle{ 1 }[/math],Bob得到收益[math]\displaystyle{ -1 }[/math],简记为[math]\displaystyle{ E^{1}\left(I,I\right)=1=-E^{2}\left(I,I\right) }[/math]。用这个记号,我们可以得到,[math]\displaystyle{ E^{1}\left(I,X\right)=-1=-E^{2}\left(I,X\right) }[/math][math]\displaystyle{ E^{1}\left(X,I\right)=-1=-E^{2}\left(X,I\right) }[/math][math]\displaystyle{ E^{1}\left(X,X\right)=1=-E^{2}\left(X,X\right) }[/math]。写成一个“矩阵”的形式,有 [math]\displaystyle{ \begin{aligned} G^{1,2} = \begin{bmatrix}1,-1 & -1, 1 \\-1, 1 & 1, -1 \end{bmatrix}, {\label{eq:PenyFlip}}\end{aligned} }[/math] 或者用更加复杂一点的记号来表示上面的翻硬币博弈,

I X
I [math]\displaystyle{ 1,-1 }[/math] [math]\displaystyle{ -1,1 }[/math]
X [math]\displaystyle{ -1,1 }[/math] [math]\displaystyle{ 1,-1 }[/math]

其核心还是上面的矩阵[math]\displaystyle{ G^{1,2} }[/math]。因此,我们以后就用这个[math]\displaystyle{ G^{1,2} }[/math]这样的矩阵来表示一个经典博弈。在这个矩阵的层次,策略[math]\displaystyle{ I,X }[/math]实际上是代表了什么样的做用于经典客体的操作这件事情,我们已经完全看不见了,也不再关心了。这样的矩阵,称为收益矩阵,就是经典博弈论的基本数学形式,也称为经典博弈的抽象定义。

然后,用列矢量来代表博弈者Alice和Bob的策略,分别用[math]\displaystyle{ \mathcal{P}^{1}=\left[p^{1},1-p^{1}\right]^{T} }[/math](表示以概率[math]\displaystyle{ p^{1} }[/math]取策略[math]\displaystyle{ I }[/math])和[math]\displaystyle{ \mathcal{P}^{2}=\left[p^{2},1-p^{2}\right]^{T} }[/math](表示以概率[math]\displaystyle{ p^{2} }[/math]取策略[math]\displaystyle{ I }[/math])来表示,那么在给定的任何一组策略组合的情况下,Alice和Bob的收益由以下公式决定, [math]\displaystyle{ \begin{aligned} E^{1,2} = \left(\mathcal{P}^{1}\right)^{T}G^{1,2}\mathcal{P}^{2}. {\label{eq:classicalgame}}\end{aligned} }[/math]

有了这个定义的一般形式以后,任何的经典博弈的定义,最关键的就是找到这个矩阵[math]\displaystyle{ G^{1,2} }[/math]。而有了这个[math]\displaystyle{ G^{1,2} }[/math]之后,博弈论理论的任务就是对于给定的任何一种[math]\displaystyle{ G^{1,2} }[/math]找到任意博弈者[math]\displaystyle{ i }[/math]的预期行为[math]\displaystyle{ \mathcal{P}^{i,*} }[/math]

从理论上说,给定一个博弈,只要能够求出来这样的任意一个博弈者[math]\displaystyle{ i }[/math]确实按照[math]\displaystyle{ \mathcal{P}^{i,*} }[/math]来采取行动的解,就解决了博弈的所有的问题,也就能够做理论和实际博弈者行为之间的比较了。也就能够对现实社会的情况来构造合适的博弈模型来解释现实和指导规则的制定了。就提出了这样的一个博弈的解的概念,称为[math]\displaystyle{ \mathcal{P}^{1,2,\cdots, N}_{eq} }[/math]。对于非合作博弈,当系统中的所有的博弈者[math]\displaystyle{ i,i=1,2, \cdots, N }[/math]都处于[math]\displaystyle{ \mathcal{P}^{i}_{eq} }[/math]以至于合起来系统处于[math]\displaystyle{ \mathcal{P}^{1,2,\cdots, N}_{eq} }[/math]的时候,任何一个博弈者独自的偏离都不会给这个博弈者带来额外的收益,也就是, [math]\displaystyle{ \begin{aligned} E^{i}\left(\mathcal{P}^{i}, \mathcal{P}_{eq}^{-i}\right) \leq E^{i}\left(\mathcal{P}_{eq}^{i}, \mathcal{P}_{eq}^{-i}\right), \forall \mathcal{P}^{i}.\end{aligned} }[/math] 并且证明了:对于任何有限策略的非合作博弈,这样的总是存在的。于是,看起来博弈论的问题就成了如何把这样的求解出来的问题了。

当然,实际上,这个解的计算比较困难,有的时候存在多个这样的解,还有的时候所有的这样的理论解和实际博弈者的行为存在比较大的差别。因此,实际上,经典博弈本身也是一个有很多研究工作可以做的学科。在这里,我们不关心这些经典博弈论的问题,而是来看一下,如果我们的操作不是针对硬币的而是针对量子自旋的,会怎么样?理论的基本形式和基本结构还会一样吗?

为了解决这个问题,我们先把上面讨论过的经典博弈的抽象形式和操作性定义,明确地写下来。

首先,我们有一个经典客体的初始状态[math]\displaystyle{ \rho^{c}_{0} }[/math]。接着,对于这个初始状态,我们可以进行操作[math]\displaystyle{ L\left(U^{\left(1\right)},U^{\left(2\right)}, \cdots, U^{\left(N\right)}\right) }[/math]——这个操作本身由所有的博弈者的选择确定,操作完了得到末状态[math]\displaystyle{ \rho^{c}_{f} }[/math]。这个从所有博弈者的选择到整体操作算符的映射可以是简单地以某种顺序把各个博弈者选择的操作相乘,例如[math]\displaystyle{ L\left(U^{\left(1\right)},U^{\left(2\right)}, \cdots, ,U^{\left(N\right)}\right) = U^{\left(1\right)}U^{\left(2\right)}\cdots }[/math]。最后,按照这个末状态,我们来决定每一个博弈者的收益,其中[math]\displaystyle{ E^{i} = tr\left(P^{i}\rho^{c}_{f}\right) }[/math]。在这里,我们用记号[math]\displaystyle{ P^{i} }[/math]表示博弈者[math]\displaystyle{ i }[/math]的支付方式。下面给出一般的定义和举例。

经典博弈的纯策略操作性定义[math]\displaystyle{ \Gamma^{op}\left(\rho^{c}_{0}, O, \left\{P^{i}\right\}\right) }[/math]:经典客体C的初始状态为[math]\displaystyle{ \rho^{c}_{0} }[/math],其上相应的算符集合记为[math]\displaystyle{ O }[/math]。博弈者[math]\displaystyle{ i }[/math]选择操作[math]\displaystyle{ U^{i}\in O }[/math],从而构成所有博弈者整体的操作[math]\displaystyle{ L\left(U^{\left(1\right)},U^{\left(2\right)}, \cdots, ,U^{\left(N\right)}\right) = U^{\left(j_{1}\right)}U^{\left(j_{2}\right)}\cdots U^{\left(j_{N}\right)} }[/math],其中[math]\displaystyle{ \left(j_{1},\cdots,j_{N}\right) }[/math]是一个[math]\displaystyle{ \left(1,2,\cdots,N\right) }[/math]的全排列。利用这个整体操作,得到客体[math]\displaystyle{ C }[/math]的末状态, [math]\displaystyle{ \begin{aligned} \rho^{c}_{f} = L \rho^{c}_{0} L^{\dag}.\end{aligned} }[/math] 于是,博弈者[math]\displaystyle{ i }[/math]的收益,由这个末状态还有收益支付规则[math]\displaystyle{ P^{i} }[/math]决定, [math]\displaystyle{ \begin{aligned} E^{i} = tr\left(P^{i}\rho^{c}_{f}\right).\end{aligned} }[/math]

当这个经典客体是一个由每一个博弈者控制一个自己的“硬币”构成的时候,如果我们把博弈者的策略集合看作是自己控制的个体的算符集合的时候,[math]\displaystyle{ L }[/math]是一个直积运算[math]\displaystyle{ L\left(U^{\left(1\right)},U^{\left(2\right)}, \cdots, U^{\left(N\right)}\right) = U^{\left(1\right)}\otimes U^{\left(2\right)}\otimes\cdots }[/math]。但是,如果这个时候,我们把博弈者的策略看作是所有的硬币构成的符合经典客体所在的操作集合里面的元素,那么,自然,[math]\displaystyle{ U^{\left(1\right)} \rightarrow U^{\left(1\right)} \otimes I^{\left(2\right)} \otimes \cdots }[/math](注意到直积算符之间的乘积就是把相应空间的算符乘在一起,然后直积),于是,上面的直积运算,自然回到了定义里面的乘积运算。因此,从现在开始,我们不再区分这个经典客体是一个单纯的经典客体,还是一个由所有博弈者自己所控制的经典客体综合起来的复合经典客体。同时,我们把各个博弈者选择的操作看作是这个整体的经典客体——不管是单纯的还是复合的——上的操作集合里面的元素。

[翻硬币游戏的操作性定义]:硬币的初始状态[math]\displaystyle{ \rho^{c}_{0} = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} }[/math],其上的操作集合[math]\displaystyle{ \left\{I,X\right\} }[/math]。Alice和Bob选择其中的一个操作,记为[math]\displaystyle{ U^{\left(1\right)} }[/math][math]\displaystyle{ U^{\left(2\right)} }[/math]。作用到初始状态上得到末状态,[math]\displaystyle{ \rho^{c}_{f} = U^{\left(2\right)}U^{\left(1\right)}\rho^{c}_{0}\left(U^{\left(1\right)}\right)^{\dag}\left(U^{\left(2\right)}\right)^{\dag} }[/math],相当于[math]\displaystyle{ L\left(U^{\left(1\right)},U^{\left(2\right)}\right) = U^{\left(2\right)}U^{\left(1\right)} }[/math]。得到末状态之后,按照以下收益支付方式来决定收益,[math]\displaystyle{ P^{1} = \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix} = -P^{2} }[/math]。 [Example:classgameoperative]

下面,我们来看这个操作性定义是如何转化成为一般的经典博弈的抽象定义的。

经典博弈的纯策略抽象定义:经典博弈者[math]\displaystyle{ i }[/math][math]\displaystyle{ M }[/math]个元素的可选操作集合[math]\displaystyle{ O }[/math]选择一个操作[math]\displaystyle{ U^{\left(i\right)} }[/math],从而构成所有博弈者的整体策略状态[math]\displaystyle{ U^{\left(1\right)}, U^{\left(2\right)}, \cdots, U^{\left(N\right)} \in O^{N} }[/math]。每一个博弈者[math]\displaystyle{ i }[/math]的收益由映射[math]\displaystyle{ G^{i} }[/math]给出, [math]\displaystyle{ \begin{aligned} \left.G^{i}\left(U^{\left(1\right)}, U^{\left(2\right)}, \cdots, U^{\left(N\right)}\right) \right|_{O^{N} \rightarrow R}.\end{aligned} }[/math] 由于两个定义要给出相同的收益,我们有, [math]\displaystyle{ \begin{aligned} G^{i}\left(U^{\left(1\right)}, \cdots, U^{\left(N\right)}\right) = tr\left(P^{i}L\left(U^{\left(1\right)},\cdots, U^{\left(N\right)}\right) \rho^{c}_{0} L^{\dag}\left(U^{\left(1\right)}, \cdots, U^{\left(N\right)}\right) \right).\end{aligned} }[/math]

[翻硬币游戏的纯策略抽象定义]:Alice和Bob的操作集合[math]\displaystyle{ \left\{I,X\right\} }[/math]。Alice和Bob选择其中的一个操作,记为[math]\displaystyle{ U^{\left(1\right)} }[/math][math]\displaystyle{ U^{\left(2\right)} }[/math]得到的收益由公式[math]\displaystyle{ \left(\ref{eq:PenyFlip}\right) }[/math]中的收益矩阵决定, [math]\displaystyle{ \begin{aligned} G^{1,2} = \begin{bmatrix}1,-1 & -1, 1 \\-1, 1 & 1, -1 \end{bmatrix}.\end{aligned} }[/math] 例如,当两者都选择[math]\displaystyle{ I }[/math]的时候,Alice的收益是[math]\displaystyle{ 1 }[/math],Bob是[math]\displaystyle{ -1 }[/math]

接着,我们给出从纯策略抽象定义到混合策略的抽象定义。所谓混合策略就是一个经典策略集合里面的策略按照某种概率叠加起来。

经典博弈的混合策略抽象定义:经典博弈者[math]\displaystyle{ i }[/math][math]\displaystyle{ M }[/math]个元素的可选操作集合[math]\displaystyle{ O }[/math]中以一定的概率[math]\displaystyle{ p^{\left(i\right)}_{j} }[/math]选择一个操作[math]\displaystyle{ U_{j} }[/math]。每一个博弈者[math]\displaystyle{ i }[/math]的收益由映射[math]\displaystyle{ G^{i} }[/math]按照概率平均给出, [math]\displaystyle{ \begin{aligned} E^{i} = \sum_{j_{1}=1\cdots M ;\cdots} p^{\left(1\right)}_{j_{1}}\cdot p^{\left(2\right)}_{j_{2}} \cdots p^{\left(N\right)}_{j_{N}} G^{i}\left(U_{j_{1}}, \cdots, U_{j_{N}}\right). {\label{eq:classicalgameprob}}\end{aligned} }[/math] 其中取和操作要让所有的[math]\displaystyle{ j_{k} }[/math]都跑遍[math]\displaystyle{ 1,2,\cdots M }[/math]

[翻硬币游戏的混合策略抽象定义]:Alice和Bob的操作集合[math]\displaystyle{ \left\{I,X\right\} }[/math]。假设Alice(Bob)的混合策略是以[math]\displaystyle{ p^{1} }[/math][math]\displaystyle{ p^{2} }[/math])的几率选择[math]\displaystyle{ I }[/math],那么,其收益由按照概率叠加计算得到 [math]\displaystyle{ \begin{aligned} E^{1} = p^{1}p^{2}G^{1}\left(I,I\right)+ \left(1-p^{1}\right)p^{2}G^{1}\left(X,I\right) \notag \\ + p^{1}\left(1-p^{2}\right)G^{1}\left(I,X\right)+ \left(1-p^{1}\right)\left(1-p^{2}\right)G^{1}\left(X,X\right) \notag \\ = p^{1}p^{2} - \left(1-p^{1}\right)p^{2} - p^{1}\left(1-p^{2}\right) + \left(1-p^{1}\right)\left(1-p^{2}\right) = -E^{2}.\end{aligned} }[/math]

现在我们运用概率论的Dirac抽象矢量记号语言来把混合策略的经典博弈改写为密度矩阵形式。原则上,这里,就像把概率论改成密度矩阵形式,没有任何新的东西。这样做,仅仅是为了将来介绍量子客体上的博弈的方便——就好像从经典概率论的密度矩阵过渡到量子态的密度矩阵一样。

密度矩阵形式的经典博弈的抽象定义[math]\displaystyle{ \Gamma^{ab}\left(\left\{\rho^{i}\right\}, \left\{G^{i}\right\}\right) }[/math]:经典博弈者[math]\displaystyle{ i }[/math][math]\displaystyle{ M }[/math]个元素的可选操作集合[math]\displaystyle{ O }[/math]中选择策略的密度矩阵是对角的矩阵[math]\displaystyle{ \rho^{i} }[/math],其中对角元素[math]\displaystyle{ \rho^{i}_{j_{i}j_{i}}=p^{i}_{j_{i}} }[/math]代表博弈者[math]\displaystyle{ i }[/math]选择策略[math]\displaystyle{ j_{i}\in O }[/math]的概率。所有博弈者的策略密度矩阵可以用[math]\displaystyle{ \rho }[/math]表示, [math]\displaystyle{ \begin{aligned} \rho = \Pi_{i=1}^{N} \otimes \rho^{i}.\end{aligned} }[/math] 博弈者[math]\displaystyle{ i }[/math]的收益由以下公式给出, [math]\displaystyle{ \begin{aligned} E^{i} = tr\left(\rho H^{i}\right). {\label{eq:classicalgamedensity}}\end{aligned} }[/math] 其中对角矩阵[math]\displaystyle{ H^{i} }[/math]叫做支付矩阵,其非零元素 [math]\displaystyle{ \begin{aligned} H^{i}\left(U^{\left(1\right)}_{j_{1}}, U^{\left(2\right)}_{j_{2}}, \cdots, U^{\left(N\right)}_{j_{N}}; U^{\left(1\right)}_{j_{1}}, U^{\left(2\right)}_{j_{2}}, \cdots, U^{\left(N\right)}_{j_{N}}\right) = G^{i}\left(U^{\left(1\right)}_{j_{1}}, U^{\left(2\right)}_{j_{2}}, \cdots, U^{\left(N\right)}_{j_{N}}\right). {\label{eq:classicalH}}\end{aligned} }[/math] 其中[math]\displaystyle{ j_{k}=1,2,\cdots,M }[/math]

可以证明,公式[math]\displaystyle{ \left(\ref{eq:classicalgamedensity}\right) }[/math]给出的结果和公式[math]\displaystyle{ \left(\ref{eq:classicalgameprob}\right) }[/math]的结果完全一样。例如,见下面的例子。

[翻硬币游戏的密度矩阵形式的抽象定义]:Alice和Bob的操作集合[math]\displaystyle{ \left\{I,X\right\} }[/math]。假设Alice(Bob)的混合策略是以[math]\displaystyle{ p^{1} }[/math][math]\displaystyle{ p^{2} }[/math])的几率选择[math]\displaystyle{ I }[/math],那么,Alice和Bob的策略状态的密度矩阵是, [math]\displaystyle{ \begin{aligned} \rho^{1,2} = \begin{bmatrix}p^{1},p^{2} & 0, 0 \\0, 0 & 1-p^{1}, 1-p^{2} \end{bmatrix}.\end{aligned} }[/math] 于是整体系统的策略状态是 [math]\displaystyle{ \begin{aligned} \rho = \rho^{1}\otimes \rho^2 = \begin{bmatrix}p^{1}p^{2} & 0 & 0 & 0 \\0 & p^{1}\left(1-p^{2}\right) & 0 & 0 \\0 & 0 & \left(1-p^{1}\right)p^{2} & 0 \\0 & 0 & 0 & \left(1-p^{1}\right)\left(1-p^{2}\right)\end{bmatrix}.\end{aligned} }[/math] 整体系统的抽象支付矩阵可以写成, [math]\displaystyle{ \begin{aligned} H^{1,2} = \begin{bmatrix}1,-1 & 0 & 0 & 0 \\0 & -1,1 & 0 & 0 \\0 & 0 & -1,1 & 0 \\0 & 0 & 0 & 1,-1\end{bmatrix}.\end{aligned} }[/math] 其收益由按照[math]\displaystyle{ E^{i} = tr\left(H^{1,2}\rho\right) }[/math]计算得到 [math]\displaystyle{ \begin{aligned} E^{1} = p^{1}p^{2} - \left(1-p^{1}\right)p^{2} - p^{1}\left(1-p^{2}\right) + \left(1-p^{1}\right)\left(1-p^{2}\right) = -E^{2}.\end{aligned} }[/math]

运用密度矩阵形式的语言Nash均衡可以重新写成下面的形式:给定收益矩阵[math]\displaystyle{ \left\{H^{\left(1\right)}, \cdots, H^{\left(N\right)}\right\} }[/math],Nash均衡就是这样的一组密度矩阵[math]\displaystyle{ \rho^{i,*} }[/math],满足 [math]\displaystyle{ \begin{aligned} tr\left(\rho^{1,*}\otimes \cdots \rho^{i} \otimes \cdots \rho^{N,*}H^{i}\right) \leq tr\left(\rho^{1,*}\otimes \cdots \rho^{i,*} \otimes \cdots \rho^{N,*}H^{i}\right), \forall \rho^{i}.\end{aligned} }[/math] 其中左边表达式用一个一般的状态[math]\displaystyle{ \rho^{i} }[/math]代替了右边表达式中的特定状态[math]\displaystyle{ \rho^{i,*} }[/math]。小于等于号([math]\displaystyle{ \leq }[/math])表示这样的替换不会增加博弈者[math]\displaystyle{ i }[/math]的收益。于是,原则上,如果[math]\displaystyle{ i }[/math]是理性的,就不会主要去偏离这个特定的[math]\displaystyle{ \rho^{i,*} }[/math]。这就是为什么这样的博弈的策略被称为均衡解,被称为Nash均衡。Nash首先提出来的这样的均衡的概念并且证明了其存在性。 注意到更一般地关联密度矩阵,而不一定是直积密度矩阵——代表独立概率分布,我们还可以定义,这样的“均衡”态[math]\displaystyle{ \rho^{*} }[/math][math]\displaystyle{ \begin{aligned} tr\left(\rho^{i}\otimes tr^{i}\left(\rho^{*}\right)H^{i}\right) \leq tr\left(\rho^{*}H^{i}\right), \forall \rho^{i}.\end{aligned} }[/math] [math]\displaystyle{ \rho^{*} }[/math]包含独立均衡态也包含关联均衡态。在这里我们不展开讨论。这里的部分求迹运算[math]\displaystyle{ tr^{i}\left(\rho^{*}\right) }[/math]是从整体分布函数中去掉关于博弈者[math]\displaystyle{ i }[/math]的策略的信息,然后在[math]\displaystyle{ \rho^{i}\otimes tr^{i}\left(\rho^{*}\right) }[/math]中,我们利用直积算符又把这部分信息加回来,只不过这个时候加进来的分布是任意的,而且是独立于其他博弈者的。这个就是独自的偏离的含义。

小结一下,在经典博弈上,通过引入经典客体和博弈的操作性定义,我们把支付函数变成了对角的收益算符,把概率“矢量”变成了对角的密度矩阵,同时收益的计算方式也从公式[math]\displaystyle{ \left(\ref{eq:classicalgame}\right) }[/math]变成了公式[math]\displaystyle{ \left(\ref{eq:classicalgamedensity}\right) }[/math]。这些,运用我们之前介绍过的,概率论的密度矩阵的语言,都是非常自然的事情。

现在,我们有了经典博弈上,从操作性定义到密度矩阵形式的抽象定义的道路,我们现在来看量子博弈的操作性定义和密度矩阵形式的抽象定义。以下内容部分来自于文献。

量子客体上的操作和博弈

让我们从具体例子开始——一个自旋上的博弈问题。

[自旋翻转游戏的操作性定义]:有一个自旋,其初始状态是[math]\displaystyle{ \rho^{q}_{0} }[/math]。Alice和Bob都可以通过量子仪器来操作这个自旋。为了简单起见,我们规定他们所有的可能的操作的集合是所有的[math]\displaystyle{ 2\times2 }[/math]的幺正演化算符,也就是所有的自旋算符,它们构成[math]\displaystyle{ SU\left(2\right) }[/math]群。当Alice和Bob选择完了他们的操作[math]\displaystyle{ U^{\left(1\right)} }[/math][math]\displaystyle{ U^{\left(2\right)} }[/math]以后,我们先构成一个整体算符[math]\displaystyle{ L=U^{\left(2\right)}U^{\left(1\right)} }[/math],然后这个算符作用到自旋的初态上去得到末态,[math]\displaystyle{ \rho^{q}_{f}=L\rho^{q}_{0}L^{\dag} }[/math]。最后,根据这个末态,我们计算Alice和Bob的收益,[math]\displaystyle{ E^{1,2} = tr\left(P^{1,2}\rho^{q}_{f}\right) }[/math]

对照例[Example:classgameoperative],我们发现,除了用[math]\displaystyle{ SU\left(2\right) }[/math]代替了集合[math]\displaystyle{ \left\{I,X\right\} }[/math],也就是群[math]\displaystyle{ Z_{2} }[/math]之外,这个经典和量子的操作性定义,完全一样。于是,一个自然的猜测就是在将来的抽象定义中,两者也没有任何不同,仅仅是集合扩大了,而且是从离散群变成了连续群。如果确实这个策略集合扩大,从离散策略变成连续策略,那么,这个世界上就不存在理论上的“量子博弈”,因为,经典博弈也可以定义在连续策略上,例如考虑买卖产品的价格的博弈。我们以后还会回到这个问题。我们会发现,问题不是这么简单。我们很快会看见其原因:[math]\displaystyle{ SU\left(2\right) }[/math]是一个李群,其存在元素之间的加法,而不仅仅是群乘;在离散群[math]\displaystyle{ Z_{2} }[/math]中,我们仅仅有群乘操作,没有元素之间的加法。从量子力学的学习,我们已经看见,有加法的集合(量子态的集合)和没有加法的集合(经典态的集合)有什么不一样。我们即将看见同样的这个不同在博弈问题上的表现:有加法运算的量子策略集和没有加法运算的经典策略集会导致整个理论框架的不同。

按照上面这个例子,我们写下来一般的量子客体上的博弈的操作性定义。

量子博弈的操作性定义[math]\displaystyle{ \Gamma^{op}\left(\rho^{q}_{0}, \mathcal{U}, \left\{P^{i}\right\}\right) }[/math]:有一个量子客体,其初始状态是[math]\displaystyle{ \rho^{q}_{0} }[/math],其上的幺正算符空间记为[math]\displaystyle{ \mathcal{U} }[/math]。博弈者[math]\displaystyle{ i }[/math]可以选择任意的[math]\displaystyle{ U^{\left(i\right)} \in \mathcal{U} }[/math],从而构成一个整体算符[math]\displaystyle{ L=U^{\left(j_{1}\right)}\cdots U^{\left(j_{N}\right)} }[/math]。其中[math]\displaystyle{ \left(j_{1}, \cdots, j_{N}\right) }[/math][math]\displaystyle{ \left(1, \cdots, N\right) }[/math]的一个全排列。然后这个算符[math]\displaystyle{ L }[/math]作用到自旋的初态上去得到末态,[math]\displaystyle{ \rho^{q}_{f}=L\rho^{q}_{0}L^{\dag} }[/math]。最后,根据这个末态,我们决定博弈者[math]\displaystyle{ i }[/math]的收益,[math]\displaystyle{ E^{i} = tr\left(P^{i}\rho^{q}_{f}\right) }[/math]

现在,我们来考虑抽象定义。

密度矩阵形式的量子博弈的抽象定义[math]\displaystyle{ \Gamma^{ab}\left(\left\{\rho^{i}\right\}, \left\{H^{i}\right\}\right) }[/math]:博弈者[math]\displaystyle{ i }[/math]可以选择[math]\displaystyle{ \mathcal{U} }[/math]上的一个密度矩阵[math]\displaystyle{ \rho^{i} }[/math]来表示其策略,从而构成一个所有博弈者状态的密度矩阵[math]\displaystyle{ \rho=\Pi_{i=1}^{N} \otimes \rho^{i} }[/math]。然后,根据这个密度矩阵,博弈者[math]\displaystyle{ i }[/math]的收益由下面的公式确定, [math]\displaystyle{ \begin{aligned} E^{i} = tr\left(\rho H^{i}\right).\end{aligned} }[/math] 为了保证这个抽象定义得到的收益和上面的操作性定义一致,我们要求[math]\displaystyle{ H^{i} }[/math]的元素满足,对于某一组给定的[math]\displaystyle{ \mathcal{U} }[/math]的基矢[math]\displaystyle{ \left\{{\left|}U_{j} {\right\rangle}\right\} }[/math] [math]\displaystyle{ \begin{aligned} {\left\langle}U^{\left(1\right)}_{j_{1}},\cdots,U^{\left(N\right)}_{j_{N}}{\right|}H^{i}{\left|}V^{\left(1\right)}_{j_{1}}, \cdots, V^{\left(N\right)}_{j_{N}}{\right\rangle}= tr\left(P^{i} L_{U} \rho^{q}_{0} L^{\dag}_{V}\right). {\label{eq:quantumH}}\end{aligned} }[/math] 其中[math]\displaystyle{ L_{U} }[/math][math]\displaystyle{ L\left(U^{\left(1\right)}_{j_{1}} \cdots U^{\left(N\right)}_{j_{N}}\right) }[/math]的简化记号。注意到公式[math]\displaystyle{ \left(\ref{eq:classicalH}\right) }[/math]公式[math]\displaystyle{ \left(\ref{eq:quantumH}\right) }[/math]的不同就是前者只有对角项也就是左右都是[math]\displaystyle{ U }[/math]而后者具有左边是[math]\displaystyle{ U }[/math]右边是[math]\displaystyle{ V }[/math]的非对角项。

这里,算符空间[math]\displaystyle{ \mathcal{U} }[/math]的基矢[math]\displaystyle{ \left\{{\left|}U_{j} {\right\rangle}\right\} }[/math]是指把[math]\displaystyle{ \mathcal{U} }[/math]看作一个矢量空间(加法数乘很容易验证满足矢量空间的定义),并定义算符矢量——有的时候也被称作超矢量——的内积为[math]\displaystyle{ {\left\langle}A{\right|}{\left.}B {\right\rangle}= tr\left(A^{\dag}B\right) }[/math]。我们很快会看到,这个时候,一般情况下,无论是[math]\displaystyle{ \rho }[/math]还是[math]\displaystyle{ H^{i} }[/math]都会存在非零的非对角元,而且,当两者都在一组自然基矢下变成对角的时候,量子博弈自然过渡到经典博弈。

下面,我们来证明两者给出的收益,无论在纯策略还是混合策略的情形都是一致的。

首先,我们看到[math]\displaystyle{ H^{i} }[/math]在定义所用的基矢下面的对角元是对的——与操作性定义给出的收益一致,也就是对于给定的一组[math]\displaystyle{ U^{\left(1\right)}_{j_{1}},\cdots,U^{\left(N\right)}_{j_{N}} }[/math],这个时候 [math]\displaystyle{ \begin{aligned} \rho = {\left|}U^{\left(1\right)}_{j_{1}}, \cdots, U^{\left(N\right)}_{j_{N}}{\right\rangle}{\left\langle}U^{\left(1\right)}_{j_{1}}, \cdots, U^{\left(N\right)}_{j_{N}}{\right|},\end{aligned} }[/math] 于是, [math]\displaystyle{ \begin{aligned} E^{i}=tr\left(\rho H^{i} \right) = {\left\langle}U^{\left(1\right)}_{j_{1}}, \cdots, U^{\left(N\right)}_{j_{N}}{\right|}H {\left|}U^{\left(1\right)}_{j_{1}}, \cdots, U^{\left(N\right)}_{j_{N}} {\right\rangle}= tr\left(P^{i}L_{U} \rho^{q}_{0} L^{\dag}_{U}\right)\end{aligned} }[/math]

接着,我们来证明对于所有的纯策略[math]\displaystyle{ H^{i} }[/math]给出的收益与操作性定义一致。为简单起见,我们假设仅仅第一个博弈者的策略是给定纯策略基矢的叠加,其它博弈者还是采用给定的纯策略基矢,也就是, [math]\displaystyle{ \begin{aligned} {\left|}S {\right\rangle}= \left(\sum_{j_{1}}s^{1}_{j_{1}}{\left|}U^{\left(1\right)}_{j_{1}}{\right\rangle}\right)\otimes \cdots \otimes {\left|}U^{\left(N\right)}_{j_{N}}{\right\rangle}.\end{aligned} }[/math] 更一般的纯策略情况仅仅是这个特殊情况的简单扩展。于是,相应的密度矩阵是, [math]\displaystyle{ \begin{aligned} \rho = {\left|}S {\right\rangle}{\left\langle}S {\right|}= \left(\sum_{j_{1},k_{1}}s^{1}_{j_{1}}s^{1,*}_{k_{1}}{\left|}U^{\left(1\right)}_{j_{1}}{\right\rangle}{\left\langle}U^{\left(1\right)}_{k_{1}}{\right|}\right)\otimes \cdots \otimes {\left|}U^{\left(N\right)}_{j_{N}}{\right\rangle}{\left\langle}U^{\left(N\right)}_{j_{N}}{\right|}.\end{aligned} }[/math] 代入到[math]\displaystyle{ E^{i} = tr\left(\rho H^{i}\right) }[/math]我们有, [math]\displaystyle{ \begin{aligned} E^{i} = {\left\langle}S {\right|}H {\left|}S {\right\rangle}= \sum_{j_{1},k_{1}}s^{1}_{j_{1}}s^{1,*}_{k_{1}}{\left\langle}U^{\left(1\right)}_{j_{1}}\cdots U^{\left(N\right)}_{j_{N}}{\right|}H^{i} {\left|}U^{\left(1\right)}_{k_{1}}\cdots U^{\left(N\right)}_{j_{N}} {\right\rangle}\notag \\ = \sum_{j_{1},k_{1}}s^{1}_{j_{1}}s^{1,*}_{k_{1}}tr\left(P^{i} L\left(U^{\left(1\right)}_{j_{1}}\cdots U^{\left(N\right)}_{j_{N}}\right) \rho^{q}_{0} L\left(U^{\left(1\right)}_{k_{1}}\cdots U^{\left(N\right)}_{j_{N}}\right)\right) \notag \\ = tr\left(P^{i} L\left(S\right) \rho^{q}_{0} L\left(S\right)\right).\end{aligned} }[/math] 其中,最后一步,我们用到了[math]\displaystyle{ L }[/math]是一个线性映射这个性质,得到了操作性定义的收益计算形式。

最后一步,我们来证明,对于混合策略,[math]\displaystyle{ E^{i} = tr\left(\rho H^{i}\right) }[/math]给出的结果与操作性定义还是一致的。为简单起见,我们假设这个混合策略仅仅是第一个博弈者在采用,而且所用的混合策略就是已经选定的纯策略基矢下的混合策略,也就是 [math]\displaystyle{ \begin{aligned} \rho = \sum_{j_{1}}p^{1}_{j_{1}}{\left|}U^{\left(1\right)}_{j_{1}}{\right\rangle}\otimes \cdots \otimes {\left|}U^{\left(N\right)}_{j_{N}}{\right\rangle}{\left\langle}U^{\left(1\right)}_{j_{1}}{\right|}\otimes \cdots \otimes {\left\langle}U^{\left(N\right)}_{j_{N}}{\right|}.\end{aligned} }[/math] 按照操作性定义,对于混合策略,我们有 [math]\displaystyle{ \begin{aligned} E^{i} = \sum_{j_{1}}p^{1}_{j_{1}}\left(P^{i}L\left(U^{\left(1\right)}_{j_{1}} \cdots U^{\left(N\right)}_{j_{N}}\right)\rho^{q}_{0}L^{\dag}\left(U^{\left(1\right)}_{j_{1}} \cdots U^{\left(N\right)}_{j_{N}}\right)\right).\end{aligned} }[/math] 这个正好是[math]\displaystyle{ E^{i} = tr\left(\rho H^{i}\right) }[/math]给出的结果。

到此,我们证明了量子博弈的操作性定义和密度矩阵形式的抽象定义给出的收益是完全一致的。下一步的问题是讨论对于这样的博弈,均衡解是否存在,以及如何计算,是否能够用于解释实验的问题。在此,我们就不再讨论了。为了更加直观地体现经典和量子博弈的异同,我们来看一个具体的例子。

[两人翻自旋博弈的收益矩阵]:Alice和Bob同时控制一个自旋,其纯策略集合是[math]\displaystyle{ SU\left(2\right) }[/math]。Alice和Bob还可以采用这个集合上的混合策略。以[math]\displaystyle{ I, \sigma_{x}, \sigma_{y}, \sigma_{z} }[/math]为基矢,也就是 [math]\displaystyle{ \begin{aligned} u^{\left(i\right)}=a^{\left(i\right)}_{I}I+ia^{\left(i\right)}_{x}\sigma_{x}+ia^{\left(i\right)}_{y}\sigma_{y}+ia^{\left(i\right)}_{z}\sigma_{z},\end{aligned} }[/math] 或者记为抽象纯策略矢量 [math]\displaystyle{ \begin{aligned} {\left|}u^{\left(i\right)} {\right)}=a^{\left(i\right)}_{I}{\left|}I {\right)}+ia^{\left(i\right)}_{x}{\left|}\sigma_{x} {\right)}+ia^{\left(i\right)}_{y}{\left|}\sigma_{y}{\right)}+ia^{\left(i\right)}_{z}{\left|}\sigma_{z}{\right)}, \end{aligned} }[/math] 或者记为 [math]\displaystyle{ \begin{aligned} {\left|}u^{\left(i\right)} {\right)}=\left[a^{\left(i\right)}_{I}, ia^{\left(i\right)}_{x}, ia^{\left(i\right)}_{y}, ia^{\left(i\right)}_{z}\right]^{T}. \end{aligned} }[/math] 其混合策略如下: [math]\displaystyle{ \rho^{q,S} = \left[\begin{array}{llll}\scriptstyle\rho^{q,1}_{ii} & \scriptstyle\rho^{q,1}_{ix} & \scriptstyle\rho^{q,1}_{iy} & \scriptstyle\rho^{q,1}_{iz} \\ \scriptstyle\rho^{q,1}_{xi} & \scriptstyle\rho^{q,1}_{xx} & \scriptstyle\rho^{q,1}_{xy} & \scriptstyle\rho^{q,1}_{xz} \\ \scriptstyle\rho^{q,1}_{yi} & \scriptstyle\rho^{q,1}_{yx} & \scriptstyle\rho^{q,1}_{yy} & \scriptstyle\rho^{q,1}_{yz} \\\scriptstyle\rho^{q,1}_{zi} & \scriptstyle\rho^{q,1}_{zx} & \scriptstyle\rho^{q,1}_{zy} & \scriptstyle\rho^{q,1}_{zz} \end{array}\right]\otimes\left[\begin{array}{llll}\scriptstyle\rho^{q,2}_{ii} & \scriptstyle\rho^{q,2}_{ix} & \scriptstyle\rho^{q,2}_{iy} & \scriptstyle\rho^{q,2}_{iz} \\ \scriptstyle\rho^{q,2}_{xi} & \scriptstyle\rho^{q,2}_{xx} & \scriptstyle\rho^{q,2}_{xy} & \scriptstyle\rho^{q,2}_{xz} \\ \scriptstyle\rho^{q,2}_{yi} & \scriptstyle\rho^{q,2}_{yx} & \scriptstyle\rho^{q,2}_{yy} & \scriptstyle\rho^{q,2}_{yz} \\\scriptstyle\rho^{q,2}_{zi} & \scriptstyle\rho^{q,2}_{zx} & \scriptstyle\rho^{q,2}_{zy} & \scriptstyle\rho^{q,2}_{zz} \end{array}\right]. \label{sfgstate} }[/math] 纯策略写成混合策略的方法和量子力学完全一致,也就是, [math]\displaystyle{ \begin{aligned} \rho = {\left|}u {\right)}{\left(}u {\right|}.\end{aligned} }[/math] 其中,由于[math]\displaystyle{ u }[/math]是一个算符或者说超矢量而不是量子态矢量,我们用圆括号的Dirac符号代替了尖括号的Dirac符号。 于是,当这个混合策略就是表示前面的纯策略的时候, [math]\displaystyle{ \rho^{q,i} = \left[\begin{array}{c} a^{\left(i\right)}_{I} \\ ia^{\left(i\right)}_{x} \\ ia^{\left(i\right)}_{y} \\ ia^{\left(i\right)}_{z}\end{array}\right]\left[a^{\left(i\right)}_{I}, ia^{\left(i\right)}_{x}, ia^{\left(i\right)}_{y}, ia^{\left(i\right)}_{z}\right]. }[/math] 其收益矩阵如下: [math]\displaystyle{ H^{\left(1\right)}=\left[\begin{array}{cccccccccccccccc} \scriptstyle1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1 \\&\scriptstyle -1&\scriptstyle i&\scriptstyle &\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle \\&\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle \\\scriptstyle1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1 \\&\scriptstyle -1&\scriptstyle i&\scriptstyle &\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle \\\scriptstyle1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1 \\\scriptstyle i&\scriptstyle &\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle -i&\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle -i&\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle -i \\&\scriptstyle -1&\scriptstyle i&\scriptstyle &\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle \\&\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle \\\scriptstyle-i&\scriptstyle &\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle -i \\\scriptstyle1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1 \\&\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle -i&\scriptstyle -1&\scriptstyle &\scriptstyle &\scriptstyle -1&\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle \\\scriptstyle1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1 \\&\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle -i&\scriptstyle &\scriptstyle -1&\scriptstyle i&\scriptstyle \\&\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle -i&\scriptstyle -1&\scriptstyle \\\scriptstyle1&\scriptstyle &\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle -i&\scriptstyle &\scriptstyle &\scriptstyle i&\scriptstyle 1&\scriptstyle &\scriptstyle 1&\scriptstyle &\scriptstyle &\scriptstyle 1 \end{array}\right], \notag }[/math] 并且[math]\displaystyle{ H^{\left(2\right)}=-H^{\left(1\right)} }[/math]。 如果要计算给定策略组合的收益,则 [math]\displaystyle{ \begin{aligned} E^{\left(i\right)} = tr\left(H^{\left(i\right)}\rho^{q,S}\right).\end{aligned} }[/math] 我们看到了到处都有非对角元。

我们看到,从抽象定义的数学框架上,经典博弈是对角的密度矩阵和对角的收益矩阵,而量子博弈是有非对角元的密度矩阵和有非对角元的收益矩阵。我们不仅仅用一个可能非对角的矩阵来表示策略还用一个可能非对角的矩阵来表示收益。这个是经典博弈所没有的,而且,这个差别,正好就是经典概率论到量子力学的区别。因此,量子博弈和经典博弈的关系,正好就是,量子力学之于经典力学的关系。我们还应该看到,经典博弈里面所谓的操作,基本上可以用抽象的策略来代替,如何实现这些操作基本上不是问题。然而,在量子博弈中,这些操作是通过对量子客体的实验操作来实现的。例如,在自旋上,我们是通过控制自旋通过的磁场的方向和通过的时间来实现的。这样的操作,属于幺正演化。我们还可以考虑更一般的操作,例如对给定的自旋做一个测量,甚至广义测量,这个时候,我们的算符的集合可以是非幺正的,因此超过了[math]\displaystyle{ \mathcal{U} }[/math]。这个的更大的算符集合对理论上提出的挑战是什么是一个有意思的问题,例如是否这样的策略还是能够由策略的密度矩阵[math]\displaystyle{ \rho }[/math]所描述。在此,我们就不再讨论了。

经典和量子博弈的异同

在量子博弈刚提出来的时候,有一个有意思的例子展示了运用量子策略的人可以在博弈中获得优势。这个博弈的例子大概是这样的:有一个[math]\displaystyle{ z }[/math]方向向上的自旋,博弈者Alice可以先对这个自旋做一个操作,然后博弈者Bob再对这个自旋做一个操作,接着Alice还有一次操作这个自旋的机会。三次操作完成以后,按照这个自旋的状态来决定两个博弈者的收益。例如,如果最后还是[math]\displaystyle{ z }[/math]方向向上,则Alice赢。在这个具体的例子中,如果Alice和Bob都不懂量子力学,那么,他们就只能够把自旋看作硬币,在翻转([math]\displaystyle{ X }[/math])和不翻转([math]\displaystyle{ I }[/math])两个操作中选择。于是,我们会发现,Alice和Bob没有什么好方法保证赢的次数更多。但是,如果Alice懂得量子力学,而Bob不懂,那么,Alice可以通过运用可逆算符[math]\displaystyle{ S=\frac{I+iX}{\sqrt{2}} }[/math]的方式来让Bob的选择不发挥作用——经过这个算符[math]\displaystyle{ S }[/math]作用之后,Bob无论选择翻转还是不翻转都不改变自旋的状态——然后再一次使用[math]\displaystyle{ S^{\dag} }[/math]算符来保证获胜。

这个博弈的例子在推动量子博弈的发展上发挥了重大的作用:你看,懂得量子力学的博弈者确实可以赢得更多。但是,我们随后就发现,这个是因为一件非常自然的事情:量子博弈者的策略选择空间变大了,于是,自然有可能,可以赢得更多。也就是说,量子博弈的创新之处不在博弈上,而在量子上。整个博弈的数学描述没有任何变化,仅仅是策略空间变大了。

由于这个观察,博弈的研究者们开始大力批评量子博弈的研究——你们只不过使得策略空间变大了,变成连续的策略了。但是,在经典博弈中,我们也可以采用连续策略呀,例如价格的选择,于是,量子博弈仅仅是量子系统上的经典博弈,而不是真正的数学结构不同的量子博弈——就好像从经典力学的密度分布函数到达量子力学的密度矩阵这样的数学形式的不同。

后来,大量的量子博弈的研究,确实仅仅在更大的而且连续的策略空间这个方面取得了很多进展。甚至有人采用这个连续得策略空间上的概率分布函数来描述量子混合策略,并且开展实验。

一直到我们自己的研究工作指出来,其实,由于量子博弈的策略构成李群——李群是连续群并且除了乘法还有加法和微分运算,实际上,我们的“量子混合策略”的描述需要从更大的连续的策略空间上的对角的概率分布函数变成李群的基矢上的可以有非对角元的密度矩阵。这样,量子博弈和经典博弈之间的关系就好像是量子力学和经典力学之间的关系。这个方向的工作,还有待于进一步展开。

作业

考虑如下的博弈:如果Alice和Bob各自都拿着一个硬币,初始两个硬币都向上,然后两人选择操作——包含翻转和不翻转自己的硬币——而得到末状态。按照硬币的末状态来决定收益:如果两个硬币的末状态一样,则Alice获得[math]\displaystyle{ 1 }[/math]元否则输掉[math]\displaystyle{ 1 }[/math]元(反过来,如果硬币状态不一样则Bob赢得[math]\displaystyle{ 1 }[/math]元)。写出这个具体和博弈的抽象定义。

考虑如下的博弈:如果Alice和Bob各自都拿着一个自旋,初始两个自旋都[math]\displaystyle{ z }[/math]方向向上,然后两人选择操作——包含转动自己的自旋——而得到末状态。按照自旋的末状态来决定收益:测量两个硬币的[math]\displaystyle{ z }[/math]方向,如果两个硬币的末状态一样,则Alice获得[math]\displaystyle{ 1 }[/math]元否则输掉[math]\displaystyle{ 1 }[/math]元(反过来,如果硬币状态不一样则Bob赢得[math]\displaystyle{ 1 }[/math]元)。写出这个具体和博弈的抽象定义。

考虑如下的博弈:如果Alice和Bob各自都拿着一个自旋,初始两个自旋处于纠缠态[math]\displaystyle{ {\left|}\Phi_{-} {\right\rangle}{\left\langle}\Phi_{-}{\right|} }[/math],然后两人选择操作——包含转动自己的自旋——而得到末状态。按照自旋的末状态来决定收益:测量两个硬币的[math]\displaystyle{ z }[/math]方向,如果两个硬币的末状态一样,则Alice获得[math]\displaystyle{ 1 }[/math]元否则输掉[math]\displaystyle{ 1 }[/math]元(反过来,如果硬币状态不一样则Bob赢得[math]\displaystyle{ 1 }[/math]元)。写出这个具体和博弈的抽象定义。

本章小结

在这一章里面,我们介绍了经典博弈,然后把经典博弈看成是经典客体上的博弈。于是,自然,我们就可以问量子客体上的博弈是什么。接着,我们把这个量子客体上的博弈改造成由抽象策略和抽象策略空间的语言描述的博弈。我们发现,这个正好就是把经典博弈的概率分布函数的数学框架,变成了密度矩阵的数学框架。这个经典博弈和量子博弈之间的关系,正好就是经典力学和量子力学之间的关系。以此,我们也突破了博弈学者对量子博弈研究的批评——我们真的有数学结构上的不同,而不仅仅是策略空间变大了,连续了。

一般而言,数学结构上的突破总会带来新的结果上的突破。

结束语

整本书到此结束。本书在内容选择甚至具体内容的展开上都和大多数书不太一样。希望这个企图做到不一样的努力能够对于学习者的学习和理解有点效果(make a difference)。

内容上贯穿全书的是从各个方面阐述量子的行为和理论和经典的行为和理论的差异。思想上贯穿全书的是什么是科学(批判性思维、科学和实验的关系、科学和数学的关系、科学对简单性和统一性的追求)。学习方法上贯穿本书的是一定要做理解型学习(对所学的内容搞出点意思make sense,系联性思考)并且主要依靠自学,老师的作用仅仅是提点一下整体思路整体方向感以及提点一下少数难点。在这几个方面,量子力学都是好素材:通过学习量子力学,我们有可能在内容上、思想上、学习方法上,甚至好奇心学习态度上,都有所得。希望本书多多少少完成了这个任务。

谢谢你作为学习者付出的时间和努力,希望你喜欢这个深入思考的过程。

  1. Preskill的书在量子力学基础部分对量子力学理解上的可能的问题做了深入浅出的讨论,强烈推荐。
  2. Ballentine的书非常深刻细致并具有启发性。在对量子力学的理解上Ballentine是有独到之处的。
  3. 一个理论其所推导出来的结果原则上可以被实验和实践证明是错的,但是迄今为止,还没有被证明是错的就叫做可证伪的但是尚未被证伪的理论。更加深入的讨论见
  4. http://en.wikipedia.org/wiki/Young's_interference_experiment
  5. 其实,这个观测会引入其他的问题,我们留到后面再讨论。
  6. 因此,如果有人给你展示这个Dirac的光过三偏振片实验,并且宣称他能够很好地理解和解释这个实验,而且这个实验展现了量子系统的独特行为,那么,他基本上是错的。第一、在不考虑单光子实验的情况下,这个展示和上面那个绳子上的波的实验是完全一样的,因此,展示的是波的特性——也就是矢量投影的解释能力,而不是量子系统的特性。第二、矢量投影在经典波的情形下为什么能够成立,才是需要思考和理解的重点,而不是先接受它然后用来解释现象。换句话说,波的特性不是量子系统的特征,无介质的波的单元——单个粒子——也具有波的特性才是量子系统的特征。如果有人给你演示这个实验,并且提醒你注意单光子的时候如何解释,而且告诉你解释起来有问题,才表明这个演示的人真的注意到了这个实验揭示的量子力学特性。经典波遵循的跟叠加关系类似的矢量投影解释了完全被两个具有互补关系的镜片相互挡住的光又一次重新出现的问题,但是将来我们考虑的对象是单个光子,没有介质,不能用基于Newton定律的经典波的解释。于是,看起来,一个单个的粒子要具有波的特性。那只能是几率或者几率幅的波了。沿着这个思路,我们还需要说明,几率的波不能解释量子系统的行为,只有几率幅的波才行。于是,我们才考虑下面的单电子过双缝、which-way实验的问题。
  7. 其实我们需要专门的技术来保证每次空间中只有一个光子,见例如中所用的取一对下转换光子中的一个。
  8. 在这里其实垂直方向的光是从另外一角度透射出去。但是,按照我们之前的“透射”和“反射”术语的约定,由于牵涉到偏振片和一般分束器的问题,在这里,我们把偏振分束器中垂直方向的光的透射、偏振片的反射或者挡住、一般光子分束器的反射一概称为“反射”。再强调一下,根据仪器的不同,这个“反射”有可能是真的反射或者从另外一个角度透射
  9. 实际的实验在最后一步探测的不是“哪一个方向上有粒子”,而是探测是否两个路径上过来的粒子“是否会出现干涉条纹”。如果有干涉条纹则表示路径信息消失了,就不能问“粒子到底从哪一条路上过来”了。
  10. 实际上,还要把这个分布函数用到离散能量的粒子上去得到Einstein-Bose分布。这里就不介绍了。有兴趣的读者可以选择任何一本《统计物理学》的书来看。
  11. 这一段来自于某一天和的讨论。本书里面还有很多地方来自于和其他老师,尤其是,或者学生甚至其他朋友的讨论,但是当时没有记下来,也就搞不清楚了。身边有一群对基本概念的理解感兴趣的老师是一件幸福的事情。
  12. 实际上这个记号有一点点问题,例如应该是出射方向和内部方向反过来的对应关系、纯态和混合态记号需要区分。这里的记号不是以后要学的Dirac记号。不过,这无关紧要,等到以后学到量子力学的Dirac记号再说。
  13. 如果我们把[math]\displaystyle{ 6 }[/math]面的色子看作类似的[math]\displaystyle{ x,y,z }[/math]方向的向上和向下态,我们是不是会有类似的“某种方式合起来”的关系呢?例如[math]\displaystyle{ z }[/math]方向向上态可以看作“包含”[math]\displaystyle{ x }[/math]方向向上和向下态?我们从来没有觉察到过这样的事情,因为在测量到[math]\displaystyle{ z }[/math]方向的向上态之后,如果我们马上再做一次观测,我们绝对不会见到[math]\displaystyle{ x }[/math]方向的向上或向下态。因此,我们也可以看到,上面的现象——测量完了一个方向得到结果接着测量另一个方向并且也能得到结果——是非常独特的,经典中不存在的。
  14. 实际上,有人就是这样来理解和看待量子力学的。究其原因,就是这样的人还在企图用经典力学的数学和来自于其自身对经典世界的经验来“理解”量子力学,就像咱们在这里做的一样。以后我们会看到,量子系统的行为从量子力学的数学框架来看,根本不要求这些神奇的理解或者说解释方式。
  15. 量子力学认为,这是由于例如某一个光子被环境干扰了所以没有被探测到。当然,这样的几率随着仪器质量的提高,是很小的。也就是说,实验中观测到想要观测的方向的可能性远远大于[math]\displaystyle{ \frac{1}{\mathcal{N}} }[/math],这个要多小就有多小的数。
  16. 一种证明的方法是把二维实对称矩阵的本征值方程[math]\displaystyle{ {\left|}\left[\begin{array}{cc}A_{11}-\lambda & A_{12} \\ A_{21}=A_{12} & A_{22}-\lambda \end{array}\right]{\right|}=0 }[/math]写下来,得到一元二次方程,然后让这个一元二次方程的判别式[math]\displaystyle{ \Delta=0 }[/math]。我们就会发现,这个时候必须满足[math]\displaystyle{ A_{11}=A_{22} }[/math]而且[math]\displaystyle{ A_{12}=A_{21}=0 }[/math]
  17. 内积其实还有其他要求,见例如。
  18. 尽管有一般的情况,但是很多时候古典概型从某些等概率的基本事件出发来构造更复杂的事件的概率。
  19. 为什么这个用“竖直”而不用“垂直”呢?主要是考虑到将来还有斜面的问题,这个时候,垂直就容易造成垂直于斜面的误解。因此,指向地球中心的方向(由于地球在所讨论的问题的尺度下看来是平的,非常大)就习惯上称作竖直方向。
  20. 这一段的内容需要关于Langangian力学的知识。详情请参阅Landau的《力学》
  21. 一般的数学变化在改变自变量的时候,要么维持函数形式不变,要么维持函数值不变。但是,的这个是一个神奇的变换,自变量函数值函数形式都变化,但是维持推导出来的运动方程不变。
  22. 或者说,任何时候都当作不可区分,于是都在用矢量叠加,直到遇到测量于是需要做部分迹的时候:这个时候,从矢量叠加数学形式的密度矩阵开始,经过部分迹运算,合适的条件下自然就会得到概率性叠加的密度矩阵。
  23. 我们已经说过,经典概率论的任意简单事件需要满足[math]\displaystyle{ {\left\langle}\mu {\right|}{\left.}\nu {\right\rangle}= \delta_{\mu\nu} }[/math],因此这个结果就表明经典概率论是不能描述量子系统的行为的。当然,实际上更一般的经典概率论还是有可能的,例如尽管[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math]代表简单事件但是[math]\displaystyle{ {\left|}\uparrow_{x} {\right\rangle} }[/math]代表了复合事件。简单事件和复合事件之间的内积就可以允许各种可能了。对于这样的更一般的经典理论用来描述量子系统的行为的可能性的讨论可见第[Chap:PhysicsModels]章第[Chap:Bell]章。在这里我们就不展开讨论了。简单地说,一个把[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math]看作简单事件把[math]\displaystyle{ {\left|}\uparrow_{x} {\right\rangle} }[/math]看作复合事件的理论是有缺陷的。这两个状态之间应该是完全对称的,其差别仅仅是把仪器转动了一个方向而已。例如,我们可以让第一个装置取[math]\displaystyle{ x }[/math]方向,第二个装置取[math]\displaystyle{ z }[/math]方向。那样的话,我们的经典理论就必须把[math]\displaystyle{ {\left|}\uparrow_{x} {\right\rangle} }[/math]看成简单事件,把[math]\displaystyle{ {\left|}\uparrow_{z} {\right\rangle} }[/math]看作复合事件。很难想象,这样的理论是可行的。不过,实在有必要这样的理论也是允许的。
  24. 实际如何实现,这个实验比之前的几个实验要复杂,但是也是能够实现的。磁场可以使带电粒子转弯。只要这个自旋在一个带电粒子上就可以设计出来这样的仪器。当然,实际真的设计及和做出来这样的仪器是另外的问题。真实的实验实现还是见实验[math]\displaystyle{ \left(\ref{exp:photonwhichway}\right) }[/math]光子版本的这个which-way实验。
  25. 实际上偏振片实现了光路方向和偏振的耦合。这个物理过程的真正的算符形式比下面的算符复杂一些,参考第[Chap:EvolutionAndEntanglement]章
  26. 实际上这个探测器可以通过在光路的后面增加一个叫做量子消除器(Quantum Erasor)的偏振片来实现。
  27. google网页搜索服务,http://www.google.com,2017年5月31日访问。
  28. 见http://media.physics.harvard.edu/video/?id=SidneyColeman_QMIYF
  29. 例如,模方代表概率,概率应该归一,但是,[math]\displaystyle{ \int dx {\left|}{\left\langle}x {\right|}{\left.}x^{\prime} {\right\rangle}{\right|}^{2} = \int dx {\left|}\delta\left(x-x^{\prime}\right) {\right|}^{2}= \int dx \delta^{2}\left(x-x^{\prime}\right) = \infty }[/math]
  30. https://en.wikipedia.org/wiki/Bell_test_experiments
  31. https://en.wikipedia.org/wiki/Loopholes_in_Bell_test_experiments
  32. 例如,我们需要关心如下过程牵涉到的所有的基础的物理的、化学的,甚至神经动力学层次的动力学方程:先把[math]\displaystyle{ c }[/math]系统通过眼珠这个透镜在视网膜成像,再把像转化成电信号由神经元传给大脑来处理成对大脑有意义的信号。当然,原则上,写下这些方程来也不是不可能的。
  33. 在这个混合态的复制的意义下,量子信息领域把这样的“克隆”称为“传播”
  34. 同时,我们可以证明,这个结果不依赖于用来求迹的基矢正好就是测量指针态[math]\displaystyle{ {\left|}j\left(l\right) {\right\rangle}_{m} }[/math]的事实。假设我们在另一组基矢下面求部分迹,[math]\displaystyle{ tr^{m}\left(\rho^{qm}\right) = \sum_{d} \sum_{ln} \rho^{q}_{ln}{\left|}l {\right\rangle}_{q}{\left\langle}d {\right|}_{m} {\left.}j\left(l\right) {\right\rangle}_{m}{\left\langle}n {\right|}_{q}{\left\langle}k\left(n\right) {\right.}_{m}{\left|}d {\right\rangle}_{m}= \sum_{d} \sum_{ln} \rho^{q}_{ln}{\left|}l {\right\rangle}_{q}{\left\langle}n {\right|}_{q}{\left\langle}k\left(n\right) {\right.}_{m}{\left|}d {\right\rangle}_{m}{\left\langle}d {\right|}_{m} {\left.}j\left(l\right) {\right\rangle}_{m}= \sum_{ln} \rho^{q}_{ln}{\left|}l {\right\rangle}_{q}{\left\langle}n {\right|}_{q}{\left\langle}k\left(n\right) {\right|}_{m}{\left.}j\left(l\right) {\right\rangle}_{m} = \sum_{l} \rho^{q}_{ll}{\left|}l {\right\rangle}_{q}{\left\langle}l {\right|}_{q} }[/math]
  35. 或者按照量子信息的习惯称为“传播态”
  36. 很容易证明幺正演化保证纯态到纯态,混合态到混合态,见习题[math]\displaystyle{ \ref{hw:UnitoryPure} }[/math]习题[math]\displaystyle{ \ref{hw:UnitoryEntropy} }[/math]
  37. 可以验证,[math]\displaystyle{ {\left|}x{\right\rangle}\rightarrow {\left|}f\left(x\right){\right\rangle} }[/math]一般是不可逆的。于是,在这里,辅助系统[math]\displaystyle{ y }[/math]的引入是重要的。