最大熵产生原理系列论文的读书笔记转.doc_第1页
最大熵产生原理系列论文的读书笔记转.doc_第2页
最大熵产生原理系列论文的读书笔记转.doc_第3页
最大熵产生原理系列论文的读书笔记转.doc_第4页
最大熵产生原理系列论文的读书笔记转.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

最大熵产生原理系列论文的读书笔记 转越来越感到最大熵产生原理的重要性了,尤其是他的统计物理基础。利用暑假时间,我快速地把几篇重要文章使劲儿读了读,深深感觉到自己数学功底并不算强。不过饿补过微积分和基本的物理知识以后,还可以理解这些文章。强烈希望数学、物理背景出身的人能读到这篇文章,并能对这个问题真的感兴趣!谁要是突破了这里面的道道,那真的是一个不小的突破!而且肯定能用到很多实际领域中。下面就来贴我的读书笔记。读文笔记引言:最近读了不少有关统计物理、熵、最大熵产生原理等文章,在此,就我所理解的部分做一个总结,以便帮助我屡清思路,也方便对这一领域感兴趣的人能够更有效率地继续研究下去。下面,主要沿着这几篇文章的思路讲解,它们是:E.T.Jaynes的Information theory and statistical physics、E.T.Jaynes的Brandeis Lectures(1963)、L.M.Martyushev和V.D.Seleznev的Maximum entropy production principle in physics,chemistry and biology、R.C.Dewar的Maximum entropy production and the fluctuation theorem和Information theory explanation of the fluctuation theorem,maximum entropy production and self-organized criticality in non-equilibrium stationary states。第一篇:E.T.Jaynes的Information theory and statistical physics+Brandeis Lectures(1963)1、两句废话很多人看到统计物理四个字就头疼,原因是,里面有太多难以理解的概念,以及艰深的数学。其实,这并不完全是读者的错误,发明这些概念的科学家也有很大的责任。尽管很多伟大的科学家都曾在这个领域做出过贡献,比如麦克斯韦、普朗克、爱因斯坦,但是统计物理中的最基本的概念,比如熵却一直没有搞清楚。这个学科一直处于非常尴尬的境地,一方面,该学科确实解决了很多应用的问题;另一方面,统计物理的核心概念:熵,却一直没有真正地被人们理解。直到20世纪50年代,Jaynes提出了一整套全新的解释熵的思路,才使得人们可以重新认识熵,包括整个统计物理。而且最关键的是,Jaynes的这套方法是目前所有统计物理各个学派中最简洁的一个!Information theory and statistical physics发表于1950s年,到如今却仍然有着重要的意义。总体来看,该文提供了一整套数学结构,虽然该数学结构最早起源于平衡态统计物理,即它有着明确的物理研究对象。但是,经过Jaynes的加工和处理,这套数学结构一下子可以腾空而起了,即它不仅仅可以描述气体、分子、自旋玻璃,它可以研究一类完全不同的,跟热现象可以类比的系统。比如,我们常说股市最近持续升温、经济发展过热,这里面的温度和热究竟是什么意思?Jaynes的框架就能给你一定的回答,在满足一些数学条件下,热、温度、熵等等是一种必然的概念。2、简单算例例子1让我们先来看一个小例子:有一枚筛子,每个面都有一个数字:16。很显然,你会倾向于认为这6个面出现的概率是相等的,也就是,你倾向认为:P(x1)=P(x2)=P(x6)=1/6其中,P(xi)表示出现数字xi的概率。假如,我告诉你,这枚筛子与其它筛子不同,似乎,他很容易滚到4或者5这个面上,所以这个筛子滚了好多次以后,它出现的平均值是4.5。这个时候,你会怎样分配P(x1)P(x6)的概率呢?显然,为了实现4.5这个平均值,你给筛子每个面分配的概率应该满足:如果把p(xi)看作是未知数的话,那么它存在着无穷的解。你甚至可以让p(x4)=p(x5)=0.5,其它都是0。但是这样的分配并不保险,因为你得到的平均值是4.5这条信息,并不能让你肯定拒绝筛子也有可能出现1或者6。你还是倾向于,筛子每个面出现的概率尽量是平均的。如何刻画这种概率分布的平均度呢?这就引出了熵的定义。我们可以定义熵为:我们粗浅的可以把S理解为刻画分布p(x1),p(x2)均匀程度的量。当分布越均匀,S的值也就越大。这样,在第一种情况下,p(x1)=p(x2)=p(x6)=1/6可以得到最大的S:ln(6)。在第二种情况下,我们也应该让S最大才是我们心目中认为的最可能的分布,但是显然S不能任意大,它必须满足测量平均值是4.5这个前提,所以我们实际上得到了一个求最大值的数学题:在满足平均值为4.5的前提下,尽量调整P(xi)的数值,使得S能最大化。写成数学问题就是:s.t.(1)(2)这里面有两个约束,第二个约束就是保证平均值为4.5。第一个约束前面没有提,它也是很显而易见的,就是要保证概率的归一化条件。也就是我们分配给每个面的概率加起来应该是1。这个优化问题不能一下求解,因为你要从两个约束中解出p(xi)来很困难。一个比较好的办法是利用拉格朗日(Langrange)乘子法。这套方法,说白了很简单,我可以先把条件(1)、(2)分别变为:然后,把它加到目标函数中,这样目标函数就变为:这样,我就可以在不考虑约束的情况下,通过调节p(xi)和就能直接最大化Y了,同时满足(1)和(2)的约束。首先最大化Y显然能够最大化S。同时,为了让函数Y最大,就需要:对Y求的导,它就是约束(1)。同样Y对求导=0就能得到约束(2)。所以最大化Y这个函数就等价于满足条件(1)、(2)的情况下最大化S。下面,我们就来求出具体的p(xi)来,这样我们求解下面的方程组:也就是说这里有6个方程,再加上(1)和(2),一共就有8个方程,未知数的个数刚好也是8个,这就能完全解出来(注意到S这个函数是总是正数(当没有p=0),且当p-0的时候,S可以任意接近0,所以上式所求必然是最大值)。通过Mathematica,得到:p1?0.0543532,p2?0.0787715,p3?0.11416,p4?0.165447,p5?0.239774,p6?0.347494,a?-2.2833,b?0.371049我们可以把p(x1),p(x2),p(x6)画在图上:我们看到,这就是通过最大化熵得到的分布p(xi)。它既能让我们得到平均值4.5,又能尽量照顾到所有筛子面的可能性。这里6这个面得到的概率最大,1出现的概率虽然小但并不是0。当我们改变观测的平均值4.5,还能得到完全不同的分布,下面的这些图分别是当观测平均值是25(间隔0.5)时候按照上述方法得到的分布曲线:其中,增函数曲线对应的观测平均值分别是4,4.5,5,减函数曲线对应的是:2,2.5,3。中间的绿线对应的是3.5,它刚好是(1+2+3+4+5+6)/6。即当p(xi)=1/6时候的筛子面的平均值,也就是那条横线。3、一般框架刚才仅仅就6面筛子这个例子进行了讨论。总的思路是,针对某个未知的系统(筛子),我们仅知道它可能具有的属性(筛子面上的数字),那么因为我们对它完全不了解,所以,我们会倾向认为该系统以等概率取这些属性值(6个面的概率尽量相同)。这种客观的、无偏见的均匀性就由最大熵来刻画。同时,我们对此系统并不是一无所知,我们毕竟知道这些筛子数字的平均值是4.5,这就体现为最大化熵的约束。最终,我们会根据测量知道的数值得到最后的概率分布。这是Jaynes算法的全过程。下面我们把这个过程一般化。假设我们考察一个系统(筛子)X=x1,x2,xn,其中,可以认为xi是该系统的某一个状态(某一个面)。显然,我们对系统究竟处于哪一个状态一无所知,这样我们就用概率p(x1),p(x2),p(xn)去描述此系统。P(xi)表示我们主观上认为系统可能处于xi这个状态的可能性。另外,我们有一组属性来刻画这个系统,它们是:f1,f2,fm。比如f可以是系统某一状态的颜色或是面积,或者是体积等等(面上的数字)。这样,针对一种状态xi,就可能有m个属性来描述该系统f1(xi),f2(xi),fm(xi)。但是我们观察者并不能知道这些细节,我们仅仅能得到一些属性测量值的平均数来作参考。比如我们测量fr这个属性,得到的观测值是n种状态的平均值:其中只有p(xi)是未知量,其它都是已知量。fr表示对属性fr进行观测的平均值。类似,我们可以从m个属性侧面来观察这个系统,因此也就得到了m个测量值:f1,f2,fm。下面,我们就要根据这些已知的信息来猜系统的概率分布p(xi)。按照之前的论述,也就是求解下列优化问题:(1)s.t.(2)(3)这里的(3)实际上包含了m个等式。同样,求解这个优化问题需要用到拉格朗日乘子,因为这里面的约束条件有m+1个(等式(2)和(3)的m个等式),因此我们需要引入m+1个拉格朗日乘子,分别是:0,1,m所以把这些约束乘以相应的乘子带入(1)中,就得到了最后的优化函数:注意,右边的最后一项有两层和号,第一层求和指标是r,表示对m个约束(3)进行的。里面还有一个求和号,指标是i,表示(3)中每一个式子中的平均值。要求Y的极值,就是Y对任意的p(xi)求偏导等于0。把这个式子整理一下,先求解出p(xi)来,得到:(4)注意,这里面0,1,m是未知数,其它都是已知数。我们很快就可以把p(xi)代入(2)中得到0:所以:这里,我们定义了一个新的函数Z,它叫做配分函数(Partition function)其实只是一个记号,但在统计物理中却有重要的意义。这样,0这个未知数相当于就消了,所以代入(4)就能得到概率分布:p(xi):(5)当然,最后这个式子中还有1,m这m个未知数,它们可以通过代入(3),求解下列方程组得到:(6)这有m个方程,就能解出这m个未知数。只不过这个解太麻烦了(事实上,该方程基本无法给出解析解),我们就没必要求了。我们看到,前面给出了一个数学框架。在这个框架下,只要确定了一组观测值fr,就能通过最大化熵,而得到另外两组变量,一个是p(xi),另外一组是r。下面,我们感兴趣的一件事情是,如果我们改变观测值fr,那么由于上面数学框架下的因果关系,p(xi)会变,r也会变,这样最大化后的熵也会改变,它们之间的关系是什么呢?从这套数学框架的角度来看,它吞进去一些观测数据fr,吐出来的主要是r,当然p(xi)也很关键,不过我们通常把它看作是一种中间变量。下面,我们就用一个具体的例子来看看fr究竟如何影响和熵S。在这个例子中,我们假设xi连续在区间-a,a内取值,且系统就有一个特征,即m=1,f(x)=x。这时候最优化数学问题变成:s.t.所有的求和号都变成了积分,这样可以方便我们的计算,数学框架都没有变化(严格说,熵S这个时候成为连续函数p(x)的变分,因为未知的不仅仅是一些变量,而是一个连续函数p(x)。同样,按照上面的思路,最大化Y(p(x),得到:其中,Coth(x)=即使这种简单形式下也不可能写出的显示解。所以我们选取a=10,画出依赖f(-9 f9)变化的函数图。画出p(x,f)的曲线:再把求得的p(x),代回S的表达式,得到S依赖f的变化图:从第一和第三这两个图中,我们可以清楚地看出,不同的测量值f对求解出的和S都有影响。当f=0的时候,S最大值,表示这种测量不对系统的不确定性有任何贡献。我们还隐约观察到,(f)似乎是S(f)的导函数。这在下一节具体讨论。4、导数的性质我们看到,前面给出了一个数学框架。在这个框架下,只要确定了一组观测值fr,就能通过最大化熵,而得到另外两组变量,一个是p(xi),另外一组是r。下面,我们感兴趣的一件事情是,如果我们改变观测值fr,那么由于上面数学框架下的因果关系,p(xi)会变,r也会变,这样最大化后的熵也会改变,它们之间的关系是什么呢?下面,我们就来研究一下,当fr发生小的波动的时候,这套框架怎么动。因此,我们将研究各个变量导数的性质。首先,我们注意到一个很有意思的事实,那就是:这样,方程(6)就可以简化为:(7)下面,我们就来看看,测量会对熵如何影响。首先,由于与fr之间的关系(6),所以会受fr的影响。也就是说,根据(6)或(7),r是fr的函数,写为:(8)其次,最大化之后的熵S自然是的函数,这一点可以通过把(5)代回熵的表达式(1)中,得到最大化后的熵S看出:(9)而因为是fr的函数,所以fr的变化也能引起Smax的变化,我们把Smax对fr求导:注意到(7),我们就直接得到:(10)这个结论告诉我们,测量值fr的变化将会影响Smax的值,而这个影响大小刚好就是-r。显然,r是由很多因素决定的,包括fr,但是一旦这些因素都固定。也就是说当fr发生变化的时候,其他因素都没来得及变,因此r也没来得及变,这个时候。r越大,熵对测量结果fr的依赖也就越明显。我们将会看到,这个有意思的r的性质刚好就是热力学中的温度的性质!因此,它可以看作是一种广义的温度。4、还原统计物理你也许觉得这仅仅是一些数学游戏,没有什么意思。但是,统计物理告诉你,你错了,这套数学框架刚好能够求解统计物理的问题!考虑一个气体系统,我们知道气体系统是由很多很多气体分子构成的。这样,每种分子层面的一种排列就决定了系统的一种微观状态。它可能有很多很多种微观状态,设为xi,=1,2,n。显然,系统究竟处于哪一个状态我们并不知道,于是,我们用p(xi)表示系统处于xi状态的概率。我们知道,每个状态下,系统的能量水平是ei,并且,我们观测到系统的平均能量是e。这就是前面介绍的框架下的典型的应用,可以通过最大化熵求得系统的概率分布p(xi),写出来就是:(11)其中,凑巧的是,(11)给出的概率分布刚好是统计物理中的正则系综。而且,我们最大化的信息熵S刚好就是系综的热力学熵。因为热力学物理告诉我们一个重要的性质:dS=dQ/T这是克劳修斯给出的熵的定义式。这里面dQ是系统在平衡态附近吸收的小热量。dS是小的熵增,T是温度。我们知道,能量守恒,在我们考虑的例子中,如果系统没有对外界做功,那么系统吸收的热能就使得它的能量增加,所以dQ=dE,其中E为系统的内能,于是:dS=dE/T,也就是dS/dE=1/T。联想到(10)式,我们知道:其中,e就是我们测量到的能量,所以比较dS/dE=1/T,我们就知道:在我们的抽象框架下求出来的拉格朗日乘子-恰恰就是温度的倒数。到此为止,我们已经找到了我们的抽象框架下的各种奇怪的数学量,完全可以得到真实的物理对应。进一步,我们还可以让我们的模型更复杂,例如,我们考虑的气体系统还可以包含很多种不同的混合气体,气体之间还能发生相互化学反应,我们测量的属性可能不仅仅是能量e,而且还可能包含各种分子的数目,所以可以得到一组测量值:N1,N2,,这样把这些测量值代入(3)就能得到更复杂一些的分布,这就对应了统计物理中的巨正则系综。其中,求得的-r也有相应的物理意义,它们表示化学势。5、广义的统计物理实际上,Jaynes的这套数学框架能够还原统计物理的结果一点不让人吃惊,这是因为本身Jaynes的这套框架就来源于统计物理。但有意思的是,这套框架现在完全可以独立开来了,它没必要非得描述统计物理中那些让人讨厌的概念,什么能量吧,化学势吧,温度等等,它完全可以描述非常广义的东西。例子2:考虑这样一个例子:你手里拿着10000元钱要把它捐献给受灾的村庄。假设有两个村子,你已知村庄A的日常人均消费是100元,而B村庄是50元。那么,你是要把钱分给A还是B呢?当然,你希望你这钱能救济更多的人,也就是你会分配给B村,你的推理理由是:10000元/100(元)=100(人)10000元/50(元)=200(人)也就是说,你这10000元钱如果投到B村能养活更多的人,这样,你的钱就花对了地方,你的钱发挥了更大的价值了!下面,我把你分配的总钱数定义为dE,把某个村庄的人均消费水平定义为T,那么你决定投资哪一个村子,也就是你要比较下面这个称谓实质价值的量:dS=dE/T也就是说,在同等投入的情况下,人均消费水平越低的村庄越需要钱,你把钱投给他们就会让你的实质价值S最大化。其实,我们已经看到,这就是熵的最大化。把上面故事中的钱换成热量,消费水平换成温度,上面这套故事就是在说热力学的事儿。所以,热力学所揭示的其实是一种非常普遍的现象。例3:(这个例子是错误的,感谢Noise网友的指正,详情请见:,以及本文后面的讨论,不过即使例子是错的,也可以作为一个反例帮你理解这套框架)下面稍微复杂一点。假设一个村庄里面有100个人,有的人体格强壮、打架很厉害,他的赚钱能力就很强,(不妨设为E1)。而有的人可能天生巧言善辩,所以他的赚钱能力是E2。这样,我们按照赚钱能力可以将这100个人进行排队:E1 E2E100。如果你把10000元分配给了这个村的100个人,经过一段时间后,他们可能相互争夺这笔钱,最终导致了钱的一个分布。显然,能力越强的E1分配的钱也越多,能力最少的E100分的钱也最少。究竟每个人能分多少钱呢?我们不妨设p(i)表示第i个人分得这10000元的比例,那么我们的问题就跟Jaynes的框架一样,找到一个最可能的分布pi。因此我们同样可以求解下列数学问题:(1)s.t.(2)(3)虽然最后的很难求出,但是根据前面的讨论,不难得到:其中dS表示分配给该村10000元以后,总体的价值增量。dE为你给系统分配的10000元。显然,如果一个城市对应的乘数越大,那么在增长等量投资的情况下,它会增长较快。由此,我们看出所谓的能量就是一种待分配的资源,乘数-1/就起到了平均经济水平的作用。这样,在同等投入资源的情况下,投入到经济水平越低的区越,才能让价值越大。所以我们看到,统计物理完全可以抽取出来用来描述完全不同的客观世界。这套框架不仅能描述客观世界,它还能描述人类观察者主观世界和客观世界的互动。这就是引入S的主观解释,即它是观察者对客观世界的无知程度。测量会减少这种无知程度。下面,我们就来看看测量如何减少无知度。首先,我们考虑在没有引入任何测量的时候,我们只有下列的优化问题:s.t.得出的解是:p(xi)=1/n,对应的最大熵是S=ln n下面引入一次测量,即增加一条约束:这样,新的最大熵是:测量引起的熵减就是:应该可以验证S-S0,这是因为对于函数,均匀分布的熵最大,其他任何分布都比它小。不过尚未找到证明方法,要证明这个不等式可能要用到意想不到的数学技巧,例如复数。进一步,如果已经有了m次测量,最大熵为:引入新的测量之后,测量次数变为了m+1,最大熵为:引起的熵减是:该公式也应该0,但是尚未找到证明方法。看起来很对称的样子。这个猜想也是错的,原因是后来的lambda在测量之后也会改变,而且我做了数值模拟,请看本文的回复31。无论是第一种解释方法(资源的分配),还是第二种解释方法(测量引起不确定的丧失)。他们的数学框架是一模一样的。与其说它们是两种过程,还不如说它们就是一回事儿!即,一次测量就相当于把一定的能量分配给被测量的系统,从而降低系统的不确定性!即观察引起熵减!6、测量误差与二阶导数用测量的眼光来看待整个数学框架,那么,一次测量不仅仅有测量的均值f,而且还会有测量的误差。具体的测量误差定义为统计量f的方差:即测量量的平方的均值减去均值的平方。在Jaynes的数学框架下,这个方差刚好是lnZ这个函数对相应的的二阶导数,这是因为我们已经知道(7):这样lnZ对r的二阶导数就是fr对r的一阶导数。因为这两个变量的关系时只有(6)式给出,所以我们从(6)出发:等式两边对r求偏导:注意到p(xi)的定义,我们得到:而左边就是f2,右边第二项就是f 2,所以也就是说,f这个测量量的方差刚好是lnZ函数对相应温度的二阶导数。这就是数学框架的魅力与威力所在,数学框架给出了一种抽象的结构,从这个结构能够导出有实际意义的物理量。也许还有更多的信息隐藏在lnZ、S等函数的二阶导数中。让我们进一步探索。我们已经知道:这里fr不仅仅跟r有关,还跟其它的有关,所以:因为我们可以对任意两个m中的变量r和j求偏导,所以,这一共有m*m个导数值,这些数值就可以构造成一个m*m的矩阵,把它记为Am*m。显然矩阵Arj是一个对称阵,因为Aij=Aji。可以验证,这个矩阵刚好就是测量量fr的协方差矩阵,也就是:在另一方面,根据(10):同样的道理,因为有m*m对fr求导的组合,这样就能得到一个矩阵Bm*m。我们已经看到了这组变量和f这组变量的惊人的对称关系。那么A矩阵和B矩阵有什么关系呢?我们让A和B这两个矩阵相乘:因为fi对fj的导数只有在i=j的时候为1,其他的时候因为它们之间没有函数关系,所以为0。也就是说A和B这两个矩阵互为逆矩阵。而ln Z和S这两个函数在对分布函数的编码信息方面等价。实际上ln Z和S可以通过勒让德变换联系起来。而f和之间是共轭的。我们将会看到f和之间的这种共轭性与熵产生的表达式中的广义流和广义里的共轭性有着惊人的相似性。第二篇:L.M.Martyushev和V.D.Seleznev的Maximum entropy production principle in physics,chemistry and biology一、两句废话严格说,这段文字不属于读文总结,而是把我知道的有关非平衡态热力学的知识复述一遍。这篇文章主要引领我们进入非平衡态的世界,在这里,熵产生的概念更加重要。最近的一些研究慢慢发现熵产生在不可逆的非平衡热力学过程中扮演者非常重要的角色。就像熵的最大化能够指引平衡态系统的发展方向一样,熵产生的最大化也能够指引非平衡态热力学的发展方向。这个原理被称为最大化熵产生(Maximum Entropy Production Principle,简称MEPP)。这篇文章是篇综述,写得非常详细。从最大熵产生原理的热力学表述,到该原理的统计物理基础,再到它的一些应用。本文首先讲述熵产生这个概念,接下来讲述该篇综述文章中提到的一些数学原理。对应用的部分就忽略了。二、什么是熵产生让我们从克劳修斯对热力学熵的定义开始谈起。克劳修斯当年提出熵这个概念我觉得完全是一种数学技巧的产物。在19世纪,卡诺(Carnot)曾经提出了一个理想的热机模型:卡诺热机(Carnot engine),这个热机是在时间上可逆运作的,克劳修斯发现,可以定义一个物理量叫做熵:dS=dQ/T这个定义的好处是,针对于可逆热机,如果热机回到原点,那么熵变S=0,即熵没有损耗。但对于不可逆热机,因为不可逆热机的效率要小于热机的效率,所以克劳修斯得出:dS dQ/T它的意思是,热机在工作中要吸收热量从而引起熵增。但是,不可逆热机的熵增要大于喂给它的热量。这样,对于一个回到原状态的循环过程来说,熵变S 0。综合这两种情况就是:dS=dQ/T和你一样,普里高津也看着这个公式觉得很别扭,因为这是不等号。于是,他就把这个等式右边加了一项,让它变成了等号:dS=dQ/T+diS其中增加的这一项diS就叫做熵产生(Entropy Production),而根据dS=dQ/T,显然diS=0。即,无论是可逆过程还是不可逆过程。熵变总体现为两个过程的合效应,即一部分是从外界吸收的热量引起的熵增,另一部分是系统自己无缘无故产生的熵diS。我们还可以把这个等式写为:dQ总/T=(dQ输入+dQ产生)/T这样,我们仍然可以沿用克劳修斯对可逆热机定义的熵变的公式:dS=dQ/T,把它扩展到一切过程(包括不可逆)。所不同的是,我们引入了一个量dQ产生。我们知道,对于一个过程来说,过程从环境吸收热就体现为可测量的热量传递:dQ输入,但是如果过程不可逆,那么根据上式,这就意味着,机器自己还会无缘无故地产生出一部分热量dQ产生来。这部分热不是外界传递给系统的,而是系统从自身内部的有序能量中耗散出来的。这部分废热就导致了熵产生。这个过程说白了就是任何一种变化过程都有摩擦存在,所以熵产生不可避免。按照例2,如果我们把熵看作为价值的反面会更容易理解这个熵产生的定义。普利高津指出来的熵产生在经济系统中就意味着不可避免的价值损失。比如你往一个村庄里投钱,你投的是10000元,这笔钱到了村子里必然会创造出一定的价值。你期望这笔钱创造的价值应该是:10000/T,这里T就表示村子的平均经济水平(比如人均收入)。但是,根据克劳修斯发现的dS=dQ/T,翻译成价值的语言就意味着-dS=dW/T,这里的dW=-dQ=10000。也就是说你投入的10000元造成的实际价值增长要小于10000/T。反过来再按照克劳修斯的说法,这就意味着必定有一过程导致价值损失。也就是说你的10000块钱不可能完好无损的发挥作用,必定有那么一部分钱比如100元是打水漂了。例如可能被村长私吞了,导致你的钱没有救济到所有村民,等等。那么,这部分熵的增长,或者是价值的损失是什么引起的呢?为了说明这种熵产生或者等效的价值丧失的起源。我们先用经济系统中经济价值作为例子来说明。还是考虑这个可怜的村庄,如果进一步研究这个村庄会发现,这个村子内部并不是具有同等经济水平的。假设村庄可以分成东村和西村,并且东村的经济水平T1比西村T2要高。这样,由于各种经济活动,西村的人民可能更愿意花钱买东村的商品(因为东村比西村富,所以西村的人就会觉得东村的商品质量好,这就像改革初期,中国人都愿意买从美国、日本、韩国进口的商品一样)。于是就有货币流从T2往T1跑,而这种从经济水平低到经济水平高的货币移动就会造成价值的损失,让我们看下图:表面上看起来经济交换是公平合理的,西村损失的货币原封不动地转移到了东村,价值按理说应该没有损失呀。但请不要忘记,同样的10000元钱在经济水平高的地方要比经济水平低的地方更不值钱!所以,货币在两块经济水平不同的区域之间流动就会导致价值的损失。这样,对于外部投资者,你往该村投了10000元钱,这笔钱所带来的实际价值并不是真正的10000/T。而必然比这个数值小。之所以价值要损失,就是因为该村子内部的经济状况是不平衡的,贫穷地方的钱更倾向于往富裕的地区流动,这个流动就必然导致价值的损失!只要我们把上面提到的价值的负值翻译为熵,把经济水平翻译为温度,把价值损失翻译为熵产生,那么上面的描述完全可以套用到热力学。在热力学中,如果有两个容器相连,第一个容器温度高,第二个容器温度低,那么第一个容器就会往第二个容器流热量,这个过程就会体现出熵产生:这个例子也有错误,感谢东方和尚的指正,详情请看:在热力学中,我们通常用来表示熵产生,它可以写为JX的形式。其中J为热量流dQ,X是由温度的不均匀引起的势差,也叫做广义的力。所以熵产生也定义为广义流乘以广义力。正如上一篇文章提到的,温度没有必要限定在物理温度上,这里讨论的流和力也没有必要限定在热流和温度梯度。在任意一个非平衡系统中,它可能存在很多的广义流和广义力(例如,在电路中,电流就是广义的流,电势差就是广义的力)。这些流和力就能引起熵产生,所以熵产生的表达式为:(12)即熵产生是各种广义流乘以广义力的总和。三、线性区域的非平衡态物理物理学家喜欢线性的东西,因为什么东西一线性了,微积分的那一大套就可以用上了。现在我们主要讨论几个比较重要的非平衡态物理的线性近似。当系统内部的广义力不是很大的时候,这套结论就都适用。我们都学过欧姆定律:U=IR,其中U就是广义的力:电压,I是广义的流:电流,R是电阻。一般电阻R是常数,所以广义流与广义力之间存在着线性的关系,这就是非平衡态物理线性区域的意思。一般的,某一个广义流不仅仅依赖于与它直接共轭的广义力,而且还依赖于其他的力。比如电路中电流也会产生热效应,所以这些流和力之间是有交叉效应的。所以,i=1,K其中Lik是一个K*K的系数矩阵,这个矩阵有一个重要的性质,这就是:也就是说,交叉效应是互补对称的。如果单位的电势差能够产生一定量的热量流,那么单位的温度梯度就能产生等量的电流。所以,矩阵L是对称阵,这被称为昂萨格(Onsager)对易关系。同样,由于流和力的对称性,力也能写成流的线性组合形式,而且也有Onsager关系存在。这样熵产生(12)式就可以变成一个关于力或者流的二次型:看到这些公式你有没有想到它们与上一篇文中导出的与f之间的相似性呢?回忆:这里面的第二项就出现了与f的乘积求和的形式。这跟熵产生的表达式(12)很像。这种启发对于数学家来说有很大的用处,后面我们就会看到这种相似的作用。三、最大熵产生原理在Maximum entropy production principle in physics,chemistry and biology这篇文章中,作者主要讨论了最大熵产生原理的数学表述。这个原理最早是由Ziegler提出来的(作为一种普遍的假设),因此也叫做Ziegler原理,它的数学表述为:s.t.即一个非平衡态系统将尽量演化使得熵产生最大化。之所以要把的具体表达式写成约束的形式,是考虑到可以应用各种数学技巧找出抽象的数学结构出来。假如系统中的各种广义力固定了,即Xi都不变了,那么可变的各种流Ji将会导致最大化。这样把约束用拉格朗日乘子的写法放到优化函数中并对J求偏导,Ziegler原理就有了下面的描述方法:在这里,可以看作为各种流J的唯一函数。是引入的拉格朗日乘子。这个时候,可以把熵产生看作是J的一个未知函数,于是得到:(12)和:这个(12)式叫做正交条件。这是一个很有意义的数学条件,它具有一定的几何意义,我们后面还会用到,具体请看下图:这张图表示了当仅有两个流的时候(J1,J2)的极值问题。假如(J1,J2)就是一个抽象的曲面,那么(J)=JX=J1X1+J2X2就表示了一个过原点的平面(X1和X2是常数)。这个平面会与曲面(J)生成一条相交的曲线(图中的OM曲线)。我们的问题是,让J1,J2发生变化,并且保证J1和J2能在这条曲线上,然后寻找一点,使得(J)能够取极大值。根据该图,这个极大值就对应了M点。那么这个M点有什么性质呢?我们把平面(J1,J2)=max(max是常数)的这个截面和该截面与约束平面的交线投影下来,放到J1-O-J2这个平面上。这个时候,(J1,J2)=max就成为了一个曲线(如图中底部的圆)。而平面就成为了一条直线:max=J1X1+J2X2。这条直线应该与曲线相切,这就是M点是极值点的充要条件。根据高等数学,我们知道这条直线max=J1X1+J2X2与(J1,J2)=max相切的充要条件是曲线在该点的法向量应该平行于直线的法向量,也就是说直线应该在该点垂直于曲线,这就叫做正交条件。曲线(J1,J2)=max的法向量是:而直线的法向量是X1,X2。所以(12)给出的条件刚好就是这两个方向量平行的条件。反过来,如果我们能得到一个函数(J1,J2)与(J)=JX=J1X1+J2X2满足正交条件(X1,X2垂直于曲线(J1,J2)=const),那么J1和J2这对变量就在最大化(J1,J2)。后面我们还会利用这个正交条件。提两句文中的另一个结论在一类特殊的(J)情况下讨论问题比较有意思,这就是加入(J)是J的二次式,即:其中Rik是一个常数矩阵。那么,从Ziegler原理,我们能够得出:这是一个新的变分原理,又叫做Onsager原理。从这个原理出发能导出Onsager对易关系和Prigogine的最小熵产生原理。也就是说,从最大化熵产生出发能够导出,在特殊的条件下(线性的、稳态的条件),熵产生还会被最小化。四、微观解释Ziegler的最大熵产生原理是作为一种假设引进来的,虽然它已经在很多实际问题中发挥了作用,不过人们对这一假设为什么正确并不理解。这就导致了有一批人开始为这一原理寻找微观的解释。目前,对这一原理的微观解释主要分成三种途径,这三种途径也基本上代表了当今非平衡态统计物理的三种不同的学派。第一个学派是气体动力学派,这个学派将当年Boltzmann研究气体动力学的方法继承下来。它能给出最大熵产生原理一个最严格、彻底的证明。只不过这套方法也需要引入新的假设,另外,它的适用范围比较小。第二个学派是随机过程学派,这套方法也需要引入新的假设。第三个学派是最可能路径理论,它主要把第一篇文章介绍的Jaynes的统计物理扩充到了有关微观路径的统计中来。相比较来说,最可能路径理论是目前最有突破希望的一个理论了。我们将在下一篇重点介绍这个方法。第三篇:R.C Dewar的Maximum entropy production and the fluctuation theorem+Information theory explanation of the fluctuation theorem,maximum entropy production and self-organized criticality in non-equilibrium stationary states一、最可能路径正如开篇所说,统计物理这套方法之所以能够奏效主要归因于它提出了一整套全新的看待世界的视角。传统的理论认为,客观世界决定了一切,所以,你从最微观的物理原理出发,必然能够一点一点构建起来整个世界的图景。统计物理的新视角是,我并不否认客观世界的说法,但是在处理大数目的复杂系统的时候,这种完全从微观物理出发推导出整个宏观物理系统行为的方法没有错,但并不是最聪明的方法。因为,当我们观察者仅仅在乎系统宏观的统计行为或者规律的时候,系统的微观细节如何并不是我们关心的。这样,科学家们正是忽略了大量的微观信息才能发现气体的运动规律,也才有了统计物理。而这套哲学的根源可以归宿到最大熵原理。面对一个系统,我们对它的了解最无知,所以我们就会去最大化这种无知度的度量:熵。正是这样,Jaynes提出了一套框架可以处理这一类无知与测量的问题。正如我们一再强调的,数学框架的优点在于它可以提供一种抽象的结构,在这个框架下,你放进去什么东西它并不管,但是数学结构可以保证你放进去的东西必然存在着一些联系和性质,这是最重要的。按照第一篇读书笔记的的第三节所讨论的框架还是把系统看作是可以在不同的状态下取值的静态研究。当我们把眼光放到动态系统的时候,我们关注的不再是静止的状态,而是变化本身!在系统中,这种变化就体现为一条演化的路径。这样,我们的统计对象不再针对具体的系统状态进行,而是针对系统的演化路径进行,这就是我们称作最可能路径理论的原因。为了说明最可能路径理论,让我们考虑这样一幅图景:系统从初始状态出发演化到终止状态。在各种条件允许的情况下,系统的演化路径可能有很多很多,我把它们称作微观路径。设一个微观路径为,则这些路径的全体集合就是。观察者对于微观路径的观察缺陷就像对于微观状态的观察缺陷一样,所以我们只能用概率的语言来描述这些路径。因而我们为每一个路径都分配一个主观概率:p。这样,我们就可以把对于状态适用的那一套语言全部翻译到路径上面了。最大熵方法适合于描述平衡态的系统,也就是各个变量都不再变化了,系统也就停留在了最大熵给出的状态上。对于非平衡系统来说,有一个与平衡系统的平衡态非常相似的概念,这就是稳态。所谓的稳态,就是指虽然系统的每一个部分都在不停的运动变化过程中,但是构成系统运动变化的流都不变了。因此,从流的角度看,观察者看到了一个稳定的状态。这就叫稳态(steady state或stationary state)。举个例子,比如你观察小溪,如果小溪流水稳定了。那么你看到那些水波纹就停在那里不动了,这时候,虽然你再往下看,水波纹变成了一颗颗运动的水滴,系统应该是处于变化过程中的。所以,这种在变化系统之上高一层次看到的不变状态这就叫稳态,或者叫动态平衡态。在演化的系统中,这种稳态就对应了路径信息熵最大的状态。因为流不动了,所以分配到每条路径上的概率也就给定了。所以我们最大化路径的信息熵就得到了稳态的分布,即:当然,在最大化路径信息熵的时候我们还要考虑到一些实际的约束。这在下面给出。Dewar的思路是,通过最大化路径信息熵,我们就能自动导出一个新的函数的最大化的问题,而这个函数刚好就是熵产生函数。二、Jaynes框架中蕴含的变分原理下面,让我们先暂时把最可能路径的方法放一放,再次考虑Jaynes的框架。实际上,尽管不考虑路径的信息熵,我们都可以从Jaynes的框架中直接得到一个最优化函数,但是它的代价是需要我们做出线性近似的,在给定f的时候,当pi优化信息熵S的同时,那些参数就去优化这个最优函数。依然采用第一篇的第3节给出的数学框架。我们回忆得到的概率分布是:我们还有S对测量值f的导数:这样-r对fj的偏导数就是:因为r与fj之间的函数关系被关系式(6)制约着,这是一个很复杂的超越方程,我们很难求解。但是,如果r与fj都比较小,我们可以求得r与fj的线性近似,也就是:其中B为r对fj的导数矩阵。这样,我们可以仿照熵产生的定义,定义一个耗散函数(后面,我们看到,它就是热力学熵产生):考虑到r与fj之间的线性关系假设,这个函数就是:这就是说,D函数是fj的一个二次型。并且有这样的关系:回忆到:所以A是对称的,这样,回忆上一篇的讨论(关于Ziegler原理的那张图),这说明向量与曲线D=const以及约束平面:(13)满足正交条件。这就对应了在满足约束条件(13)的条件下,系统要最大化D这个函数。这个新的优化的全过程可以解释如下。让我们动态考虑整个最大化熵的过程。我们知道,在给定fr之后,求解满足最大熵的过程就是一个确定各个的过程。而假如各个都是所有f的线性函数,那么这个确定的过程也就会让渐渐与D=const这张曲面垂直,也就是满足正交条件。根据上一篇图中的几何解释我们看到,这个正交条件就会导致D在满足条件(13)的情况下达到最大值。因此,我们最大化信息熵的同时,也就自然求解了一个优化问题:s.t.用拉格朗日方法求解就变成:其中是拉格朗日乘子。我们已经看到,如果把这个问题中D看作就是熵产生函数,看作广义力(如温度梯度),f看作是广义流(例如热量流),那么这个问题就和上一篇介绍的Ziegler原理具有相同的数学形式了。下面,我们就来对最可能路径进行计算,找到D就是熵产生函数的条件。三、从MaxEnt到MaxEPP下面我们就将上面两节介绍的结果综合起来得到最大熵产生原理。首先,我们是针对系统演化的路径的信息熵求最大值,所以:其次,我们要考虑系统所受到的约束。根据R.C.Dewar的思路,假设我们考虑的系统任意时刻任意一个空间点x的能量密度用d(x,t)表示。系统所处的空间区域是V,区域的边界是。系统的边界处有一定的能流穿过与系统交换能量,在边界上任意点在时间上的平均流量是:F(x)。假设不同的微观路径对应不同的密度和流量,但是我们仅仅能测量出它们的平均值,所以我们有约束:注意到,这些条件是针对空间区域V或边界中任意一点列出的。因此,原则上它已经包含了无穷多个等式。这些等式再代入p()的时候就得到了积分项。按照前面介绍的方法,可以求出:因为对V或中的每一个点都能列出约束,因此我们就得到了两个系列的拉格朗日乘子,他们就都成了连续函数,即式子中的(x)与(x)。我们记:我们知道,P就相当于是Jaynes框架下的如果P就是熵产生函数,那么上一小节的结论就可以用到了。下面我们将主要讨论它。注意到系统运动应该满足连续性条件,也就是d和F之间存在着一定的关系:个人以为这个运动连续性的条件的引入非常重要。之后,Dewar通过近似、化简(说实话,实在是讨厌他后面这些近似、化简工作,而且总给人感觉不是很正确,在这里就略过不谈了),最后可以得到:其中就是系统演化的时间。回忆到,在第一篇中,我们已经指出-可以看作是1/T,即温度的倒数,而F(x)是对应的能量流,所以P跟熵产生已经很接近了,进一步,再用一下高斯定理,即把在边界区域上的积分改成体积分:这里div(F(x)表示的是能量流在空间上不同点的损失,所以P就是熵产生,第一项是由温度梯度引起的,第二项是由于摩擦、耗散等原因引起的能量损失。这是一条路径上的熵产生,而D函数是针对测量的平均值f列的,所以对上式求路径的平均值(注意,只有积分项中的F(x)是依赖于路径的,其它都跟路径无关,所以求平均就对F(x)求了),就得到:所以,这就是整个系统的热力学熵产生。其中第一项是传递给系统的能量流乘以温度梯度。第二项为平均能量流损失(由于摩擦),它会导致熵的产生。这样结合上一节的结论,我们就得到了最大化熵产生原理。四、点评Dewar的文章Dewar的两篇论文用Jaynes的最大熵框架得到最大熵产生原理得到了人们的普遍关注。它的意义在于:在没有引入过多假设的情况下,就可以导出适合于非平衡态的最大熵产生原理。这个思路主要有两处难点,第一点就是如何写出正确的约束,使得我们可以导出熵产生函数。第二个难点是,当我们得到了熵产生函数之后,如何自然导出它的最大化?Dewar的两篇文章分别用不同的方法解决这两个问题。第一篇文章Information theory explanation of MaxEP中,Dewar用初始条件、边界条件作为约束,以及系统的能量物质连续条件给出了路径

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论