对策论基础 | |
授课方式 | 理论课(√) 实验课() 实习() |
目标 | 通过本节学习,对博弈论有初步认识,激发学生的兴趣,扩展思维;掌握博弈论的基本概念,纳什均衡的基本原理;掌握矩阵对策的纯策略和混合策略 |
教学重点、难点 | 重点:纳什均衡基本原理,矩阵对策的纯策略 难点:矩阵对策的混合策略 |
教学基本内容 与教学设计 (含时间分配) | 引入案例——囚犯困境(Prisoner's Dilemma),先给学生讲如下案例: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。他们每一个人都被单独囚禁,并单独进行审讯,即双方无法互通。警方向这两名嫌疑犯交待量刑原则如下: 1.如果一方坦白,另一方不坦白,则坦白者从宽处理,判刑2年;不坦白者从重处理,判刑10年。 2.如果两人都坦白,则每人各判刑6年。 3.如果两个都不坦白,则警方由于证据不足,只能对每个人各判刑2年。 如图1 的支付矩阵 乙 坦 白不坦白 6 61 101012 2 坦 白 甲 不坦白 这两个囚犯之间的博弈过程如下:先考虑囚犯甲的选择。 甲要决定自己的选择,他必须要先考虑乙的选择,即甲是在考虑了乙的选择的前提下来决定自己的选择。那么,甲一定是这样思考的: 1.如果乙选择坦白,则甲选择坦白,会判6年;选择不坦白,会判10年。于是甲选择坦白。(因为6<10) 2. 如果乙选择不坦白,则甲选择坦白,会判1年;选择不坦白,会判2年。于是甲仍会选择坦白。(因为1<2) |
教学基本内容 与教学设计 (含时间分配) | 得出结论:无论乙选择坦白还是不坦白,甲都会选择坦白。 同理,在分析乙的选择时,我们也会得到类似结论。但当我们仔细分析,不难发现:如果两人都选择不坦白(即合作),则可以获得最好的结局(即只判2年)。但由于他们之间不能互通信息,所以每一方都担心由于对方坦白而自己不坦白时自己所遭受到的重判(即对方坦白判1年,自己不坦白判10年)。在这种情况下,每个囚犯从自己的利益考虑,最后的选择都是坦白。 这就是我们将在以后要学习的博弈论。 l 简单了解什么是博弈论 博弈论(Game Theory),也称对策论,是描述和研究行为者之间策略相互依存和相互作用的一种决策理论。它是现代数学的一个新分支,博弈论的应用领域十分广泛,在经济学、政治科学(国内的以及国际的)、军事战略问题、进化生物学以及当代的计算机科学等领域都已成为重要的研究和分析工具。。 生活中每个人如同棋手,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们“出棋”着数中理性化、逻辑化的部分,并将其系统化为一门科学。换句话说,就是研究个体如何在错综复杂的相互影响中得出最合理的策略。事实上,博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。 l 博弈论的相关概念 基本要素:参与者(Players)、策略(Strategies)、支付(Payoffs) 在每一个博弈中,都至少有两个参与者,每一个参与者都有一组可选择的策略。作为博弈的结局,每个参与者都得到各自的报酬,即各自得到一笔支付,其支付可以为正,也可以为负。每一个参与者所得到的支付都是所有参与者各自所选择的策略的共同作用的结果。 如案例“囚犯困境”中所述: u 参与者:甲、乙 u 策略:坦白、不坦白 u 支付:判刑年数 l 占优策略均衡(Dominant Strategy) 通过对“囚犯困境”的分析,我们得到这样一个结论:无论乙选择坦白还是不坦白,甲都会选择坦白。于是,我们说,坦白策略是甲的占优策略,类似的分析对于乙也是适用的。因为,不管甲选择坦白策略还是不坦白策略,乙都会选择坦白策略,所以,坦白策略也是乙的占优策略。因此,我们给出占优策略的定义:无论其他参与者采取什么策略,某参与者的唯一的最优策略就是他的占优策略。在我们分析的例子中,(坦白,坦白)这一对策略组合下的博弈状态,就是一种均衡状态。一般地说,由博弈中的所有参与者的占优策略组合所构成的均衡就是占优策略均衡。 我们可以在支付矩阵图中用划横线的方法来寻找占优策略均衡。具体做法如下:先看甲的策略选择,当乙选择坦白策略时,甲会选择坦白策略,判刑6,则我们在判刑 6下划一横线;当乙选择不坦白策略时,甲仍会选择坦白策略,判刑1年,则我们在判刑1下划一横线。类似地,再看乙的策略选择,甲选择坦白或是不坦白时,乙都会选择坦白策略,则我们分别在相应的乙的判刑6和判刑1下各划一条横线。最后,矩阵图中唯一的两个数字都被划上横线的那一格判刑组合(6,6)所对应的(坦白,坦白)的策略组合就是该博弈的占优策略均衡。 乙 坦白不坦白 6 61 1010122 坦 白 甲 不坦白 l 纳什均衡(Nash Equilibrium) 在一个博弈中,只要每一个参与者都具有占优策略,那么,该博弈就一定存在占优策略均衡。但是需要指出的是,在有的博弈中,并不存在占优策略,仍可以达到博弈均衡。 l 占优策略均衡与纳什均衡比较 占优策略均衡要求任何一个参与者对于其他参与者的任何策略选择来说,其最优策略都是唯一的。而纳什均衡只要求任何一个参与者在其他参与者的最优策略选择给定的条件下,其选择的策略也是最优的。所以,占优策略均衡一定是纳什均衡,而纳什均衡不一定就是占优策略均衡。 1.占优策略:“不管你怎么做,我所做的都是我能做得最好的。” 2.纳什均衡:“给定你的做法后,我所做的是我能做得最好的。”“给定我的做法后,你所做的是你能做得最好的。” 如果你有占优策略,你可以使用此策略,以不变应万变;如果你没有占优策略,你必须随机应变。在达到了纳什均衡之后,所有参与者都没有动机想再变了。 |
板书设计 | |
讨论、思考题、作业 及课后参考资料 | l 智猪博弈 假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本。按钮和猪食槽在相反位置,按按钮的猪要付出2个单位的成本,并且丧失了先到槽边进食的机会。若小猪先到槽边进食,因为缺乏竞争,进食的速度一般,最终大小猪吃到食物的比率是6∶4;若同时到槽边进食,大猪进食速度加快,最终大小猪收益比是7∶3;若大猪先到槽边进食,大猪会霸占剩余所有猪食,最终大小猪收益比9∶1。 |
教学后记 |