数学模型
10
第五
单一决策主体,决策变量目标函数约束条件,决策主体的决策行为发生直接相互作用(相互影响),博弈模型,非合作博弈,合作博弈,三要素,多个决策主体,军事、政治、经济、企业管理和社会科学中应用广泛,第十章 博弈模型,第十章 博弈模型,10.1 点球大战10.2 拥堵的早高峰10.3“一口价”的战略 10.4 不患寡而患不均 10.5 效益的合理分配 10.6 加权投票中权力的度量,完全随机选择策略(50%对 50%)?,假设:同时决策(球速很快,否则来不及反应),如果不是,射门方向和扑球方向应该有什么规律?,假设:不考虑球踢向中路及守门员停在中间位置,问题背景,守门员基本策略,罚球队员基本策略,10.1 点球大战,不应完全随机选择策略,共同知识:所有人都知道(所有人知道)以上信息,“方向”以其中一人如罚球队员的位置为基准,问题背景,守门员,罚球队员,经验进球概率(1400次罚球),决策(方向选择)相互影响,完全信息静态博弈,参与人(局中人,决策者)战略/策略空间(决策变量的取值范围)效用函数(决策的目标函数),博弈模型的基本要素,点球大战的博弈模型,参与人集合N=1,2(1:罚球队员,2:守门员),罚球队员效用函数u1(a1,a2),即进球概率,罚球队员策略a1 A1=1,2(1:左,2:右);(纯战略)守门员策略a2 A2=1,2(1:左,2:右).(纯战略),守门员效用函数u2(a1,a2)=-u1(a1,a2)(零和博弈),假设博弈双方完全理性:使己方支付尽可能大,点球大战的博弈模型,u1(i,j)=mij,支付矩阵(Payoff Matrix),守门员的支付矩阵为 M(或:1 M,即不进球的概率),u2(i,j)=-mij,会出现什么结果?,博弈模型的解纳什均衡(NE:Nash Equilibrium),不存在(纯)NE,(纯战略)纳什均衡,Nash:1994年获诺贝尔经济学奖,NE:单向改变战略不能提高自己效用,即每一方的战略对于他方的战略而言都是最优的(称为最优反应).,(纯)NE:a*=(a1*,a2*)=(2,2),混合策略纳什均衡,罚球队员混合战略集,期望支付,S1=p=(p1,p2)|,守门员混合战略集,S2=q=(q1,q2)|,可类似地定义(混合策略)纳什均衡,纳什定理:有限博弈(即有限个参与人,每人只有有限个纯策略的博弈)一定存在混合策略纳什均衡.,纯策略也是混合策略,点球大战模型的纳什均衡,理性推理:不管自己怎么做,另一方总是希望使自己得分尽量低.(二人零和对策,完全竞争),线性规划,从一个给定的策略中期望得到的支付,总是采用该策略时可能得到的最坏的支付!,罚球队员可以用min pM来衡量策略p的好坏,max U1(p)=min pM,min U2(q)=max MqT,守门员可以用max MqT来衡量策略q的好坏,p*=(0.383,0.617),q*=(0.417,0.583),最优值 0.796,点球大战模型的纳什均衡,模型检验:,两人常数和博弈:严格竞争,仍可采用线性规划求解,459次实际罚球,模型应用:对于特定的点球大战,需采用具体出场的罚球队员和守门员以前对阵的进球概率数据,非严格竞争的博弈:可采用纳什均衡的定义求解,纳什均衡:可扩展到多人、纯策略空间为无限集合,左40%,右60%,罚:p*=(0.383,0.617),守:q*=(0.417,0.583),左42%,右58%,小结:博弈模型的基本要素,参与人,理性假设,行动顺序(静态、动态),信息结构(完全、不完全),行动空间(纯战略/混合战略空间),效用函数,参与者完全理性(最大化效用),其他因素,纳什均衡,单向改变战略不能提高自己效用,10.2 拥堵的早高峰,“正点”出发:路上拥堵,既烦心又费时、耗油,只考虑一条独立道路,只考虑唯一拥堵出口(瓶颈),决策(出发时间选择)相互影响,问题,早点发:路上不太拥堵,但早到浪费时间,道路拥堵:出行需求超过了通行能力(不考虑突发因素),晚出发:迟到“后果很严重”(扣钱,甚至解雇),完全信息静态对策,仅考虑一条独立道路,单一瓶颈(不妨设为出口),模型假设,忽略瓶颈处排队对路上所需时间的影响(常数,0),假设瓶颈到公司所需时间为常数(不妨设为0),每个出行者所需时间等于他在出口处排队等待时间,每个出行者(车或人)的决策:出发时刻,在纳什均衡状态下建立出行者出发时刻的分布规律,问题的分析与数学符号的引进,所有出行者正点上班时刻为t*,每天早高峰有n辆完全相同的车,瓶颈最大通行能力为s(车/单位时间),第一辆、最后一辆车出发时刻为t1,t2,期间出口一直拥堵,时刻t*到公司的车的出发时刻为t0(t1t0t2),时刻t累计出发的车辆数为F(t)(t1tt2);排队车辆数为Q(t),Q(t1)=Q(t2)=0;累计通过出口车辆数为G(t),n较大把F(t),Q(t),G(t)当成连续量,单位时间等待成本为,早到成本为,迟到成本为(0);每个出行者的总出行成本相同,模型的建立与求解,t 时刻出发的车辆在道路上的时间(等待时间)为T(t)=Q(t)/s,如果t t0(t t1),时刻t出发的车辆的早到时间E(t)t*tT(t)(迟到时间:0)总成本为 C(t)T(t)+E(t)(t*t)()/s)Q(t)因所有早到者成本相同,dC/dt=0,利用Q(t1)=0有 Q(t)(s/()(tt1),模型的建立与求解,同理:tt0(tt2)时,时刻t出发车辆迟到时间L(t)t+T(t)t*总成本 C(t)T(t)L(t)(tt*)()/s)Q(t)因所有晚到者成本相同,dC/dt=0,利用Q(t2)=0得 Q(t)(s/()(t2t),比较 t t0:Q(t)(s/()(tt1)排队长度Q(t)是分段线性函数(在 t=t0 连续),t t0 时:Q(t)(s/()(t2t)t t0 时:Q(t)(s/()(tt1),累计到达F(t)=G(t)+Q(t),而G(t)=(t-t1)s,剩下的任务:确定t1,t2,t0的值,模型的建立与求解,区间t1,t2的长度:t2t1=n/s,求解得,t1t*(/(+)(n/s)t2t*+(/(+)(n/s)t0t*(/(+)(n/s),t0 t*Q(t0)/s t0t*(/()(t0t1),Q(t)在t0连续:(s/()(t2t0)=(s/()(t0t1),t t0 时:Q(t)(s/()(t2t)t t0 时:Q(t)(s/()(tt1),0 t*t1 t2t*,模型的建立与求解,模型的解释,每辆车成本 C(t)(n/s)/()(与和t*无关),n辆车出行的总成本是TC(n2/s)/(),模型的解释,每辆车成本 C(t)(n/s)/()(与和t*无关),所有车总等待成本(TTC),n辆车出行的总成本是TC(n2/s)/(),模型的分析与应用:拥堵费,集中决策:从t1到t2的任意时刻t,出发率等于瓶颈的通行能力s(累计的出发车辆数与OCD线重合),固定的高收费:可达到最优但实际收不到费不公平(不同车成本不同),如何收拥堵费?是否可达到上述“系统最优”?,模型的分析与应用:拥堵费,早到成本:E(t)(t*tT(t)(当t t0)消除排队即T(t)=0,收费让每辆车成本相同,按时刻t收费(a:常数),取aC(t)(n/s)/(),则车成本不增,但p(t)0,较简单的收费(如分时段的固定收费)复杂路网(多出发地、多目的地、多瓶颈等)随机因素交通诱导、信息的作用 交通经济学,模型的评注与扩展,主要参考文献:,