基于
测量
流媒体
发布
建模
分析
申请代码:F010106 受理部门:收件日期:受理编号:国家自然科学基金 申 请 书 国家自然科学基金 申 请 书 资助类别:面上项目 亚类说明:自由申请项目 附注说明:项目名称:基于测量的流媒体发布建模与分析 申 请 者:郭宇春 电话:010-51684759-112 依托单位:北京交通大学 通讯地址:北京市北京交通大学电子信息工程学院 邮政编码:100044 单位电话:010-51688033 电子邮件: 申报日期:2007年2月15日 国家自然科学基金委员会 60772063评审材料:张凌专家评议专用 国家自然科学基金申请书 第 2 页 版本 1.005.254 基本信息基本信息 g9ti01Pq2D 姓名 郭宇春 性别女 出生年月1968 年 7 月 民 族 汉族 学位 硕士 职称副教授 主要研究领域通信理论,网络理论 电话 010-51684759-112 电子邮件 传真 个 人 网 页 工 作 单 位 北京交通大学/电子信息工程学院 申 请 者 信 息 申 请 者 信 息 在研项目批准号 名称 北京交通大学代 码 10004401 联系人 王冬梅 电子邮件 依托单位信息 依托单位信息 电话 010-51688033 网站地址 单 位 名 称 代 码 合作单位信息 合作单位信息 项目名称 基于测量的流媒体发布建模与分析资助类别 面上项目 亚 类 说 明自由申请项目 附注说明 申请代码 F010106:通信网 基地类别 预计研究年限 2008 年 1 月 2010 年 12 月 研究属性 应用基础研究 项 目 基 本 信 息项 目 基 本 信 息 申请经费 27.0000 万元 摘 要(限 400 字):摘 要(限 400 字):P2P 流媒体应用正在成为互联网流量的主要产生源,并开辟了一个全新的商业模式。虽然实验证明了基于 p2p 的组织方式比基于树的方式能更好地支持流媒体的网络传播,但目前并没有科学的理论去解释其中的道理,也缺乏理论去预测和评估系统可支持的质量和系统容量。本课题的研究目标和研究内容正是在大规模实际测量的基础上,以内容散布过程作为模型的核心,建立起能较全面定量描述 p2p 流媒体系统的理论框架,并在这个理论的指导下,回答例如媒体流速率极限、系统用户容量、现行网络能支持速率在400kps 左右的流媒体的原因、以及无线和移动环境对用户组织和演播质量的影响等问题,同时发现协议和技术的改进方向和改进措施。本课题是一个基于测量的理论研究,p2p 系统的分布特征一直是测量中固有的技术难点,本研究将探索 p2p 流媒体系统大规模探测方法,找寻同时适合于测量和理论模型的关键视角和关键参数,争取在测量和理论建模两个方面取得突破。关 键 词关 键 词(用分号分开,最多 5 个)P2P,流媒体,内容散布过程,测量,理论模型 评审材料:张凌专家评议专用 国家自然科学基金申请书 第 3 页 版本 1.005.254 项目组主要成员项目组主要成员(注:项目组主要成员不包括项目申请者,国家杰出青年科学基金类项目不填写此栏。)编号 姓 名 出生年月 性别职 称 学 位 单位名称 电话 电子邮件 项目分工 每年工作时间(月)1 赵永祥1970-07-10 男 副教授 博士 北京交通大学 010-51684759 关键理论技术的突破 6 2 李纯喜1970-02-25 男 讲师 硕士 北京交通大学 010-51684759 测量平台建设的总负责 6 3 宋光农1973-11-4 女 讲师 博士 北京交通大学 010-51684759 系统建模和比较分析 6 4 郑宏云1971-12-27 女 讲师 硕士 北京交通大学 010-51684759 网络动态测量分析 6 5 汪巍崴1981-10-16 男 博士生 学士 北京交通大学 010-51684759 网络特征测量与分析 6 6 贾晋康1979-12-25 男 博士生 学士 北京交通大学 010-51684759 测量技术改进6 7 尉伟峰1977-10-13 男 博士生 硕士 北京交通大学 010-51684759 特征分析和模型分析 6 8 李绍龙1979-8-13 男 博士生 学士 北京交通大学 010-51684759 测量技术的改进6 9 刘紫千1979-1-15 男 博士生 学士 北京交通大学 010-51684759 liu_ 网络测量分析和建模6 总人数 高级 中级 初级 博士后 博士生 硕士生 12 2 3 5 2 说明:高级、中级、初级、博士后、博士生、硕士生人员数由申请者负责填报(含申请者),总人数自动生成。评审材料:张凌专家评议专用 国家自然科学基金申请书 第 4 页 版本 1.005.254 经费申请表经费申请表 (金额单位:万元)科目 申请经费 备注(计算依据与说明)一.研究经费 一.研究经费 17.5500 1.科研业务费 16.5000 (1)测试/计算/分析费 2.5000包括在实际网络测试和在计算中心上机的费用(2)能源/动力费 (3)会议费/差旅费 7.0000包括会议注册费,火车票,旅馆费,差旅费(4)出版物/文献/信息传播费 7.0000包括版面费,专利费,上网费,墨盒,打印纸,文献检索,电话费等(5)其它 2.实验材料费 0.0000 (1)原材料/试剂/药品购置费 (2)其它 3.仪器设备费 1.0500 (1)购置 1.0500计算机配件,网络配件,维修等费用(2)试制 4.实验室改装费 5.协作费 二.国际合作与交流费 二.国际合作与交流费 4.0500 1.项目组成员出国合作交流 2.0500 2.境外专家来华合作交流 2.0000 三.劳务费 三.劳务费 4.050015%,研究生劳务费 四.管理费 四.管理费 1.35005%合 计 合 计 27.0000 国家其他计划资助经费 其他经费资助(含部门匹配)与本项目相关的 其他经费来源 其他经费来源合计 其他经费来源合计 0.0000评审材料:张凌专家评议专用 国家自然科学基金申请书 第 5 页 版本 1.005.254 报告正文1.立项依据与研究内容 报告正文1.立项依据与研究内容 1.1 立项依据立项依据 1.1.1 P2P 流媒体已成为互联网的主流业务并打开了一个全新的商业模式流媒体已成为互联网的主流业务并打开了一个全新的商业模式 近两年来,P2P技术在流媒体实时传输方面的应用得到了快速发展,逐渐成为宽带互联网业务的主流,为 P2P应用打开了一个新的商业模式。目前较为知名的 P2P流媒体应用包括 PPLivePPLive,PPStreamPPStream,TVAntsTVants,FeiDianfd,VVSkyvv,CoolStreamingzhang05等。这些 P2P流媒体应用一推出就成为互联网流量的重要产生源pli05,其中 PPLive 和 PPStream 更是由于其先发优势,获得了相当高的普及率。测试数据表明,同时观看同一个频道的 PPLive 用户超过 10 万人次hei06。而且,IPTV预计在 2011 年全球 IPTV用户将达到 5千万,各国在这一项上的总税收近 122亿美元。这么庞大的用户数目和经济收益足以吸引电信营运商和广播公司研发实用的商用流媒体业务。2006年英国 BBC推出名为 Kontikikon的 P2P TV服务,允许用户通过 P2P文件共享来获取过去一周内的所有电视节目。美国的 P2P 开创者 Skype 公司在 2007 年初也正式向外界公布基于 P2P技术的项目 JoostJoost,目前已有五万多人正参加发布之前的前期测试。在中国,广电部、信产部也在开发基于流媒体的应用。2007年,CCTV.com携手多家网络媒体共同组建春晚网络联盟,采用 P2P 流媒体技术向全球华人推送 2007年春晚以及 24年以来春晚的精彩节目剪辑。这些事实表明,P2P流媒体在全球范围内正处于快速发展的阶段,而且 P2P网络的发展势必会引发传统电视产业的彻底革新,极有可能彻底改变人类的媒体娱乐文化,成为现代知识经济发展的一个新亮点。1.1.2 P2P 流媒体的发展历程流媒体的发展历程 过去的十几年间,世界各地的学者们一直在努力尝试实现 IP 网络实时流媒体的传输。针对将流媒体同时分发给大量用户的问题,陆续出现了四类不同的架构。最早出现的是 IP层多播ip-multicast,即采用 IP多播来承载这些视频流。这种设计非常高效,但由于一些实践和行政管理方面的原因,一直未能投入实用。由于缺乏激励运营商安装支持多播路由器的机制,研究者不得不转向应用层来寻求解决实时流媒体传输的方案。与 IP 多播的架构类似,端系统多播方案ChuBanerjeeTran以构建 P2P 多播树为基础来实现实时流媒体传输的。但是,应用层节点的随机到达和随机离开很容易破坏这些具有结构性质的树,降低整个系统的性能。随后提出的构建多树的方案来缓解这些问题,但始终无法根除这种 P2P网络本质上就存在的节点动态性。这种不稳定性再加上较评审材料:张凌专家评议专用 国家自然科学基金申请书 第 6 页 版本 1.005.254 大的维护开销,使得这些基于构建树的设计很难在广域网实现。为克服上述的困难,一些研究者就提出采用基于 CDN 的应用层网络结构CDN。这种系统通过策略性的选择一些合适地点来放置服务器或者是应用层代理,在这些坐标节点的基础上构建一个比较高质量的覆盖层结构。这种结构比较稳定,能够快速适应节点动态行为,在一些 ISP内部投入实用。但是由于需要放置专门服务器维持核心网络结构,费用比较高,从商业角度考虑也很难在大规模网络中应用。近年来以 PPLive 和 CoolStreaming 为代表的数据驱动的 P2P 流媒体技术PPLivezhang05一经提出就迅速投入实用。因为这些以数据驱动的设计机制不需维护固定的拓扑结构,每一节点都根据内容可用性和传输速率在本地做出决策,系统方便灵活,投入不大,扩展性很好,能够支持大量用户同时接收。1.1.3 P2P 流媒体研究领域中新兴的研究方向流媒体研究领域中新兴的研究方向 就目前的技术和应用发展看,P2P 流媒体的网上应用才刚刚开始,目前实现的仅仅是演示了当前的互联网能够以大约 400kb/s 的速率支持上千人甚至上万人的、比较流畅的普通画质视频播放,受众多是利用互联网进行娱乐的青年人。是否能将 P2P流媒体推向更广泛、要求更严格的、内容更严肃的各种社会和商业应用,则有待于对 P2P流媒体系统进行体系结构的进一步完善、技术的进一步开发、以及系统性能的大规模测量和评估。就目前来说,P2P流媒体学术研究领域中新兴的研究方向大致包括:?新型直播、点播P2P流媒体系统架构(Novel live or on-demand P2P streaming architectures)?P2P流流媒体量的测量和实施(Traffic measurement and deployment experience)?拓扑设计和位置感知的P2P系统(Topology design and locality aware P2P system)?性能评估和分析(Performance evaluation and analysis)?先进编码技术的应用(Applications of advanced coding techniques)?安全问题(Security issues)?路由和服务质量保证(Routing and QoS provisioning)?数字版权管理(Digital rights management)?内容分块和内容块调度算法(Content partitioning and block scheduling algorithms)?无线P2P流媒体系统(Wireless P2P streaming)?高效媒体内容分布的对等用户匹配算法(Peer-matching algorithms for efficient media distribution)?跨层设计(Cross-layer design)1.1.4 P2P 流媒体研究领域现已取得的研究成果流媒体研究领域现已取得的研究成果 总的来说,P2P流媒体技术的研究刚刚起步,主要研究工作始于 2005年,大致可以分为协议设计和开发、理论建模和分析、测量和性能评估三个方面。目前这些研究大多是相对孤立、零散进行的,尚未形成系统理论。如在协议设计和开发方面,zhang05评审材料:张凌专家评议专用 国家自然科学基金申请书 第 7 页 版本 1.005.254 根据作者的开发经验,阐述了第一代数据驱动 P2P 网络电视的协议基础和基础体系结构。ADAPT06研究如何通过主动测试来获得网络的可用带宽,并按照可用带宽传输相应的数据来改善视频播放质量。在理论建模和分析方面,mar06设想了一个 P2P流媒体的理想化分发架构,并通过仿真较为简单地描述扩散树之间的交互和扩散性能与协议参数的关系。在测量和性能评估方面,ali通过实验抓取数据包分析,同样对于资源利用,连接本地性和稳定性有了一定的描述。thomas通过收集的四种类型的 IPTV应用的具体数据:PPLive,PPstream,TVants、Sopcast,研究了 P2P IPTV产生的数据流特征,以及 IPTV的整体行为。TVants收集了在法国 Pierre et Marie Curie大学运行 TVants 收看世界杯足球赛的情况,简单地分析了用户上载、下载数据流量和用户数量状况,以及头十名上载、下载者的流量。zhang05P2P展示了自己 P2P 流媒体应用,并给出了整个系统中的用户行为等统计数据和接收图象的质量。1.1.5 本课题研究的立足点本课题研究的立足点 1.1.5.1 基于测量的模型建立与分析基于测量的模型建立与分析 本课题组长期研究流媒体网络和 P2P网络,并大致形成了基于测量和协议对网络进行建模分析的学术风格和技术路线。在长期的研究中,我们发现像 P2P这种全民参与的平等应用,用户行为和技术协议共同影响着网络状态,因此只有通过大规模测量才能把握用户是如何行为的,也只有结合用户行为和协议规范对网络共同作用的分析,才能够在理论上合理地解释二者共同作用所形成的网络特征,以及对网络及 P2P流媒体系统的各种性能和质量做出实际的评估。另一方面,P2P网络的规模之大已经大大超出目前仿真环境的能力,用户行为和网络环境的复杂性也大大超出我们目前的理论知识,因此在基于仿真的验证工作中,网络环境、用户行为往往非常难以设定,仿真的计算量也非常之大,而结果又往往难以说服别人。我们认为在 P2P网络的研究工作中更好的办法是通过实际测量来把握真实网络上的真实现象,并通过理论分析预言真实行为会导致的真实结果。因此我们在本申请中提出基于测量的流媒体发布建模与分析的研究课题和技术路线。1.1.5.2 P2P 媒体分发和媒体分发和 BitTorrent 的比较性研究的比较性研究 迄今为止,商业上最成功的 P2P流媒体应用 PPLive 和 Ppstream都沿用了 P2P文件系统 BitTorrent 的基于数据驱动的网络架构模型、文件分块传输技术,也就是说,BitTorrent和 PPLive 这两种典型的数据分发方式都是基于一群用户和一套简单的数据分发法则来完成数据的传输的。但由于 P2P流媒体应用具有对传输实时性的特殊要求,又使其不得不摒弃某些在 BitTorrent 中已经应用得非常成功的机制,如:?惩罚机制(Tit-for-tat):在PPLive系统中,由于播放的数据流对传输时延的实时要求,用户之间的数据流是单向的,针锋相对的惩罚机制就失去其在BitTorrent系统中的积极意义。因此,为保证用户群体的普遍播出质量,PPLive系统不能对投机用户再采用针锋相对的惩罚机制,而是采用最大带宽优先策略。也就是评审材料:张凌专家评议专用 国家自然科学基金申请书 第 8 页 版本 1.005.254 说,流媒体系统的用户在决策时不考虑它们之间相互传输速率的匹配,而是最大化它们之间的单向速率(下载或上传速率),以达到最快扩散信息的目的。?遏制(Choke)连接机制:在PPLive系统中,为了充分利用链路带宽、提高系统的播放质量,P2P流媒体应用不遏制用户的连接数量,而采用“能者多劳”的机制,即允许用户建立尽可能多的上载连接。尤其是那些最先得到文件块的用户的上载量会相应的大,以提高系统的共享率。?稀缺优先(rarest first)机制:由于实时性要求,PPLive系统的用户在下载时候不能单纯的采用稀缺资源优先的策略,还要考虑本地播放的进度(即播放内容的可用性)。由于需要兼顾两个因素,因此在PPLive系统中的调度算法会更加复杂。这些策略的变动是否极大地改变了 BitTorrent 所体现出来的 P2P 网络的特征是一个很好的研究切入点,因此我们认为对 BitTorrent 和 P2P 流媒体做比较性研究较容易发现分块 P2P文件传输中的关键技术要点,这对于 P2P流媒体系统的体系结构的完善、协议的进一步开发和质量性能的评估,均有着重要的理论意义和实践意义。1.1.5.3 内容扩散模型是本研究的重点和难点内容扩散模型是本研究的重点和难点 内容扩散是指文件或流媒体的每一个分块,在时间上和用户建立的拓扑关系下,通过协议规范的机制和实际的用户选择,如何从源(种子)分发到每一个用户的过程。BitTorrent和 PPLive 这两种数据分发系统最初的方案设计和协议设计主要是依赖于直觉和实验建立的,近年的研究进展又主要集中在建立刻画用户行为的系统动态模型hei06thomasTVantsIPTValizhang05mar06,而应该成为理论核心的内容散布模型至今没有建立起来。内容散布模型是指 P2P网络中描述文件分发过程的一个物理模型,类似简单的物理流体散布模型。在这个模型中,各种内容(BitTorrent 系统中指文件,PPLive 中指实时播放的流媒体文件)在用户间通过网络进行散布,散布的进程包括内容在网络中散布的速度、用户间相互传输数据的带宽、以及种子灌入策略和网络组织的规模和形式等。因此,内容散布模型的建立将能从整体上指导数据分发系统的方案设计和协议设计,有利于更准确的性能评估。本项目的研究主题是通过分析 BitTorrent和 PPLive在文件分块分发过程中文件块的散布过程及其异同,建立 BitTorrent 和 PPLive 两种系统得的内容散布模型,并比较不同的协议策略和文件分块分发的扩散机制对两种系统的内容散步模型的影响,以及对两种网络的特征和拓扑的影响。?为什么说内容扩散模型是把握体系结构的关键 文件内容在用户间通过网络的散布过程主要取决于网络环境(用户间的带宽)、种子灌入策略和网络组织模式(用户间如何确定连接关系)。因此,内容散布过程是网络、协议和用户行为的主要理论表征,直接用理论的抽象反映了用户体验与网络环境和协议规范的重要关系,能够直接和全面地回答不同网络条件和协议规范条件下的 P2P网络的性能和质量。评审材料:张凌专家评议专用 国家自然科学基金申请书 第 9 页 版本 1.005.254?为什么说内容扩散建模是重要的研究课题 BitTorrent 和 PPLive 是有史以来最成功的大规模数据分发方式,其中,BitTorrent是非实时 P2P文件分发方式,而 PPLive 是 2005年以后快速发展起来的 P2P流媒体分发方式,与其对应的数据流量占据了网络流量的半数以上,因此对他们的研究具有重要的现实意义和理论意义。他们都是基于一群用户和一套简单的协议法则,因此应该能够通过目前科学认知能把握的理论加以模型并对模型求解;但目前的方案设计和协议设计主要依靠直觉和实验,因此急需基于分析的理论研究成果来进一步加深理解。?为什么说内容扩散建模是一个研究难点 实际上,关于 BitTorrent理论模型的研究工作从 2002年就开始了,几年来逐步建立起一些刻画用户行为的系统动态模型,目前取得较好理论成果的有 BitTorrent 系统动态模型Qiu04,Pouwelse05,LC06b和文件寿命模型Guo05。这些模型主要是描述系统中的用户数如何动态变化的,虽然LC06b估计了用户的下载完成过程,但主要的依据是用户的带宽分布统计特征,并不能反应协议规范的作用。虽然大家都认为内容散布模型是从整体上指导方案设计、协议设计和性能评估的一个关键,但应该成为理论核心的内容散布模型至今没有建立起来。我们认为主要的难点在于测量和基础模型假设两个方面。无论是对于 BitTorrent 或者对于现在存在的 P2P 流媒体应用,虽然存在大量的测量工作,但关于用户间连接关系和数据交互的规模测量方法一直没有找到。缺乏这样的数据基础,就很难对一些基础问题作出合理的假设,如用户间组成的网络具有何种特征?种子是如何进行初始散布的?所导致的拓扑是否稳定?等等。?我们将如何克服这个研究难点 基于我们长期研究和开发的基础,我们努力创造各种条件、克服测量方面的困难,打算从下面几个方面入手开展具体工作:?在我们为中国电信上海分公司开发的 P2P 流媒体系统中设置相应的测量报告机制,这样就有条件得到较为完整的、关于 BitTorrent 和 P2P 流媒体的真实应用数据;?通过对 BitTorrent 和 P2P流媒体协议的深入分析,寻找对目前测量数据进行挖掘、得到 BitTorrent 和 P2P 流媒体系统中有关网络状态、用户行为、协议等基础特征的方法;?通过多种方法和渠道对 BitTorrent和 P2P流媒体系统进行测量,并结合这些测量结果进行综合推测。对于 BitTorrent 和 PPLive,我们已经先后采用多种方法进行了测量工作:?建立了对 Tracker 的数据抓取(crawl)?建立了对用户群的数据抓取?实现了基于用户端的在线应用测量?搭建了实际的内容发布平台?实现了对校园网出入口的监测 评审材料:张凌专家评议专用 国家自然科学基金申请书 第 10 页 版本 1.005.254?通过其他渠道得到的网络测量数据,通过适当仿真,建立预分析模型和猜想。1.1.6 本课题预计的研究成果本课题预计的研究成果 本课题拟研究和解决的主要问题包括:?研究文件散布过程的理论模型,寻求文件散布过程所形成的网络拓扑的极限形式或平稳形式,采用规范化的形式描述在极限或平稳拓扑下的文件的动态散布过程、以及在文件散布的起始时间和完成时间点上文件在拓扑上的分布状况;?研究不同的协议策略对文件块散布过程的影响;?研究不同灌注策略对文件块散布过程的影响;?在比较性研究中,我们将注重研究 BitTorrent 和 PPLive 在文件分块分发过程中文件块的散布过程及其异同,研究不同的协议策略对 BitTorrent 和 PPLive 的文件块散布过程的影响,研究文件分块分发的扩散机制和协议策略对于 BitTorrent和 PPLive 的网络拓扑及网络特征的影响;在回答这些问题的基础上,本研究预计达到如下目标:?寻找合适的测量方法,寻找对测量数据进行信息挖掘的有效技术?建立物理上符合协议规则结果与实验数据匹配的BitTorrent和P2P流媒体系统的理论模型?寻找描述用户上下载质量和演播质量的模型?寻找改善分发质量的协议策略 参考文献 参考文献 aliS.Ali,A.Mathur and H.Zhang,“Measurement of commercial peer-to-peer live video streaming”,in Proc.Workshop on Recent Advances in P2P Streaming,Waterloo,ON,Canada,August 2006.ADAPT06 Adaptive Packet Video Streaming Over P2P Networks Using Active Measurements,Mushtaq,M.;Ahmed,T.;Computers and Communications,2006.ISCC 06.Proceedings.11th IEEE Symposium on 26-29 June 2006 Page(s):423-428 Digital Object Identifier 10.1109/ISCC.2006.24 Banerjee S.Banerjee,B.Bhattacharjee,and C.Kommareddy,.Scalable application layer multicast,.in ACM SIGCOMM,2002.CDN KONTOTHANASSIS,L.,SITARAMAN,R.,WEIN,J.,HONG,D.,KLEINBERG,R.,MANCUSO,B.,SHAW,D.,AND STODOLSKY,D.A transport layer for live streaming in a content delivery network.Proc.IEEE 92,9(Sep.2004),1408 1419.Chu Y.hua Chu,S.G.Rao,and H.Zhang,.A case for end system multicast,.ACM SIG-METRICS,2000.fd http:/9.org Guo05 Lei Guo,Songqing Chen,Zhen Xiao,Enhua Tan,Xiaoning Ding,and Xiaodong Zhang,Measurements,Analysis,and Modeling of BitTorrent-like Systems,IMC05.hei06.HEI,X.,LIANG,C.,LIANG,J.,LIU,Y.,AND ROSS,K.W.Insights into PPLive:A measurement study of a large-scale P2P IPTV system.In IMC 06 ip-multicast.DEERING,S.,AND CHERITON,D.Multicast Routing in Datagram Internetworks and Extended LANs.ACM Trans.on Computer Systems(May 1990),85111.IPTV http:/ http:/ http:/ Ziqian Liu,Changjia Chen,Modeling BitTorrent-like Peer-to-Peer Systems,submitted to IEEE Communication Letters.2006.mar06.MAGHAREI,N.,REJAIE,R.,Understanding Mesh-based Peer-to-Peer Streaming.In CAN NOSSDAV 06 PPLive http:/www.PPL pli05L.Plissonneau,J.Costeux,and P.Brown,“Analysis of peer-to-peer traffic on adsl,”in Proc.of PAM,2005 评审材料:张凌专家评议专用 国家自然科学基金申请书 第 11 页 版本 1.005.254 Pouwelse 05 J.Pouwelse,P.Garbacki,D.Epema,and H.Sips,The BitTorrent P2P file-sharing system:Measurements and analysis.In Proc.of the 4th International Workshop on Peer-to-Peer Systems(February 2005).PPStream http:/ Qiu04 Qiu,D.,and Srikant,R.Modeling and performance analysis of BitTorrent-like peer-to-peer networks.In SIGCOMM 2004.Thomas Thomas Silverston,and Olivier Fourmaux,“P2P IPTV Measurement:A Comparison Study”,ACM 2006.Thomas Thomas Silverston,and Olivier Fourmaux,“P2P IPTV Measurement:A Case Study of TVants”,Computer Science 2006 Tran D.A.Tran,K.A.Hua,and T.Do,.Zigzag:An ef_cient peer-to-peer scheme for media streaming,.in IEEE Infocom,2003.vv.http:/ zhang05P2P X.Zhang,J.Liu,and B.Li,“On large-scale peer-to-peer live video distribution:CoolStreaming and its preliminary experimental results,”in Proc.MMSP,2005.zhang05 ZHANG,X.,LIU,J.,LI,B.,AND YUM,T.-S.P.DONet/CoolStreaming:A Data-driven Overlay Network for Peer-to-Peer Live Media Streaming.In IEEE INFOCOM(Mar.2005),vol.3,pp.2102 2111.(X.Zhang,J.Liu,B.Li,and T.-S.P.Yum,“DONet/CoolStreaming:A data-driven overlay network for peer-to-peer live media streaming,”in Proceedings of INFOCOM,vol.3,Miami,FL,USA,13-17 March 2005,pp.2102 2111)1.2 项目的研究内容、研究目标,以及拟解决的关键问题项目的研究内容、研究目标,以及拟解决的关键问题 1.2.1 本项目的研究内容本项目的研究内容 本研究组早在 2000年就开始将 P2P网络视为严肃的研究课题,在前期研究工作和国内外研究状况的基础上,本项目拟研究的主要问题包括文件散布过程的理论模型、协议策略和种子灌注策略对文件块散布的影响、以及对 BitTorrent 和 PPLive 两种系统的比较性研究。我们拟从测量方法、理论建模和模型应用三个方面开展研究工作。1.2.1.1 测量方法的研究测量方法的研究 我们将在本研究中实施下列各项测量方案,并探讨如何改进这些测量方法以获得更完整、更准确反映网络特征和用户行为的数据集。在这些测量方法得到的数据的基础上,寻找对测量数据进行统一和综合的处理方法,并通过这些测量方法和测量数据从不同侧面验证本研究的结果。(1)大规模实施对用户的数据抓取(大规模实施对用户的数据抓取(crawl)目前对于全面了解 P2P 流媒体系统的测量方法中,最有效的是对每个用户实施的crawl。该方法基于用户协议提供的测量功能,可以收集每个用户较详细的状态信息。我们在 2006 年中期就已经开发了利用本测量办法进行测量的平台,目前正在对收集的数据进行分析。从我们自己的工作和国际上报道的相关工作看,该方法存在的主要问题有两个,一个是用户的响应很不完整,部分用户(约 20-30%)对 crawl 命令根本不响应,绝大多数用户的响应不具有连贯性,存在有时响应有时不响应的情况;二是缺乏用户间的上下行关系,以及用户间如何进行信息交互的细节。因此就现在公开报道的研究成果看,多为某些统计特性的描述,尚无任何基于这套测量方法所获得数据的深刻结论见诸报道。我们认为该方法是在目前条件下可能实现的最好测量方法。通过前一阶段的探索评审材料:张凌专家评议专用 国家自然科学基金申请书 第 12 页 版本 1.005.254 性研究,我们相信可以通过内插和过滤理论,得到用户非响应信息的估计,并在此基础上结合协议规范对系统进行刻画和理论描述,因此,我们将以测量方法和对所得测量数据的挖掘作为本研究的主要目标之一。(2)基于客户端运行的数据采集基于客户端运行的数据采集 目前使用较多的另一个测量办法是运行几个客户端,收集并分析这些客户端收集的数据,来刻画系统的行为。我们通过硕士生的研究开展了这项工作,证实了通过这个办法确实能够得到单个用户的较详尽的数据,但缺点是测量的规模很难扩大,也较难区分得到的特征中哪些具有一般意义、哪些是特定环境特定终端的特殊行为。在本研究中,我们将从两个方面着手:一方面将本方法得到的结果作为解释和细化上述大规模实施对用户 crawl 方法的重要手段,另一方面积极寻找可能的扩大测量规模的方法。(3)利用自己开发的软件进行测量和数据采集利用自己开发的软件进行测量和数据采集 我们从去年开始为中国电信上海分公司开发了 P2P流媒体系统,我们考虑可以在该系统的客户端软件中设置相应的测量报告机制,这样就有可能得到较为完整的真实数据。但这样的测量只能对特定的应用范围生效,而且我们还必须考虑运营商和客户是否能够接受这样的测量和报告。在网络条件和资金条件许可的情况下,我们将考虑搭建自己的平台来独立开展该项工作。(4)校园网的出入口监视校园网的出入口监视 我们已经建立了校园网的出入口监视平台,在对去年的数据分析中我们发现了一定规模的 P2P流媒体业务数据,随着该应用的扩展,相信将能观察的更多的流量,我们将研究如何将检测到的 P2P流媒体数据与本课题结合起来,深化对 P2P流媒体应用状况的分析。1.2.1.2 理论建模理论建模 理论建模是一个协议分析、测量数据分析、模型选择和建模尝试等工作的多次反复过程。我们首先将通过协议分析和测量数据分析得到在我们测量感知的范围内可能建立的模型,并试图找出既能深刻刻画网络特征又可以从测量数据中进行估计的关键性参数。通过前一阶段的试探性研究,我们目前设想的模型将主要涉及下面一些方面:?用户完成时延的分布特征:通过内插和过滤的方法从大规模用户crawl数据中提取;?用户间应用层静态拓扑的推断:充分利用大规模用户crawl数据中每用户上下载速率和报告的拓扑关系,结合客户端数据采集,寻找从大规模用户crawl数据中估计出用户间应用层静态有向拓扑的方法;?用户间拓扑的动态描述:我们发现P2P流媒体系统是一个拓扑不断变化的系统,评审材料:张凌专家评议专用 国家自然科学基金申请书 第 13 页 版本 1.005.254 我们将试图找出描述这种拓扑动态的理论方法,并试图通过下面的种子灌入策略、用户动态特征和用户自组织行为给出理论解释;?种子的灌入策略、以及不同的种子灌入策略所形成的导致的网络拓扑和用户体验的关系;?用户的自组织行为,特别需要关注的是带宽准则(协议规范要求用户总是寻找最大带宽的其他用户进行连接)和可用准则(用户必须寻找那些有自己所没有的内容的用户进行连接)的作用,理解并找出这两个准则的相互关系,回答这两个准则的作用是否随不同用户规模和网络条件而变化,以及他们是如何影响网络的拓扑和用户的体验的。我们将寻找适当的数学模型来刻画上面论述的各种参数和关系,并通过对各种测量结果的分析来进一步验证我们所建立的模型。1.2.1.3 模型的应用模型的应用 对所建立理论模型的具体应用,我们初步考虑研究 P2P 流媒体系统的性能评估、体系结构的探讨和协议改进等三个方面。(1)性能评估性能评估 作为研究的目标,我们希望我们的模型首先能够回答如下问题,并能通过数值计算进行定量的描述和刻画:?P2P流媒体系统的系统容量,即从理论上说明P2P流媒体系统到底能容纳多少用户;?P2P流媒体系统的演播质量,譬如为什么现在能达