分享
2012CB316200-G海量信息可用性基础理论与关键技术研究 (2).Doc
下载文档

ID:3109548

大小:207KB

页数:45页

格式:DOC

时间:2024-01-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2012CB316200-G海量信息可用性基础理论与关键技术研究 2 2012 CB316200 海量 信息 可用性 基础理论 关键技术 研究
项目名称: 海量信息可用性基础理论与关键技术研究 首席科学家: 李建中 哈尔滨工业大学 起止年限: 2012.1-2016.8 依托部门: 信息产业部 一、关键科学问题及研究内容 2.1 关键科学问题 为了适应海量信息管理基础设施建设的需要,针对国内外海量信息可用性管理的研究现状和发展趋势,本项目将围绕多种类型(不仅仅是关系数据库中存储的关系型)和以多种方式存储(不仅仅是集中式存储)的海量信息,以信息一致性、精确性、完整性、时效性和实体同一性为核心,针对前面提出的五大挑战,以保障信息可用性以及源于信息的知识的可用性为目标,拟解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题,创建一套完整的海量信息可用性理论、方法学和技术体系。下边定义拟解决的三个科学问题。 1. 量质融合管理 量质融合管理是指数据、信息和知识三个层面上的量与质的融合管理机制。现有的海量信息基础设施只关注信息的规模、系统的处理能力和可扩展性,重在“量”的管理,忽视了信息“质量”(简称“质”)的管理。目前,劣质信息普遍存在,已经在实际应用中产生了严重后果,造成了巨大损失。信息质量的管理已经成为目前的巨大挑战问题。为此,我们必须研究信息“质”的管理问题,将信息管理从“量”的管理拓展到“质”的管理,最终实现“量”与“质”的融合管理。信息来源于数据,知识来源于信息。数据的质量决定了信息的可用性,信息的可用性影响知识的可用性。为了彻底实现量质融合管理,我们必须在数据、信息、知识三个层面研究量质融合管理问题,提出完整的理论体系,解决关键技术问题。 2. 劣质容忍原理 劣质容忍原理是指在包含错误的信息和知识上完成正确或近似计算和推理的原理。数据、信息和知识的错误几乎无处不在已成为不争的事实。“劣质容忍”是指在信息和知识存在错误的情况下,如何完成正确或相对正确的计算。为了实现劣质容忍,我们必须完成如下两个挑战性任务:第一,自动发现并修正信息和知识的错误,将可校正的劣质信息和知识修复为完全正确的可用信息和知识,支持正确的计算和推理。第二,很多信息和知识的错误无法完全修复,经过部分错误的修复后,这些信息成为部分正确的弱可用信息和知识。在这种情况下,我们必须解决如何在弱可用信息和知识上完成满足应用精度要求的近似计算和近似推理,取得满足用户质量要求的相对正确结果。 3. 深度演化机理 深度演化机理是指信息和知识的多维度、全方位演化的内在机理。信息不是一成不变的,它会随着时间和物理世界的变化而发生演化。源于信息的知识会随着信息的演化而进化。现有海量信息和知识管理在演化方面只关注完全正确的信息和知识,并仅限于探索随时间演化的过程。实际应用要求我们探索信息和知识的深度演化机理,即以可用性为核心的多维度、全方位、趋利、竞合演化机理。在信息的深度演化方面,我们需要研究多源信息在时间、空间、形态、粒度等多个维度上正向协同的演化机理。在知识的深度演化方面,我们需要研究由原始物理数据到有简单语义的信息、再到有丰富语义的知识的纵向演化机理以及知识被不断发现、聚合、更新的横向演化机理。 2.2 主要研究内容 本项目将围绕“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题,针对各种类型和不同形式存储的海量信息,以一致性、精确性、完整性、时效性和实体同一性为核心,沿着“数据→信息→知识→应用”的路线,深入系统地研究多模态海量数据高质量获取与整合的理论和技术、海量信息可用性与量质融合管理的基础理论、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法、海量弱可用信息上知识发现、演化与服务的理论和技术,提出完整的海量信息可用性的基础理论和关键技术,并将基础研究成果转换为有效的实用技术和算法,研制确保可用性的海量信息与知识的量质融合管理原型系统,以中国数字海洋(国务院908专项)和社保与经济普查信息为对象,建立复杂物理信息和管理信息两类主要信息的可用性保障应用示范,验证基础研究结果的可用性和有效性。本项目的具体研究内容如下。 2.2.1高质量多源多模态海量数据的获取与整合的理论与方法研究 由于信息源于数据,本课题将在数据层面围绕数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,针对数据的多源性和多模态性,以最大化数据质量为目标,以多模态数据融合计算为核心,研究高质量多源多模态海量数据的获取与整合的理论与方法,实现高质量的数据到信息的整合,在信息和知识的源头设置质量关,继而研究信息演化的机理。具体研究内容如下。 1. 高质量多源多模态数据获取的多模态数据融合计算的理论与方法 首先,研究数据源的质量评估模型理论,包括物理信息系统等多数据源的综合质量评估、高质量数据源的选择方法等。 然后,研究多模态数据的质量评估模型理论,包括一致性、精确性、完整性、时效性、实体同一性等单指标质量评估模型以及多指标质量评估模型。 最后,针对各种模态数据的特点,研究高质量多模态数据获取的多模态数据融合计算方法,包括支持物理世界高精度重现的高质量多模态数据采集的理论与技术、多模态数据的保质转换模型及算法、多模态数据真实性验证的理论与技术、多模态数据错误校验技术、缺失值估计的理论与技术等。 2. 多源数据实体识别的多模态数据融合计算的理论和算法 首先,研究来自物理信息系统等多数据源的多模态数据的实体识别模型,包括多模态数据的关联模型、多源数据的关联模型; 然后,研究多源多模态数据实体自动识别的多模态数据融合计算的理论和算法,包括:物理信息系统中的实体特征表达和建模、针对多模态数据实体识别的高效、实时、分布式多模态融合计算的算法等; 最后,研究多模态数据实体识别效果的评估理论和算法,包括:实体识别效果评估模型、评估测试算法。 3. 数据到信息整合的多模态数据融合计算的理论和算法 首先,研究多源多模态信息集成模型,包括:支持物理信息系统复杂语义的多层整合模型,以及信息整合的可用性模型和评价方法等; 然后,研究多模态数据融合计算的理论与算法,包括:动态多模态数据智能转换模型、多模态信息融合的智能模式抽取和模式匹配算法、自动的容错映射和转换模型、支持动静态数据结合的多模态数据融合计算方法等; 最后,研究融合信息的正确性验证和保证的理论和方法,包括:信息整合的正确性模型和评价方法、多维度多目标清洗技术、分布式近似推演技术和延迟乱序纠正技术等。 4. 可用性驱动的海量信息演化机理 以最大化海量信息可用性为目标,研究海量信息的演化过程,建立海量信息演化的世系模型及追踪技术,主要包括时空、多粒度、多路径和不确定的海量信息演化的理论模型;演化模式的正向性评估模型与方法;演化的可逆性判定与近似求解算法;演化描述的复杂性理论和低复杂性演化描述方法;网络化、多粒度、概率化的世系追踪技术。 5. 研制多模态海量数据获取与整合原型系统 把上述基础理论研究成果转化为高效实用的算法和技术,研制一个多模态海量数据获取与整合原型系统,验证基础研究成果的可用性和有效性。 2.2.2海量信息可用性与量质融合管理的理论基础研究 围绕信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,以各种类型和不同形式存储的海量信息为对象,针对海量信息可用性与量质融合管理的关键问题,建立统一的逻辑框架,提出完整的理论体系,为海量信息可用性管理奠定坚实的理论基础。具体研究内容如下。 1. 海量信息可用性的理论模型 首先,以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的理论模型,分别解决这五个特性的判定问题及其计算复杂性理论。 然后,研究海量信息一致性、精确性、完整性、时效性、实体同一性的理论模型之间的交互影响。 最后,基于五种理论模型及其交互关系,在统一的逻辑框架下,综合这五种理论模型,建立海量信息的综合可用性理论模型,研究海量信息可用性判定问题的计算复杂性理论及其求解算法。 2. 海量信息可用性公理系统与推理机制 首先,根据海量信息的可用性理论模型,以各种类型和不同形式存储的海量信息为对象,以信息一致性、精确性、完整性、时效性、实体同一性为核心,研究海量信息可用性语义的表示机理,建立海量信息可用性公理系统,分析其描述语言的表达能力,研究公理系统的一致性、完备性、独立性,并研究信息可用性公理存在性问题和相关计算问题(如最大一致性规则子集求解问题)的计算复杂性和有效算法。 然后,研究从各类海量信息中自动发掘可用性公理问题的可计算性与计算复杂性,并设计从各类海量信息中自动发掘公理的有效算法。 最后,建立海量信息可用性推理机制,研究海量信息可用性自动推理问题的可计算性与计算复杂性,并设计有效的自动推理算法。 3. 海量信息可用性评估理论 首先,以各种类型和不同形式存储的海量信息为对象,分别建立海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的单指标定量评估理论。 然后,研究上述五种单指标评估理论之间的相互影响,提出海量信息可用性的综合定量评估理论。 最后,研究海量信息可用性定量评估问题的可计算性理论与计算复杂性理论,并设计有效的海量信息可用性定量评估算法。 4. 海量信息量质融合管理的理论和算法 首先,研究支持海量信息“质”管理的信息模型和理论,包括信息的逻辑结构、信息的运算系统、信息的语义约束理论。 然后,研究信息“质”管理的模型和理论与传统信息管理模型和理论的融合问题,建立海量信息量质融合管理的模型和理论。 最后,研究海量信息量质融合管理关键计算问题的可计算性和计算复杂性理论,并设计求解这些问题的有效算法,包括信息逻辑结构的物理实现问题、信息运算系统的实现算法问题、数据定义与操纵语言的优化处理算法问题等。 5. 研制原型系统 基于上述理论研究成果,研制信息可用性公理自动发掘和自动推理原型系统、海量信息可用性自动评估原型系统、海量信息量质融合管理原型系统,验证基础研究成果的可用性和有效性。 2.2.3海量信息错误自动检测与修复的理论和技术研究 围绕海量信息的“量质融合管理”和“劣质容忍原理”这两个科学问题,针对各种类型和不同形式存储的海量信息,以海量信息可用性与量质融合管理的理论为基础,在高质量多模态数据获取与整合的前提下,研究海量信息错误自动检测和修复的可计算性理论和计算复杂性理论、信息错误自动检测和修复方法的可信性理论、高效海量信息错误自动检测与修复的算法。具体研究内容如下: 1. 海量信息错误自动检测和修复的可计算性理论 首先,以各种类型和不同形式存储的海量信息为对象,分别确定信息的一致性错误、精确性错误、完整性错误、时效性错误及实体同一性错误(以下统称这些错误为个性错误)自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,建立每个关键问题的资源需求模型,判定每个关键问题的可计算性。 然后,以各种类型和不同形式存储的海量信息为对象,确定多种个性错误同时发生的错误(以下简称综合错误)的自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,判定每个关键问题的可计算性。 2. 海量信息错误自动检测和修复的计算复杂性理论 首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,研究每个关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计个性错误检测和修复关键问题的高效求解算法奠定基础。 然后,以各种类型和不同形式存储的海量信息为对象,研究每类信息综合错误自动检测和修复的关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计综合错误检测和修复关键问题的高效优化求解算法奠定基础。 3. 海量信息错误自动检测和修复的可信性理论 首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误,建立描述个性错误检测与修复结果的可信性模型,研究个性错误检测与修复结果可信性的定量评估方法,进而建立信息个性错误自动检测与修复方法的可信性评估模型,给出设计可信的个性错误检测与修复方法的基本准则。 然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误,建立描述综合错误检测与修复结果的可信性模型,研究综合错误检测与修复结果可信性的定量评估方法,进而建立综合信息错误自动检测与修复方法的可信性评估模型,给出设计可信的综合错误检测与修复方法的基本准则。 4. 海量信息错误自动检测和修复算法 首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,设计有效的精确或近似求解算法,并分析其计算精度、时间复杂性、空间复杂性和相对于复杂性界限和精度界限的优化性。此外,还研究海量信息个性错误的弹性修复方法,探索个性错误监测和修复结果的质量与修复成本的关系,设计优化的个性错误检测和修复算法。 然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误自动检测和修复的关键问题,设计有效的精确和近似求解算法,并分析其精度、时间复杂性、空间复杂性和优化性,并探索综合错误监测和修复结果的质量与修复成本的关系,设计优化的综合错误检测和修复的算法。 5. 研制海量信息错误自动检测和修复原型系统 把上述基础理论研究成果转化为高效实用的算法和技术,研制一个海量信息错误自动检测和修复原型系统,验证基础研究成果的可用性和有效性。 2.2.4 海量弱可用信息近似计算的理论和算法研究 当海量信息中的错误不能彻底修复时,这些信息则成为弱可用信息。针对这种情况,我们将围绕信息的“劣质容忍原理”这个科学问题,以各种类型和不同形式存储的弱可用海量信息为对象,研究直接在弱可用信息上进行近似计算的理论和算法,包括弱可用信息近似计算的可行性理论、弱可用信息上近似计算问题的计算复杂性理论、弱可用信息上近似计算结果的质量评估理论、弱可用信息近似计算的算法。 1. 弱可用信息近似计算的可行性理论 以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息上的各种计算问题(如各类查询、分析、挖掘问题)和给定的质量要求,研究弱可用信息上满足给定质量要求的计算问题的近似解存在性判定的理论和方法。当计算问题的近似解存在时,研究问题的可计算性。 2. 弱可用信息近似计算问题的计算复杂性理论 首先,以可用性为复杂性测度,建立弱可用信息计算的以可用性为测度的新计算复杂性模型,研究这个复杂性模型与传统计算复杂性模型的关系,探索最小化可用性需求、时间复杂性和空间复杂性的多目标优化问题的理论。 然后,以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,研究各种海量弱可用信息计算问题(如各类查询、分析、挖掘问题)的计算复杂性,特别是以可用性为测度的计算复杂性,包括所属复杂性类、计算复杂性下界、精度界限以及近似计算结果精度与计算复杂性的相关性。 3. 弱可用信息近似计算结果的质量评估理论 以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,建立近似计算结果的质量评测指标,创建近似计算结果质量评估的理论和方法。 4. 弱可用信息近似计算的算法 首先,以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,分别针对各类海量弱可用信息,设计求解各类问题(如各类查询、分析、挖掘问题)的近似计算的算法,包括不一致海量信息近似计算的算法、不精确海量信息近似计算的算法、不完整海量信息近似计算的算法、弱时效性海量信息近似计算的算法、实体不同一的海量信息近似计算的算法,探索弱可用信息近似计算算法的设计原理。 然后,以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,研究同时存在多种类型错误的海量弱可用信息近似计算的算法,探索这类算法的设计原理。 5. 研制弱可用信息近似计算原型系统 基于上述基础理论研究成果,研制一个弱可用信息近似计算原型系统,验证基础研究成果的可用性和有效性。 2.2.5 海量弱可用信息上知识发现、演化与服务的理论和技术研究 海量信息的可用性问题必然导致源于信息的知识的可用性问题。围绕知识的“量质融合管理”、“劣质容忍原理”和“深度演化机理”这三个科学问题,针对弱可用信息,研究知识可用性评估理论与方法、弱可用信息上知识发现的信息完整性理论、弱可用信息上的知识发现算法、知识错误自动检测与修复的理论和方法、弱可用知识上的近似推理的理论与算法、源于弱可用信息的知识深度演化机理。具体研究内容如下: 1. 知识可用性评估理论与方法 知识的可用性受以下四个因素的影响:信息可用性、知识发现过程、知识演化过程、应用需求。针对这四个影响因素,研究知识可用性的评估理论和方法,包括知识可用性模型和度量标准、知识可用性的评估机制、知识可用性溯源管理的理论和技术。 2. 弱可用信息上知识发现的理论和算法 首先,研究各种知识发现问题所需要的最小信息集和最小可用性,建立面向每类知识发现问题的信息完整性理论,判定能否在给定的海量弱可用信息中求解给定的知识发现问题,确定弱可用信息上知识发现的可计算性和计算复杂性。 然后,研究弱可用信息上知识发现的理论体系,提出适用于弱可用信息的知识发现方法,设计弱可用信息上的高效知识发现算法,并对发现的知识进行可用性和有效性评估。 3. 知识错误自动检测与修复与弱可用知识推理计算的理论和方法 针对信息错误必然导致知识错误的问题,研究知识错误的自动发现和修复的理论和方法。 当知识中的错误不能彻底纠正的时候,则知识成为弱可用知识。针对弱可用知识,研究弱可用知识的近似计算与推理的理论和算法。 4. 源于弱可用信息的知识深度演化机理 知识演化对于知识错误的检测和知识的应用具有重要意义。知识的演化沿着两个维度进行。一个维度是由原始数据到有简单语义的信息、再到有丰富语义的知识的纵向演化过程。另一维度是知识被不断发现、聚合、更新的横向演化过程。 首先,针对知识演化的两个维度,建立可溯、趋利、竞合的知识演化模型,研究知识演化的趋利策略框架,建立知识演化过程的跟踪与引导方法。 然后,研究追溯知识演化过程的理论与方法,包括知识纵向演化溯源的理论模型和方法、知识横向协同演化溯源的理论模型和方法。 5. 需求驱动的知识服务体系、原型系统及示范应用 知识服务是以实现需求并获得相应收益为驱动的,每项知识服务都将根据收益情况选择为需求提供服务的方式。为了确保知识服务能够实时、最大化地满足应用的动态需求,研究知识服务的激励机制以及多方协调机制,主要包括面向知识服务的需求发现机制、需求驱动的知识服务聚合、基于收益的知识服务多方协商机制。 基于前面的理论和技术成果,开发一套集成知识发现、演化和服务的知识服务原型系统。我们还将把互联网作为物理信息系统,以中文维基百科作为知识服务的上层应用,建设知识服务原型系统的示范应用,验证基础研究成果的可用性和有效性。 2.2.6确保信息可用性的海量信息量质融合管理原型系统及应用示范 依据上述基础研究结果,研制确保信息可用性的海量信息量质融合管理原型系统,并与2.2.5的知识服务原型系统有机集合,建立一个确保信息和知识可用性的海量信息与知识的量质融合管理原型系统,最后针对具有代表性的具体应用领域,建立两个应用示范。具体研究内容如下。 1. 设计实现确保信息可用性的海量信息量质融合管理原型系统 首先把2.2.1至2.2.4的基础理论研究结果转化为高效实用的算法和技术;然后,设计量质融合的海量信息管理原型系统的模型、功能和结构;最终使用由2.2.1至2.2.4的研究结果转化来的高效实用算法和技术,研制确保信息可用性的海量信息量质融合管理原型系统,实现如下功能: (1) 具备传统信息管理系统的功能; (2) 能够高质量地自动获取海量多源多模态数据,自动完成数据实体的同一化,并自动将这些数据整合为信息; (3) 支持信息可用性(即一致性、精确性、完整性、时效性和实体同一性)的描述、评估、自动推理与可用性公理的自动发掘; (4) 能够自动检测并修复信息的不一致、不精确、不完整、过时和实体不同一等个性错误以及综合错误,并能评估修复后信息的可用性; (5) 支持弱可用信息上的近似计算,并能够评估计算结果的质量; (6) 能够自动跟踪、引导、追溯信息的多维度演化过程。 2. 建立确保信息和知识可用性的海量信息与知识的量质融合管理原型系统 把确保信息可用性的海量信息量质融合管理原型系统与2.2.5的知识服务原型系统有机集成,建立一个确保信息和知识可用性的海量信息与知识的量质融合管理原型系统,在海量信息量质融合管理原型系统的基础上,增加如下功能: (1) 能够从海量可用信息中自动发现可用的知识,评估知识的可用性,自动检测和修复知识中的错误; (2) 能够自动跟踪、引导、追溯知识的纵向和横向演化过程; (3) 提供深层次的知识服务。 3. 建立两种类型的信息可用性保障应用示范 本项目将重点建设两个具有代表性的应用示范,即复杂物理信息系统的信息可用性保障应用示范和管理信息系统的信息可用性保障应用示范,完成相关系原型统的开发,解决实际应用中与信息可用性相关的关键技术问题,验证本项目基础理论与关键技术研究成果的科学性和可用性。 (1) 中国数字海洋信息可用性保障应用示范 中国数字海洋建设是国务院批准实施的908专项“我国近海海洋综合调查与评价”的主要内容。中国数字海洋是在有关海洋的多学科长期积累的基础上,利用天基、空基、海基、路基等海洋信息获取技术,应用卫星监测、飞机监测、船舶监测、台站监测、浮标监测、水下监测、平台及海上固定监测等手段,对海洋进行海、陆、空、天全方位综合观测和评价,构建动态海洋时空信息平台,实现“海洋信息获取的数字化网络化、海洋信息管理的标准化规范化、海洋现象和过程重现的可视化、海洋分析评价和服务的智能化”,有效地支持“维护海洋权益与国家安全、保护海洋生态与环境、提高海洋资源利用水平、促进海洋经济发展”。从2003年908专项实施以来,国家已经投资20亿元,完成了近海海洋综合调查、近海海洋环境综合评价、近海数字海洋信息基础框架的构建。目前,已经建立了大量基础数据库,积累了数十TB的信息,且信息以每年TB级的速度增长。然而,由于各种原因,这些信息中很多错误,根据抽样估计,15%的信息存在错误。信息错误已经在军事、渔业生产、海洋防灾减灾、海上国际关系等方面造成了很大损失。为此,本项目将重点研究开发中国数字海洋信息可用性保障应用示范,以满足国家在这方面的重大需求,为复杂物理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题: A. 针对中国数字海洋的特点,分析总结数字海洋在信息可用性保障方面的各种需求; B. 从中国数字海洋在信息可用性保障方面的需求,抽象出复杂物理信息系统的信息可用性保障的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术; C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发中国数字海洋信息可用性保障应用示范,为建设复杂物理信息系统的信息可用性保障机制奠定基础,提供有效范例。 (2) 社保信息与经济普查信息可用性保障应用示范 社会保险(简称“社保”)是事关社会和谐稳定、经济健康发展的重要社会和经济制度,社保信息包含了社会保险参保职工与用人单位的全部核心信息,其价值不可估量。确保社保信息的正确性对于保险费的正确征收与使用,保险金的正确发放,以及社保制度的发展和完善具有重要意义。经济普查信息包含了我国境内从事第二产业、第三产业活动的全部法人单位、产业活动单位和个体经营户的单位基本属性、从业人员、财务状况、生产经营情况、生产能力、原材料和能源消耗、科技活动情况等重要信息,是事关国家宏观经济政策制定的重要参考信息。经济普查信息的可用性将严重影响以此为依据制定的经济政策的可靠性与有效性,为此国务院2004年9月颁发的《全国经济普查条例》第五章第二十八条和第二十九条明确规定:“地方各级经济普查机构应当根据国务院经济普查领导小组办公室的统一规定,建立经济普查数据质量控制岗位责任制,并对经济普查实施中的每个环节实行质量控制和检查验收”;“国务院经济普查领导小组办公室统一组织经济普查数据的质量抽查工作,抽查结果作为评估全国及各地区经济普查数据质量的主要依据”。通过与北京市政府相关部门的合作,我们了解到,社保信息库和经济普查信息库中已经积累了数TB的信息,且以每年GB级的速度增长。然而,由于各种原因,这些信息中很多错误,根据抽样估计,有10%~20%的信息存在错误。例如,《中国新闻周刊》2005年第32期报道了2004年经济普查信息中存在的质量问题,例如,乐山市经委在经济普查中填报的“人员支出”为281.8万元,查实数据为1644万元,虚报率71%。由于社保和经济普查信息的重要性,本项目将研究开发社保和经济普查信息可用性保障应用示范,以满足国家在这方面的重大需求,为管理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题: A. 针对社保信息和经济普查信息管理与分析的特定条件,分析总结社保信息和经济普查信息可用性保障方面的需求; B. 从社保信息和经济普查信息可用性保障的需求,抽象出管理信息系统的信息可用性保障的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术; C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发社保信息和经济普查信息可用性保障应用示范,为建设管理信息系统的信息可用性保障机制奠定基础,提供有效范例。 二、预期目标 3.1 总体目标 本项目的总体目标是:面向我国海量信息管理基础设施建设重大需求,以海量信息可用性管理的“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个科学问题为核心,研究海量信息可用性管理的基础理论和关键技术,提出完整的海量信息可用性管理的理论体系、方法学和关键技术,包括从物理信息系统等多数据源有效地获取高质量多模态数据的理论和技术、海量信息可用性和量质融合管理的理论和技术、信息错误的自动检测与修复的理论和技术、海量弱可用信息近似计算的理论和技术、弱可用信息上的知识发现和深度演化的理论和技术、知识可用性管理的理论和技术,解决确保信息和知识可用性的海量信息和知识量质融合管理系统的工程技术问题,研制原型系统,并针对中国数字海洋和社保与经济普查信息,建立两类具有代表性的信息可用性保障应用示范,即复杂物理信息系统的信息可用性保障应用示范和管理信息系统的信息可用性保障应用示范,培养一批优秀的海量信息可用性管理研究和工程技术人才,为我国在未来5至10年建设新一代海量信息管理基础设施奠定坚实基础,为我国信息产业的持续快速发展和国家发展战略的顺利实施提供理论基础和核心技术。 3.2 五年预期目标 1.基础理论研究方面的预期目标 (1) 提出四个基础模型: 信息可用性模型,多模态数据模型,支持量质融合管理的信息模型,知识可用性模型。 (2) 认知三种演化机理: 数据演化机理,信息演化机理,知识演化机理。 (3) 解决七类理论问题: 数据、信息和知识的可用性评估理论;信息可用性的公理化理论;信息与知识量质融合管理的基础理论;多模态数据融合计算的理论;信息和知识错误自动发现与修复的理论;弱可用信息近似计算的理论;弱可用知识近似推理与近似计算的理论。 (4) 取得四项理论突破: 多模态数据融合计算理论;海量信息的量质融合管理理论;弱可用信息上的近似计算理论;弱可用知识上的近似推理与近似计算理论。 (5) 发表高水平学术论文:在IEEE/ACM Transactions等国际一流学术刊物发表论文30篇以上;在SIGMOD等国际重要学术会议发表论文60篇以上。 2.关键技术研究方面的预期目标 (1) 提出三类数据优质化技术:多源多模态数据获取技术;多源数据实体识别技术;多模态数据融合计算算法。 (2) 提出五类信息可用性最大化技术: 信息可用性评估技术;信息可用性自动推理技术;信息错误自动发现与修复技术;弱可用信息近似计算技术;信息量质融合管理技术。 (3) 提出四类知识错误最小化技术: 弱可用信息知识发现算法;知识错误自动发现与修复算法;知识可用性评估技术;知识服务技术。 (4) 取得被授权或被受理国家专利和软件著作权:12项以上。 3.原型系统与示范应用方面的预期目标 (1) 研制一个原型系统:确保信息可用性的海量信息量质融合管理原型系统; (2) 建立二个代表性信息可用性保障应用示范:中国数字海洋信息可用性保障应用示范;社保与经济普查信息可用性保障应用示范。 4.人才培养方面的预期目标 (1) 培养出具有国际影响的青年教师12名以上,并努力培养出国家杰出青年基金获得者、长江学者、教育部新世纪优秀人才。 (2) 培养出具有国际一流学术水平的博士30名以上。 三、研究方案 4.1 总体思路 第一,提出新理念,发现新问题,探索新理论,开创新技术。从海量信息可用性的自然特性出发、从海量信息管理的需求出发、从海量信息可用性管理与知识管理等其它学科交叉所产生的科学问题出发,以中国数字海洋和社保信息与经济普查信息为背景,研究海量信息可用性管理的挑战性问题,解决传统方法无法解决的问题,建立海量信息可用性管理的完整全新的理论体系和方法学。 第二,明确科学问题,选择突破点,合理确定研究内容。以“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题为核心,在基础理论、方法学、实用技术三个层面,确定关键突破点,选择具有共性和普遍意义并有望在五年内获得重大进展的问题,形成具体、明确、创新的研究内容。 第三,理论联系实际,以应用驱动基础研究,以基础研究提高应用水平。从实际出发,在实际应用中发现科学问题,以应用示范验证研究成果、反馈需求、推动基础研究不断深入,初步产生社会和经济效益。 第四,出国际一流成果,培养国际一流团队,进入国际先进行列。在五年内提出完整的海量信息可用性基础理论与关键技术,取得一批海量信息可用性管理方面的国际一流研究成果,并取得部分引领国际研究的国际领先成果,培养一支国际一流的创新研究团队,为我国在该领域中的基础理论和关键技术研究打下深厚的基础,为国民经济提供强有力的支持。 4.2 技术路线 本项目按照“数据→信息→知识→应用”的路线开展研究,在数据、信息、知识、应用四个层面上解决“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题。在数据层面,针对数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究从物理信息系统等多数据源获取与整合高质量多模态海量数据的理论和技术。在信息层面,针对信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究海量信息可用性与量质融合管理的理论基础、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法。在知识层面,针对知识的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究海量弱可用信息上的知识发现、演化与服务的理论和技术。在应用层面,整合基础研究结果,研制确保信息可用性的海量信息量质融合管理原型系统,并针对中国数字海洋、社保和经济普查信息,建立两类具有代表性的信息可用性保障应用示范(复杂物理信息系统的信息可用性保障应用示范、管理信息系统的信息可用性保障应用示范):中国数字海洋信息可用性保障应用示范、社保和经济普查信息的信息可用性保障应用示范,以验证基础研究结果的可用性和有效性。下边是我们在这四个层面的各项研究中拟采用的具体技术路线。 4.2.1 数据层面研究中拟采用的技术路线 在数据层面,本项目将针对数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,集中研究从物理信息系统等多数据源获取与整合高质量多模态海量数据的理论和技术,以多模态数据融合计算为核心,解决多数据源多模态数据的高质量获取、多源多模态数据的实体识别、多模态数据到信息的高质量整合等问题,在信息的源头把住质量关,分别拟采用如下技术路: (1) 在物理信息系统等多源多模态数据的高质量获取研究中,采用灰色关联分析等方法进行多数据源质量的综合评价,重点研究分析序列的确定及决策矩阵的构建,运用信息熵理论,建立数据源质量评估的理论与方法;针对各种模态数据的特点,基于最大似然估计、时间维概率平滑、空间小组关系和有效路径统计信息反馈等途径,研究高质量多模态数据获取的多模态融合计算方法。数据获取方法要确保物理过程的正确重现; (2) 在物理信息系统等多源多模态数据的实体识别研究中,采用如下方法探索求解多源多模态数据实体识别的多模态数据融合计算方法:基于启发式规则和信息挖掘、非监督学习等方法,针对所有可能的关联链分析,检测实体的语义关联;采用近似函数依赖挖掘技术,结合多模态特征,提出新的相似性匹配算法;采用序列模式挖掘和匹配技术,基于行为和传播模式,准确识别实体; (3) 在多模态数据到信息的高质量整合的研究中,基于数据源质量设计多模态数据融合模型,研究求解多模态数据整合的多模态数据融合计算方法,实现高质量的数据到信息的整合。整合过程与信息可用性评估理论和公理系统紧密结合,提高整合信息的正确性和可用性。 4.2.2 信息层面研究中拟采用的技术路线 信息层面的研究是本项目的重点,将针对信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究三方面的问题,即海量信息可用性与量质融合管理的理论基础、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法,拟采用如下技术路线。 1. 海量信息可用性与量质融合管理基础理论研究的技术路线 主要解决海量信息可用性理论模型、海量信息可用性公理系统与推理机制、海量信息可用性的定量评估模型、海量信息量质融合管理的基础理论、海量信息演化机理等问题,分别采用如下技术路线: (1) 在海量信息可用性理论模型的研究中,首先用一阶逻辑、时序逻辑、误差估计理论、随机过程等不同数学方法建立海量信息的一致性、精确性、完整性、时效性和实体同一性的理论模型,然后在统一的逻辑框架下把用不同数学方法建立的理论模型融合成为一个完整的海量信息可用性理论模型。 (2) 在海量信息可用性公理系统与推理机制的研究中,为了有效表达海量信息可用性公理,设计表达能力强、兼容多种类型信息、具有低计算复杂性的逻辑语言和逻辑框架,建立推理机制,并证明其正确性,分析其计算复杂性和可近似性,设计相应的算法。在公理发掘算法设计中,重点解决从海量弱可用信息中挖掘高可用公理系统以及提高算法效率的问题。 (3) 在海量信息可用性的定量评估模型方面,研究两种模型,即以可用性公理的最大满足子集作为评估测度的绝对可用性模型和面向应用需求的相对可用性模型,重点解决最大满足子集求解难题和应用需求可满足性判定问题,并设计高效求解算法。 (4) 在海量信息量质融合管理基础理论的研究中,将沿着“质管理理论→量质融合管理理论→实现技术与算法”的路线开展研究。首先,解决海量信息“质”管理的核心理论和模型问题,建立海量信息“质”管理的逻辑信息结构、信息运算系统、信息约束理论;然后,研究海量信息“质”管理的理论和模型与传统信息“量”管理理论和模型的“融合”问题,建立支持海量信息量质融合管理的逻辑信息结构、信息运算系统、信息约束理论;最后,设计量质融合管理的信息定义与操纵语言、逻辑结构的物理实现技术、运算系统的实现算法、语言的优化处理技术与算法。 (5) 在可用性驱动的海量信息演化机理研究中,采用随机过程的分析方法,利用极限理论和多元分析技术研究信息的演化机理。在多模态海量信息演化的世系模型方面,建立信息描述复杂性理论,分析信息质量导致

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开