温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
挖掘
导论
数据挖掘?第一章?数据挖掘导论?数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。本书将介绍数据挖掘(?)与数据库知识发现(?)的基本知识,以及从大量有噪声、不完整、甚至是不一致数据集合中,挖掘出有意义的模式知识所涉及的概念与技术方法。?本章将从数据管理技术演化角度,介绍数据挖掘的由来。以及数据挖掘的作用和意义。同时还将介绍数据挖掘系统的结构、数据挖掘所获得的知识种类,以及数据挖掘系统的分类。最后还简要介绍了当前数据挖掘领域尚存在的一些热点问题。?计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。早在?世纪八十年代,据粗略估算,全球信息量每隔?个月就增加一倍。而进入九十年代,全世界所拥有的数据库及其所存储的数据规模增长更快。一个中等规模企业每天要产生?以上来自各生产经营等多方面的商业数据。美国政府部门的一个典型大数据库每天要接收约?数据量,在?秒到?分钟时间里,要维持的数据量达到?,存档数据达?。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达?之多;而为了研究的需要,这些数据要保存七年之久。九十年代互联网(!?)的出现与发展,以及随之而来的企业内部网(!?)和企业外部网(#?)以及虚拟私有网($?%:$?&?)的产生和应用,使整个世界互联形成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。据估计,?(?年全球数据存贮容量约为二千?,到?年增加到三百万?,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间”(!?)*?+,?)和“数据过剩”(?&?)的巨大压力。?数据挖掘?第一章?数据挖掘导论?然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。如图-?-?所示,数据是原材料,它只是描述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能做为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。在大量知识积累基础上,总结出原理和法则,就形成所谓智慧(.?)。事实上,一部人类文明发展史,就是在各种活动中,知识的创造、交流,再创造不断积累的螺旋式上升的历史。?客观世界客观世界收集数据数据深入分析知识知识决策与行动分析信息信息?图-?-?人类活动所涉及数据与知识之间的关系描述?计算机与信息技术的发展,加速了人类知识创造与交流的这种进程,据德国 世界报的资料分析,如果说?(世纪时科学定律(包括新的化学分子式,新的物理关系和新的医学认识)的认识数量一百年增长一倍,到本世纪/?年代中期以后,每五年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来帮助从中提取有用的信息和知识,人类显然就会感到像大海捞针一样束手无策。据估计,目前一个大型企业数据库中数据,约只有百分之七得到很好应用。因此目前人类陷入了一个尴尬的境地,即“丰富的数据”?(?*)而“贫乏的知识0(?,?)。?数据挖掘?第一章?数据挖掘导论?早在八十年代,人们在“物竞天择,适者生存”的大原则下,就认识到“谁最先从外部世界获得有用信息并加以利用,谁就可能成为赢家”。而今置身市场经济且面向全球性剧烈竞争的环境下,任何商家的优势不单纯地取决于如产品、服务、地区等方面因素,而在于创新。用知识作为创新的原动力,就能使商家长期持续地保持竞争优势。因此要能及时迅速地从日积月累庞大的数据库中,以及互联网上获取与经营决策相关的知识,自然而然就成为满足易变的客户需求以及因市场快速变化而引起激烈竞争局面的唯一武器。因此,如何对数据与信息快速有效地进行分析加工提炼以获取所需知识,就成为计算机及信息技术领域的重要研究课题。?事实上计算机及信息技术发展的历史,也是数据和信息加工手段不断更新和改善的历史。早年受技术条件限制,一般用人工方法进行统计分析和用批处理程序进行汇总和提出报告。在当时市场情况下,月度和季度报告已能满足决策所需信息要求。随着数据量的增长,多数据源所带来的各种数据格式不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是形成了数据仓库(?*?&?)。数据仓库不同于管理日常工作数据的数据库,它是为了便于分析针对特定主题(?&?1?2?)的集成化的、时变的(?2?)即提供存贮?年或更长时间的数据,这些数据一旦存入就不再发生变化。?数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速3人们提出了能进行实时分析和产生相应报表的在线分析工具 456?(4?5?6?)。456?能允许用户以交互方式浏览数据仓库内容,并对其中数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与企业经营活动密切相关的信息。例如:456?能对不同时期、不同地域的商业数据中变化趋势进行对比分析。?456?是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回答“什么”(.*?),而456?的分析结果能回答“为什么”(.*?)。但 456?分析过程是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导的信息分析与知识发现过程。但由于数据仓库(通常数据贮藏量以?计)内容来源于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时准确地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这类工具不应再基于用户假设,而应能自身生成多种假设;再用数据仓库7或大型数据库8中的数据进行检验或验证;然后返回用户最有价值的检验结果。此外这类工具还应能适应现实世界中数据的多种特性(即量大、含噪声、不完整、动态、稀疏性、异质、非线性等)。要达到上述要求,只借助于一般数学分析方法是无能达到的。多年来,数理统计技术方法以及人工智能和知识工程等领域的研究成果,诸如推理、数据挖掘?第一章?数据挖掘导论?机器学习、知识获取、模糊理论、神经网络、进化计算、模式识别、粗糙集理论等等诸多研究分支,给开发满足这类要求的数据深度分析工具提供了坚实而丰富的理论和技术基础。?九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点。目前数据挖掘工具已开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑。如图-?-?所示。?数据数据库管理数据仓库?数据挖掘数据智能分析解决方案图-?-?数据到知识的演化过程示意描述?随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。为有效解决这一问题,自二十世纪 9?年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为是数据管理与分析技术的自然进化产物,如图-?-?所示。?自六十年代开始,数据库及信息技术就逐步从基本的文件处理系统发展为更复杂功能更强大的数据库系统;七十年代的数据库系统的研究与发展,最终导致了关系数据库系统、数据建模工具、索引与数据组织技术的迅速发展,这时用户获得了更方便灵活的数据存取语言和界面;此外在线事务处理(45?:?2?,?)手段的出现也极大地推动了关系数据库技术的应用普及,尤其是在大数据量存储、检索和管理的实际应用领域。?自八十年代中期开始,关系数据库技术被普遍采用,新一轮研究与开发新型与数据挖掘?第一章?数据挖掘导论?强大的数据库系统悄然兴起,并提出了许多先进的数据模型:扩展关系模型、面向对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等;日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。?数据收集与数据库创建数据收集与数据库创建数据收集与数据库创建数据收集与数据库创建(/?年代或更早)-基础文件处理 数据库管理系统数据库管理系统数据库管理系统数据库管理系统(:?年代)-网络和关系数据库系统-数据建模工具-索引和数据组织技术-查询语言和查询处理-用户界面与优化方法-在线事务处理 先进数据库系统先进数据库系统先进数据库系统先进数据库系统(9?年代中期至今)-先进数据模型(扩展关系、面向对象、对象关系)-面向应用(空间、时间、多媒体、知识库)数据仓库和数据挖掘数据仓库和数据挖掘数据仓库和数据挖掘数据仓库和数据挖掘(9?年代后期至今)-先进数据模型(扩展关系、面向对象、对象关系)-面向应用(空间、时间、多媒体、知识库)新一代信息系统新一代信息系统新一代信息系统新一代信息系统(?年之后)图-?-?数据挖掘进化过程示意描述?被收集并存储在众多数据库中且正在快速增长的庞大数据,已远远超过人类的处理和分析理解能力(在不借助功能强大的工具情况下),这样存储在数据库中的数据就成为“数据坟墓”,即这些数据极少被访问,结果许多重要的决策不是基于这些基础数据而是依赖决策者的直觉而制定的,其中的原因很简单,这些决策的制定者数据挖掘?第一章?数据挖掘导论?没有合适的工具帮助其从数据中抽取出所需的信息知识。而数据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律,从而可以为商业活动、科学探索和医学研究等诸多领域提供所必需的信息知识。数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数据坟墓”中的数据转化为知识财富。?数据挖掘(?,简称?),简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义描述:?数据挖掘,又称为数据库中知识发现(?,简称?),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘的全过程定义描述如图-?-所示。?数据库数据仓库特定数据集模式知识清洗与集成选择与转换评估与表示数据挖掘?图-?-?知识挖掘全过程示意描述?如图-?-所示,整个知识挖掘(?)过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:?数据清洗数据清洗数据清洗数据清洗(?),其作用就是清除数据噪声和与挖掘主题明显无关的数据;?数据集成数据集成数据集成数据集成(?),其作用就是将来自多数据源中的相关数据组数据挖掘?第一章?数据挖掘导论?合到一起;?数据转换数据转换数据转换数据转换(?),其作用就是将数据转换为易于进行数据挖掘的数据存储形式;?数据挖掘数据挖掘数据挖掘数据挖掘(?)3?它是