数据仓库
决策
支持系统
数据仓库与决策支持系统
国防科技大学系统工程与数学系 陈文伟 高人伯 黄金才
一、数据仓库的概念
____随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取(检索、查询等)制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。其具体体现在三个方面:1历史数据量很大。2辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成。3由于访问数据的能力不足,它对大量数据的访问性能明显下降。
____随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse, DW)。
____W. H. Inmon对数据仓库的定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。
____主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为10GB左右。它是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。
____数据仓库主要应用在两个方面:1使用浏览分析工具在DW中寻找有用的信息。2数据仓库系统支持在DW上的应用,形成决策支持系统(DSS)。
____二、数据仓库的结构
____1.数据仓库的逻辑结构和物理结构
____数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。可见数据仓库中逻辑结构数据由3层到4层数据组成,它们均由元数据(Meta Data) 组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式 )和基于关系数据库组织形式(由关系型事实表和维表组成)。
____2.数据仓库系统
____数据仓库系统(DWS)由数据仓库、仓库管理和分析工具三部分组成,其结构形式见图 1。
图1 数据仓库系统结构图
____源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。
____仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。
____分析工具:用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据开采DM工具等,以实现决策支持系统的各种要求。
____3.数据仓库应用的C/S结构形式
____数据仓库应用是一个典型的C/S结构。其客户端的工作包括客户交互、格式化查询及结果和报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。现在,一种越来越普遍的形式是三层结构,即在客户与服务器之间增加一个多维数据分析服务器。OLAP服务器能加强和规范决策支持的服务工作,集中和简化原客户端和DW服务器的部分工作,降低系统数据传输量,因此工作效率更高。
____三、 数据集市
____1. 数据集市的产生
____数据仓库的工作范围和成本常常是巨大的。信息技术部门必须针对所有的用户并以整个企业的眼光对待任何一次决策分析。这样就形成了代价很高、时间较长的大项目。因此更紧凑集成的、拥有完整图形接口且价格更具吸引力的工具即数据集市(Data Mart s)应运而生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。
____2. 数据集市的概念
____数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价途径。它是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,它支持客户利用已有的数据获得重要的竞争优势或找到进入新市场的解决方案。
____3. 数据集市的特征
____数据集市的特征包括:规模小;有特定的应用;面向部门;由业务部门定义、设计和开发;业务部门管理和维护;能快速实现;购买较便宜;投资快速回收;工具集的紧密集成;提供更详细的、预先存在的、数据仓库的摘要子集;可升级到完整的数据仓库。
____四、 数据仓库的开发流程
____数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成产品。不同企业会有不同的数据仓库。企业人员往往不懂如何建立和利用数据仓库,发挥其决策支持的作用 ,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据。这需要双方互相沟通,共同协商开发数据仓库,因此是一个不断往复前进的过程。
____开发数据仓库的流程包括以下几步:
____(1)启动工程 建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度等。
____(2)建立技术环境 选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(关于可用性、装载、维护及查询性能) 等。
____(3)确定主题进行数据建模 根据决策需求确定主题,选择数据源,对数据仓库的数据组织进行逻辑结构设计。
____(4)设计数据仓库中的数据库 基于用户的需求,着重于某个主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。
____(5)数据转换程序 实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。
____(6)管理元数据 定义元数据,即表示、定义数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求、变化及数据时限等。
____(7)开发用户决策的数据分析工具 建立结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询工具、统计分析工具、C/S工具、OLAP工具及数据开采工具等,通过分析工具实现决策支持需求。
____(8)管理数据仓库环境 数据仓库必须像其他系统一样进行管理,包括质量检测、管理决策支持工具及应用程序,并定期进行数据更新,使数据仓库正常运行。
____五、基于数据仓库的决策支持系统
____数据仓库是一种管理技术,它将分布在企业网络中不同站点的商业数据集成到一起, 为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。数据仓库为决策支持系统开辟了一种新途径。随着数据仓库的广泛应用,基于数据仓库的决策支持系统应运而生。数据仓库的使用分三大类:1提高数据分析的速度和灵活性;2为访问和综合大量数据提供集成基础;3促进或再创造商业过程。利用数据仓库建立的应用系统,在激烈的市场竞争中,为企业领导者的决策支持起到了明显的作用。这种应用系统是一种新形式的决策支持系统。下面给出NCR公司为企业建立数据仓库系统的几个应用实例。
____例1:NCR联合太平洋铁路公司,将几百个数据库合并转换成数据仓库应用系统,能准确识别豁免税购买,一年能节省100万美元营业税。通过在部分铁轨上提速,每月节省30万美元。应用系统在可支付帐目、设备维护、市场营销以及汽车和火车头调动等方面提高了操作效率,改进了服务质量。
____例2:Sears服装集团公司建立的数据仓库应用系统能够监视每个分店的销售情况,并使他们实现具有本地市场特点的战略目标。如零售商可以在竞争对手的商店中适当安排电子类产品,扩大营销范围。在地区与少数民族市场上,为顾客提供他们所需的花色齐全的服装。
____例3:比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为。
____例4:美国东北部农场主所有的最大联营公司之一Agway公司,在被竞争对手抢走了一些市场份额后,建立了数据仓库应用系统,将焦点对准市场机遇,扩大了销售额,提高了利润,使市场情况得到好转。