分享
XXXX信息管理MBA课程三——数据挖掘与商务智能.pptx
下载文档

ID:5989

大小:4.63MB

页数:89页

格式:PPTX

时间:2023-01-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
XXXX 信息管理 MBA 课程 数据 挖掘 商务 智能
数据挖掘与商业智能数据挖掘与商业智能 吴联仁吴联仁 2016.4.242016.4.24 数据挖掘与商业智能数据挖掘与商业智能 1 什么激发数据挖掘?什么激发数据挖掘?2 数据库与数据仓库数据库与数据仓库 3 数据挖掘算法数据挖掘算法 4 数据挖掘软件的发展数据挖掘软件的发展 5 商业商业智能智能【引导案例引导案例1 1】1-3 中国能制作出类纸牌屋的电视剧吗?原因:A.A.没有系统性的数据积累、分析和挖掘习惯没有系统性的数据积累、分析和挖掘习惯 B.B.广告模式不足以覆盖全部成本广告模式不足以覆盖全部成本 C.C.内容需要一定的程序审核内容需要一定的程序审核 大数据解读星星互联网时代造神剧【引导案例引导案例2 2】1-4 犯罪的根源犯罪的根源:孟菲斯警察局与孟菲斯大学合作利用孟菲斯警察局与孟菲斯大学合作利用SPSSSPSS创创建一个统计包,利用统计历史减少犯罪。建一个统计包,利用统计历史减少犯罪。措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查。的人员加强盘查。结果:结果:收效甚微,发案率依然居高不下。收效甚微,发案率依然居高不下。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。新措施:新措施:加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;加强对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。结果:抢劫案的发案率迅速降低。结果:抢劫案的发案率迅速降低。1-5【引导案例引导案例2 2】1-6【引导案例引导案例3 3】卡夫食品,“澳洲老干妈”传奇卡夫食品,“澳洲老干妈”传奇:有着90年历史的澳大利亚国民食品VEGEMITE(咸味酱),面临着市场“审美疲劳”的威胁,在IBM协助下,抓取互联网社交媒体上海量数据与信息,将分析转化为洞察,开辟了全新的市场机会,销量激增。1-7【引导案例引导案例3 3】社交媒体(Social Media),也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。社交媒体营销有两种含义:一种是这些媒体营销自己;一种是其他公司利用这些媒体营销自身的产品。1-8 数据挖掘与商业智能数据挖掘与商业智能 1 什么激发数据挖掘?什么激发数据挖掘?2 数据库与数据仓库数据库与数据仓库 3 数据挖掘算法数据挖掘算法 4 数据挖掘软件的发展数据挖掘软件的发展 5 商业商业智能智能 数据挖掘的社会需求数据挖掘的社会需求 数据挖掘数据挖掘 数据库越来越大数据库越来越大 有价值的知识有价值的知识 可怕的数据可怕的数据 数据挖掘的社会需求数据挖掘的社会需求 数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据 知识 决策 模式模式 趋势趋势 事实事实 关系关系 模型模型 关联规则关联规则 序列序列 目标市场目标市场 资金分配资金分配 贸易选择贸易选择 在哪儿做广告在哪儿做广告 销售的地理位置销售的地理位置 金融金融 经济经济 政府政府 POS.POS.人口统计人口统计 生命周期生命周期 什么是数据挖掘?堆积如山的数据堆积如山的数据 数据挖掘:在你的数据中搜索知识数据挖掘:在你的数据中搜索知识 什么是数据挖掘?数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。数据挖掘(Data mining),也称为数据库知识发现(Knowledge-Discovery in Databases,KDD),或认为是KDD中的一个基本步骤。矿山(数据)挖掘工具(算法)金子(知识)数据挖掘视为知识发现过程的基础步骤数据挖掘视为知识发现过程的基础步骤 数据清理数据清理、数据集成数据集成、数据选择数据选择、数据变换数据变换、数据挖掘数据挖掘、模式评估模式评估、知识表示:知识表示:消除噪音或不一致数据消除噪音或不一致数据 多种数据源可以组合在一起多种数据源可以组合在一起 从数据库中提取与分析任务相关的数据;从数据库中提取与分析任务相关的数据;数据变换或统一成适合挖掘的形式数据变换或统一成适合挖掘的形式 使用各种算法提取数据模式使用各种算法提取数据模式 识别提供知识的真正有用的模式识别提供知识的真正有用的模式 使用可视化和知识表示技术,使用可视化和知识表示技术,向用户提供挖掘的知识向用户提供挖掘的知识 数据库数据库、数据仓库数据仓库、或其它信或其它信息库息库:数据挖掘的数据源:数据挖掘的数据源,需需要在其上进行数据清理和集成要在其上进行数据清理和集成 数据库或数据仓库服务器数据库或数据仓库服务器:根:根据用户的数据挖掘请求据用户的数据挖掘请求,数据数据库或数据仓库服务器负责提取库或数据仓库服务器负责提取相关数据相关数据 知识库知识库:存储面向领域的知识,:存储面向领域的知识,用于指导搜索,或评估结果模用于指导搜索,或评估结果模式的兴趣度式的兴趣度 数据挖掘引擎数据挖掘引擎:数据挖掘系统:数据挖掘系统核心部分,由一组功能模块组核心部分,由一组功能模块组成,用于特征、关联、分类、成,用于特征、关联、分类、聚类分析、演变和偏差分析等聚类分析、演变和偏差分析等 数据挖掘系统体系结构数据挖掘系统体系结构 模式评估模块模式评估模块:使用兴趣度度量使用兴趣度度量,与挖与挖掘模块交互掘模块交互,以便将搜以便将搜索聚焦在有趣的模式上索聚焦在有趣的模式上 对于对于有效的数据挖掘有效的数据挖掘,建议尽可能地将模式评建议尽可能地将模式评估推进到挖掘过程之中估推进到挖掘过程之中,以便将搜索限制在有兴以便将搜索限制在有兴趣的模式上趣的模式上 数据挖掘系统体系结构数据挖掘系统体系结构 图形用户界面图形用户界面:该模块在用户和挖掘系统之间通讯该模块在用户和挖掘系统之间通讯 允许用户与系统交互,指定数据挖允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。进行探索式数据挖掘。允许用户浏览数据库和数据仓库模允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,式或数据结构,评估挖掘的模式,以不同的形式对模式可视化以不同的形式对模式可视化 数据挖掘系统体系结构数据挖掘系统体系结构 数据挖掘与商业智能数据挖掘与商业智能 1 什么激发数据挖掘?什么激发数据挖掘?2 数据库与数据仓库数据库与数据仓库 3 数据挖掘算法数据挖掘算法 4 数据挖掘软件的发展数据挖掘软件的发展 5 商业商业智能智能 文件组织术语和概念文件组织术语和概念 数据结构数据结构 位是计算机能处理的最小数据单位。一组位叫字节,可以表示一个字母、数字或字符。若干个字节组成一个字、一组字(例如姓名、年龄等),称为字段。相关字段的有序集合称为记录。相同类型的记录汇集成文件。一组有序的文件组成数据库。一个记录描述一个实体(entity)。每一个描述实体的特性称为一个属性(attribute)。传统文件环境带来的问题传统文件环境带来的问题 会计和金融会计和金融 人力资源人力资源 销售和市场销售和市场 制造业制造业 衍生文件衍生文件 传统文件处理过程传统文件处理过程 传统文件环境带来的问题:数据冗余、数据-程序依赖、缺乏灵活性、低安全性以及低共用性。数据库模型数据库模型 数据库软件:是一种软件,可以看得见,可以操作。用来实现数据库逻辑功能。属于物理层。如Oracle,SQL Server等 数据库:是一种逻辑概念,用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里可以有很多字段。字段一字排开,对应的数据就一行一行写入表中。数据库的美,在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库目前市面上流行的数据库都是二维数据库。如:如:Oracle、DB2、MySQL、Sybase、MS SQL Server等等。关系数据库:是表的集合关系数据库:是表的集合,每个表都赋予一个唯一的名字每个表都赋予一个唯一的名字(关键字段关键字段)。每个每个表包含一组属性表包含一组属性,并通常存放大量元组并通常存放大量元组(记录或行记录或行)。关系中的每个组元代表关系中的每个组元代表一个被唯一关键字标识的对象一个被唯一关键字标识的对象,并被一组属性值描述并被一组属性值描述。关系数据库关系数据库 数据库在生产环境就是用来干活的,凡是跟业务应用挂钩的,都使用数据库。数据库在生产环境就是用来干活的,凡是跟业务应用挂钩的,都使用数据库。数据仓库数据仓库,(Data Warehouse)。数据仓库是为企业所有级别的决策制定过数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略程提供支持的所有类型数据的战略集合集合。它是单个数据它是单个数据存储存储,出于分析性报告出于分析性报告和决策支持的目的而创建和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和为企业提供需要业务智能来指导业务流程改进和监视时间监视时间、成本成本、质量和控制质量和控制。是商业智能是商业智能(BI,Business Intelligence)下的其中一种技术下的其中一种技术。数据仓库数据仓库 比如我想知道在哪个时间段比如我想知道在哪个时间段,用户登录的用户登录的量最多量最多?哪个用户一年购物最多哪个用户一年购物最多?诸如此诸如此类的指标类的指标。数据仓库的表结构是依照分析需求数据仓库的表结构是依照分析需求,分析分析维度维度,分析指标进行设计的分析指标进行设计的。ETLETL技术技术多维数据分析多维数据分析 ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(Extract)、转置(Transform)、加载(Load)至目的端的过程。26 多维数据分析多维数据分析 多维分析可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便剖析数据,使分析者、决策者能从多个角度、多个侧面观察数据库中的数据,从而深入了解包含在数据中的信息和内涵。27 1.上卷(Roll-Up)上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。沿着时间维上卷,由“季度”上升到半年 28 上卷(续)上卷的另外一种情况是通过消除一个或多个维来观察更加概况的数据。消除“经济性质”维度 29 2.下钻(drill-down)下钻是通过在维级别中下降或通过引入某个或某些维来更细致的观察数据。沿时间维下钻 30 3.切片(slice)在给定的数据立方体的一个维上进行的选择操作。切片的结果是得到了一个二维的平面数据。“时间1季度”31 3.切块(dice)在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个子立方体。(度量值“正常”or“次级”)And(时间“1季度”or“2季度”)32 5转轴(pivot or rotate)转轴就是改变维的方向。交换“时间”和“经济性质”轴 联机操作数据库系统的主要任务是执行联机事务和查询处理。联机操作数据库系统的主要任务是执行联机事务和查询处理。联机事务处理(联机事务处理(Online Transaction Processing,Online Transaction Processing,OLTPOLTP)系统)系统 涵盖了一个组织的大部分日常操作,如购买、库存、制造、涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、记账等。银行、工资、记账等。数据仓库系统在数据分析和决策方面为用户提供服务。数据仓库系统在数据分析和决策方面为用户提供服务。联机分析处理(联机分析处理(Online Analytic

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开