高清教材
科教
信息技术
选修
教材
普通高中教科书上海科技教育出版社选择性必修 3选择性必修3数据管理与分析上海科技教育出版社信息技术信息技术普通高中教科书信息技术信息技术数据管理与分析PUTONG GAOZHONG JIAOKESHUXINXIJISHUISBN 978-7-5428-7400-99 787542 874009普通高中教科书信息技术选择性必修3数据管理与分析上海科技教育出版社有限公司出版发行(上海市闵行区号景路159弄A座8楼邮政编码201101)湖南省新华书店经销湖南长沙鸿发印务实业有限公司印刷开本89012401/16印张72021年1月第1版2021年12月第3次印刷ISBN 978-7-5428-7400-9/G4340定价:8.98元批准文号:湘发改价费 2017 343号举报电话:12315ISBN 978-7-5428-7400-99 787542 874009此书如有印、装质量问题,请向印厂调换印厂地址:长沙黄花印刷工业园三号电话:0731-82755298此书如有印、装质量问题,请向印厂调换印厂地址:长沙黄花印刷工业园三号电话:0731-82755298普通高中教科书上海科技教育出版社信息技术选择性必修 3数据管理与分析编写人员名单主 编:郑 骏 分册主编:金 莹分册副主编:钱卫宁主要编写人员(以姓氏笔画为序):毛嘉莉 张 召 罗轶凤 金澈清 周 烜 高 明 陶 烨 黄定江 董启文 蔡福民欢迎广大师生来电来函指出教材的差错和不足,提出宝贵意见。上海科技教育出版社地址:上海市闵行区号景路 159 弄 A 座 8 楼 邮政编码:201101 联系电话:021-64702058 邮件地址:亲爱的同学:如今信息技术快速发展,各种各样的数据不断充斥、影响着我们的生活。对交通数据进行分析,可以为制定交通方案提供科学依据;多维度地了解用户购买需求,则为网上商店进行精准营销提供了可能大数据时代,人们正以从前无法想象的方式从海量数据中挖掘有价值的信息,作为合理决策的有力武器。在数据管理与分析的学习中,我们将带领你通过具体的生活事例,了解各种数据采集途径,掌握设计简单关系数据库的方法,利用适当的数据分析方法从给定的数据中提取出有用信息,根据需求形成最终解决方案,从而感受数据管理与分析的重要性,以及数据安全的重要性。为了让你在学习 数据管理与分析 的过程中获得更大的成功,请浏览本书的栏目介绍。单元引言、学习目标和单元挑战从生活经验出发引入本单元将要学习的内容,提出本单元学习要达成的学习目标,预告学习完本单元后要接受的单元挑战。项目引言和学习目标描述项目产生的背景和意义,介绍项目学习的主要内容,并提出一些具体问题,引导你带着问题探究。项目学习指引 通过剖析真实的项目实施过程,帮助你了解学科思想方法,理解相关概念,掌握具体技能。解释一些重要概念和术语,或提示相关知识和技术,帮助你抓住重点,扫除认知障碍。核心概念和小贴士写给学生的话提出若干问题引导你对技术背后的原理以及人、信息技术与社会的关系等进行思考和讨论。引导你利用网络、数字化工具和数字资源进行学习。提出活动任务,并引导你运用所学知识,使用信息技术工具进行探究、总结和展示。系统整理和归纳本项目的知识要点,方便你学习。补充更丰富的阅读材料,开阔你的视野。布置面向真实情境的项目任务,希望你综合运用本单元所学的知识与技能去解决问题。用思维导图可视化呈现本单元的知识脉络,提供基于学科核心素养的评价表,为你的学习表现进行自我评价。在学习过程中,希望你勤实践体验、多思考讨论,借助各种数字化工具、资源进行学习与创新,不仅要理解和掌握具体的信息技术知识与技能,还要把握用信息技术解决问题的思想方法,并思考将信息技术应用于社会时所引发的各种挑战,以开放、包容的心态与信息技术、信息社会一起进步。编 者单元挑战拓展阅读知识链接活 动数字化学习单元小结?思考与讨论?第一单元 初识数据管理与分析.1项目一 探究交通数据的管理与分析认识数据资源与价值.21.采集路口交通数据.32.管理交通数据.53.分析交通数据.64.了解交通数据资源及其价值.8知识链接.9项目二 了解网络购物数据的管理与分析经历数据管理与分析的流程.131.分析业务需求.142.管理网上商店订单数据.143.分析订单数据.174.完成科学决策.185.评价、优化整体方案.18知识链接 .19单元挑战 调查校园数据管理现状.21单元小结.22第二单元 数据管理.23项目三 了解健身数据的采集与分类认识数据的结构化.241.采集会员健身数据.252.分类存储会员健身数据.283.认识噪声数据.29知识链接.30项目四 建立简易网上书店数据库了解关系数据库的建立.331.分析数据库设计需求.342.建立实体集和联系.353.建立数据模型.374.创建数据库.39知识链接.40项目五 管理网上书店数据库使用结构化查询语言.431.添加数据.442.查询数据.453.更新数据.46目 录4.删除数据.47知识链接.47单元挑战 建立年级作业评价数据库.50单元小结 .51第三单元 数据分析.53项目六 分析城市交通拥堵状况了解常用的数据分析方法.541.了解城市道路交通拥堵状况.552.分析造成城市道路交通拥堵的相关因素.59知识链接.62项目七 揭示网上书店图书销售情况分析、呈现并解释数据.651.分析并呈现网上书店图书销售情况.662.发现用户数据的相关性.72知识链接.75项目八 探索网上书店图书推荐认识数据挖掘的重要意义.781.了解数据管理与分析技术的新发展.792.挖掘用户阅读兴趣.803.用协同过滤推荐方法推荐图书.82知识链接.86单元挑战 分析在线社交平台用户情况.90单元小结.91第四单元 数据备份与数据安全.93项目九 探秘网上书店数据库系统容灾方案应对数据丢失风险.941.了解数据丢失风险.952.备份网上书店数据.963.优化数据丢失防范方案.99知识链接.100单元挑战 探索 MySQL 数据库的实时备份.103单元小结.104附录 部分名词术语中英文对照.106 认识到数据是一种重要的资源。感受数据管理与分析技术的重要性。初步了解分析业务需求、建立数据管理与分析问题整体解决方案的基本过程。尝试对既定方案进行分析、评价,发现问题并优化方案。学习目标调查校园数据管理现状单元挑战第一单元 初识数据管理与分析信息技术与经济社会的交汇融合引发了数据量和数据处理速度的迅猛增长。数量巨大、来源分散、格式多样的数据就像一个个宝藏,被不同的组织或者个人获取、管理、分析和使用着,最终实现其价值。利用技术工具有效管理和分析数据,提取和发现有价值的信息,已经成为人们解决问题的一种重要方式。商家多渠道采集消费者的购物数据,分析其消费习惯和规律,为营销决策提供支持;企业利用产品设计、制造、营销、售后等各环节的数据,为新产品研发和企业创新发展提供支持;医院充分挖掘临床医疗数据中的价值,用于远程诊疗、医疗研发等;社会保障部门建设公共服务数据平台,为公众提供个性化和精准化的服务数据管理与分析在生产与生活中占据着越来越重要的地位,可以帮助人们更好地应对未来的挑战。在本单元中,我们将结合生活实际,认识数据管理与分析的价值和意义,并初步了解数据管理与分析的一般流程。项目一项目学习目标在本项目中,我们将以解决某十字路口的拥堵问题为例,了解数据的价值,认识到数据是一种重要资源,感受数据管理与分析技术在其中扮演的重要角色。完成本项目学习,须回答以下问题:1.数据管理与分析及数据价值之间有怎样的关系?2.数据为什么是一种重要的资源?3.数据的价值体现在哪些方面?为了解决交通管理问题,不少城市的交通管理部门都在主干道、路口安装了视频监控、地感线圈等设备,实时采集交通数据,如图 1-1 所示。此外,随着移动网络、全球定位系统等技术的发展,还产生了大量通过手机、车载设备甚至遥感卫星等采集的交通数据。这些海量的、形式多样且来源丰富的交通数据,可以帮助交通管理部门了解实时路况,及时处理交通事故;可以为公交公司、出行者以及相关企业提供信息服务;还可为政府各部门规划道路建设、开发公交线路等提供决策支持。交通数据作为一种重要资源正被不同组织共享利用,并发挥着价值。探究交通数据的管理与分析认识数据资源与价值图 1-1 采集交通数据的视频监控图 1-2 利用地感线圈采集数据地感线圈电磁区路口控制主机测量仪表项目学习指引1.采集路口交通数据生活中经常会出现如下的问题:某十字路口在特定时段异常拥堵,虽然有交警帮助疏导车辆,但是效果不佳。要解决以上问题,首先要知道路口拥堵的具体状况,以便分析出原因,这就需要获取该路口的交通数据。路口的交通数据很多,其中,车流量数据能够反映在一天中某时段通过的车辆数量、车辆流向及车辆分类情况,是反映路口车辆行驶情况的重要数据。因此,从采集路口的车流量数据入手,可能会发现有价值的信息。交通管理部门一般会在路口布设自动化的交通数据采集设备,如地感线圈、视频监控等,进行全天候的实时数据采集,如图 1-2、图 1-3 所示。小贴士除了利用设备自动采集车流量数据以外,还可以利用人工的方式采集。人工采集是由人通过手工揿按计数器来统计某个时间段内经过的车辆数,从而得出车流量数据。虽然利用设备自动采集交通数据方便省力,但是对于特定路段,在缺少采集设备的情况下,人工采集仍然不失为一种有效的数据采集方式。图 1-3 利用视频监控采集数据第一单元 初识数据管理与分析3 3全景摄像机停车线虚拟线圈尾牌摄像机数据管理与分析4 4例如,地感线圈依靠埋在路面下的一个或一组感应线圈产生的电磁感应变化,来检测通过车辆的状况,包括车辆数量、车辆速度等。又如,视频监控采用虚拟线圈的方式触发摄像机,对经过道路卡口的每辆车进行抓拍,并对所拍摄的图像进行分析,从而自动获取车辆的通过时间、车牌号码、车型、号牌颜色、车身颜色等数据。然而,实际情况非常复杂,会影响交通数据的采集,可能产生错误的、异常的或不完整的噪声数据。例如,大雾天气会导致视频监控设备无法获取清晰的图像数据;在夜间或光照较差的情况下,可能获取错误的车牌数据;地感线圈故障也会导致相关车辆数据丢失;等等。因此,一般在做数据分析之前,需要对数据进行预处理,从而保证数据分析结果的可靠性。这些设备采集到的数据会传输到专门的数据库系统中进行存储,供交通管理部门分析和使用。为了使数据蕴含的价值被深入挖掘、充分利用,有些城市的交通数据经过数据脱敏后会开放给科研机构或企业,甚至免费向社会公众开放。1.除了以上方式,你还知道哪些交通数据采集的设备和途径?2 某商店店主为了防盗,在店铺里安装了视频监控,并定期将偷窃视频公布在网上。某饭店为了提高知名度,在进餐区安装了视频监控并在直播平台进行直播。你是否赞同这两种行为?为什么??思考与讨论?活 动1.1 走访学校或者家附近的路口,观察有无交通数据采集设备,再通过上网学习,了解这些设备可以采集哪些数据,交通管理部门利用这些数据可以解决哪些问题。小贴士数据脱敏的目的是在数据交换、共享、使用等过程中实现对敏感数据的定向、准确和彻底的变换,使数据安全、可信、受控使用。要达到上述目的,需要依据相应的脱敏原则,针对敏感级别制定脱敏策略。第一单元 初识数据管理与分析5 5活 动1.2 公交一卡通能够准确地反映乘坐公交车出行者的位置分布情况,其采集的公交车客流量数据是公交客流预测、公交线路优化、公交合理调度等应用的重要数据基础。尝试选择恰当的工具将公交一卡通数据表(表 1-2)存储到计算机中,注意按需要设置数据类型、精度等。2.管理交通数据无论是利用设备自动采集到的交通数据,还是用人工的方式采集到的交通数据,都需要进行存储与管理,以方便后续的数据分析。人工采集到的交通数据可以通过录入的方式存储到相应的数据库中,而利用设备采集到的交通数据会被自动存储到数据库中。数据存储后,还需要对数据进行查询、添加、删除、更改等操作。为使采集到的数据保持连贯性、持续性和有效性,以便在数据库系统之间实现共享,还需要对数据进行标准化处理。比如,对数据的名称、代码、分类编码、数据类型、精度、单位、格式等,要规定其标准形式。例如,路口的视频监控系统所采集的数据,自动存储到交通管理部门的数据库后,经过处理,可得到某年 5 月 8 点到 9 点时间段内某路口平均车流量数据,如表 1-1 所示。表中用统一代码 NS、SN、WE、EW 分别代表由北向南、由南向北、由西向东、由东向西四个车辆行驶方向。月份起始时间终止时间方向直行车辆数左转车辆数右转车辆数5 月8:009:00NS9256073275 月8:009:00SN12481274665 月8:009:00WE6602231515 月8:009:00EW548316796参见 P10 知识链接“数据管理与分析技术”表 1-1 某路口平均车流量数据表在管理和分析交通数据时,需要规避或转换哪些数据,避免车主隐私信息的泄露??思考与讨论?数据管理与分析6 6卡号交易日期交易时间公交/地铁站点行业名称交易金额交易性质60214112802015-04-0107:51:08703 路闵行医院 公交2.00非优惠60214112802015-04-0109:07:57 11 号线昌吉东路地铁6.00优惠2201252167 2015-04-0119:20:337 号线场中路地铁4.00非优惠2201252167 2015-04-0108:55:441 号线陕西南路地铁4.00非优惠表 1-2 公交一卡通数据表3.分析交通数据造成路口拥堵的原因有多种,可以选用适当的数据分析工具对路口不同方向的车流量作分析,如图 1-4 所示。常用的数据分析工具有电子表格软件、专业的数据分析软件以及可完成复杂数据分析任务的 Python 等编程语言。这些分析工具各有优缺点,应根据实际需求选用。例如,利用电子表格软件对 5 月 8 点到 9 点时间段内某路口各方向的平均车流量数据进行分析,可以得到各方向车辆驶出数据表(表 1-3)和驶入数据表(表 1-4)。方向直行车辆数左转车辆数右转车辆数N925607327S1248127466W660223151E548316796方向直行车辆数左转车辆数右转车辆数N1248223796S925316151W548127327E660607466表 1-3 某路口各方向车辆驶出数据表表 1-4 某路口各方向车辆驶入数据表对比各方向车辆的驶入驶出数据,可以发现该路口北方进出的车辆数均超过其余方向进出的车辆数(表 1-5)。图 1-4 十字路口第一单元 初识数据管理与分析7 7为什么一个月的路口车流量数据尚不能为决策提供支持??思考与讨论?方向进出N22671859S13921841W10021034E17331660为了对各个方向的车流量数据有比较直观的感受,可以通过可视化图表展示数据。例如,利用电子表格软件将某路口各方向车辆进出数据表进行可视化,得到如图 1-5 所示的直方图。从图中可以看到该月南北方向上行驶车辆的数量偏多,这可能是造成路口拥堵的原因之一。表 1-5 某路口各方向车辆进出数据表图 1-5 某路口各方向车辆进出情况图分析该路口拥堵的原因,仅仅用一个月的数据是远远不够的,还需要对该年其他月份的路口数据进行分析,或对历年来每个月的路口数据进行分析,同时综合考虑该路口及周边路口的交通数据。这样得到的数据分析结果可以为交通管理部门缓解早高峰路口交通压力的决策提供支持:例如,在早高峰期间延长该路口车流量较多那一方向的绿灯时长。数据管理与分析8 8活 动1.3 以小组为单位,各组分别尝试利用一种数据分析工具,对本项目中的路口平均车流量数据表进行分析,交流分析结果并对工具进行比较。小贴士智能交通系统是将先进的信息技术、数据通信传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统,而建立的一种在大范围内全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。4.了解交通数据资源及其价值如今,人们管理和分析的交通数据来源广泛、形式多样,并不仅仅只有车流量数据。在智能交通系统中,通过地感线圈、视频监控、手机、公交卡等传感设备和移动终端采集的人、车、路等交通要素的数据是一种重要的资源,对交通行业及其他各行业组织的运营和管理都十分重要。以城市公交数据为例,对于一个大中型城市来说,每天从公交车辆、公交站点、公交司机或乘客等数据源处采集的公交数据类型多、数据量巨大,如图 1-6 所示。经过一段时间以后,数据的规模更是超出了传统意义上的尺度,传统的软件和工具难以胜任数据的管理和分析工作,需要采用新的、合适的数据管理工具和分析方法,才能有效地挖掘数据资源中潜在的巨大价值。图 1-6 城市公交数据资源参见 P9 知识链接“数据资源与数据价值”第一单元 初识数据管理与分析9 9管理和分析公交数据,对公交公司来说,可以很好地帮助其进行车辆营运时间调整、车辆调度等,从而提高公交车辆的利用率;对交通管理部门来说,可以为道路疏导、道路规划等提供决策依据;对地图导航企业来说,可以在导航平台上为人们的公共出行提供服务;对计划选址开业的商家来说,可以获得不同地区人流量的信息,帮助商家选择合适的经营位置。数据作为资源被不同行业或企业有效管理和分析后,会创造出各种价值。小贴士根据公交卡的刷卡记录和居民使用公交卡的比例,可以很容易地获取不同站点公交车辆的人流量分布情况。此外,根据移动手机信令数据(手机用户与发射基站之间的通信数据)也可以获取区域内的各种人流量数据。活 动1.4 以小组为单位,选择某一类数据(如教育数据、医疗数据、环境数据、人口数据),查阅与数据资源、数据价值相关的案例,并在班级里开展以“数据资源与数据价值”为主题的交流会。数据资源与数据价值随着时代的发展,数据已俨然成为人类社会赖以生存和发展的一项重要资源,它对国家和民族的发展、对人们的工作和生活至关重要,广泛存在于经济、社会的各个领域和部门。公司管理、商业决策、科学研究、政府政策制定,都离不开对数据资源的利用。例如,与医疗卫生和生命健康活动相关的健康医疗数据就是宝贵的数据资源。对健康医疗数据的分析与挖掘在医学临床、分子生物学、预防医学、医院管理等领域都发挥着重要作用。对各卫生医疗机构采集的患者就诊数据进行深入挖掘后,医生能优化治疗过程,精准用药,减轻患者在治疗过程中的痛苦;科研人员能研发出更有针对性的药物;医院能优化内部管理,改善患者就医体验;政府相关部门能更好地监管医疗体系。在加强安全保障和隐私保护的前提下,越来越多的政府部门和公司将数据资源开放共享,这使得更多的组织可以利用这些数据资源,充分挖掘其价值。同时,各行各业也在积极推动行业内及不同行业间的数据资源整合,加强数据资源的发掘运用。数据作为信息社会的重要资源,它的价值来源于数据本身、技术和思维三个层面。数据本身是数据价值的起点,只有拥有数据或能够接触到数据才能开启数据的价值。数据的拥有者需要借助于各种技术,特别是数据管理与分析技术,获取数据中隐含的信息,在具知识链接数据管理与分析1010体的业务中体现数据的价值。数据思维就是提出数据的创新性用途,挖掘数据的新价值。有些看似毫不相关却非常重要的数据需要依靠人类的智慧不断分析,通过数据思维创新性地实现数据的价值。数据管理与分析技术数据资源的开发利用离不开数据管理与分析技术。数据管理技术可以存储、管理数据,而数据分析技术可以探寻数据间的关系,获取有价值的信息。通过数据管理与分析技术,能从数据中挖掘信息和知识。目前,数据管理与分析技术已经渗透到各个领域之中。因此,建立在大量真实数据的管理与分析基础上的行为和决策,不仅维护了数据的安全和秩序,而且大大提高了生产、生活的效率和质量。1.数据管理技术 数据管理技术发展至今,经历了以下几个阶段:(1)人工管理阶段时间:20 世纪 50 年代中期以前。功能:计算机主要用于科学计算。当时没有磁盘等直接存取数据的设备,只有纸带、卡片、磁带等外部存储设备;软件只有汇编语言,没有操作系统和管理数据的专门软件。数据处理的方式基本是批处理。特点:数据不保存。系统没有专用的软件对数据进行管理。每个应用程序都要包括数据的存储结构和存取方法等。程序员在编写应用程序的同时,还要安排数据的物理存储,负担很重。数据不共享。数据是面向程序的,一组数据只能对应一个程序。数据不具有独立性。程序依赖于数据,如果数据的类型、格式、输入/输出方式等逻辑结构或物理结构发生变化,则必须对应用程序作相应的修改。(2)文件系统管理阶段时间:20 世纪 50 年代后期至 60 年代中期。功能:计算机不仅用于科学计算,还在信息管理方面发挥着作用。随着数据量的增加,数据的存储、检索和维护成为迫切需要解决的问题,数据管理技术迅速发展起来。磁盘、磁鼓等直接存取设备开始普及,这一时期的数据管理技术是把计算机中的数据组织成相互独立的、被命名的数据文件,并可按文件的名字来进行访问,对文件中的记录进行存取。特点:数据可以长期保存。由文件系统管理数据,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作。文件的形式多样化,数据具有一定的独立性。文件系统实现了记录内的结构化,但从文件的整体来看却是无结构的。其数据面向特定的应用程序,因此数据的共享性、独立性差,冗余度大,管理和维护的成本很高。(3)数据库管理阶段时间:20 世纪 60 年代后期以来。功能:数据库系统克服了文件系统的缺陷,提供了对数据更高级、更有效的管理。这个阶段的程序和数据的联系通过数据库管理系统来实现。特点:数据结构化。在描述数据时不仅要描述数据本身,还要描述数据之间的联第一单元 初识数据管理与分析1111系。数据结构化是数据库的主要特征之一,也是数据库系统与文件系统的本质区别。数据共享性高、冗余少且易扩充。数据不再针对某一个应用,而是面向整个系统,数据可被多个用户和多个应用共享使用,而且容易增加新的应用。数据独立性高。数据由数据库管理系统统一管理和控制。数据库为多个用户和应用程序所共享,对数据的存取往往是并发的,即多个用户可以同时存取数据库中的数据,甚至可以同时存取同一个数据。(4)大数据背景下的数据管理技术时间:21 世纪初期以来。功能:在大数据时代下,可以用于分析的数据变得非常多,有时甚至可以处理和某个现象相关的所有数据,不再依赖于随机采样,因此对数据的精确度要求也有所减弱。同时,通过大数据的分析与挖掘,可以找出事物之间的相关关系,从而体现出数据的巨大价值。特点:大数据的 4V 特征是 Volume(数据量)、Velocity(处理速度)、Variety(多样性)、Veracity(真实性)。常用方式:并行计算大数据处理的传统方法是使用并行数据库系统。并行数据库系统是在大规模并行处理系统和集群并行计算环境的基础上建立的高性能数据库系统。NoSQL 数据库NoSQL 数据库是指数据模型定义不明确的非关系数据库。NoSQL 数据库具有灵活的数据模型、高可扩展性和较好的发展前景。它是突破了关系数据库在处理大数据问题上局限性的一种新型数据库。云数据库技术云数据库技术是云计算的一个重要分支,是对云计算的具体运用。云数据库是部署在虚拟化云计算环境中的数据库。它极大地增强了数据库的存储能力,消除了人员、硬件和软件的重复配置,让软硬件升级变得更加容易,同时也虚拟化了许多后端的功能。2.数据分析技术数据分析是数学与计算机科学相结合的产物。数据分析是指用适当的统计分析方法对采集来的大量数据进行分析,提取有用信息和形成结论,并对数据加以详细研究和概括总结的过程。数据分析的数学基础在 20 世纪早期就已确立,但直到计算机的出现才使得数据分析的实际操作成为可能。在现实生活中,数据分析可帮助人们作出判断,以便采取适当行动。在统计学领域,有些人将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。(1)描述性数据分析:对调查对象总体所有变量的有关数据作统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。(2)探索性数据分析:通过绘制统计图形、编制统计表格、计算统计量等方法来探索数据的主要分布特征,揭示其中可能存在的规律,为选择合适的方法分析数据奠定基础。数据管理与分析1212(3)验证性数据分析:利用相关数据对已有假设进行证实或证伪。随着大数据时代的到来,数据在加速地增长,用传统的方法已很难有效地分析大数据,因此数据分析的工具、技术和分析方法也在不断发展,以满足海量数据存储、管理和实现其价值的诉求。大数据是“全数据”分析,数据来源广、类型多、数据量大,而传统的数据分析是一种抽样数据分析,一般针对少量的数据。大数据分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行分析。传统的数据分析更侧重统计上的分析,而大数据的数据分析核心方法是数据挖掘。数据挖掘一般没有预先设定好的主题,主要是在数据上运行各种数据挖掘算法,从而发现规律或异常,满足一些高级别数据分析的需求。项目二项目学习目标完成本项目学习,须回答以下问题:1.分析业务需求、建立数据管理与分析问题整体解决方案的基本过程是什么?2.如何对既定方案进行分析、评价,发现问题并优化方案?现今,网络购物已成为消费者购物的主要方式之一,从进入网上商店查询到选定并购买商品的一系列过程产生了大量的数据,对这些数据的分析可以帮助商家了解消费者的购物习惯,从而将更多适合消费者喜好的商品推荐给他们(图 1-7)。此外,对这些网络购物数据的分析还可以指导商家的营销和新商品上架等工作。其中,对网络购物数据中订单数据的分析是一种常见的分析。通过对消费者订单数据的分析,可以发现消费者购买商品中的隐含规则,据此设计促销方案。在本项目中,我们将通过寻找订单数据中的隐含规则,了解业务需求分析、建立数据管理与分析问题整体解决方案的基本过程;了解如何对既定的方案进行分析、评价,发现问题并优化方案。了解网络购物数据的管理与分析经历数据管理与分析的流程图 1-7 网络购物数据管理与分析1414项目学习指引1.分析业务需求网上购物发展至今,如何提升销售额一直是网上商店经营者的主要业务需求。一般情况下可以通过对消费者订单数据进行分析,找出消费者购买的商品之间的关系,了解消费者的购买行为,有针对性地制定销售方案。如根据消费者的购买行为向其推荐符合其购买偏好的商品,分析消费者购买的商品之间的关系来制定捆绑销售策略,以及针对消费者的消费心理和购买量开展相应的促销活动等,以此提升网上商店的销售额。本项目主要对消费者购买的商品之间的关系进行分析,从而帮助商家制定有效的捆绑销售和推荐策略,达到提升销售额的目的。核心概念业务需求是为 了实现商业目的而产生的需求,它通常描述组织为什么要去执行相应的任务。活 动2.1 假设你与小伙伴合作运营一家网上文具店,试分析影响文具店销售额的因素有哪些,并提出文具店的业务需求,尝试对业务需求进行分析,查阅互联网上的资料,撰写业务需求分析文档。2.管理网上商店订单数据(1)数据的采集与存储网上商店的商品数据、消费者数据等都保存在相应的数据库中。当消费者完成购买行为之后,网上商店自动生成该消费者的订单数据,以二维表的形式保存在数据库中。例如,某网上商店的订单数据存储在订单表、订单明细表等多张表中,订单表中含有订单编号、会员编号、会员名、付款金额、订购日期、是否付款、收货地址等数据,订单明细表中含有订单编号、商品编号、商品名称、订购数量等数据。参见 P19 知识链接“数据管理与分析问题整体解决方案”第一单元 初识数据管理与分析1515图 1-8 数据导出示意图为了对数据库中的订单数据进行分析,先要从数据库的大量数据中选择并导出所需数据(图 1-8)。例如,根据业务需求分析可知,本项目计划分析的是订单中商品之间的相关关系,因此需要的数据是每张订单购买了哪些商品,可以从数据库中转换导出订单表,如表 1-6 所示。订单编号会员编号商品名称20911000364424100A1连衣裙,外套,饼干23834390588606299A2手机,外套,T 恤20462982543279927A3连衣裙,手机,外套,T 恤20471829726608330A4手机,T 恤23443211525636382A5连衣裙,外套19875820480768012A6*,&表 1-6 转换导出的订单表(2)数据预处理仔细 检 查导出的 订单 表,可以发 现,订单 编 号为“19875820480768012”的订单中存在异常数据,其“商品名称”出现了异常。这种异常数据被称为噪声数据,可能会对后续的数据分析产生影响,导致分析结果不准确,因此需要小贴士数据预处理是在数据分析之前对数据进行的一些处理。数据预处理方法有很多种,主要包括数据清理、数据集成、数据变换、数据归约等。数据清理的目的是清除有错误或有问题的数据。导出的订单表中能否出现会员名、收货地址等数据?为什么??思考与讨论?数据管理与分析1616进行数据预处理。这里由于数据较少,可以通过肉眼观察找出噪声数据,而实际处理数据时,往往通过程序自动实现噪声数据的查找。程序查找不仅速度快,方便应对大量数据的预处理,而且可以根据设置的范围查找,不容易错漏。在无法根据现有的数据推测出异常值内容的情况下,可以将包含异常值的这条记录删除。对异常值的处理在可推测的情况下,也可以通过其周围的数据进行推算,如周围都是数值型数据,则可通过求平均值等方法推测替换。发现并清除噪声数据后,还可对订单表作如下预处理:首先,为了方便分析,将连衣裙、手机、外套、饼干、T 恤等五种商品分别用编号“1”“2”“3”“4”“5”表示,如表 1-7所示。然后,对表中的数据进行统计转换,转换结果如表1-8 所示(为简化本例,以下仅以导出的订单表的前四条记录为例)。商品名称编号连衣裙1手机2外套3饼干4T 恤5表 1-7 商品名称编号对应表会员编号已购商品编号A11,3,4A22,3,5A31,2,3,5A42,5表 1-8 会员编号已购商品编号对应表活 动2.2 打开配套资源中网上文具店的订单数据表,观察订单数据表中是否有噪声数据,并进行数据预处理。第一单元 初识数据管理与分析1717小贴士Apriori 算法是一种最有影响的探求数据之间关联规则的算法。项集即若干个项的集合。这里消费者购买的一件或多件商品即可作为一个项集。支持度计数是指候选项集在记录中出现的频数。3.分析订单数据分析订单数据,找出商品之间的关系,可以使用的数据分析方法有很多。以下将利用 Apriori 算法对订单数据进行分析,寻找商品之间的关联规则。为了寻找商品之间可能存在的购买关系,可以从会员编号已购商品编号关系对应表的数据里分析出所有可能存在的关系,并用项集表示,结果如表 1-9 所示。商品编号关系支持度计数1,211,321,411,512,322,533,413,521,2,311,3,411,3,512,3,521,2,3,51会员编号已购商品编号关系A11,3 1,4 3,4 1,3,4A22,3 2,5 3,5 2,3,5A31,2 1,3 1,5 2,3 2,5 3,51,2,3 1,3,5 2,3,5 1,2,3,5A42,5 利用 Apriori 算法,计算每种关系出现的次数,即支持度计数,结果如表 1-10 所示。小贴士本项目中分析的是非常少量的订单数据。一般情况下,由于订单中的数据量非常大,不可能通过人工利用以上的方式寻找商品之间的关联规则,而是利用 Python 等软件编写程序,自动处理订单数据。找出表 1-10 中支持度计数大于 1 的关系:1,32,32,53,52,3,5。表 1-9 会员编号已购商品编号关系对应表表 1-10 支持度计数表数据管理与分析1818小贴士本分析结果并不能代替整体订单数据的分析结果,实际分析时应使用完整数据。活 动2.3 打开配套资源中的 apriori.py 程序,调用已经预处理过的订单数据表,获取网上文具店全部订单中商品之间的关联规则。以关系 1,3 为例,通过计算置信度,可以分别抽象出两条规则,如表 1-11 所示。规则置信度解析1 3100%购买商品1的用户,有 100%的概率购买商品 33 167%购买商品 3 的用户,有 67%的概率购买商品 14.完成科学决策从以上分析结果可以发现,对于 1,3,消费者购买商品 1 之后再购买商品 3 的概率为 100%,因此在设计营销方案时,可以将商品 1 和商品 3 进行捆绑销售。消费者购买商品 3 之后再去购买商品 1 的概率为 67%,那么,在设计营销方案时可以考虑在消费者购买了商品 3 之后,再向其推荐商品 1。5.评价、优化整体方案在实际工作中,利用 Apriori 算法编写的程序分析数据时会遇到以下问题:当分析的数据量很大时,往往关系也会非常多,从而导致复杂度增加,计算机所消耗的资源与时间呈指数递增,计算的结果也会受影响。因此,当要分析的数据量较大时,可以根据实际需求对 Apriori 算法进行优化,提高分析效率。例如,在订单数较多时可采用 Apriori 的优化算法En-Apriori 算法。活 动2.4 根据活动 2.3 的数据分析结果,试着为网上文具店制定营销方案。数字化学习上 网 查 找 资 料,了 解Apriori 算法和 En-Apriori算法。小贴士置信度表示一个事物出现,另一个事物同时出现的概率。A 对 B 的置信度,表示在A 出现的前提下 B 出现的概率,利用公式可以表示为:A,B 同时出现的支持度计数A 出现的支持度计数置信度=表 1-11 抽象出的两条规则第一单元 初识数据管理与分析1919活 动2.5 尝试对网上文具店的营销方案进行分析、评价,并优化方案。数据管理与分析问题整体解决方案在各行各业中,大到跨国公司,小到微店、微商,其日常业务涉及诸多环节。随着业务的发展,会不断产生新的问题和需求。整体解决方案就是为了解决这些新问题或需求而设计的一个全面系统的综合性解决方案,它是在对数据进行深入分析之后,在充分满足业务需求的基础上形成的系统化的解决方案。整体解决方案是一种“量体裁衣”式的综合性方案,在不同的行业中它的形式不完全一样。尽管如此,整体解决方案的设计,一般都要经过如下几个步骤,如图 1-9 所示。要注意的是,在整个过程中的每一个步骤都离不开方案优化。知识链接业务需求分析数据管理数据分析科学决策图 1-9 设计整体解决方案的一般过程1.业务需求分析业务需求分析最重要的是确定方案目标。开展工作之前确定目标,有助于抓住工作重点,确保工作顺利完成。一个全面、系统的整体解决方案往往会涉及诸多领域、流程,也可能需要和多个部门、客户打交道。为了防止决策的偏差,一般需要通盘考虑各方面的因素。因此,在设计整体解决方案之前,需要全面了解现实情况,汇总来自各方面的“诊断”信息,找出当前问题的症状及原因,明确需要解决的具体问题。2.数据管理数据管理是一个对数据进行有效采集、存储、处理和应用的过程。确定了需求、明确了任务后,首先需要着手寻找“原料”数据。数据采集是根据需求采集数据,从而使数据分析有的放矢。数据采集的方法有很多,有问卷调查、资料查阅、传感器采集、智能设备采集、网络爬虫采集、从已有数据库中采集等。采集到的数据通常通过数据库进行存储、处理和应用。随着用户需求的提升,传统的关系数据库已无法支撑大规模、形态结构各异、支持决策分析的数据业务,因此出现了非关系数据库。随着数据采集、存储和分析技术的飞跃式发展,人们可以更进一步地利用海量、类型多样和来源各异的数据,而不再是少量的样本数据,数据管理进入了大数据时代。数据管理与分析2020海量的数据难免会包含噪声数据、空缺数据和不一致性数据,因此需要通过数据预处理技术提升数据质量。数据预处理的方法包括数据清理、数据集成、数据变换和数据归约。数据清理可以去掉数据中的噪声,纠正不一致的数据。数据集成可以将来自多个数据源的数据整合成一致的数据进行存储。数据变换则是将数据变换成适于数据分析挖掘的形式。数据归约用于简化数据集的表示,降低数据规模。3.数据分析对于数据规模较小的简单数据分析任务而言,可以通过 Excel、Acce