温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
科学
房祥忠
专 栏SPECIAL COLUMN17初遇数据科学体分布的估计、总体期望值和方差的估计。选修 II中包括离散型随机变量的分布列、离散型随机变量的期望值和方差、抽样方法、总体分布的估计、正态分布和线性回归。可以看出,尽管没有概率论的公理化框架,基本的概率统计概念已经具备了,我们可以在此基础上进行课程设计。课程内容数据科学的内涵虽然目前没有共识,但各领域科学家们研究的范畴已经逐渐明晰。在之前的文章中我们把数据科学定义为“关于收集数据、处理数据、分析数据的科学与艺术,其中处理包括整理、存储、提取和运算。”虽然这与美国自然科学基金委在 2014 年的定义“对数据进行规划、获取、管理、分析和推断的科学”没有本质差别,但我们的定义与人们熟悉的统计学经典定义形式更相像。美国计算机协会数据科学教育工作组在 2019 年给出了数据科学专业的九项核心能力:编程计算能力;数据搜集和清洗;数据管理、存储和检索;数据隐私、安全和完整性;机器和统计学习;数据挖掘;大数据;分析和展示;专业领域知识。很有意思的是,该工作组还建议了完整的数据科学课程应该整合微积分、离散数学、概率论、基本统计学、高级统计学和线性代数等课程,众所周知,这些课程本质上就是统计学专业的传统核心课程。这些认识虽然没有被完全接受,但其中的大部分内容是没有争议的。数据在我们当代人的生活中发挥着越来越重要的作用,无论走到哪里,只要一个手机号码或者身份证号码就可以辨识一个人,人的体貌和身份特征、社会关系、衣食住行等内容也可以通过数据表示出来。把数据作为主要研究对象的统计学和数据科学成为了受人瞩目的学科。大学生们无论专业如何,都想了解和掌握一些这方面的知识。为满足这些需求,国内外很多大学都开设了数据科学导论课程。一般情况下,这门课程会有多个不同专业的新生选修,他们仅具有中学数学基础。其中部分学生想通过这个课程对统计学和数据科学进行初步了解,以后还会学习一些更深入的课程。另一部分学生想通过这门课程直接掌握一些实用的技术和技能,可以用来分析他们各自专业领域的一些实际问题。本文试图探讨这门课程的知识基础、内容选择和授课安排等方面,以期避免重复教学、增加学习兴趣并提高学习效率。课程起点导论性的课程往往没有太多深奥的理论证明,大多以技术和应用为主。但概率统计初步知识在高中阶段已经教给学生们了。所以数据科学导论课程要根据这种情况进行安排。在高中阶段的必修内容包括随机事件的概率、等可能性事件的概率、互斥事件有一个发生的概率、相互独立事件同时发生的概率和独立重复试验。选修 I 中包括抽样方法、总 房祥忠中国统计CHINA STATISTICS18学。所谓现场就是让学生们带着问题学,有参与感,他们在学习的过程中能够感觉到一直在参与解决真实问题,最方便的一个方式是选择正在进行的竞赛问题做为案例教学。另外一个实现现场的方式是在教学过程中实际进行编程计算演示,同时学生也通过各自的电脑对数据进行运算。所谓有趣就是数据案例尽量选择生动有趣的例子,最好容易理解而又有一定的挑战性。像鸟类种类识别和赏花期预报应该就是这种具有挑战性的例子。所谓有用,就是所学技术能够让学生解决至少一个身边的新问题,让学生看到这门课程实实在在的价值。无论在任何知识点,都以问题和数据为中心进行教学,这是调动学生积极性的一个很好的手段。现在很多学校每学期的有效上课时长是15 周,每周 3 学时,这样总共只有 45 学时的课堂授课时间。教师可以自行安排每个内容的课时。根据上一节建议的内容,建议的课时大致安排是:云平台操作技术(3 学时),大数据搜集和处理技术(4 学时),数据可视化(6 学时),大数据关联规则(4 学时),文本数据和图像数据处理(6学时),相关性分析(4 学时),分类和回归(6学时),迁移学习(4 学时),对抗学习(4 学时),案例实践(4 学时)。课后除了作业外,还鼓励学生们进行课外预习和拓展学习。表 1 给出了四本数据科学导论教材按照前面所说的核心能力进行知识分解的占比百分数,其中前两本是中文书,后两这门数据科学导论课程的内容可在这些基本知识和基本能力中加以精挑细拣。当然,授课教师可以根据自己的专长和学时考虑选择授课内容。令人欣喜的是,能够用于数据科学导论课程的国内外的优秀教材已经有很多本,为避免挂一漏万,不在这里赘述,读者们可以自行查询。关于内容的个人偏好是:云平台操作技术、大数据搜集和处理技术、数据可视化(包括时空数据的静态和动态可视化)、大数据关联规则、文本数据和图像数据处理、相关性分析、分类和回归、迁移学习、对抗学习、案例实践(电商数据挖掘,手写体识别,人脸表情识别,赏花期预报,股价预测等等)。其中相关分析、迁移学习和对抗学习等三项内容其它导论教材中并不包含。但我们觉得关于变量的相关分析是实际问题中的重要问题,并且如果在进行分类和回归分析之前,先进行相关分析找出相关变量可以节省较大的计算工作量。而迁移学习和对抗学习是机器学习中十分有创意的思想方法,这可以激发学生们的学习动力,可能创造出新的思想火花。课程规划我们希望这门课程能够展现出现代、现场、有趣、有用的特征。大家知道,数据科学是一门快速发展的科学,新技术和新应用层出不穷。所谓现代就是内容尽量选择最新的技术,案例尽量选择最新的焦点,上课方式尽量采用联网互动教专 栏SPECIAL COLUMN19 房祥忠析,编程计算能力是这门课程种的重要考核指标。将考核分为平时作业、期中考试和期末考试三种方式。平时作业可以分为小组作业和个人作业。小组作业是锻炼学生分工协作能力。分组时要考虑专业背景和专长,尽量使得开始分组时小组之间没有太大差别。同时为了锻炼每个同学的编程计算能力,也会给每个人布置个人编程计算作业。期中考试可以是一个比较大的实际数据分析问题,要求课后独立完成。期末考试主要考察综合能力,每个人自由选取问题和数据,但要求每个人的问题和数据不同,也是要求在课下完成,鼓励同学协作,鼓励解决新问题。教师要准备一定数量的问题和数据,应对无法找到数据的学生使用。总结数据科学导论是国内外高校普遍开设的课程。在有限的课时中要全面学习整个数据科学内容很不现实,因此需要精心选择最重要的内容。而又由于学生们无论在基础知识、入校年级还是专业背景都可能有较大差别,让大多数学生感兴趣是一个较大的挑战。我们建议使用实际问题和实际数据为核心贯穿到每个教学环节来解决这个挑战问题。但问题和数据每次可以根据学生情况和学科发展进行调整,能够常变常新。作者单位:北京大学本是英文书。最后一列给出了我们建议的知识占比情况。另外,我们将核心能力中的数据挖掘和大数据进行了合并,使得核心能力变成了 8 项。从表 1 最后一列可以看到,我们没有为编程计算能力分配单独的课时,实际上在授课时将其贯穿到每一项内容中。关于编程语言的选择,很多书都建议使用 R 或者 Python,依赖教师的习惯。但 R 语言可以使用的数据分析模块较多,另外关于时空数据展示模块也比较成熟,所占用的资源比较少,也有很多免费的云计算平台。当问题很大且可以处理成并行计算问题时,Python 语言是更好的选择。也可以两种语言交叉使用,这对青年学生来说难度不大,大多数情况下他们会觉得更加有挑战性。课程考核由于课程内容多采用编程计算进行实际数据分表 1 按照核心能力的知识点分解占比百分数核心能力A(%)B(%)C(%)D(%)E(%)编程计算能力6.719.09.925.40数据搜集和清洗10.00013.68.9数据管理、存储和检索5.810.4006.7数据隐私、安全和完整性00000机器和统计学习66.837.942.026.640.0数据挖掘和大数据4.97.938.125.422.2分析和展示5.89.89.9013.3专业领域知识015.009.08.9