温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
DIND
数据
实验
平台
探索
应用
研究
胡玉雪
ISSN 1006 7167CN 31 1707/TESEACH AND EXPLOATION IN LABOATOY第 41 卷 第 12 期Vol41 No122022 年 12 月Dec 2022仪器设备供应与管理DOI:10 19927/j cnki syyt 2022 12 057基于 DIND 的大数据实验平台探索与应用研究胡玉雪a,徐勋光a,王海燕a,沙灜a,b(华中农业大学 a 信息学院;b 湖北省农业大数据工程技术研究中心,武汉 430070)摘要:大数据实验教学平台是大数据专业人才培养的基础设施和关键保障。针对目前大数据集群部署复杂、资源利用率较低等问题,综合考虑大数据专业人才培养方案、行业技能要求、资源利用率等因素,提出了基于容器嵌套技术(docker indocker,DIND)的大数据实验平台建设方案。平台主要由内外两层 Docker 容器组成:外层 Docker 容器提供大数据实验基础环境和交互式界面,内层 Docker 容器提供大数据计算集群环境。平台具有贴合培养方案、集群部署快、资源利用率高、投入成本低、使用便捷等优点。4 个学期的教学实践表明,学生实验完成度高、实验投入时间长、能很好掌握大数据专业知识,实现了提高教学质量、培养学生工程实践能力的目的。关键词:大数据;实验教学平台;大数据集群;DIND 容器嵌套;Docker 容器中图分类号:TP 302;G 642.423文献标志码:A文章编号:1006 7167(2022)12 0295 05Exploration and Application esearch of Big DataExperimental Platform Based on DINDHU Yuxuea,XU Xunguanga,WANG Haiyana,SHA Yinga,b(a College of Informatics;b Hubei Engineering Technology esearch Center of Agricultural Big Data,Huazhong Agricultural University,Wuhan 430070,China)Abstract:Big data experimental platform is the infrastructure and key guarantee for the training of big dataprofessionals In view of the current problems of complex deployment of big data clusters and low resource utilization,and considering factors such as big data professional talent training programs,industry skill requirements,and resourceutilization,a big data experiment platform construction based on Docker in Docker(DIND)technology is proposed Theplatform is mainly composed of two layers of Docker containers:the outer Docker container provides the basicenvironment and interactive interface for big data experiments,and the inner Docker container provides the big datacomputing cluster environment The platform has the advantages of fitting the training plan,fast cluster deployment,high resource utilization,low input cost,and convenient use The experimental teaching of four semesters shows that thestudents have a high degree of experimental completion and can master the professional knowledge of big data well,which achieves the purpose of improving the quality of teaching and cultivating studentsengineering practice abilityKey words:big data;experimental teaching platform;big data cluster;docker in docker(DIND);docker container收稿日期:2022-04-22基金项目:国家社会科学基金一般项目(19BSH022);教育部 2020年第二批国家级新工科研究与实践项目(E-JSJJ20201327);华中农业大学 2021 年研究生培养条件建设项目(2021JC07)作者简介:胡玉雪(1990 ),女,湖北武汉人,硕士,工程师,主要研究方向为大数据和人工智能平台构建、自然语言处理。Tel:15171417071;E-mail:hyx mail hzau edu cn通信作者:沙灜(1973 ),男,北京人,博士,教授,主要研究方向为社会计算、自然语言处理。Tel:13681189556;E-mail:shaying mail hzau edu cn第 41 卷0引言为适应大数据技术的发展和应用、满足大数据产业对人才的需求,加快人才培养、鼓励高效优化大数据学科专业设置、加大相关专业建设力度是必要保障措施1。教 育 部 于 2015 2020 年 分 6 批(教 高 函 2016 2 号、教高函 2017 2 号、教高函 2018 4 号、教高函 2019 7 号、教高函 2020 2 号、教高函 20211 号)共审批同意 730 所高校开设数据科学与大数据技术本科专业(以下简称大数据专业)。在大数据专业教学中,实验教学是系统培养学生专业技术能力的重要手段,实验教学质量的高低很大程度上取决于实验平台的建设水平。实践教学中,大数据的实验环境一般要求运行在 Linux 上,主流的大数据工具 Hadoop 生态集群采用分布式架构,配置复杂、操作门槛高2,学生很难自主搭建 Hadoop 集群,也难以接触真正的分布式集群。针对上述问题,充分利用实验室已有设备和平台资源,综合考虑大数据实验教学目标、行业技能要求、建设成本等因素,提出使用 DIND(Docker in Docker,容器嵌套技术)为大数据实验教学提供了全流程的实验平台,同时提供交互式的可视化操作界面,教师可根据教学需要设计实验文档,满足实验教学需求,进一步提高学生的课程学习效果。1相关工作国内高校在大数据专业建设、实验教学体系、实验教学方案、特别是实验教学平台建设上做了很多研究和探索3-11,这些实验平台的建设方式主要分为 3 种:(1)使用 Linux 虚拟机搭建 Hadoop 集群3-4。文献 3 中提出在 Linux 虚拟机下安装 Hadoop+Spark集群来构建大数据实验教学环境,并详细描述了Hadoop 和 Spark 的安装和配置。文献 4中利用Linux 虚拟机构建 Hadoop 单机大数据实验平台,使用平台进行词频统计实验。(2)使用高性能硬件设备自建大数据实验平台5-7。文献 5 中设计实现了在线大数据实验平台,平台分为“Web 交互式开发环境”和“大数据存储计算集群”两个部分,学生通过 Web 页面可随时调用 API进大数据集群实验。文献 6 中采用 B/S 架构建设基于 Hadoop 和 Spark 的计算框架的在线大数据实验平台,用户通过浏览器进行访问提交任务。文献 7中以校企合作方式设计大数据课程实验平台、项目案例,学生可以通过远程方式连接实验平台操作实验。(3)使用 Docker 容器技术构建大数据实验平台8-11。文献 8中采用 OpenStack 和 Docker 混合架构建立大数据云实验室,师生在进行大数据实验时,直接使用打包好的镜像文件即可。文献 9中利用Docker 容器技术在单机上构建 Hadoop 集群,运行封装有 Hadoop 的 Docker 容器即可快速部署 Hadoop 集群,进行实验操作。文献 10中采用 B/S 架构,在Linux 系统上安装 Docker,用户通过 Web 访问、加载镜像、启动容器、启动大数据实验的应用即可进行大数据实验。文献 11中采用 Docker、Kubernetes、ancher、JumpServer 等开源组件快速部署构建大数据实验平台,用户利用浏览器登录堡垒机访问大数据集群进行实验。可以看出,各高校结合实验室建设情况、综合考虑各方面因素,在大数据实验平台的搭建形式、方法上不尽相同,都能较好地满足各自实验教学的需求,下面对3 种实验平台搭建方式的特点进行分析12。(1)使用 Linux 虚拟机搭建 Hadoop 集群。优势是充分利用已有实验室资源、建设成本低;缺点是分配到每个学生的 Linux 资源有限,配置复杂,机房复用性差,学生不能随时随地进行实验。(2)使用高性能硬件设备自建大数据实验平台。基于云环境搭建 Hadoop 集群,或通过校企合作共建大数据实验平台,优势实验平台和实际生产环境高度一致,集成化 Web 页面可更好适应环境需求,能随时随地在云端调用 API 进行大数据实验;缺点成本高,学生使用不灵活,无法自主搭建集群、修改集群配置。(3)使用 Docker 容器技术构建大数据实验平台。优势是集群部署快、资源利用率高、投入低,基于云平台,方便动态扩容,可以灵活定制不同实验环境;缺点是学生使用不够灵活,无法自主搭建集群、修改集群配置。针对上述情况,综合考虑课程学习目标、行业技能要求、建设成本等因素,本文基于 Web 架构、借助Docker 容器技术、noVNC 技术、Linux 脚本技术,利用Docker 容器嵌套技术来构建大数据实验平台。从平台建设成本、平台功能、用户操作易用性等多维度对已有平台做归纳总结,如表 1 所示。本文设计的大数据实验平台,采用 B/S 架构,通过浏览器实现大数据的交互学习;使用 Docker 容器技术和 DIND(Docker in Docker,容器嵌套技术),提供资源隔离的运行环境,秒级启动速度,资源占用少,同时保障了实验过程的可回滚、提供了自主搭建环境、一键集成环境,可灵活配置大数据集群。2大数据实验平台建设国内高校在大数据实验平台建设还处于探索阶段,兼顾好人才培养目标、实验教学资源、资金投入等要求,仍然是平台建设的重点。下面主要从建设思路、平台架构、平台实现、性能分析 4 个部分进行介绍。692第 12 期胡玉雪,等:基于 DIND 的大数据实验平台探索与应用研究表 1现有大数据实验平台与本实验平台综合比较实验平台底层运行境低成本Web 页面高资源利用率可灵活配置可自主搭建集群环境平台3-4 虚拟化集群(Linux 虚拟机)平台5-7 物理集群平台9 虚拟化集群(Docker)平台8,10 虚拟化集群(OpenStack+Docker)本实验平台虚拟化集群(DIND,Docker in Docker)2.1大数据实验平台建设思路大数据实验平台是培养学生工程实践创新能力、实现“产”“教”融合的重要保障。平台建设必须和教学目标一致,满足人才培养方案;充分利用资源,借鉴现有实验室的既有成果;注重教学