温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023
基于
Spark
Web
文本
挖掘
系统
研究
实现
beta2
副本
基于Spark的Web文本挖掘系统的研究与实现
摘 要
通信技术与电子技术的高速开展带动了互联网网页的爆发式增长。各类网站由雨后春笋大量出现,数百亿网页散布在整个互联网中。同时各类网页有着自身不同的结构,因此急需一种高效的处理手段来帮助人们快速地从庞大的互联网文本数据集中提取出有价值的信息,用以取代传统的人工数据处理。近年来,以Hadoop框架和并行处理框架Spark为代表的大数据技术开始兴起,为海量数据的存储和处理提供了新的思路和技术支持。尤其是新一代计算框架Spark,由于其底层采用了基于内存的计算,相比Hadoop具备更高的处理效率,同时还提供了对实时计算和交互式数据访问的支持。克服了Hadoop在这些应用中的缺乏。因此,本系统选择了并行计算框架Spark作为文本挖掘过程的实现工具,以此为根底构建了针对新浪微博舆情热点的Web文本挖掘系统。主要工作可以概括为以下几个局部:
1. 在系统开发的知识准备和技术了解局部,对Web文本挖掘的根本概念和通用流程进行了研究和介绍;随后按照整个系统的处理流程,对各个局部设计的技术进行了分别介绍,包括网络爬虫、挖掘工具以及数据可视化。其中选取HDFS与并行计算框架Spark框架做了着重介绍。
2. 在系统的算法研究局部,选取了经典特征提取算法TF-IDF算法进行了深入研究。从算法的原理,优势、缺乏和改进几个方面分别进行了阐述。着重介绍了算法的原理和内容,同时也提供了关于优化算法的思路。
3. 在系统的设计局部,将系统按照功能划分分成了三个主要模块:数据采集模块、文本挖掘模块以及数据可视化模块。分模块对每个模块的功能、架构设计进行了介绍,同时确定了各个模块实现的计算选型和执行流程。
4. 在系统的实现局部,首先介绍了HDFS与Spark框架环境的详细搭建部署过程。随后根据系统设计的编排顺序,对系统三大模块的具体实现做了详细的介绍,包括功能实现和交互实现两个局部。最后对系统进行了运行测试,抓取了约100万微博消息数据进行了初步测试,证实了系统具有良好的可用性。
关键词:Web文本挖掘,Spark,大数据,TF-IDF算法,网络舆情
Research and Implementation of Web Text Mining System
Based on Spark
Abstract
The rapid development of communication technology and electronic technology has led to the explosive growth of Internet pages. Various types of sites have emerged from the mushroom, tens of billions of pages scattered throughout the Internet. At the same time all kinds of pages have their own different structure, so an urgent need for an efficient means to help people quickly from the huge Internet text data set to extract valuable information to replace the traditional manual data processing. In recent years, Hadoop framework and parallel processing framework Spark as the representative of the large data technology began to rise, for the mass data storage and processing provides a new way of thinking and technical support. In particular, the new generation of computing framework Spark, because of its underlying use of memory-based computing, compared to Hadoop with higher processing efficiency, but also provides real-time computing and interactive data access support. Overcoming the shortcomings of Hadoop in these applications. Therefore, the system chooses the parallel computing framework Spark as the realization tool of the text mining process, and builds the Web text mining system for the hotspot of Sina microblogging. The main work can be summarized as follows:
1. In the knowledge preparation and technology understanding part of the system development, the basic concepts and general flow of Web text mining are studied and introduced. Then, according to the whole process flow, the technology of each part is introduced separately, including network Reptiles, digging tools and data visualization. Which selected HDFS and parallel computing framework Spark framework made a focus on the introduction.
2. In the part of the algorithm research, the TF-IDF algorithm of classical feature extraction algorithm is studied deeply. From the principle of the algorithm, advantages, shortcomings and improvements in several aspects were described. This paper introduces the principle and content of the algorithm, and also provides the idea of optimizing the algorithm.
3. In the design part of the system, the system is divided into three main modules according to the function: data acquisition module, text mining module and data visualization module. The function and architecture of each module are introduced, and the calculation and selection process of each module is determined.
4. In the implementation part of the system, first introduced the HDFS and Spark framework environment detailed deployment process. Then, according to the order of the system design, the detailed implementation of the three modules of the system is introduced in detail, including the function realization and the interactive realization of the two parts. Finally, the system was run test, grabbed about 100 million microblogging message data for the initial test, confirmed that the system has good usability.
Keywords: Web Text Mining, Spark , TF-IDF Algorithm,Internet Public Opinion
目 录
第1章 绪论 1
1.1 研究背景 1
1.2 研究现状 1
1.2.1 文本挖掘技术 1
大数据处理技术 2
文章的内容及意义 2
第2章 相关知识与技术介绍 4
2.1 网络爬虫 4
2.2 文本挖掘 5
2.3 分布式存储系统——HDFS 7
2.4 大数据处理框架Spark 8
2.4.1 Spark核心组件 8
弹性分布式数据集——RDD 9
2.4.3 Spark工作流程 9
2.4.4 Spark的优势 10
2.5 数据可视化 10
第3章 挖掘算法研究 12
3.1 TF-IDF算法 12
3.1.1 TF-IDF算法介绍 12
3.1.2 TF-IDF算法的理论依据及缺乏 12
3.1.3 算法的改进思路 13
第4章 系统总体设计 14
系统需求概要 14
4.1.1 文本采集 14
4.1.2 数据存储 14
4.1.3 文本分析 14
4.1.4 结果可视化 14
4.2 系统设计概要 14
4.2.1 系统架构设计 14
4.2.2 系统模块划分与技术选取 15
数据处理流程 17
用户界面设计 17
第5章 系统实现 18
系统运行环境 18
5.2 系统环境搭建 18
5.2.1 HDFS的搭建 18
5.2.2 Spark框架的安装 21
5.3 模块设计的具体实现 21
数据采集模块 22
文本挖掘模块 23
数据可视化模块 24
第6章 总结与展望 26
6.1 本文总结 26
6.2 展望 26
参考文献 28
致谢 29
第1章 绪论
1.1 研究背景
互联网自诞生以来就对各行业和人们的生活方式产生着深刻的影响,而今更甚,网民规模在移动互联网兴起后更是发生了爆炸式的增长。根据2023年1月中国互联网信息中心(CNNIC)发布的第39次中国互联网开展状况统计报告截至2023年12月,我国网民规模达亿,普及率到达53.2%,超过全球平均水平个百分点,超过亚洲平均水平个百分点[1]。全年共计新增网民4299万人,增长率为6.2%。中国网民规模已经相当于欧洲人口总量。随着2023年度微博用户开展报告显示,据2023年微博发布的第三季度财报中显示,截止2023年9月30日,微博月活泼人