天道酬勤Hadoop+JavaWeb大数据分析可视化系统焦向雨黄康辉卢峥【摘要】论文提出的大数据分析可视化系统主要处理实时性要求不高,但对决策很重要的离线数据,如同种岗位不同地区工资比照情况,各热门岗位数量统计,对顾客购置记录进行统计等。利用大数据平台进行海量数据的存储、分析,提高客户对事件的决策准确率,将分析得出的数据结果以可视化的形式在浏览器上呈现,以便用户直观看到数据的变化结果。【Abstract】Thebigdataanalysisvisualizationsystemproposedinthispapermainlydealswiththeoff-linedatawhichisnotrequiredtobereal-time,butisveryimportantfordecision-making,suchasthecontrastsituationofthesamepostindifferentregions,thestatisticsofthenumberofvariouspopularposts,thestatisticsofcustomerpurchaserecords,etc.Usingthebigdataplatformtostoreandanalyzethemassivedatacanimprovetheaccuracyofuser"sdecision-makingfortheevent,andpresentthedataresultsintheformofvisualizationinthebrowser,sothatuserscanseethechangeresultsofthedatadirectly.【关键词】大数据;分布式;Hadoop;可视化【Keywords】bigdata;distributed;Hadoop;visualization【中图分类号】TP393【文献标志码】A【文章编号】1673-1069〔2023〕02-0151-021概要设计1.1框架设计1.2设计思路此架构即Hadoop+JavaWeb〔MVC模式〕的结合用于模拟大量数据处理方式。通过利用Hadoop的特性进行分布式存储,目的在于突破IO存储瓶颈问题。工程的模拟数据主要为结构化数据,假设结构化数据超过单机容量的范围,那么便采用Hadoop生态圈进行架构设计[1]。使用Hadoop集群的HDFS进行分布式存储〔HDFS便于管理和维护以及具有较高容错性〕,采用Mapreduce〔离线计算〕进行数据的清洗与筛选。当需要使用这些数据进行决策,可用Hive进行数据的清洗、提炼和分析之后存于HDFS中。由于Hive提供SQL功能,并且Hive-SQL可转化为Mapreduce,因此,Hive可以对大量数据进行分析与处理[2]。天道酬勤Hive是基于Hadoop的一个数据仓库,还可以将结构化数据映射成一张表,在本工程中,Hive与MySQL映射成一张表,通过Sqoop使Hive与MySQL进行数据交换。本着OLTP的思想,可以使HDFS为主〔分布式存储文件〕,MySQL为辅,通过Hive传递的实时性要求不高,但对决策很重要的数据〔如同种岗位不同地区工资比照情况,各热门岗位数量统计,对客户购置记录进行统计等〕传递至MySQL。由于关系...