温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
熵权法
中国
国际关系
可视化
分析
中的
应用
陈思杭
2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.41771772023.022023.02收稿日期:2022-12-01基金项目:广东省哲学社会科学规划一般项目(GD22CTS02)熵权法在中国国际关系可视化分析中的应用陈思杭1,王文宏1,曾梦缘1,宋文明2,姜思羽1(1.广东外语外贸大学 信息科学与技术学院,广东 广州 510006;2.广州汽车集团股份有限公司,广东 广州 510623)摘 要:近年来全球局势紧张,大国关系愈发错综复杂,对当前国际形势进行研究分析已成为各国政府的重要使命。采用大数据与数据挖掘等技术,对中国与别国于各领域的往来数据进行采集,并通过 NLP、熵权法等方法对所得数据做分析处理,最后以数据可视化技术将其呈现,以直观展示中国国际关系的变化,令更多民众了解国家外交之动态与大国之风采。其数据结果呈现方式多样,为促进民众了解当前国际形势及中国国际关系提供了一定研究思路。关键词:国际关系;数据分析;数据可视化;爬虫技术;自然语言处理中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)04-0177-04Application of Entropy Weight Method in Visualization Analysis of Chinas International RelationsCHEN Sihang1,WANG Wenhong1,ZENG Mengyuan1,SONG Wenming2,JIANG Siyu1(1.School of Information Science and Technology,Guangdong University of Foreign Studies,Guangzhou 510006,China;2.Guangzhou Automobile Group Co.,Ltd.,Guangzhou 510623,China)Abstract:In recent years,the global situation has become increasingly tense,and the relations between major countries have become increasingly complex.It has become an important mission of national governments to study and analyze the current international situation.This paper uses big data,data mining and other technologies,collects the communication data between China and other countries in various fields,analyzes and processes the obtained data through NLP,entropy weight method and other methods.Finally,it visually shows the change of Chinas international relations with data visualization technology,which makes more people understand the dynamic of national diplomacy and great power of country.The data results are presented in various ways,which provides some research ideas for promoting the public to understand the current international situation and Chinas international relations.Keywords:international relations;data analysis;data visualization;crawler technology;natural language processing0 引 言迈入 21 世纪,当今世界正由“信息时代”逐步转向“数据时代”1,随着全球关系的日益紧密,国家贸易交易金额、投资额等海量数据不断累积,一系列数据清晰反映了国际关系的动态变化。而近年来伴随着新冠疫情复杂严峻的发展态势2、俄乌战争爆发等一系列国际事件的影响,国际形势不稳定性、不确定性大幅增加,大国关系更趋错综复杂,国与国之间的贸易、经济和文化等发展情况多元且不可测,其不稳定性与可塑性均有所上升。对国际交往中的海量数据进行合理分析,可清晰地掌握各国国际关系及当前国际形势,并帮助相关从业人员在处理有关事务时作出更为准确的判断。对此,本文基于自然语言处理与大数据技术,结合数据挖掘与数据可视化方法,对中国与其他各国在政治、经济、文化等六大领域的往来数据3进行采集与分析,并将相关结果以可视化形式动态呈现,使数据丰富立体化,旨在展示中国国际关系变化情况,同时更直观地观察各国与中国在经济、文DOI:10.19850/ki.2096-4706.2023.04.044化等方面的联系密切程度,令更多群众了解国家外交之动态与大国之风采,系统主体框架如图 1 所示,具体实现过程如下:首先利用 Python 所提供的 BeautifulSoup 等相关库,对国别区域与全球治理数据平台、外交部官网等相关网站的文本及数值数据进行采集,并对所获数据通过 Python 及 Excel等工具进行数据清洗与预处理;随后对于所得数据利用熵权法等算法进行国家合作度评分、话题热度指数等计算;最后采用词云图、气泡图等方式进行文本数据可视化,通过绘制饼图、折线图、仪表盘等方式对数值型数据进行可视化呈现。1 相关研究国际关系历来是相关领域学者重点研究的议题,对国际关系展开研究,有利于我国了解国际形势,把握自身国际地位,在国际交往中掌握主动权。然而其复杂性、不确定性以及庞大的数据量也为相关的研究分析带来巨大挑战。近年来,基于国际关系分析的研究多以文本或研究报告的形式展示,各学者研究角度亦有所不同。南京师范大学薛浩男等以网络新闻文本为数据源,结合信息计算与地理视角,力图将国际关系与地理学相融合,对国际关系进行分析4。吉林大学齐啸天则利用大数据分析技术,将大数据研究与国际政治预测1781782023.022023.02第 4 期现代信息科技相结合,通过文献梳理、实例分析及比较研究等方法对国际关系及国际形势作出研判预测5。北京邮电大学王骏提出了基于文本挖掘的国际关系网络研究,通过文本挖掘从大规模文本中构建国际关系网络,同时利用可视化技术对所构建的网络进行分析与展示6。综上所述,当前有关国际关系的研究已经取得一定成果,但目前从可视化角度出发对相关结果进行分析展示的研究仍相对较少,因此本文立足于国际关系分析与可视化技术,力图将分析所得数据与可视化展示相结合,打造良好呈现效果。数据采集数据清洗数据预处理数据分析热度指数计算熵权法数据可视化合作度评分计算扇形图气泡图词云图饼图箱线图折线图柱状图国际关系判别仪表盘大数据技术&Python-BeautifulSoupJieba 库TF-IDF图 1 系统主体框架图2 模型和算法本文采用熵权法进行国别合作度评分计算。熵权法是一种客观赋权方法7,在具体使用过程中,该算法根据各指标数据的分散程度,利用信息熵计算出各指标的熵权,再根据各指标对熵权进行一定的修正,从而得到较为客观的指标权重;因此,结合熵权法与国家信息中心所供评分标准8,可对中国与其他各国的合作度作出评价。国别合作度评分是考量中国和其他国家关系的重要指标,能够直观地体现两国之间的关系,合作度评分越高,则两国关系越紧密,如评分 20 以下为其他关系,评分 90 以上则为战略协作伙伴关系等。对于国别合作度的评分计算,结合国家信息中心大数据发展部9提供的国别合作度测评指标,本文决定采用“投资合作”“会议报道”“文件项目”“贸易合作”等10项指标评价中国与其他国家合作度综合评分。首先,将归一化后的指标数据按式(1)计算概率:(1)其中,pij表示第 i 个数据的第 j 项指标所对应的概率,rij表示第 i 个数据的第 j 项指标所对应的归一化结果,n 表示数据的数量。而为了更好地确定各指标的权重,本文采用信息熵来描述各指标含量的不确定性,按式(2)计算信息熵:(2)其中,Ej表示第 j 项指标的信息熵,pij表示第 i 个数据的第 j 项指标所对应的概率,n 表示数据的数量。为提高数据的抗干扰能力,本文对所得信息熵按式(3)计算冗余度:Dj=1-Ej (3)其中,Dj表示第 j 项指标的冗余度,Ej表示第 j 项指标的信息熵。得到冗余度后,按式(4)计算权重:(4)其中,Wj表示第 j 项指标的权重,Dj表示第 j 项指标的冗余度,m 表示指标的数量。以中国与新加坡国别合作度为例,本文对相关指标进行权重计算,并对权重排名前 5 的指标进行展示,如表 1 所示。表 1 中新合作度部分指标及权重排名权重指标10.091 04投资合作20.090 02会议报道30.087 32文件项目40.081 23贸易合作50.076 92旅游与文化最后,依据式(5)求出合作度综合得分:(5)其中,aij表示第 i 个数据的第 j 项指标所对应的数值,Wj表示第 j 项指标所对应的权重,m 表示指标的数量。综合得分越高,说明该国家与中国的国际关系越密切。3 数据可视化本文参考国别区域与全球治理数据平台所构建的数据分类模式,分别从政治、经济、文化等六大领域对中国国际关系展开分析,并对所得文本及数值型数据以词云图、折线图、气泡图等形式进行可视化呈现。此处以新加坡与中国国际关系有关数据为例进行部分指标可视化展示,其中,“投资合作”指标和“旅游与文化”指标采用折线图的可视化方式,“会议报道”和“文件项目”指标采用词云图的可视化方式,“贸易合作”指标采用气泡图和折线图相结合的可视化方式。本文选用 10 个指标进行熵权法计算,最终采用仪表盘的形式将国别合作度评分结果进行可视化。3.1 “投资合作”和“旅游与文化”指标“投资合作”指标是中新国别合作度综合评分计算的重要指标之一,如图 2 所示,本文通过热度指数计算得到一定时间区间内中新两国之间与“通信”相关的投资合作热度指数的变化,并采用折线图的方式进行呈现。与此同时,本文将热度指数进行归一化,以更好地将其作为评价指标之一带入熵权法的合作度评分计算中。1791792023.022023.02第 4 期图 2 中新社会时事热度指数变化如图 3 所示,本文将中新两国自 1994 年至 2016 年以来的旅客入境情况绘制成折线图,一方面实现数据可视化展示,另一方面该数据也属于国别合作度评分中“旅游与文化”这一指标的一部分,从图中可看出从 1994 年至 2016 年中新经济“旅客入境”数量总体呈上升趋势,进而得出中新旅游业发展关系密切的结论。图 3 中新经济“旅客入境”数量变化折线图3.2 “会议报道”和“文件项目”指标TF-IDF 算法是一种用于信息检索与数据挖掘的统计方法,其中 TF 表示词频,IDF 表示逆文本频率指数,该算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度10,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF 算法对使用熵权法计算合作度评分中确定“会议报道”和“文件项目”这两个指标的权重有着重要作用。本文将前期所采集到的中国与其他国家在经济、文化、政治等方面的有关文章使用 Py