分享
一种面向网站内容安全的分布式监控系统的设计与实现_田柳.pdf
下载文档

ID:2728980

大小:1.53MB

页数:3页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种 面向 网站 内容 安全 分布式 监控 系统 设计 实现 田柳
本栏目责任编辑:代影网络通信与安全Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)一种面向网站内容安全的分布式监控系统的设计与实现田柳1,龚光军1,林黄智2(1.安徽职业技术学院 汽车工程系,安徽 合肥 230011;2.安徽职业技术学院 机电工程系,安徽 合肥 230011)摘要:为实现网站内容安全的高效准确监控,针对现有监控技术存在的问题,本文基于图像识别的原理,设计并实现了一种分布式自动化监控系统,及时发现网站打开失败或错误、网站域名被劫持、网站内容被篡改等问题,并通过分布式的架构设计,有效避免了单点监控时存在的系统稳定性差、告警误报率高等问题。关键词:内容安全;图像识别;分布式;自动化监控中图分类号:TP399文献标识码:A文章编号:1009-3044(2023)04-0086-03开放科学(资源服务)标识码(OSID):1 引言计算机网络技术的发展为人类信息与科技的传播提供了前所未有的方便与速度,然而飞速发展的技术是一把双刃剑,也为网上各类不良信息的传播、滋生内容安全隐患的温床创造了条件。内容安全包括两个方面1-3,第一个方面是对网页内容的保护,例如防范对网站内容的篡改,第二个方面是指网页内容需要符合各类政治、法律、道德等方面的要求。特别是防止网站中出现色情、赌博、恐暴、反动及垃圾广告等影响国家安全、社会民生、个人生活的风险内容。仅2020年上半年,国家计算机网络应急技术处理协调中心通过监测发现我国境内出现篡改现象的网站数量已达147682个,监控网站内容、肃清互联网环境、保障内容安全是我们刻不容缓的艰巨任务。大量中小网站因为架构单薄、不具备有效的安全防护措施或维护人员技术水平有限等,频繁出现网站内容失效或被改动等质量问题,存在容易被篡改及遭受黑客攻击等安全隐患。对于这一类中小网站,传统的人工监控手段无法及时发现这些质量问题及安全隐患,使其更容易成为黑客攻击的重要目标。因此高效准确的网站自动化监控系统,是确保中小网站内容安全的“必备良药”。2 常用自动化网站监控手段介绍自动化网站监控常用爬虫技术或接口技术来实现4-5,爬虫技术是对需要监控的网站,针对性地根据网站特点编写 Python 爬虫程序或使用现有爬虫工具,获取网站数据并进行网站对比,进行网站内容监控,监控网站是否存在无法打开或发生篡改的现象。这种方法节省时间、维护成本低、抓取的数据量远超手动收集的数据量。但是这种方法也存在一些问题,比如抓取工具较为依赖于外部网站,无法控制该网站何时更改其结构或内容,因此需要在抓取工具过时,重新进行抓取,更新维护工作量较大;此外大量网站使用多种不同的方法(例如IP阻止)来阻止爬虫工具抓取其内容,所以有可能被阻止访问,从而造成无效监控或误报问题。另一种最常见的监控技术是接口监控,这种监控的效率最高,而且最容易发现问题,但是接口的监控并不能准确地反应用户看到的前端页面状态,比如数据异常、空白页面、部分内容加载异常等,这些情况不能通过自动化获取接口数据来实现全方位监控,所以需要使用页面级别的图像化监控。3 分布式监控系统设计与实现本文旨在针对现有网站自动化监控技术存在的问题,基于图像识别的原理,设计一种面向网站内容安全的自动化监控系统,为了避免单点监控时存在的系统稳定性差、告警误报率高等问题,构建分布式架构的监控系统。3.1 系统整体设计系统设计的基本思路是,构建分布式系统,在多个分布式监控终端上部署监控任务,利用计算机视觉处理技术,运用图像识别的原理6,模拟人工访问分发网站,获取网站内容并自动进行识别、对比和分析,实收稿日期:2022-03-31基金项目:2021年度安徽高校自然科学研究项目重点项目(KJ2021A1451);2021年度安徽省质量工程项目;2022年度安徽省高校科研编制计划项目重点项目(2022AH052077)作者简介:田柳(1987),女,安徽合肥人,安徽职业技术学院工程师,助教,硕士研究生,主要研究方向为智能网联技术。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.4,February202386DOI:10.14004/ki.ckt.2023.0186网络通信与安全本栏目责任编辑:代影Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)时监测网站能否打开,内容有无异常,并将结果汇总到分布式系统的主监控终端上,进行综合判断,可以在问题发生的第一时间内,及时发现网站无法登录、网站被恶意篡改现象,及时推送告警,基于多个监控终端结果,从而排除偶发性网站打开失败或错误、监控终端或监控程序本身的问题,使得结果更准确。3.2 系统功能实现3.2.1 构建分布式监控系统构建分布式监控系统,采用一个主监控终端及多个分布式监控终端的模式。其中,主监控终端负责对网站资源访问及监控任务进行调度并触发任务执行,向分布式监控终端部署采集任务,并分配给多个监控线程;启动监控线程后,分布式监控终端从队列资源获取URL,根据监控任务指定的目标网站打开对应的页面,下载并获取页面数据,各分布式监控终端通过对获取的页面内容自动进行识别分析,实时监测网站是否能打开,内容有无异常。各分布式监控终端实时将监测结果发送至主监控终端,并定期进行监控任务同步,监控任务由主监控终端下发至各监控终端。当不同监控终端对某网站的监控结果不同时,需通过对多次测试结果的分析来排除偶发性网站无法打开或错误、监控终端或监控程序本身的问题,以保证监控结果的准确性,避免误报告警。此外,在排除偶发性网站打开失败或错误、监控终端或监控程序本身的问题后,应考虑是否为部分区域发生恶意DNS劫持或用户请求非法重定向等问题。3.2.2 基于图像识别的原理进行网站内容监控本文所述的网站内容监控的基本功能是通过图形化编程工具Sikuli实现,它由MIT开发,以python为基础,通过搭建Java环境来运行,不需要写一行行代码,这使得程序员编写代码工作大大简化,可以直接使用截图替代代码。它使用该工具来实现最基本的监控功能,并以网站中的典型图标、图片及文字等为参照物,实时监测网站是否能打开,内容有无异常。在基本的网站打开和典型图标对比的基础上,为进一步提升监控准确率,对于监控的对象网站进行图像特征,包括网站所包含的典型图标、图片及文字等,对图像的特征进行提取及学习,建立特征标识,在监控的过程中,将获取的网站内容与特征标识进行比对,并通过差异的大小来判断网站内容是否存在异常;针对部分网站内容经常有变动的情况,将网站内容进行动静内容划分,对于变化较大的动态部分,多次采集网站的页面图像,计算动态部分的变化范围,当监控对象网站的动态部分变化超过这一范围时,判断网站内容存在异常。4 测试验证为了验证本文提出的系统在实际网站监控中的应用情况,进行了实验系统的搭建,并完成了若干测试验证。实验系统使用了5台电脑,组成文中所述分布式监控系统,其中1台电脑为主监控终端,其余作为各分布式监控终端,将监控的目标设置为TOP100网站。系统功能测试目标、过程及最终结果如表l所示。经过对系统测试证明,系统的运行情况和结果符合设计要求,单个网站的测试及判断时间不超过47秒,可以在39分钟内完成TOP100网站的一轮监控任务,能及时告警,告警准确率达到100。表l系统测试表测试目标是 否 所 有监 控 终 端都 可 以 按顺 序 同 步准 确 打 开TOP100 网站是 否 可 以发 现 网 站打 开 显 示4XX/5XX(即无法打开)测试数据每 台 监 控 终 端TOP100 网 站 的打开时间和打开结果随机选取政府或单位门户、新闻、购物等不同类别网站30个,其中预设5个网站打开错误码为 404的页面,5 个网站打开错误码为502的页面测试步骤(1)下发监控任务;(2)在每台监控终端上 记 录 并 输 出TOP100 网站的打开时间和打开结果;(3)对比打开时间和打开结果(1)下发并启动监控任务;(2)查看告警及监控结果测试结果所有监控终端都可以按顺序同步准确打开TOP100网站及时发现网站打 开 显 示4XX/5XX错误码,告 警 率100%监控终端1监控终端2监控终端N主监控终端任务获取任务调度及触发执行收集各监控终端结果综合判断监测结果任务分配、下发及同步任务获取任务执行结果上报图1分布式结构设计图像采集/存储图像预处理图像特征提取图像特征学习,建立特征标识基于特征标识的图像比对图像分割提取动态部分计算动态部分变化范围历史图像匹配动态部分超出范围差异较大结果异常图2基于图像识别的网站内容异常判断流程87本栏目责任编辑:代影网络通信与安全Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)是 否 可 以发 现 网 站变 为 博 彩页面现象是 否 可 以发 现 网 站内 容 加 载不全现象完 成 单 个网 站 监 控任 务 执 行的 时 间 不超 过 1 分钟完 成 一 轮TOP100 网站 监 控 任务 执 行 的时 间 不 超过1小时随机选取政府或单位门户、新闻、购物等不同类别网站30个,其中预设 10 个博彩页面随机选取政府或单位门户、新闻、购物等不同类别网站30个,其中预设 10 个网站内容加载不全页面随机选取政府或单位门户、新闻、购物等不同类别网站30个,完成一轮目标网站监控任务,每个网站监控任务的起止时间完成一轮TOP100 网 站 监控任务的起止时间(1)下发并启动监控任务;(2)查看告警及监控结果(1)下发并启动监控任务;(2)查看告警及监控结果(1)下发并启动监控任务;(2)查看监控任务的起止时间(1)下发并启动监控任务;(2)查看监控任务的起止时间及时发现网站变为博彩页面现象,告警率100%及时发现网站内容加载不全现象,告警率100%完成单个网站监控任务执行的时间最大值为47秒完 成 一 轮TOP100 网 站监控任务的时间最大值为39分钟5 总结本文设计并实现了一种面向网站内容安全的分布式自动化监控系统,系统基于图像识别的原理,及时发现网站打开失败或错误、网站域名被劫持、网站内容被篡改等现象,并通过实验进行了验证。此外,系统的分布式架构还有效避免了单点监控时存在的系统稳定性差、告警误报率高等问题。参考文献:1 朱世强,王永恒.基于人工智能的内容安全发展战略研究J.中国工程科学,2021,23(3):67-74.2 崔玲,倪红伟,高玉慧,等.WEB信息内容安全发展综述J.国土与自然资源研究,2014(1):36-38.3 朱昕.内容安全综述J.科技信息,2010(8):27-28.4 董博,李翀,刘学敏,等.基于爬虫的数据监控系统J.计算机系统应用,2017,26(10):53-60.5 王宁邦,徐博.基于爬虫和网页防篡改的高校门户网站群预警监控系统构建J.云南民族大学学报(自然科学版),2019,28(5):502-509.6 崔鹏飞,裘玥,孙瑞.面向网络内容安全的图像识别技术研究J.信息网络安全,2015(9):154-157.【通联编辑:代影】(上接第79页)显而易见,改进方案给出的mi的区间范围更加准确:区间内所有值都不会产生溢出错误,而超出部分均会产生溢出错误。原始的密钥库容量涵盖了密钥角标()m1,m2,mt在0,L-l和(L-l,L-1中所有的组合数量,因此产生了大量不实容量。去除溢出区间所产生的不实密钥库容量,实际的容量发生了指数级的缩小。在L和t一定的情况下,密钥长度l越长,密钥库缩小的程度越高。4 结论与展望本文研究了现代信息技术快速发展的大背景下数据加密的重要性,分析了近几年国内外密码领域内取得的重要研究进展,深入探讨了一文一密加

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开