本栏目责任编辑:代影网络通信与安全ComputerKnowledgeandTechnology电脑知识与技术第19卷第4期(2023年2月)一种面向网站内容安全的分布式监控系统的设计与实现田柳1,龚光军1,林黄智2(1.安徽职业技术学院汽车工程系,安徽合肥230011;2.安徽职业技术学院机电工程系,安徽合肥230011)摘要:为实现网站内容安全的高效准确监控,针对现有监控技术存在的问题,本文基于图像识别的原理,设计并实现了一种分布式自动化监控系统,及时发现网站打开失败或错误、网站域名被劫持、网站内容被篡改等问题,并通过分布式的架构设计,有效避免了单点监控时存在的系统稳定性差、告警误报率高等问题。关键词:内容安全;图像识别;分布式;自动化监控中图分类号:TP399文献标识码:A文章编号:1009-3044(2023)04-0086-03开放科学(资源服务)标识码(OSID):1引言计算机网络技术的发展为人类信息与科技的传播提供了前所未有的方便与速度,然而飞速发展的技术是一把双刃剑,也为网上各类不良信息的传播、滋生内容安全隐患的温床创造了条件。内容安全包括两个方面[1-3],第一个方面是对网页内容的保护,例如防范对网站内容的篡改,第二个方面是指网页内容需要符合各类政治、法律、道德等方面的要求。特别是防止网站中出现色情、赌博、恐暴、反动及垃圾广告等影响国家安全、社会民生、个人生活的风险内容。仅2020年上半年,国家计算机网络应急技术处理协调中心通过监测发现我国境内出现篡改现象的网站数量已达147682个,监控网站内容、肃清互联网环境、保障内容安全是我们刻不容缓的艰巨任务。大量中小网站因为架构单薄、不具备有效的安全防护措施或维护人员技术水平有限等,频繁出现网站内容失效或被改动等质量问题,存在容易被篡改及遭受黑客攻击等安全隐患。对于这一类中小网站,传统的人工监控手段无法及时发现这些质量问题及安全隐患,使其更容易成为黑客攻击的重要目标。因此高效准确的网站自动化监控系统,是确保中小网站内容安全的“必备良药”。2常用自动化网站监控手段介绍自动化网站监控常用爬虫技术或接口技术来实现[4-5],爬虫技术是对需要监控的网站,针对性地根据网站特点编写Python爬虫程序或使用现有爬虫工具,获取网站数据并进行网站对比,进行网站内容监控,监控网站是否存在无法打开或发生篡改的现象。这种方法节省时间、维护成本低、抓取的数据量远超手动收集的数据量。但是这种方法也存在一些问题,比如抓取工具较为依赖于外部网站,无法控制该...