温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种
基于
爬虫
信息
采集
技术
公交
站点
广告
选址
系统
设计
吴小嵩
中国科技信息 2023 年第 7 期CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023-98-三星推荐现状及需求分析现状分析现行公司公交站点广告选址方式全靠人工经验。每次需要人工通过地图或者实地考察的方式对公交站点进行调研。经常要经过至少 23 轮的集体会议进行信息补充与论证。每次选点的过程时间又长又浪费人力。需求分析使用爬虫信息采集技术对市区所有公交站点信息进行爬取。通过信息整理后,按照规则选择要求的公交站点。替代人工通过地图或者实地考察的方式。用来节省大量的人工工作。利用爬虫信息采集技术对公交站点周围的餐饮、购物、生活服务、公司企业、医疗机构等信息进行爬取。为选址提供基础信息。公交站点广告选址系统设计与算法利用爬虫信息采集技术,在不同的平台对市区公交线路信息与公交站点周围信息进行爬取。将获取的数据存入数据库,以备数据梳理与展现。爬取市区全部公交线路可以查询公交信息的网站很多。网站可以查询到相应市区的全部线路及相应的站点信息。使用 Python 语言进行相应的信息的爬取,并存入本地数据库中。数据库表设计如下:列名数据类型数据长度说明xianluVARCHAR250线路名称zhandianVARCHAR250站点名称爬取公交站点经纬度相关信息利用高德地图开发者平台提供的相关功能,通过分析高德地图的公交线路查询网页信息。可以对线路名称、站点名称、站点经纬度信息爬取。使用 Python 语言进行相应的信息的爬取,并存入本地数据库中。数据库表设计如下:列名数据类型数据长度说明xianluVARCHAR250线路名称zhandianVARCHAR250站点名称JingduVARCHAR250站点经度weiduVARCHAR250站点纬度做出相关公交站点周边搜索地图展示相关业务人员需要对公交站点周边的情况进行分析。使用高德地图开发者平台提供的周边搜索功能。在地图上进行周边指定范围内相关餐饮、购物、生活服务、公司企业、医疗机构等信息的打点展示。可以更加直观的帮助业务人员进行站点周边情况研究。行业曲线开放度创新度生态度互交度持续度可替代度影响力可实现度行业关联度真实度本文针对运营商广告投放业务信息不够全面、选址困难、人力资源浪费过多的问题,提出利用数字化大数据采集、分析、直观展示、易量化、交付快的特点。采用爬虫信息采集技术,利用高德地图信息及展示功能,进行站点得分量化的方式。在公交站点投放广告宣传生产环境或工作场景中起到引领示范作用。该方案已经在运营商生产环境中付诸实施,大大提升了工作效率,提升了信息获取能力及相关业务量化率,提高了公司广告投放活动的目标管控力度。对需要公交站点投放广告宣传的生产环境或者类似的工作场景中有借鉴意义。一种基于爬虫信息采集技术的公交站点广告选址系统设计吴小嵩 王岱琳随着运营商数字化转型,数字化大数据分析、直观展现、交付快等特点在各项业务中体现得越来越明显。公司广告投放这项业务,直接关系到运营商产品的宣传力度。每年的广告投入费用也越来越高。为了确保广告投放费用的效率,希望通过数字化手段对广告投放的位置进行精选,确保广告宣传效率的相对最大化。为此,通过爬虫信息采集技术,利用Python 语言与 Oracle 数据库,设计了适用公司规则的公交站点广告选址算法与系统。吴小嵩 王岱琳中国联合网络通信公司泰安分公司-99-CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023中国科技信息 2023 年第 7 期三星推荐公司规则的公交站点广告选址算法之前公交站点选址因为没有大数据的支撑,无法进行量化选择。在经过大数据的采集与梳理后,进行量化打分计算,推选出合适的站点。具体规则如下:(1)站点经过线路越多分值越高。最高分 40 分。往后的站点按照线性得分排列。(2)站点周边搜索信息点越多分值越高。最高分 60 分。往后的站点按照线性得分排列。(3)综合得分靠前的站点优先选择。站点综合得分=40*+60*公交站点广告选址系统实现系统主要利用 Python 语言编写爬虫信息采集的相关程序。使用 Oracle 数据进行数据存储与数据梳理。地图相关功能使用高德开发者平台提供的相关功能与接口实现。算法由后台按照算法规则直接进行计算。市区全部公交线路信息爬取利用浏览器开发者工具,对公交信息的网站(被例采用 8684 网站)相关页面进行分析。公交线路都存在 里,一个站点名称在一个标签下。爬取相关代码如下:import requestsimport jsonfrom bs4 import BeautifulSoupurl=“https:/ NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/92.0.4515.107 Safari/537.36”#通过 requests 模块模拟 get 请求res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,“lxml”)div=soup.find(div,class_=list clearfix)list=div.find_all(a)for item in list:line=item.text print(line)公交站点经纬度相关信息爬取利用高德地图开发者平台提供的相关功能,通过分析高德地图的公交线路查询网页信息。可以发现 poiInfo?query_type 这个 json 文件中 stations 存放着所有站点的信息,name 是站点名称,xy_coords 是经纬度。根据上一步爬取的全部线路名称,循环可以将所有信息进行采集。爬取相关函数代码如下:def get_location(line):url_api=https:/ rt=json.loads(res)i=0 line_name=rtbuslines0name polyline=rtbuslines0polyline info=line_name,polyline print(info)stop=rtbuslines0busstops for i in range(len(stop):station=stopiname location=stopilocation info_=line,station,location print(info_)i+=1公交站点周边搜索地图展示利用高德地图开发者平台提供的相关功能,利用 Web端(JS API)接口进行周边搜索页面的开发。周边搜索功能提供了兴趣点类别选择、单页显示结果条数、兴趣点城市、是否强制限制在指定城市搜索、站点周边多少距离等功能。以高德坐标 117.112 969,36.193 993 为中心,周围300m 内信息进行搜索结果如图 1。公司规则的公交站点广告选址算法公式按照需求分析的规则进行算法公式的实现。由于两个算分规则类似,均是排名后按照线性排名得分。使用线性回归模型即可。具体排名公式如下:公交站点经过路线得分=(排名总数-排名)(最高分(40)-最低分(1)/(排名总数-1)+最低分站点周边搜索信息点得分=(排名总数-排名)(最高分(60)-最低分(1)/(排名总数-1)+最低分可以对排名总数按照实际情况进行自定义。结束语该公交站点选址系统针对运营商广告投放选址设计。系统结构清晰、普适性较强,能够较好地满足我公司对广告投放选址信息采集、调研、选址等一系列需求,对于同类场景的具有良好的推广性。今后还需对该系统进行完善,以期能够提供更多的数据与功能。图 1300m 内信息搜索结果