基于Python爬虫和聚类...映电影数据抓取与可视化设计_马宇洁.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 1.34 MB
约4页
2023-05-10
收藏
评论
点赞(0)
海报
举报

基于Python爬虫和聚类...映电影数据抓取与可视化设计_马宇洁.pdf_第1页

基于Python爬虫和聚类...映电影数据抓取与可视化设计_马宇洁.pdf_第2页

基于Python爬虫和聚类...映电影数据抓取与可视化设计_马宇洁.pdf_第3页

数据库系统设计DatabaseSystemDesign电子技术与软件工程ElectronicTechnology&SoftwareEngineering229伴随着电影产业的不断发展，网站上的影视和影评资源也越来越丰富。为了给用户和电影产业的决策者提供判断参考，关于电影评论数据的可视化设计得到了广泛的关注[1,2]。但是如何从海量的信息中获取所需的信息和资源成为了一个大问题。网络爬虫(WebCrawler)是按照一定规则主动抓取网页的程序，能够自动根据指定规则提取相应内容，目前使用率非常高[3]。使用网络爬虫技术可以爬取相关网页获得更全面的平台数据,这种方法的难点在于处理反爬虫机制[4]。本文针对热映电影的影评网站数据进行研究，通过网络爬虫技术爬取了国内外四个平台的影评数据，使用Python对数据进行可视化设计，包括文本的词云图、评论主题聚类，评论时间与地点的图形化展示。1数据获取工具本文选取热映电影《新蝙蝠侠》的影评作为研究对象，爬取的数据来自国内的豆瓣电影和猫眼电影以及国外的烂番茄。本文使用Python语言爬取了豆瓣的长评论和短评部分以及猫眼短评部分，使用后裔采集器采集了豆瓣的预评以烂番茄评论部分。使用Python单独爬取的原因在于豆瓣官方有反爬取机制，而猫眼的评论抓取网页是一个结构化json文档无法用自动化爬虫软件进行抓取。1.1Python网络爬取Python爬取数据主要使用了beautifulsoup工具包。豆瓣网从2017年10月开始全面禁止爬取数据。在非登录状态下仅仅可以爬取200条短评，登录状态下仅可以爬取500条数据。白天一分钟最多可爬40次，晚上60次，超过次数就会封IP地址。针对反爬取的问题，本文在请求头、等待时间和cookie登陆上做了设计。对浏览器请求头部分进行设计，模拟自己是PC端电脑浏览器，打开豆瓣的主页，再打开浏览器的开发者工具，输入账号和密码登录豆瓣网。最后使用休眠函数sleep定时休眠防止豆瓣识别是机器人操作。1.2后羿采集器爬取后裔采集器的逻辑比较简单，按照软件自动化爬取流程抓取数据。需要注意的是如果爬取豆瓣影评数据时出现了封IP的情况，需要使用多个不同的IP混拨，并且访问多个不同排序方式的网址。另外，由于不同排序方式可能存在重合的评论，还需要进行评论去重的操作。2数据分析2.1评论时间与地点分析新的电影首映后，国、内外各大影评网站评价便如潮水般涌来。评分的高低固然能体现一部电影的质量与观众缘，但评论量也能体现人们对这部新影片的关注度，本文将把评论量变化与票房变化进行对比，寻找两者之间的联系。以电影《...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容