网络数据采集技术——Java网络爬虫实战.pdfVIP免费

下载本文档

阅读 1
下载 0
格式 pdf
大小 107.08 MB
约380页
2023-05-08
收藏
评论
点赞(0)
海报
举报

/380

内容简介本书以Java为开发语言，系统地介绍了网络爬虫的理论知识和基础工具，包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站，采用案例讲解的方式介绍网络爬虫中涉及的问题，以增强读者的动手实践能力。同时，本书还介绍了3种Java网络爬虫开源框架，即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者；也可作为网络爬虫课程教学的参考书，供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用；也可供企业网络爬虫开发人员参考使用。未经许可，不得以任何方式复制或抄袭本书之部分或全部内容。版权所有，侵权必究。图书在版编目（CIP）数据网络数据采集技术：Java网络爬虫实战/钱洋，姜元春著.—北京：电子工业出版社，2020.1ISBN978-7-121-37607-8Ⅰ.①网…Ⅱ.①钱…②姜…Ⅲ.①JAVA语言－程序设计Ⅳ.①TP312.8中国版本图书馆CIP数据核字（2019）第219551号责任编辑：林瑞和特约编辑：田学清印刷：装订：出版发行：电子工业出版社北京市海淀区万寿路173信箱邮编：100036开本：720×10001/16印张：23.75字数：478.8千字版次：2020年1月第1版印次：2020年1月第1次印刷定价：79.00元凡所购买电子工业出版社图书有缺损问题，请向购买书店调换。若书店售缺，请与本社发行部联系，联系及邮购电话：（010）88254888，88258888。质量投诉请发邮件至zlts@phei.com.cn，盗版侵权举报请发邮件到dbqq@phei.com.cn。本书咨询联系方式：010-51260888-819，faq@phei.com.cn。前言近几年，网络空间大数据（BigData）已成为各领域研究的热门话题。在企业应用方面，天猫利用海量的用户数据挖掘年轻消费者偏好，并将用户偏好反馈给手机研发部门，将其用于手机设计；汽车之家利用平台中用户生成的大数据对用户进行画像，在此基础上开展个性化营销。在学术界，很多领域的学者针对大数据衍生出的新问题开展学术研究，如大数据驱动的客户洞察、大数据驱动的个性化推荐、大数据驱动的管理决策等。在网络大数据环境下，数据采集尤为重要。因此，很多企业都提供了（高级）数据采集工程师的职位。对于很多在校大学生而言，尤其是硕士生和博士生，网络数据采集是一项必备的技能。在编写本书之前，笔者主要从事数据采集系统的设计与开发工作。在CSDN社区上，笔者撰写过一系列介绍Java网络爬虫的博客，这些博客为笔者的主页带来...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容