网络爬虫是一种能自动从网站的相关网页中搜索与提取数据的程序或脚本,采集这些数据是进一步实现数据分析的前提与关键。 Python语言语法简洁、开发效率高,用于编写网络爬虫有特别的优势,尤其业界有专门为 Python语言编写的各种各样的爬虫程序框架,使得使用 Python语言编写爬虫程序更加便捷、高效。
本书包括 5个项目:项目 1为爬取学生信息,讲解了如何使用 Python访问 Web,该技术是编写爬虫程序的基础;项目 2为爬取天气预报数据,讲解了网页数据的爬取方法,其中重点讲解了如何使用 BeautifulSoup进行数据采集与数据分析;项目 3为爬取旅游网站数据,讲解了爬取多个网页数据的方法,重点讲解了如何使用深度优先与广度优先策略爬取数据,同时还讲解了如何使用多线程爬取网页数据;项目 4为爬取航空网站数据,讲解了目前功能强大的分布式爬取框架 Scrapy;项目 5为爬取商城网站数据,讲解了 Selenium动态网页数据的爬取技术。每个项目都遵循由浅入深的学习规律,理论与实践相结合,实现了实用的爬虫程序,进而提高读者的实践能力。
本书为新形态一体化教材,配有丰富的教学资源,包括微课、教学大纲、课程标准、教学课件、案例源码、课后习题及习题答案等。与本书配套的数字课程在“智慧职教”平台(www.icve.com.cn)上线,学习者可以登录平台进行在线学习,授课教师可以调用本课程构建符合自身教学特色的 SPOC课程,详见“智慧职教”服务指南。教师也可发邮件至编辑邮箱 1548103297@qq.com获取相关教学资源。
本书可作为高等职业教育大数据技术、人工智能技术应用、软件技术及其他计算机类专业的数据采集类课程教材,也可作为数据采集技术学习者的自学参考书。