网络爬虫就是一组能自动从网站的相关网页中搜索与提取数据的程序,这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效,编写网络爬虫有特别的优势,尤其业界有专门为Python编写的各种各样的爬虫程序框架,使得Python编写爬虫程序更加简单高效。
本书主要分成4个项目,项目1以爬取学生信息的项目为依托,讲解Python的Web访问技术,它是爬虫程序的基础。项目2以爬取城市天气预报项目为依托,讲解BeautifulSoup网页数据的爬取方法。项目3以爬取网络图像项目为依托,讲解网页的深度优先与广度优先顺序爬取路径的构造方法与多线程分布式网页爬取技术。项目4以爬取网站的图书信息项目为依托,讲解目前功能强大的分布式爬取框架Scrapy的程序设计技术。每个部分都遵循由浅入深的学习规律,理论与实践相结合,提高学生的实践能力。
本书为新形态一体化教材,配有丰富的教学资源,包括微课、教学大纲、课程标准、教学课件、案例源码、课后习题及习题答案等。本书同时配套建设了在线开放课程,学习者可登录智慧职教MOOC学院(mooc.icve.com.cn)平台,在“Python程序设计”页面进行学习。教师可发邮件至编辑邮箱1548103297@qq.com索取教学资源。本书可作为计算机软件技术专业、大数据技术应用专业及其他专业的专业教材,也可作为数据采集技术学习者的自学参考书。