顶部
收藏

数据采集技术—Python网络爬虫项目化教程


作者:
黄锐军
定价:
28.00元
ISBN:
978-7-04-049781-6
版面字数:
230.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2018-08-10
读者对象:
高等职业教育
一级分类:
计算机大类
二级分类:
计算机类
三级分类:
计算机应用技术

网络爬虫就是一组能自动从网站的相关网页中搜索与提取数据的程序,这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效,编写网络爬虫有特别的优势,尤其业界有专门为Python编写的各种各样的爬虫程序框架,使得Python编写爬虫程序更加简单高效。

本书主要分成4个项目,项目1以爬取学生信息的项目为依托,讲解Python的Web访问技术,它是爬虫程序的基础。项目2以爬取城市天气预报项目为依托,讲解BeautifulSoup网页数据的爬取方法。项目3以爬取网络图像项目为依托,讲解网页的深度优先与广度优先顺序爬取路径的构造方法与多线程分布式网页爬取技术。项目4以爬取网站的图书信息项目为依托,讲解目前功能强大的分布式爬取框架Scrapy的程序设计技术。每个部分都遵循由浅入深的学习规律,理论与实践相结合,提高学生的实践能力。

本书为新形态一体化教材,配有丰富的教学资源,包括微课、教学大纲、课程标准、教学课件、案例源码、课后习题及习题答案等。本书同时配套建设了在线开放课程,学习者可登录智慧职教MOOC学院(mooc.icve.com.cn)平台,在“Python程序设计”页面进行学习。教师可发邮件至编辑邮箱1548103297@qq.com索取教学资源。本书可作为计算机软件技术专业、大数据技术应用专业及其他专业的专业教材,也可作为数据采集技术学习者的自学参考书。

  • 前辅文
  • 项目1 爬取学生信息
    • 1.1 爬虫程序开发环境
      • 1.1.1 爬虫程序简介
      • 1.1.2 Python 开发环境搭建
    • 1.2 Flask Web 网站
      • 1.2.1 Flask 简介
      • 1.2.2 Urllib 程序包访问Web 网站
    • 1.3 GET 方法访问网站
      • 1.3.1 客户端GET 方式发送数据
      • 1.3.2 服务器获取GET 发送的数据
    • 1.4 POST 方法向网站发送数据
      • 1.4.1 客户端POST 发送数据
      • 1.4.2 服务器获取POST 的数据
      • 1.4.3 GET 与POST 的混合使用
    • 1.5 Web 下载文件
      • 1.5.1 服务器程序
      • 1.5.2 客户端程序
    • 1.6 Web 上传文件
      • 1.6.1 上传二进制数据
      • 1.6.2 服务器程序
      • 1.6.3 客户端程序
    • 1.7 Web 学生管理程序
      • 1.7.1 定义通讯协议
      • 1.7.2 服务器程序
      • 1.7.3 客户端程序
    • 1.8 正则表达式
      • 1.8.1 正则表达式规则
      • 1.8.2 查找匹配字符串
    • 1.9 实践项目—爬取学生信息
      • 1.9.1 项目简介
      • 1.9.2 服务器程序
      • 1.9.3 客户端程序
    • 练习一
  • 项目2 爬取天气预报数据
    • 2.1 HTML 文档结构与文档树
      • 2.1.1 HTML 文档结构
      • 2.1.2 HTML 文档树
    • 2.2 BeautifulSoup 装载HTML 文档
      • 2.2.1 BeautifulSoup 的安装
      • 2.2.2 BeautifulSoup 装载HTML 文档
    • 2.3 BeautifulSoup 查找文档元素
      • 2.3.1 查找HTML 元素
      • 2.3.2 获取元素的属性值
      • 2.3.3 获取元素包含的文本值
      • 2.3.4 高级查找
    • 2.4 BeautifulSoup 遍历文档元素
      • 2.4.1 获取元素结点的父结点
      • 2.4.2 获取元素结点的直接子元素结点
      • 2.4.3 获取元素结点的所有子孙元素结点
      • 2.4.4 获取元素结点的兄弟结点
    • 2.5 BeautifulSoup 使用CSS 语法查找元素
      • 2.5.1 使用CSS 语法
      • 2.5.2 属性的语法规则
      • 2.5.3 Select 查找子孙结点
      • 2.5.4 Select 查找直接子结点
      • 2.5.5 Select 查找兄弟结点
    • 2.6 实践项目—爬取天气预报数据
      • 2.6.1 项目简介
      • 2.6.2 HTML 代码分析
      • 2.6.3 爬取天气预报数据
      • 2.6.4 爬取与存储天气预报数据
    • 练习二
  • 项目3 爬取网站图像文件
    • 3.1 网站树的爬取路径
      • 3.1.1 Web 服务器网站
      • 3.1.2 递归程序爬取数据
      • 3.1.3 深度优先爬取数据
      • 3.1.4 广度优先爬取数据
    • 3.2 网站图的爬取路径
      • 3.2.1 复杂的Web 网站
      • 3.2.2 改进深度优先客户端程序
      • 3.2.3 改进广度优先客户端程序
    • 3.3 Python 实现多线程
      • 3.3.1 Python 的前后台线程
      • 3.3.2 线程的等待
      • 3.3.3 多线程与资源
    • 3.4 爬取网站复杂数据
      • 3.4.1 Web 服务器网站
      • 3.4.2 爬取网站的复杂数据
      • 3.4.3 爬取程序的改进
    • 3.5 实践项目——爬取网站的图像文件
      • 3.5.1 项目简介
      • 3.5.2 单线程爬取图像的程序
      • 3.5.3 多线程爬取图像的程序
    • 练习三
  • 项目4 爬取网站图书数据
    • 4.1 Scrapy 框架爬虫简介
      • 4.1.1 安装Scrapy 框架
      • 4.1.2 建立Scrapy 项目
      • 4.1.3 入口函数与入口地址
      • 4.1.4 Python 的yield 语句
    • 4.2 Scrapy 中查找HTML 元素
      • 4.2.1 Scrapy 的Xpath 简介
      • 4.2.2 Xpath 查找HTML 元素
    • 4.3 Scrapy 爬取与存储数据
      • 4.3.1 建立Web 网站
      • 4.3.2 编写数据项目类
      • 4.3.3 编写爬虫程序MySpider
      • 4.3.4 编写数据管道处理类
      • 4.3.5 设置Scrapy 的配置文件
    • 4.4 Scrapy 爬取网站数据
      • 4.4.1 建立Web 网站
      • 4.4.2 编写Scrapy 爬虫程序
    • 4.5 实践项目—爬取当当网站图书数据
      • 4.5.1 网站图书数据分析
      • 4.5.2 网站图书数据提取
      • 4.5.3 网站图书数据爬取
    • 练习四
  • 结语
  • 参考文献

相关图书