新書推薦:
《
家族财富传承:实务案例与解决方案
》
售價:NT$
454.0
《
恶女的告白:时隔十年,《绝叫》作者叶真中显再写“恶女”的复仇与重生
》
售價:NT$
281.0
《
从零开始·复古娃衣制作书
》
售價:NT$
449.0
《
民主崩溃的政治学(精装版)
》
售價:NT$
423.0
《
交易撮合者:私募股权的经验与教训(泰丰资本创始人葛涵思投资秘籍!)
》
售價:NT$
403.0
《
最美世界名画(顾爷十三年匠心之作。超大开本;精美刷边;4米长海报;藏书票)
》
售價:NT$
3407.0
《
神医嫡女·2
》
售價:NT$
254.0
《
近世闻人掌故
》
售價:NT$
347.0
|
編輯推薦: |
配套资源:电子课件、习题答案、教学大纲、程序代码、模拟试卷、60分钟教学视频 本书特色: 详细介绍了网络爬虫技术的方方面面,讨论了数据抓取、数据处理和数据分析的整个流程。 从最简单的Python程序示例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。 提供丰富的代码来作为读者的参考,同时对必要的术语和代码进行解释。 书中程序代码均采用Python 3版本,并使用了目前主流的各种Python框架和库来编写,注重内容的时效性。
|
內容簡介: |
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。
本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
|
目錄:
|
前言
基 础 篇
第1章 Python基础及网络爬虫1
1.1 了解Python语言1
1.1.1 Python是什么2
1.1.2 Python的应用现状2
1.2 配置安装Python开发环境3
1.2.1 在Windows上安装3
1.2.2 在Ubuntu和MacOS上安装4
1.2.3 IDE的使用:以PyCharm为例5
1.2.4 Jupyter Notebook简介9
1.3 Python基本语法介绍11
1.3.1 HelloWorld与数据类型11
1.3.2 逻辑语句17
1.3.3 Python中的函数与类20
1.3.4 更深入了解Python22
1.4 互联网、HTTP与HTML22
1.4.1 互联网与HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 编写第一个爬虫程序25
1.5.2 对爬虫的思考27
1.6 分析网站28
1.6.1 robots.txt与Sitemap简介28
1.6.2 网站技术分析31
1.6.3 网站所有者信息分析33
1.6.4 使用开发者工具检查网页34
1.7 本章小结37
1.8 实践:Python环境的配置与
爬虫的运行37
1.8.1 需求说明37
1.8.2 实现思路及步骤37
1.9 习题37
第2章 数据采集与预处理39
2.1 数据39
2.1.1 数据的概念39
2.1.2 数据类型40
2.1.3 数据的存储形式42
2.1.4 数据的价值42
2.1.5 大数据时代43
2.2 数据分析过程43
2.3 数据采集44
2.3.1 数据采集的概念44
2.3.2 数据采集的数据源44
2.3.3 数据采集方法45
2.4 数据清洗45
2.4.1 数据清洗概述45
2.4.2 数据清洗的内容46
2.4.3 数据清洗的基本流程46
2.4.4 数据清洗的评价标准47
2.5 数据集成47
2.6 数据转换48
2.6.1 数据转换概念与策略48
2.6.2 平滑处理48
2.6.3 标准化处理50
2.7 数据脱敏50
2.7.1 数据脱敏的原则50
2.7.2 数据脱敏的方法51
2.8 本章小结51
2.9 实践:使用Python尝试数据的
清洗51
2.9.1 需求说明51
2.9.2 实现思路及步骤51
2.10 习题51
第3章 静态网页采集53
3.1 从采集开始53
3.2 正则表达式54
3.2.1 什么是正则表达式54
3.2.2 正则表达式的简单使用56
3.3 BeautifulSoup爬虫58
3.3.1 安装BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath与lxml64
3.4.1 XPath64
3.4.2 lxml与XPath的使用65
3.5 遍历页面67
3.5.1 抓取下一个页面67
3.5.2 完成爬虫68
3.6 使用API70
3.6.1 API简介70
3.6.2 API使用示例72
3.7 本章小结75
3.8 实践:哔哩哔哩直播间信息
爬取练习75
3.8.1 需求说明75
3.8.2 实现思路及步骤75
3.9 习题76
第4章 数据存储77
4.1 Python中的文件77
4.1.1 Python的文件读写77
4.1.2 对象序列化79
4.2 Python中的字符串80
4.3 Python中的图片81
4.3.1 PIL与Pillow模块81
4.3.2 Python与OpenCV简介83
4.4 CSV84
4.4.1 CSV简介84
4.4.2 CSV的读写84
4.5 数据库的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他类型的文档92
4.7 本章小结97
4.8 实践:使用Python 3读写SQLite
数据库97
4.8.1 需求说明97
4.8.2 实现思路及步骤97
4.9 习题97
进 阶 篇
第5章 JavaScript与动态内容99
5.1 JavaScript与AJAX技术100
5.1.1 JavaScript语言100
5.1.2 AJAX103
5.2 抓取AJAX数据104
5.2.1 分析数据104
5.2.2 数据提取108
5.3 抓取动态内容113
5.3.1 动态渲染页面113
5.3.2 使用Selenium114
5.3.3 PyV8与Splash120
5.4 本章小结123
5.5 实践:爬取机械工业出版社新书
上架信息123
5.5.1 需求说明123
5.5.2 实现思路及步骤124
5.6 习题124
第6章 模拟登录与验证码125
6.1 表单125
6.1.1 表单与POST125
6.1.2 POST发送表单数据127
6.2 Cookie130
6.2.1 Cookie简介130
6.2.2 在Python中Cookie的使用131
6.3 模拟登录网站133
6.3.1 分析网站133
6.3.2 Cookie方法的模拟登录134
6.4 验证码137
6.4.1 图片验证码137
6.4.2 滑动验证139
6.5 本章小结142
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie143
6.6.1 需求说明143
6.6.2 实现思路及步骤143
6.7 习题143
第7章 爬虫数据的分析与处理144
7.1 Python与文本分析144
7.1.1 文本分析简介144
7.1.2 jieba与SnowNLP145
7.1.3 NLTK148
7.1.4 文本分类与聚类151
7.2 数据处理与科学计算153
7.2.1 从MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy与SymPy167
7.3 本章小结167
7.4 实践:中国每年大学招生人数
变化的可视化167
7.4.1 需求说明167
7.4.2 实现思路及步骤167
7.5 习题167
提 高 篇
第8章 爬虫的灵活性和多样性169
8.1 爬虫的灵活性——以微信数据
抓取为例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬虫的多样性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在线爬虫应用平台179
8.2.3 使用urllib180
8.3 爬虫的部署和管理188
8.3.1 使用服务器部署爬虫188
8.3.2 本地爬虫的编写
|
內容試閱:
|
网络爬虫是一种数据采集技术,也是一种能够按照一定规则自动抓取互联网上信息的程序或脚本。一个常见的应用是搜索引擎的爬虫,它为搜索引擎爬取互联网上众多的网页,以便用户能够准确地在互联网上找到自己想要的内容。一般来讲,传统爬虫都是从一个或若干个初始网页的URL开始,不断分析页面上的元素并抓取需要的内容,或沿着层级不断深入抓取,或在页面同级遍历抓取,直到满足一定条件才会停止。爬虫在大数据的核心技术中也具有至关重要的作用,除了购买的数据集之外,爬虫爬取数据也是获取数据的一条主要途径。此外,所有被爬虫抓取到的数据都会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询、检索和使用。
Python是一种解释型、面向对象的、动态数据类型的高级程序设计语言,Python语法简洁、功能强大,在众多高级语言中拥有十分出色的编写效率,同时还拥有活跃的开源社区和海量程序库,十分适合用来进行网络内容的抓取和处理。本书将以Python语言为基础,由浅入深地探讨网络爬虫技术,同时,通过具体的程序编写和实践来帮助读者了解与学习Python爬虫。
本书共分为14章,第1章、第2章介绍了Python语言和爬虫编写的基础知识。第3章介绍了静态网页采集。第4章讨论了Python对文件和数据的存储,涉及数据库的相关知识。第5、6章的内容针对相对复杂一些的爬虫抓取任务,主要着眼于动态网页内容的抓取、表单登录和验证码等方面。第7章涉及了对抓取到的原始数据的深入处理和分析。第8~10章旨在对爬虫程序进行更深入的探讨,基于爬虫介绍了多个不同主题的内容。第11~14章通过一些实战的例子来深入讨论如何应用爬虫编程的理论知识。
本书的主要特点如下。
?内容全面,结构清晰:本书详细介绍了网络爬虫技术的方方面面,讨论了数据抓取、数据处理和数据分析的整个流程。全书结构清晰,坚持理论知识与实践操作相结合。
?循序渐进,生动简洁:从最简单的Python程序示例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。在行文中,使用生动简洁的阐述方式,力争详略得当。
?示例丰富,实战性强:网络爬虫是实践性、操作性非常强的技术,本书将提供丰富的代码来作为读者的参考,同时对必要的术语和代码进行解释。从实际出发,选取实用性、趣味性兼具的主题进行网络爬虫实践。
?内容新颖,不落窠臼:本书中程序代码均采用Python 3版本,并使用了目前主流的各种Python框架和库来编写,注重内容的时效性。网络爬虫需要动手实践才能真正理解,本书大限度地保证了代码与程序示例的易用性和易读性。
本书的编者为吕云翔、张扬、杨壮、姚泽良、韩延刚、李彬涵、徐羿、黄逸菲,曾洪立参与了部分内容的编写及资料整理工作。
由于编者水平有限,疏漏和不足之处在所难免,欢迎广大读者与我们交流讨论。
|
|