登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2025年04月出版新書

2025年03月出版新書

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

『簡體書』零基础入门Pandas—Python数据分析

書城自編碼: 4095810
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: [美]丹尼尔·陈[Daniel Y. Chen]著 高慧敏
國際書號(ISBN): 9787302678861
出版社: 清华大学出版社
出版日期: 2025-02-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 658

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
还可以的金女士(小镇女孩误入时尚圈血泪史)
《 还可以的金女士(小镇女孩误入时尚圈血泪史) 》

售價:NT$ 245.0
王阳明全集(套装5册)
《 王阳明全集(套装5册) 》

售價:NT$ 1367.0
萤火虫全球史:西方战争史上的著名战斗机
《 萤火虫全球史:西方战争史上的著名战斗机 》

售價:NT$ 388.0
360张图表读懂6S精益管理
《 360张图表读懂6S精益管理 》

售價:NT$ 449.0
良好生活的哲学 : 为不确定的人生找到确定的力量
《 良好生活的哲学 : 为不确定的人生找到确定的力量 》

售價:NT$ 449.0
DeepSeek+Dify+Ollama全栈AI开发实战:前端本地部署到大模型集成训练
《 DeepSeek+Dify+Ollama全栈AI开发实战:前端本地部署到大模型集成训练 》

售價:NT$ 403.0
五维管理:管理入门九堂课
《 五维管理:管理入门九堂课 》

售價:NT$ 449.0
剑桥盎格鲁-撒克逊时期的马利亚研究
《 剑桥盎格鲁-撒克逊时期的马利亚研究 》

售價:NT$ 398.0

編輯推薦:
本书特色
(1)细致讲解了Pandas的基础知识和常见用法,用简单实例阐述如何使用Pandas解决复杂的现实问题。
(2)提供了将Pandas与真实数据集结合使用的入门知识,涵盖组合数据集、处理缺失数据以及构建数据集等,指导建立预测、聚类、推理和探索的模型,便于进行数据分析和可视化。
(3)从基本的字符串操作到跨数据帧同时应用函数,书中内容涉及强大的数据清理技术。
(4)介绍如何利用Matplotlib、Seaborn、Statsmodels和Sklearn等库辅助进行Python数据分析,涵盖数据处理、数据可视化、数据建模等内容。
內容簡介:
基于实用、易学的原则,从功能、使用、原理等多个维度对Pandas做了全方位的详细讲解。本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手。具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和Series对象,使用matplotlib、seaborn和Pandas提供的绘图方法为探索性数据分析作图,连接与合并数据集,处理缺失数据,清理数据,转换数据类型,处理字符串,应用函数,分组操作,拟合及评估模型,正则化方法与聚类技术等。
目錄
第一部分引言
第1章Pandas DataFrame基础知识
1.1引言
1.2加载第一个数据集
1.3查看列、行和单元格
1.3.1根据列名选择列并进行子集化
1.3.2对行进行子集化
1.3.3根据行号子集化行
1.3.4混合
1.3.5子集化行和列
1.4分组和聚合计算
1.4.1分组方式
1.4.2分组频率计数
1.5基本绘图
本章小结
第2章Pandas的数据结构
2.1创建数据
2.1.1创建Series
2.1.2创建DataFrame
2.2Series
2.2.1类似于ndarray的Series
2.2.2布尔型子集: Series
2.2.3自动对齐并向量化(广播)
2.3DataFrame
2.3.1DataFrame的组成
2.3.2布尔子集化DataFrames
2.3.3自动对齐和向量化(广播)
2.4更改Series和DataFrame
2.4.1添加列
2.4.2直接更改列
2.4.3使用.assign()方法修改列
2.4.4删除值
2.5导出和导入数据
2.5.1Pickle
2.5.2逗号分隔值
2.5.3Excel
2.5.4Feather文件格式
2.5.5Arrow
2.5.6Dictionary
2.5.7JavaScript对象表示法
2.5.8其他数据的输出类型
本章小结
第3章绘图入门
3.1为什么要将数据可视化
3.2Matplotlib基础
3.2.1图对象和坐标轴子图
3.2.2图形剖析
3.3使用Matplotlib绘制统计图
3.3.1单变量数据
3.3.2双变量数据
3.3.3多变量数据
3.4Seaborn
3.4.1单变量数据
3.4.2双变量数据
3.4.3多变量数据
3.4.4分面
3.4.5Seaborn的样式和主题
3.4.6如何浏览Seaborn文档
3.4.7下一代Seaborn接口
3.5Pandas绘图方法
3.5.1直方图
3.5.2密度图
3.5.3散点图
3.5.4蜂巢图
3.5.5箱线图
本章小结
第4章整洁数据
4.1包含值而非变量的列
4.1.1固定一列
4.1.2固定多列
4.2包含多个变量的列
4.2.1单独拆分和添加列
4.2.2在单个步骤中进行拆分和组合
4.3行与列中的变量
本章小结
第5章函数的应用
5.1函数入门
5.2函数应用基础
5.2.1Series的.apply()方法
5.2.2DataFrame的.apply()方法
5.3向量化函数
5.3.1使用NumPy
5.3.2使用Numba库
5.4Lambda函数
本章小结

第二部分数据处理
第6章数据组合
6.1组合数据集
6.2连接
6.2.1查看DataFrame的组成
6.2.2添加行
6.2.3添加列
6.2.4不同索引下的连接操作
6.3跨多张表的观测单元
6.3.1使用循环加载多个文件
6.3.2使用列表解析加载多个文件
6.4合并多个数据集
6.4.1一对一合并
6.4.2多对一合并
6.4.3多对多合并
6.4.4使用assert语句进行检查
本章小结
第7章数据规范化
7.1一张表中的多个观测单元
7.2数据规范化过程
本章小结
第8章分组操作: 分割应用组合
8.1聚合
8.1.1基本的单变量分组聚合
8.1.2Pandas内置的聚合方法
8.1.3聚合函数
8.1.4同时传入多个函数
8.1.5在.agg()方法中使用dict
8.2转换
8.2.1zscore示例
8.2.2缺失值示例
8.3过滤器
8.4pandas.core.groupby.DataFrameGroupBy对象
8.4.1分组
8.4.2涉及多个变量的分组计算
8.4.3选择分组
8.4.4遍历分组
8.4.5多个分组
8.4.6平铺结果
8.5使用多级索引
本章小结

第三部分数据类型
第9章缺失数据
9.1何为NaN值
9.2缺失值从何而来
9.2.1加载数据
9.2.2合并数据
9.2.3用户输入值
9.2.4重建索引
9.3处理缺失数据
9.3.1查找和统计缺失数据
9.3.2清理缺失数据
9.3.3缺失值计算
9.4Pandas内置的NA缺失值
本章小结
第10章数据类型
10.1常见的数据类型
10.2类型转换
10.2.1转换为字符串对象
10.2.2转换为数值类型
10.3分类数据
10.3.1转换为category类型
10.3.2操作分类数据
本章小结
第11章字符串和文本数据
11.1字符串
11.1.1子集化和字符串切片
11.1.2获取字符串的最后一个字符
11.2字符串方法
11.3更多字符串方法
11.3.1.join()方法
11.3.2.splitlines()方法
11.4字符串格式化
11.4.1格式化的文字字符串
11.4.2格式化数字
11.5正则表达式
11.5.1匹配模式
11.5.2记住RegEx模式
11.5.3查找模式
11.5.4替换模式
11.5.5编译模式
11.6regex库
本章小结
第12章日期和时间
12.1Python的datetime对象
12.2转换为datetime
12.3加载包含日期的数据
12.4提取日期的各个部分
12.5日期运算和timedeltas
12.6datetime方法
12.7获取股票数据
12.8基于日期子集化数据
12.8.1DatetimeIndex对象
12.8.2TimedeltaIndex对象
12.9日期范围
12.9.1频率
12.9.2偏移量
12.10日期变动
12.11重新采样
12.12时区
12.13arrow库
本章小结

第四部分数据建模
第13章线性回归
13.1简单线性回归
13.1.1使用statsmodels库
13.1.2使用Scikitlearn库
13.2多元回归
13.2.1使用statsmodels库
13.2.2使用Scikitlearn库
13.3包含分类变量的模型
13.3.1statsmodels中的分类变量
13.3.2Scikitlearn中的分类变量
13.4带Transformer Pipelines的Scikitlearn中的onehot编码
本章小结
第14章广义线性模型
14.1逻辑回归
14.1.1使用statsmodels库
14.1.2使用Scikitlearn库
14.1.3注意Scikitlearn默认值
14.2泊松回归
14.2.1使用statsmodels
14.2.2负二项回归
14.3更多的GLM
本章小结
第15章生存分析
15.1生存数据
15.2KaplanMeier曲线
15.3Cox比例风险模型
本章小结
第16章模型诊断
16.1比较单个模型
16.1.1残差
16.1.2QQ图
16.2比较多个模型
16.2.1比较线性模型
16.2.2比较GLM模型
16.3K折交叉验证
本章小结
第17章正则化
17.1为什么要正则化
17.2LASSO回归
17.3岭回归
17.4弹性网
17.5交叉验证
本章小结
第18章聚类
18.1K均值聚类
18.2层次聚类
18.2.1Complete聚类算法
18.2.2Single聚类算法
18.2.3Average聚类算法
18.2.4Centroid聚类算法
18.2.5Ward聚类算法
18.2.6手动设置阈值
本章小结

第五部分附录
附录A概念图
附录B安装和设置
B.1安装Python
B.1.1Anaconda
B.1.2Miniconda
B.1.3卸载Anaconda或Miniconda
B.1.4Pyenv
B.2安装Python包
B.3下载本书数据
附录C命令行
C.1安装
C.1.1Windows系统
C.1.2macOS
C.1.3Linux系统
C.2基础
附录D项目模板
附录EPython代码编写工具
E.1命令行和文本编辑器
E.2Python和iPython
E.3Jupyter
E.4集成开发环境
附录F工作目录
附录G环境
G.1Conda环境
G.2Pyenv Pipenv
附录H安装程序包
H.1使用Conda安装Python库
H.2更新程序包
附录I导入库
附录J代码风格
附录K容器: 列表、元组和dict
K.1列表
K.2元组
K.3dict
附录L切片值
附录M循环
附录N推导式
附录O函数
O.1默认参数
O.2任意参数
O.2.1*args
O.2.2**kwargs
附录P范围和生成器
附录Q多重赋值
附录Rnumpy.ndarray
附录S类
附录TCopyWarning设置
T.1修改数据子集
T.2替换值
T.3更多的资源
附录U方法链
附录V计时代码
附录W字符串格式化
W.1C语言风格
W.2字符串格式化: .format()方法
W.3格式化数字
附录X条件语句(ifelifelse)
附录Y纽约ACS逻辑回归示例
Y.1准备数据
Y.2使用Scikitlearn库
附录Z复制R语言中的结果
Z.1线性回归
Z.2逻辑回归
Z.3泊松回归
內容試閱
我的数据科学教学生涯始于2013年第一次参加SoftwareCarpentry研讨班。此后,就一直在从事这方面的教学工作。2019年,我有幸成为RStudio(现为PBC Posit)教育集团的一名实习生。那时,数据科学教育方兴未艾。实习结束之后,我想将教学与医学的结合作为我的博士学位论文选题。幸运的是,我认识学校的一位图书管理员Andi Ogier,她把我介绍给了Anne M.Brown,Anne也对健康科学中的数据科学教学很感兴趣。之后的故事大家都知道了。Anne成为了我的博士生导师,我和指导委员会的其他成员,包括Dave Higdon、Alex Hanlon和Nikki Lewis,一起研究医学和生物医学领域中的数据科学教育。本书第1版为我的学位论文研讨班要讲授哪些数据科学的相关内容奠定了基础。本书第2版纳入了我在学习和研究教育和教学法时学到的许多内容。
简而言之,一定要交个图书管理员做朋友,他的工作与数据之间联系紧密。
2013年,我甚至对“数据科学”这个词闻所未闻。当时我还在攻读流行病学的MPH学位,对于本科专业背景为心理学和神经科学的我来说,t检验、方差分析以及线性回归之外的各种统计学方法深深吸引了我。也正是在2013年秋天,我第一次参加了SoftwareCarpentry研讨班,并担任了MPH项目的定量方法(Quantitative Methods)课程(该课程是第一学期流行病学和生物统计学的一门综合课)的助教,并第一次开始授课。自此,我便一直在从事数据科学领域的教学工作。
当年,我学习的第一门“数据科学导论”课程由Rachel Schutt博士、Kayur Patel博士和Jared Lander三位老师讲授,回顾多年来走过的路程,感触良多。三位老师打开了我的眼界。对我来说,之前那些貌似不可思议的事情都变得稀松平常,没有做不到的,只有想不到的(尽管“能做到的”不一定是“最好的”)。数据科学的技术细节——编码方面——是由Jared用R语言讲授的。
当年,我一直想学R语言,Python和R语言之争从未动摇过我的决心。一方面,我认为Python只是一种编程语言; 另一方面,我并不知道Python有大量的分析工具(从那时起我已经学会了很多工具,并取得了长足的进步)。在了解了SciPy堆栈和Pandas后,我认为它们就像桥梁一样连通了我学到的Python知识,以及我在流行病学研究和数据科学的学习中获得的知识。当精通R语言后,我发现其与Python有很多相似之处。我也意识到很多数据清理任务(以及常规的编程任务)都涉及思考如何得到所需的东西,剩下的基本都是语法问题而已。在进行数据分析时,最重要的是设计好分析的步骤,不要被编程细节所困扰。我用过很多种编程语言,从来不纠结于哪种语言“更好”。话虽如此,本书面向的是Python数据分析领域的新手。
在过去的几年中,我认识了很多人,参加了很多活动,也学到了很多的技能,本书就是对这些年经验的总结。其中,我学到的比较重要的一件事情(除了先要搞清楚问题到底是什么,以便用谷歌来搜索相关的Stack Overflow(IT问答网站,面向编程人员群体)页面之外)是: 阅读文档非常必要。作为一个参与过协作课程并编写过Python库和R软件包的人,我可以负责任地说,编写文档确实需要花费大量的时间和精力,这就是为什么整本书中不断引用相关文档页面的原因。有些函数有非常多的参数,应用的场景也不相同,一一介绍是不现实的。如果本书过于关注这些细节,那么书名要改成Loading Data Into Python了。当然,随着处理数据的增多、对各种数据结构越来越熟悉,你最终将会具备一定的预测能力。即使对之前从未见过的代码,也可以合理地推断出其执行结果。希望本书能为读者提供一个坚实的基础,助其自己进行探索,从而成为一个自学成才的学习者。



在撰写本书的过程中,我遇到了很多人,也从他们身上学到了很多东西,其中很多都是关于最佳实践的,比如编写向量化语句以替代循环语句、测试代码,以及组织项目目录结构等。从实际的教学过程中我也学到了很多关于教学的知识,以教促学确实是学习新知识的最佳方法。在过去的几年里,我学到的很多东西都是在我试图弄清楚如何教别人时获得的。一旦掌握了基础知识,学习新内容就相对容易了。教与学的过程多次重复后,会惊讶于自己学会了很多,比如学会了用于谷歌搜索的很多术语,并能解读Stack Overflow页面的解答。很多高手也在搜索他人提出的问题。无论这是你学习的第几种编程语言,希望本书都能为你提供一个坚实的基础,为你搭建一座通往其他数据分析语言的桥梁。
本书结构
本书共分为五部分,还包括一系列的附录。
第一部分
该部分基于真实的数据集介绍Pandas基础知识。
第1章首先介绍如何使用Pandas加载数据集,并查看数据的行和列,还大致讲解Python和Pandas的语法,最后给出若干具有启发性的示例,展示Pandas的用途。
第2章深入探讨Pandas的DataFrame和Series对象,还介绍布尔子集、删除值以及导入和导出数据的不同方式。
第3章主要介绍使用Matplotlib、Seaborn和Pandas的绘图方法以及如何创建探索性数据分析的绘图。
第4章讨论Hadley Wickham的论文《整洁数据》(Tidy Data),该论文涉及常见的数据重塑和清理问题。
第5章侧重于介绍对数据应用函数的内容,这是一项重要的技能,涵盖了许多编程主题。当需要扩展数据操作的规模时,了解.apply()的工作原理将有助于编写并行和分布式代码。
第二部分
该部分重点介绍加载数据后如何进一步处理数据。
第6章侧重于数据集的合并,即要么将它们连接在一起,要么合并不同的数据。
第7章介绍规范化数据以更稳健地存储数据。
第8章介绍.groupby()操作(即拆分应用组合)。这些强大的概念,如.apply(),通常是扩展数据所必需的,也是高效聚合、转换或过滤数据的好方法。
第三部分
该部分涵盖存储在列中的数据类型。
第9章介绍数据缺失会引发的问题、如何创建数据以填充缺失数据,以及如何处理缺失数据,特别是当对这些数据进行计算时可能会出现的问题。
第10章介绍数据类型,以及如何在DataFrame列中转换类型。
第11章介绍字符串操作,这是数据清理任务中经常遇到的问题,因为数据通常被编码为文本。
第12章探讨Pandas强大的日期和时间功能。
第四部分
在数据全部清洗完毕并准备就绪后,下一步就是拟合模型。模型不仅可用于预测、聚类和推断,还可用于探索性的目的。该部分的目标不是讲授统计学(这方面的书已经很多了),而是想展示这些模型的拟合方法,以及它们是如何与Pandas交互的。该部分内容对于使用其他编程语言进行模型拟合也颇具借鉴意义。
第13章的线性模型是一种较简单的拟合模型。本章介绍如何使用statsmodels库和Scikitlearn库来拟合这些模型。
第14章的广义线性模型,顾名思义,是更广义上的一种线性模型。通过该模型我们可以用不同的响应变量来拟合模型,例如二元数据或计数数据。
第15章介绍生存模型,当出现数据删失时需要用到它。
第16章,在拟合好核心模型之后需要进行模型诊断,对多个模型进行比较,并选出“最佳”模型。
第17章,当拟合的模型过于复杂或出现过拟合时,就要用到正则化技术。
第18章,当不知道数据中隐含的真实答案时可以使用聚类技术,但需要一种方法将“相似”的数据点聚类或进行分组。
第五部分
本书最后部分主要介绍Python的生态系统,并提供了一些额外的参考资料。
第19章简单介绍Python的计算堆栈,并开启了代码性能和扩展的学习之路。
第20章提供一些额外的链接和参考资料。
附录
可以将附录视为Python编程的入门教程。虽然它们并不是Python的完整介绍,但各个附录确实是对本书某些主题的有益补充。
附录A为介绍性章节,提供了概念图,以帮助分解概念并将其相互关联。
附录B~附录J涵盖与运行Python代码相关的所有任务,从安装Python到使用命令行执行脚本,再到组织代码,还包括创建Python环境和安装库。
附录K~附录Y涵盖与Python和Pandas相关的编程概念,是本书主要的补充参考。
附录Z复制了R中的一些建模代码,作为比较类似结果的参考。
如何阅读本书
无论是Python新手还是经验丰富的Python程序员,都建议从头至尾阅读整本书。拟将本书用作教材的读者会发现,本书的章节安排很适合研讨班或课堂教学。
对于初学者
对于初学者来说,建议先浏览附录A~附录J,因为这些附录中讲解了如何安装Python并使其正常工作。完成这些步骤后,读者就可以学习本书的主要内容了。前几章在必要时均引用了相关附录,并在开头给出了概念图和学习目标,有助于读者了解该章要介绍的主要内容,同时指出了需提前阅读的相关附录。
对于经验丰富的Python程序员
对于经验丰富的Python程序员来说,前两章的内容足以入门并掌握Pandas的语法,可以将本书其余的部分作为参考。前几章开头部分的学习目标指出了本章涵盖的主题。第一部分中关于“整洁数据”的章节和第三部分的章节对数据操作特别有帮助。
对于培训讲师
对于培训讲师来说,若将本书用作教学参考可按书中顺序来讲授每一章。每章的教学时长约为45~60分钟。本书在结构安排上尽量使各章不引用后续章节的内容,从而最大限度地减少学生的学担——但可以根据实际需要灵活调整章节的顺序。
附录A中的概念图和前几章中列出的学习目标有助于了解概念之间的关系。
设置
每个人的计算机设置都会有所不同,因此,要想获得有关设置环境的最新说明可以访问本书在GitHub的页面,或者参考附录B以获取有关如何在计算机上安装Python的信息。
获取数据
获取本书所有数据和代码的最简单方法是扫描下方二维码。有关如何下载本书数据的最新说明可以在本书的存储库中找到,存储库及有关如何获得本书的更详细说明参见附录B.3。
安装Python
附录G和附录H分别给出了环境和安装软件包,可以从中找到如何设置Python的URL(Uniform Resource locator,URL,统一资源定位系统)和命令,以便编写代码。同样,本书的存储库中始终包含最新的说明。

全书代码

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2025 (香港)大書城有限公司 All Rights Reserved.