新書推薦:
《
人生解忧:佛学入门四十讲
》
售價:NT$
490.0
《
东野圭吾:分身(东野圭吾无法再现的双女主之作 奇绝瑰丽、残忍又温情)
》
售價:NT$
295.0
《
浪潮将至
》
售價:NT$
395.0
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:NT$
260.0
《
斯大林格勒:为了正义的事业(格罗斯曼“战争二部曲”的第一部,《生活与命运》前传)
》
售價:NT$
840.0
《
日内交易与波段交易的资金风险管理
》
售價:NT$
390.0
《
自然信息图:一目了然的万物奇观
》
售價:NT$
640.0
《
经纬度丛书·州县之民:治乱之间的小民命运
》
售價:NT$
440.0
|
內容簡介: |
数据科学如今已经深入到我们生活中的各个领域,行业从业者都应该懂得一些数据科学的知识。那么如何能够快速掌握这门流行的技术呢?通过系统地学习本书和动手实践,可以满足这个需求。本书共六个部分,用通俗的语言和生动的例子为读者展现数据科学的魅力。第一部分介绍了数据科学的基本知识,让读者可以轻松了解它的流程与原理。第二部分,通过几个例子为读者介绍如何处理各种数据,从电子表格到网络抓取,涵盖了工作中的常用数据处理方法。第三部分,使用通俗易懂的语言为读者介绍数据科学中使用到的统计学知识。第四部分,通过示例介绍机器学习技术,让读者可以根据以往的数据对未来进行预测。在本书的后两部分,为读者介绍如何对文本进行分析及制作生动的报告,并讨论了数据科学的未来发展趋势。
|
關於作者: |
Nathan George在科罗拉多州丹佛市的里吉斯大学(Regis University)担任教授并讲授了4年的数据科学课程。他拥有化学工程、LED照明用荧光粉和薄膜太阳能电池方面的相关背景,并利用所学知识成为一名数据科学家。他为Regis、DataCamp和ManningliveProject创建了许多数据科学课程。Nathan还为在Udacity学习人工智能和机器学习的学生提供指导。他目前在瑞典斯德哥尔摩的一家金融科技公司Tink担任数据科学家。殷海英,从2013年底开始在美国大学作为客座教授,主持数据分析与数据科学项目的研究生研修班,截止2021年已经开办近20期,培训来自世界多个国家的数百名硕士(含博士)研究生。并独立编写数据分析与数据科学教材,并设计多版实训教程。在甲骨文公司,作为亚太区的数据科学家参与Oracle数据科学产品的研发与推广。近期的主要研究方向为机器视觉与高性能运算在现实当中的应用。作为甲骨文公司官方媒体的管理员及编辑,从2016年起编写并发表近100篇技术文章,涵盖数据库技术、数据科学以及机器视觉等方面。
|
目錄:
|
第1部分 简介和基础知识第1章 数据科学简介2数据科学的起源2顶级数据科学工具和技能5GUI和平台9云端工具10统计方法和数学12数据的收集、组织和准备12软件开发13业务理解与沟通13数据科学及相关专业13选择如何专业化16数据科学项目方法论18进一步阅读数据科学项目管理策略20本章测试21本章小结21第2章 Python入门23使用Anaconda安装并使用Python23运行Python代码25为什么使用命令行31安装并使用代码文本编辑器—VS Code33安装Python包和创建虚拟环境35Python基础38列表、元组、集合和字典45循环和遍历49布尔值和条件51包和模块53函数55类57多线程和多进程58软件工程最佳实践59开发技巧62本章测试64本章小结64第2部分 处理数据第3章 Python中的SQL和内置文件处理模块67本章主要内容67使用基础Python加载、读取和写入文件67在Python中使用SQLAlchemy包85本章测试87本章小结88第4章 使用Pandas和NumPy加载和整理数据89对iTunes数据进行整理和分析89使用Pandas进行探索性数据分析(EDA)和基本数据清理94清洗数据104使用GroupBy115将DataFrame写入磁盘116分析比特币价格数据117了解NumPy基础知识119本章测试122本章小结122第5章 探索性数据分析和可视化123Python中的EDA和可视化库123使用Seaborn和pandas执行EDA124使用Python EDA包140使用可视化最佳实践148为共享及报告保存绘图157使用Plotly进行绘图158本章测试161本章小结161第6章 数据处理文档和电子表格163解析和处理Word和PDF文档163使用Excel文件读取和写入数据176分析数据181使用openpyxl处理Excel文件182本章测试184本章小结184第7章 网页抓取186了解互联网的结构187执行简单的网页抓取189从抓取的页面中解析HTML196使用XPath、lxml和bs4从网页中提取数据199从多个页面收集数据203使用API收集数据205使用API包装器207网络抓取的道德规范及合法性212本章测试213本章小结214第3部分 数据科学中的统计学第8章 概率、分布和抽样216概率基础216分布223从数据中采样234本章测试237本章小结238第9章 数据科学的统计检验239统计检验基础和样本比较检验239其他统计检验248本章测验251本章小结251第4部分 机器学习第10章 为机器学习准备数据:特征选择、特征工程和降维253机器学习的类型253特征选择255单变量统计特征选择260特征工程270数据的清洗和准备271转换数值数据277提取日期时间特征281分箱(Binning)282热独编码和标签编码283降维287本章测试291本章小结292第11章 机器学习分类293机器学习分类算法293逻辑回归的工作原理297使用sklearn检查特征的重要性299使用统计模型进行逻辑回归301最大似然估计、优化器和逻辑回归算法304正则化307超参数和交叉验证308大数据的逻辑回归(和其他模型)310用于二元分类的朴素贝叶斯311k-最近邻(KNN)313多类分类315选择正确的模型319“没有免费的午餐”定理319模型的计算复杂度320本章测试321本章小结321第12章 评估机器学习分类模型和分类抽样322使用指标评估分类算法的性能322采样和平衡分类数据339本章测试344本章小结344第13章 带有回归的机器学习345线性回归345评估回归模型354线性回归假设358大数据回归模型362预测363本章测试366本章小结366第14章 优化模型和使用AutoML368使用搜索方法进行超参数优化368使用ML模型优化特征数量377使用PyCaret进行AutoML378本章测试384本章小结384第15章 基于树的机器学习模型385决策树385随机森林390基于树的方法的特征重要性395增强树模型:AdaBoost、XGboost、LightGBM和CatBoost397在GPU上训练增强模型404LightGBM405CatBoost408使用提前停止的算法410本章测试411本章小结411第16章 支持向量机(SVM)机器学习模型413SVM是如何工作的414使用SVM416本章测试421本章小结421第5部分 文本分析和报告第17章 使用机器学习进行聚类423使用k-means聚类423聚类指标424优化k-means中的K425检查聚类429层次聚类433DBSCAN436其他无监督方法438本章测试439本章小结439第18章 处理文本441文本预处理441基本的文本分析453无监督学习463监督学习467本章测试474本章小结474第6部分 总结第19章 讲述数据故事和自动报告及仪表板477用数据讲故事477自动报告和仪表板484本章测试491本章小结491第20章 道德与隐私492机器学习算法的道德492偏见492数据隐私495将数据科学用于公共利益501其他道德考虑502本章测试504本章小结504第21章 数据科学的发展与未来506博客、newsletter、书籍和学术资源506在线学习平台510云服务511其他值得关注的内容511保持与时俱进的策略512其他没有在本书中涉及的内容512数据科学的未来发展514本章小结515
|
|