新書推薦:
《
关键改变:如何实现自我蜕变
》
售價:NT$
352.0
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:NT$
454.0
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:NT$
286.0
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:NT$
265.0
《
明式家具三十年经眼录
》
售價:NT$
2387.0
《
敦煌写本文献学(增订本)
》
售價:NT$
1010.0
《
耕读史
》
售價:NT$
500.0
《
地理计算与R语言 [英] 罗宾·洛夫莱斯 [德]雅纳·蒙乔 [波兰] 雅库布·诺沃萨德
》
售價:NT$
551.0
|
編輯推薦: |
交通领域需要有一本图书能够系统地梳理交通时空数据处理中所涉及的各种基
础知识,总结数据处理过程中的各类解决方案,介绍如何用跨学科的方法从数据中挖掘出
有价值的信息
|
內容簡介: |
大数据时代已经到来,随着数据的逐步开放,交通领域的研究课题或多或少都要接触、使用时空
大数据。交通领域的从业者迫切需要强有力的工具和技术应对日益纷杂的交通数据。交通是一个交叉
学科,交通数据分析人才的知识体系需要与数据处理、网络爬虫、数据可视化、地理信息、复杂网络、
数据挖掘、机器学习等多学科知识深度融合,这也为交通领域的人才培养带来巨大挑战。
在此背景下,本书针对不同的学习阶段与业务需求设计了三篇共15章内容。基础篇(第1~5章)
梳理Python数据分析、网络爬虫、数据可视化、地理信息等基础知识;应用篇(第6~10章)介绍
出租车GPS数据、地铁IC刷卡数据、共享单车订单数据、公交GPS数据等各类时空大数据的实际案
例应用;方法篇(第11~15章)融汇数据挖掘、空间统计、复杂网络学科等交叉学科方法,与交通
领域的大量实际案例分析结合,全面梳理总结交通时空大数据所需跨学科技能。
本书由浅入深,学科交叉,强调实践。对读者不同的学习阶段与业务需求设计相应内容,全面梳
理总结交通大数据科研所需技能,并与交通领域的大量实际案例分析结合。本书可作为教材也可作为
参考工具书,基础篇定位交通数据领域新手入门,应用篇定位有数据分析需求的高校学生或社会人士,
方法篇定位高校学术科研人员。
|
關於作者: |
余庆(交通数据小旭学长)
博士,南方科技大学斯发基斯可信自主系统研究院助理研究员,交通时空大数据开源Python库TransBigData作者。B站交通时空大数据相关视频课程总播放量超过80万。2022年博士毕业于同济大学交通运输工程专业,博士期间赴日本东京大学公派联合培养,主要研究方向为交通大数据分析、数据可视化、城市计算,发表SCI论文十余篇。自2020年起在B站上制作交通时空大数据相关课程,涵盖时空数据处理、数据可视化等。
李玮峰
同济大学交通运输工程学院助理研究员,博士。主要研究方向为交通规划、智能交通系统规划和交通大数据分析。参加国家重点研发计划项目1项、国家自然科学基金重点项目2项、面上项目2项,国家科技支撑计划项目2项,同时参加地方政府和科研院所的研究与咨询项目多项。发表期刊及会议论文50余篇,其中SCI收录16篇、EI收录20余篇;完成专著3本;获得发明专利4项,软件著作权3项。
|
目錄:
|
目 录
基 础 篇
第1章 绪论 ·····························2
1.1 多源交通时空大数据简介 ················2
1.1.1 传统集计统计数据 ·······························3
1.1.2 个体连续追踪数据 ·······························4
1.1.3 地理空间信息数据 ·······························5
1.2 为什么要用Python处理交通大数据 ·····6
1.2.1 常用数据处理技术 ·······························6
1.2.2 Python在交通大数据领域中的优势 ····8
1.2.3 Python与SQL的比较 ····························9
1.3 大规模数据处理的解决方案··············9
1.3.1 决定大数据处理性能的三个硬件
要素 ·······················································9
1.3.2 分布式数据处理架构 ·························11
1.4 本章习题 ···································14
第2章 Python数据处理基础 ······15
2.1 Python的环境配置 ························15
2.1.1 Python的集成开发环境 ······················15
2.1.2 Anaconda的安装 ·································16
2.1.3 Jupyter Notebook的使用 ·····················16
2.1.4 Python第三方库的安装 ······················18
2.2 Python基本语法 ···························19
2.2.1 对象与变量 ·········································19
2.2.2 运算符 ·················································20
2.2.3 内置数据类型 ·····································20
2.2.4 语句 ·····················································24
2.2.5 函数 ·····················································26
2.2.6 包的使用 ·············································27
2.2.7 数据分析常用第三方库简介 ·············28
2.3 pandas数据处理基础 ·····················29
2.3.1 数据文件的编码格式与存储形式 ·····30
2.3.2 数据表的行列处理 ·····························33
2.3.3 数据的表格运算 ·································41
2.4 时空大数据的处理思维 ·················46
2.4.1 复杂数据处理任务的解决思路 ·········46
2.4.2 数据处理任务分解实例:地铁换乘量
识别 ······················································49
2.5 数据处理中表格运算的常用技巧 ······51
2.5.1 分组编号 ·············································51
2.5.2 去除重复的记录 ·································53
2.5.3 个体ID重新编号 ·································54
2.5.4 生成数据之间的对应表 ·····················55
2.5.5 时空插值 ·············································58
2.6 本章习题 ···································60
2.6.1 思考题 ·················································60
2.6.2 Python基础代码练习 ··························60
2.6.3 pandas基础代码练习 ··························62
第3章 数据可视化基础 ············64
3.1 可视化的基本原则 ·······················64
|
內容試閱:
|
前 言
大数据时代已经到来,随着数据的逐步开放,交通领域的研究课题或多或少都要接
触、使用时空大数据。交通领域中大数据的实际应用需求增加,也促使交通数据分析师、
交通数据科学家的职业诞生。交通领域的从业者迫切需要强有力的工具和技术应对日益纷
杂的交通数据。
交通领域目前需要处理的数据通常规模巨大、种类繁多,数据通常涉及个体级别连
续追踪的时空数据。其中,数据所包含的最重要的信息包括:谁?什么时候?在哪里?
数据通常有多种来源,各种类型的数据格式不同、数据特征不同、数据质量不同,
则要求我们的处理技术能够灵活多变,针对不同数据情况有不同的处理方法。在时间层面
的连续追踪,相比传统的数据库检索处理,在处理过程中则更加强调连续数据之间时间序
列前后的逻辑,我们关注的不再只是单一的某条数据,而是时间上连续的几条、几十条
记录;在空间层面的GPS定位数据,在处理过程中则要求我们能够将经纬度转换、距离计
算、空间位置关系判断、空间聚合集计等地理空间数据处理技术紧密、高效、无缝地与整
个数据处理流程相衔接。如何应对多源时空大数据?前面提到的众多要求对我们所需掌握
的数据处理技术带来了巨大挑战。
在获取交通时空数据后,我们马上就会面临着以下工作:如何处理数据?如何处理
GPS定位数据的经纬度信息?如何可视化数据?如何获取其他辅助的数据(如路网、公交
和地铁线路等)?同时,我们还要关注:各类数据有什么特征?怎么样处理这些数据才更
合适、更高效?
然而,这其中所遇到的很多问题都是传统的交通学科所学课程内容无法囊括与解答
的。交通学子可能需要在没有接触过编程的时候就需要写出足以处理大规模数据的代码,
在没有学习了解地理坐标系与投影坐标系的情况下就要处理经纬度数据,在没有学习过数
据可视化的基本原则时就需要绘制图表并展示数据。这样的工作很可能是低效的,数据处
理所产生的结果也可能是有偏差或错误的。
因此,交通领域需要有一本教材能够系统地梳理交通时空数据处理中所涉及的各种基
础知识,总结数据处理过程中的各类解决方案,介绍如何用跨学科的方法从数据中挖掘出
有价值的信息。
本书,就是为这一目的而生。
|
|