新書推薦: 《 
			DK草药大百科
			》  售價:HK$ 
			1367
			  
			《 
			甲骨文丛书·英国人在印度:三百年社会史
			》  售價:HK$ 
			806
			  
			《 
			唯美手编.17,绚丽的春夏毛衫
			》  售價:HK$ 
			250
			  
			《 
			朱可夫回忆录:艰难的胜利
			》  售價:HK$ 
			653
			  
			《 
			儿童与青少年异常心理学(第四版)
			》  售價:HK$ 
			1010
			  
			《 
			积弊:清朝的中叶困境与周期感知(一部政治思想史力作,反思传统时代的王朝周期)
			》  售價:HK$ 
			403
			  
			《 
			江河回望:中国文化与人生价值  许倬云 著 许先生最后的凝望与嘱托 人文精神 中国文化内核
			》  售價:HK$ 
			398
			  
			《 
			从概念到思维——写给法科新生的12堂法学导读课
			》  售價:HK$ 
			347
			  
			 
     
      
      
         
          編輯推薦:  
         
           
            跟上Apache Drill的步伐!Apache Drill是一个可扩展的分布式SQL查询引擎,它可以从各种主流文件格式中读取数据,比如Parquet、JSON和CSV。它可以访问HDFS或类似S3这样的原生云存储系统,可以与Hive metastore集成,也可以与HBase、MongoDB这样的分布式数据库或传统的关系型数据库集成。它可以在你的笔记本电脑上运行,也可以被部署在超大规模的集群中。
 
         
      
      
      
      
      
         
          內容簡介:  
         
           
            使用Drill来清洗、准备和汇总原始数据供后期分析使用。 
         
      
      
      
      
         
          關於作者:  
         
           
            Charles Givre是Apache Drill的PMC成员,他是德意志银行中央安全办公室的首席数据科学家。他致力于培养数据科学家并教授数据分析技能,为此他还合伙创办自己的培训公司GTK Cyber。他在全球各种会议和高校教授上述主题的内容。
 
         
      
      
      
      
         
          目錄  
         
           
            目录前言 1第1 章 Apache Drill 入门 7什么是Apache Drill 8Drill 用途广泛 8Drill 非常易用 10有关Drill 的性能 11大数据简史 11大数据生态中的Drill 13Drill 与类似工具的比较 13第2 章 安装与运行 15准备系统环境 16Windows 环境下的特殊配置 16在Windows 上安装Drill 18在Windows 上启动Drill 18在macOS 或Linux 上安装嵌入模式的Drill 19在macOS 或Linux 上以嵌入模式运行Drill 20在macOS 或 Linux 上安装分布式模式的Drill 21为Drill 准备集群环境 22启动分布式模式的Drill 23连接集群 23小结 24第3 章 Apache Drill 概述 25Apache Hadoop 生态 25Drill 是一个低延迟的查询引擎 26使用HDFS 进行分布式数据处理 27Drill 系统结构 27Drill 操作概览 28Drill 是一个查询引擎,不是数据库 29Drill 操作概述 30Drill 组件 30SQL 会话状态 30编译查询语句 31查询语句执行 36低延迟特性38小结 41第4 章 查询包含分隔符的数据 42通过Drill 查询数据的几种方式 42其他操作接口 43Drill SQL 查询格式 44选择数据源44定义工作区46指定默认数据源 47在查询中访问列 49带表头并包含分隔符的数据 51Table 函数 53查询目录中的数据 53理解Drill 的数据类型 55使用字符串处理函数清洗和准备数据 57复杂数据转换函数 59操作Drill 中的日期和时间 60把字符串转换为日期 61对日期进行重新格式化 63日期计算与操作 63Drill 中的日期时间函数 64创建视图 65使用Drill 进行数据分析 66通过聚合函数对数据进行统计 68查询包含分隔符数据的常见问题 75列名中的空格 75列名中的非法字符 76字段名中的保留字 76小结 77第5 章 分析复合与嵌套数据 78数组与Map 78Drill 中的数组 79在Drill 中访问Map(键?C 值对) 81查询嵌套数据 83使用Drill 分析日志文件 91配置Drill 读取httpd Web 服务器的日志 91查询Web 服务器日志 92用Drill 对其他类型的日志进行分析 97小结 100第6 章 把Drill 连接到数据源 101查询多种数据源 102配置新的存储插件 102用Drill 连接关系型数据库 103通过Drill 查询Hadoop 数据 108用Drill 连接并查询HBase 108用Drill 查询Hive 数据 110连接Kafka 查询流数据 113提高Kafka 查询的性能 115连接并查询Kudu 115用Drill 连接并查询MongoDB 数据 116把Drill 连接到云存储 116用Drill 从OpenTSDB 查询时间序列数据 121小结 122第7 章 连接Drill 123理解Drill 的接口 123JDBC 与Drill 124ODBC 与Drill 125Drill 的REST 接口 127使用Python 连接Drill 128使用drillpy 对Drill 发起查询 129使用pydrill 连接Drill 130其他通过Python 连接Drill 的方法 131用R 语言连接Drill 133使用sergeant 在R 中查询Drill 133通过Java 连接Drill 135在PHP 中查询Drill 136使用连接器137在PHP 中执行Drill 查询 137在PHP 中操作Drill 138使用Nodejs 查询Drill 139在BI 工具中使用Drill 作为数据源 139使用Apache Zeppelin 和Drill 分析数据 139使用Apache Superset 分析数据 145小结 151第8 章 用Drill 完成数据工程工作 152读时Schema 152SQL 关系模型 153数据生命周期:数据探索到生产 154Schema 推导 155数据源推导 155存储插件 156存储配置 156工作区 157查询目录 159默认Schema 159文件类型推导 160格式插件与格式配置 160格式推导 161文件格式变种 162Schema 推导概述163分布式扫描 165带分隔符数据的Schema 推导 167CSV 文件处理小结 173JSON 文件的Schema 推导 175二义性数值Schema 178在文件间保证Schema 一致 184JSON 对象 186Drill 中的JSON 列表 189JSON 小结 193在Drill 中使用Parquet 文件格式 194Parquet 中的Schema 进化 195分区数据目录 195定义表工作区 198处理生产环境中的查询 199捕捉Schema 映射视图 199在脚本中运行复杂查询 200小结 201第9 章 在生产环境部署Drill 202安装Drill 202前置需求 203生产环境安装 204配置ZooKeeper 205内存配置 206配置日志 208测试安装是否成功 209分发Drill 可执行文件和配置 210启动Drill 集群 211配置存储 212使用Apache Hadoop HDFS 213使用Amazon S3 214准入控制 217其他配置 219用户自定义函数与自定义插件 219安全 220日志级别 220控制CPU 使用 222监控 223监控Drill 的进程 224监控JMX 指标 224监控查询 225其他部署选项 225MapR 安装程序 226Drill-on-YRAN 226Docker 226小结 227第10 章 搭建开发环境 228安装Maven 228创建Drill 的编译环境 229设置Git 并获取源代码 229从代码编译Drill 230安装IDE 231小结 231第11 章 编写用户自定义函数 232用例:找出合法的信用卡号码 232Drill 中的用户自定义函数是怎么工作的 234Drill 的简单UDF 结构 234pomxml 文件 235函数文件 236简单函数API 240完整的代码241构建与安装UDF 243静态安装UDF 243动态安装UDF 243复合函数:返回Map 或数组的UDF 244例子:解析User Agent 元数据 245ComplexWriter 对象 246编写聚合UDF 248聚合函数API 249聚合UDF 示例:肯德尔秩相关系数 249小结 252第12 章 编写格式插件 253正则表达式格式插件 253基于Easy 框架创建格式插件 255创建Maven 的pomxml 文件 256创建插件包258Drill 模块配置 258格式插件配置 259注意事项 259创建正则表达式格式插件配置类 260版权声明头与代码格式 262测试配置 262解决配置问题 263排查问题 264创建格式插件类 264创建测试文件 267配置RAT 267高效调试 267创建单元测试 268Drill 是如何找到插件的 270记录读取器 270测试读取器的壳 273日志 274出错处理 274初始化 275解析正则表达式 276定义列名 276投影 277记录列投影映射 278空投影 278全投影 279部分投影 279打开文件 281记录批 282Drill 的列存结构 282定义向量 283读取数据 284把数据放入向量 285释放资源 286测试读取器 286测试通配符场景 286测试显式投影 288测试空投影288扩展 288其他细节 290文件块 290默认格式配置 290下一步 292生产版本 292给Drill 贡献代码:使用Pull Request 292维护你的分支 293创建插件项目 293小结 294第13 章 特殊用法 296查找在特定区域拍摄的照片 296分析Excel 文件 297pomxml 文件 298Excel 自定义记录读取器 299使用Excel 格式插件 303用Drill 分析网络数据包(PCAP 文件) 304查询PCAP 数据文件的例子 304使用Drill 分析Twitter 数据 308在机器学习流程中使用Drill 309通过Drill 进行预测 310建立与序列化模型 310编写UDF 封装类 311通过UDF 进行预测 313小结 313附录A Drill 函数列表 315附录B Drill 格式化字符串 331
           
         
      
      
      
      
         
          內容試閱  
         
           
            前言