登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

『簡體書』Java自然语言处理

書城自編碼: 3150922
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作 者: [美] 理查德M.里斯
國際書號(ISBN): 9787111592112
出版社: 机械工业出版社
出版日期: 2018-03-01
版次: 1
頁數/字數: 193/122000
書度/開本: 16开 釘裝: 平装

售價:NT$ 384

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
历史的严妆:解读道学阴影下的南宋史学(中华学术·有道)
《 历史的严妆:解读道学阴影下的南宋史学(中华学术·有道) 》

售價:NT$ 500.0
海外中国研究·江南:中国文雅的源流
《 海外中国研究·江南:中国文雅的源流 》

售價:NT$ 347.0
迟缓的巨人:“大而不能倒”的反思与人性化转向
《 迟缓的巨人:“大而不能倒”的反思与人性化转向 》

售價:NT$ 352.0
我们去往何方:身体、身份和个人价值
《 我们去往何方:身体、身份和个人价值 》

售價:NT$ 305.0
大学问·批判的武器:罗莎·卢森堡与同时代思想者的论争
《 大学问·批判的武器:罗莎·卢森堡与同时代思想者的论争 》

售價:NT$ 449.0
低薪困境:剖析日本经济低迷的根本原因
《 低薪困境:剖析日本经济低迷的根本原因 》

售價:NT$ 301.0
穷人的银行家(诺贝尔和平奖获得者穆罕默德·尤努斯自传)
《 穷人的银行家(诺贝尔和平奖获得者穆罕默德·尤努斯自传) 》

售價:NT$ 347.0
绵延:文明分野与文化演进
《 绵延:文明分野与文化演进 》

售價:NT$ 301.0

建議一齊購買:

+

NT$ 425
《 自然语言处理技术入门与实战 》
+

NT$ 425
《 区块链核心算法解析 》
+

NT$ 497
《 DevOps:软件架构师行动指南 》
+

NT$ 593
《 实时分析:流数据的分析与可视化技术 》
內容簡介:
自然语言处理(NLP)是应用程序开发的重要领域,在解决实际问题中起着越来越重要的作用。NLP任务支持的自然语言可访问应用程序需求显著增。本书将探索如何使用诸如全文本搜索、专有名称识别、聚类、标记、信息提取、汇总等方法自主组织文本。书中涵盖了NLP的概念,即使没有统计或自然语言处理背景的人也可以理解它。
關於作者:
bout the Author
作者简介
Richard M. Reese曾就职于学术界和工业界。他曾在电信和航天工业领域工作17年,期间曾担任研发、软件开发、监督和培训等多个职位。他目前任教于塔尔顿州立大学,运用他多年来积累的行业经验来完善他的课程。
Richard曾出版过关于Java和C的书籍,他使用简洁易用的方法讨论主题,这些书籍包括《EJB 3.1 Cookbook》,有关Java 7和Java 8的新功能、Java认证以及jMonkey引擎,以及一本关于C指针的书。
我要感谢我的女儿詹妮弗,因她发表了很多评论,并做出很大贡献。她的付出是无价的。
目錄
CONTENTS
目录
译者序
作者简介
审校者简介
前言
第1章 NLP简介1
1.1 什么是NLP2
1.2 为何使用NLP3
1.3 NLP的难点4
1.4 NLP工具汇总5
1.4.1 Apache OpenNLP6
1.4.2 Stanford NLP7
1.4.3 LingPipe9
1.4.4 GATE10
1.4.5 UIMA10
1.5 文本处理概览10
1.5.1 文本分词11
1.5.2 文本断句12
1.5.3 人物识别14
1.5.4 词性判断16
1.5.5 文本分类17
1.5.6 关系提取18
1.5.7 方法组合20
1.6 理解NLP模型20
1.6.1 明确目标20
1.6.2 选择模型21
1.6.3 构建、训练模型21
1.6.4 验证模型22
1.6.5 使用模型22
1.7 准备数据22
1.8 本章小结24
第2章 文本分词25
2.1 理解文本分词25
2.2 什么是分词26
2.3 一些简单的Java分词器28
2.3.1 使用Scanner类29
2.3.2 使用split方法30
2.3.3 使用BreakIterator类31
2.3.4 使用StreamTokenizer类32
2.3.5使用StringTokenizer类34
2.3.6使用Java核心分词法的性能考虑34
2.4NLP分词器的API34
2.4.1使用OpenNLPTokenizer类分词器35
2.4.2使用Stanford分词器37
2.4.3训练分词器进行文本分词41
2.4.4分词器的比较44
2.5理解标准化处理45
2.5.1转换为小写字母45
2.5.2去除停用词46
2.5.3词干化49
2.5.4词形还原51
2.5.5使用流水线进行标准化处理54
2.6本章小结55
第3章 文本断句56
3.1SBD方法56
3.2SBD难在何处57
3.3理解LingPipe的HeuristicSen-tenceModel类的SBD规则59
3.4简单的Java SBD60
3.4.1使用正则表达式60
3.4.2使用BreakIterator类62
3.5使用NLP API63
3.5.1使用OpenNLP64
3.5.2使用Stanford API66
3.5.3使用LingPipe74
3.6训练文本断句模型78
3.6.1使用训练好的模型80
3.6.2使用SentenceDetector-Evaluator类评估模型81
3.7本章小结82
第4章 人物识别83
4.1NER难在何处84
4.2NER的方法84
4.2.1列表和正则表达式85
4.2.2统计分类器85
4.3使用正则表达式进行NER86
4.3.1使用Java的正则表达式来寻找实体86
4.3.2使用LingPipe的RegEx-Chunker类88
4.4使用NLP API89
4.4.1使用OpenNLP进行NER89
4.4.2使用Stanford API进行NER95
4.4.3使用LingPipe进行NER96
4.5训练模型100
4.6本章小结103
第5章 词性判断104
5.1词性标注104
5.1.1词性标注器的重要性107
5.1.2词性标注难在何处107
5.2使用NLP API109
5.2.1使用OpenNLP词性标注器110
5.2.2使用Stanford词性标注器118
5.2.3使用LingPipe词性标注器125
5.2.4训练OpenNLP词性标注模型129
5.3本章小结131
第6章 文本分类132
6.1文本分类问题132
6.2情感分析介绍134
6.3文本分类技术135
6.4使用API进行文本分类136
6.4.1OpenNLP的使用136
6.4.2Stanford API的使用140
6.4.3使用LingPipe进行文本分类145
6.5本章小结152
第7章 关系提取153
7.1关系类型154
7.2理解解析树155
7.3关系提取的应用156
7.4关系提取159
7.5使用NLP API159
7.5.1OpenNLP的使用159
7.5.2使用Stanford API162
7.5.3判断共指消解的实体166
7.6问答系统的关系提取168
7.6.1判断单词依赖关系169
7.6.2判断问题类型170
7.6.3搜索答案171
7.7本章小结173
第8章 方法组合174
8.1准备数据175
8.1.1使用Boilerpipe从HTML中提取文本175
8.1.2使用POI从Word文档中提取文本177
8.1.3使用PDFBox从PDF文档中提取文本181
8.2流水线182
8.2.1使用Stanford流水线182
8.2.2在Standford流水线中使用多核处理器187
8.3创建一个文本搜索的流水线188
8.4本章小结193
內容試閱
PREFACE前言自然语言处理(NLP)已用于解决各种各样的问题,包括对搜索引擎的支持,对网页文本的总结与分类,以及结合机器学习技术解决诸如语音识别、查询分析等问题。它已经在任何包含有用信息的文件中使用。
NLP用于增强应用程序的实用性和功能,主要通过简化用户输入以及将文本转换成更加可用的形式来实现。实际上,NLP能够处理各种来源的文本,使用一系列核心NLP任务从文本中转化或提取信息。
本书重点介绍NLP应用中可能遇到的核心NLP任务,每个NLP任务都从问题的描述以及可应用领域开始。介绍每项任务中比较困难的问题,以便你能更好地理解问题。随后通过使用大量的Java技术和API来支持NLP任务。
本书涵盖内容第1章解释了NLP的重要性和用法。本章以简单的例子来解释如何使用NLP技术。
第2章主要讨论标记化,标记化是使用更为先进的NLP技术的第一步,本章介绍了核心Java和Java NLP标记化API。
第3章证明句子边界消歧技术是一个重要的NLP任务。这一步是其他许多下游NLP任务的预处理步骤,其中文本元素不应跨越句子边界进行分隔。这样就可以确保所有短语都在一个句子中,并支持词性分析。
第4章涵盖了通常所说的命名实体识别。这个任务主要涉及识别人、地点和文本中相似的实体。该技术是处理查询和搜索的初始步骤。
第5章说明如何检测词性,词性是文本中的语法元素,例如名词和动词。识别这些元素是确定文本含义和检测文本内关系的重要步骤。
第6章证明文本分类对于垃圾邮件检测和情感分析等任务非常有用。此外,本章也对支持文本分类的NLP技术进行了调查和说明。
第7章演示解析树。解析树可应用于很多目的,其中包括信息提取。信息提取拥有这些元素之间关系的信息。通过一个实现简单查询的例子来说明这个过程。
第8章包含从各种类型的文件(如PDF和Word文件)中提取数据的技术。接下来主要介绍了如何将以前的NLP技术结合至一个管道中以解决更大的问题。
阅读本书的技术准备Java SDK 7用于说明NLP技术。各种NLP API是必需的并可以随时下载。IDE可选择,并不做强制要求。
本书读者对象对NLP技术感兴趣的、有Java经验的开发人员会发现这本书很有用。不需要事先具备NLP知识。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.