登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

『簡體書』多语自然语言处理:从原理到实践(第一本全面阐述如何构建健壮和准确的多语自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结出的实用解决方案)

書城自編碼: 2538720
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作 者: [美]比凯尔,[美]兹图尼 编,史晓东 等译
國際書號(ISBN): 9787111484912
出版社: 机械工业出版社
出版日期: 2015-02-01
版次: 1 印次: 1
頁數/字數: 448/
書度/開本: 16开 釘裝: 平装

售價:NT$ 822

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
津巴多时间心理学:挣脱束缚、改写命运的6种时间观
《 津巴多时间心理学:挣脱束缚、改写命运的6种时间观 》

售價:NT$ 352.0
大英博物馆东南亚简史
《 大英博物馆东南亚简史 》

售價:NT$ 806.0
纯粹·我只要少许
《 纯粹·我只要少许 》

售價:NT$ 367.0
投机苦旅:一位投机客的凤凰涅槃
《 投机苦旅:一位投机客的凤凰涅槃 》

售價:NT$ 403.0
重返马赛渔场:社会规范与私人治理的局限
《 重返马赛渔场:社会规范与私人治理的局限 》

售價:NT$ 316.0
日子慢慢向前,事事慢慢如愿
《 日子慢慢向前,事事慢慢如愿 》

售價:NT$ 254.0
场景供应链金融:将风口变成蓝海
《 场景供应链金融:将风口变成蓝海 》

售價:NT$ 509.0
汗青堂丛书146·布鲁克王朝:一个英国家族在东南亚的百年统治
《 汗青堂丛书146·布鲁克王朝:一个英国家族在东南亚的百年统治 》

售價:NT$ 418.0

建議一齊購買:

+

NT$ 425
《 精通Python自然语言处理 》
+

NT$ 706
《 NLP汉语自然语言处理原理与实践 》
+

NT$ 593
《 自然语言处理原理与技术实现 》
+

NT$ 656
《 驾驭文本:文本的发现、组织和处理 》
+

NT$ 260
《 自然语言处理基本理论和方法 》
內容簡介:
《多语自然语言处理:从原理到实践》是第一本全面阐述如何构建健壮和准确的多语自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结出的实用解决方案。
第一部分介绍现代自然语言处理的核心概念和理论基础,展示了如何理解单词和文档结构、分析语法、建模语言、识别蕴涵和检测冗余。第二部分彻底阐述与构建真实应用有关的实际考量,包括信息抽取、机器翻译、信息检索、文摘、问答、提炼、处理流水线等。
關於作者:
nielM.Bikel现为Google公司高级研究科学家,正在开发用于自然语言处理和语音识别的新方法。在IBM工作期间,他为IBM的GALE多语种信息抽取和自动应答系统构架了拦截系统。在宾夕法尼亚大学攻读博士后期间,他建造了第一个可扩展的多语种语法分析引擎。
ImedZitouni现为微软公司高级研究员。2004~2012年,他是IBM公司高级研究科学家,领导IBM公司的阿拉伯语信息抽取和数据资源工作组。在此之前,他还曾领导DIALOCA的语音自然语言处理组和Bell实验室阿尔卡特朗讯的语言建模和呼叫路由工作。他的研究涉及机器翻译、自然语言处理和口语对话系统。"
目錄
译者序
前言
关于作者
第一部分理论
 第1章找出词的结构
11词及其部件
111词元
112词形
113词素
114类型学
12问题和挑战
121不规则性
122歧义性
123能产性
13形态模型
131查词典
132有限状态形态
133基于合一的形态
134函数式形态
135形态归纳
14总结
 第2章找出文档的结构
21概述
211句子边界检测
212主题边界检测
22方法
221生成序列分类方法
222判别性局部分类方法
223判别性序列分类方法
224混合方法
225句子分割的全局建模扩展
23方法的复杂度
24方法的性能
25特征
251同时用于文本与语音的特征
252只用于文本的特征
253语音特征
26处理阶段
27讨论
28总结
 第3章句法
31自然语言分析
32树库:句法分析的数据驱动方法
33句法结构的表示
331使用依存图的句法分析
332使用短语结构树的句法分析
34分析算法
341移进归约分析
342超图和线图分析
343最小生成树和依存分析
35分析中的歧义消解模型
351概率上下文无关文法
352句法分析的生成模型
353句法分析的判别模型
36多语言问题:什么是词元
361词元切分、实例和编码
362分词
363形态学
37总结
 第4章语义分析
41概述
42语义解释
421结构歧义
422词义
423实体与事件消解
424谓词论元结构
425意义表示
43系统范式
44词义
441资源
442系统
443软件
45谓词论元结构
451资源
452系统
453软件
46意义表示
461资源
462系统
463软件
47总结
471词义消歧
472谓词论元结构
473意义表示
 第5章语言模型
51概述
52n元模型
53语言模型评价
54参数估计
541最大似然估计和平滑
542贝叶斯参数估计
543大规模语言模型
55语言模型适应
56语言模型的类型
561基于类的语言模型
562变长语言模型
563判别式语言模型
564基于句法的语言模型
565最大熵语言模型
566因子化语言模型
567其他基于树的语言模型
568基于主题的贝叶斯语言模型
569神经网络语言模型
57特定语言建模问题
571形态丰富语言的建模
572亚词单元的选择
573形态类别建模
574无分词语言
575口语与书面语言
58多语言和跨语言建模
581多语言建模
582跨语言建模
59总结
 第6章文本蕴涵识别
61概述
62文本识别蕴涵任务
621问题定义
622RTE的挑战
623评估文本蕴涵系统性能
624文本蕴涵解决方案的应用
625其他语言中的RTE研究
63文本蕴涵识别的框架
631要求
632分析
633有用的组件
634通用模型
635实现
636对齐
637推理
638训练
64案例分析
641抽取语篇约束
642基于编辑距离的RTE
643基于转换的方法
644逻辑表示及推理
645独立于蕴涵学习对齐
646在RTE中利用多对齐
647自然逻辑
648句法树核
649使用有限依存上下文的全局相似度
6410RTE的潜在对齐推理
65RTE的进一步研究
651改进分析器
652发明或解决新问题
653开发知识库
654更好的RTE评价
66有用资源
661文献
662知识库
663自然语言处理包
67总结
 第7章多语情感与主观性分析
71概述
72定义
73英语中的情感及主观性分析
731词典
732语料库
733工具
74词级和短语级标注
741基于字典的方法
742基于语料库的方法
75句子级标注
751基于字典
752基于语料库
76文档级标注
761基于字典
762基于语料库
77什么有效,什么无效
771最佳情况:已有人工标注的语料库
772次优情形:基于语料库的跨语言映射
773 第三优情形:孳衍词典
774 第四优情形:翻译词典
775各种可行方法的比较
78总结
第二部分实践
 第8章实体检测和追踪
81概述
82提及检测
821数据驱动的分类
822搜索提及
823提及检测特征
824提及检测实验
83共指消解
831Bell树的构建
832共指模型:链接和引入模型
833最大熵链接模型
834共指消解实验
84总结
 第9章关系和事件
91概述
92关系与事件
93关系类别
94将关系抽取视为分类
941算法
942特征
943分类器
95关系抽取的其他方法
951无监督和半监督方法
952核方法
953实体和关系检测的联合方法
96事件
97事件抽取方法
98超句
99事件匹配
910事件抽取的未来方向
911总结
 第10章机器翻译
101机器翻译现状
102机器翻译评测
1021人工评测
1022自动评测
1023WER、BLEU、METEOR等
103词对齐
1031共现
1032IBM模型1
1033期望最大化
1034对齐模型
1035对称化
1036作为机器学习问题的词对齐
104基于短语的翻译模型
1041模型
1042训练
1043解码
1044立方剪枝
1045对数线性模型和参数调节
1046控制模型的大小
105基于树的翻译模型
1051层次短语翻译模型
1052线图解码
1053基于句法的模型
106语言学挑战
1061译词选择
1062形态学
1063词序
107工具和数据资源
1071基本工具
1072机器翻译系统
1073平行语料
108未来的方向
109总结
 第11章跨语言信息检索
111概述
112文档预处理
1121文档句法和编码
1122词元化
1123规范化
1124预处理最佳实践
113单语信息检索
1131文档表示
1132索引结构
1133检索模型
1134查询扩展
1135文档先验模型
1136模型选择的最佳实践
114CLIR
1141基于翻译的方法
1142机器翻译
1143中间语言文档表示
1144最佳实践
115多语言信息检索
1151语言识别
1152MLIR的索引建立
1153翻译查询串
1154聚合模型
1155最佳实践
116信息检索的评价
1161建立实验环境
1162相关性评估
1163评价指标
1164已有数据集
1165最佳实践
117工具、软件和资源
118总结
 第12章多语自动文摘
121概述
122自动文摘方法
1221传统方法
1222基于图的方法
1223学习如何做摘要
1224多语自动摘要
123评测
1231人工评价
1232自动评价
1233自动文摘评测系统的近期发展
1234多语自动文摘的自动评测方法
124如何搭建自动文摘系统
1241材料
1242工具
1243说明
125评测竞赛和数据集
1251评测竞赛
1252数据集
126总结
 第13章问答系统
131概述和历史
132架构
133源获取和预处理
134问题分析
135搜索及候选抽取
1351非结构化资源搜索
1352非结构化源文本的候选抽取
1353结构化源文本的候选抽取
136回答评分
1361方法概述
1362证据结合
1363扩展到列表型问题
137跨语言问答
138案例研究
139评测
1391评测任务
1392判断答案正确性
1393性能度量
1310当前和未来的挑战
1311总结和进一步阅读
 第14章提炼
141概述
142示例
143相关性和冗余性
144RosettaConsortium提炼系统
1441文档和语料库准备
1442索引
1443查询回答
145其他提炼方法
1451系统架构
1452相关度
1453冗余
1454多模态提炼
1455跨语言提炼
146评测和指标
147总结
 第15章口语对话系统
151概述
152口语对话系统
1521语音识别和理解
1522语音生成
1523对话管理器
1524语音用户接口
153对话形式
154自然语言呼叫路由选择
155三代对话应用
156持续的改进循环
157口语句子的转录和标注
158口语对话系统的本地化
1581呼叫流程本地化
1582提示本地化
1583文法的本地化
1584源端数据
1585训练
1586测试
159总结
 第16章聚合自然语言处理引擎
161概述
162聚合语音和NLP引擎架构的期望属性
1621灵活的分布式组件化
1622计算效率
1623数据操作功能
1624鲁棒性处理
163聚合的架构
1631UIMA
1632GATE
1633InfoSphereStreams
164案例研究
1641GALE互操作性演示系统
1642跨语言自动语言开发系统
1643实时翻译服务
165经验教训
1651分割涉及延迟和精度之间的权衡
1652联合优化与互操作性
1653数据模型需要使用约定
1654性能评估的挑战
1655引擎的前向波训练
166总结
167UIMA样本代码
 索引
內容試閱
第一部分
Multilingual Natural Language Processing Applications:From Theory to Practice
理论
第1章“找出词的结构”,描述如何识别人类语言中不同类型的词,如何建立词的内部结构、语法性质、词法概念的模型。
第2章“找出文档的结构”,讨论如何找出文档结构,并将其分解为更容易处理的单位,例如句子或表示同一话题的文本段。
第3章“句法”,描述如何找出句子的结构。
1~2
第4章“语义分析”,探索找出句子意义表示的自动方法。
第5章“语言模型”,讨论如何建立一个模型,该模型可对每个可能的有限长度的词串赋以一个概率估算或分数。
第6章“文本蕴涵识别”,讨论确定一段文本中的指定事实是否为另一段文本中的事实所蕴涵的方法。
第7章“多语情感与主观性分析”,探索确定句子是否是主观的并确定所表达的意见的倾向性和其他性质的方法。
第1章
Multilingual Natural Language Processing Applications:From Theory to Practice
找出词的结构
Otakar Smr, HyunJo You
人类语言很复杂。我们用语言来表示思想,获取信息,推断出意义。语言表达并非没有组织。其结构多样,复杂程度千差万别,复杂结构由基本部件组成,在一定的上下文中通过共现来表示比其孤立使用时更精细的意义及其意义间的关系。
整体上理解语言不可行。语言学家从不同的角度、不同的细节层次来考察语言,比如形态学研究词的可变形式和功能,而句法则研究词如何排列构成短语、子句和句子。由于发音而导致的词结构限制由语音学描述,而书写的规则则构成了语言的正字法。语言表达式的意义属于语义学的内容,词源学和词汇学则研究词的演变并解释词之间的语义、形态和其他联系。
词可能是语言最直观的单位,但实际上定义什么是词颇为棘手。词的研究是句法、语义抽象及其他与语言相关的高级话题的前提。形态学是语言处理的必要部分,尤其在多语的环境下变得越来越重要。
本章将探索如何识别人类语言中不同类型的词,如何建立词的内部结构、语法性质、词法概念的模型。词结构的发现称为形态分析(morphological parsing)。
这个任务有多困难?决定因素有很多。
3
在某些语言中,词由空格或标点分割;但是在另一些语言中,书写系统使读者区分词或者确定其精确的语音形式。有些语言的词不随上下文变化,而另一些语言的词会根据句法和语义有不同的词形变化。
11词及其部件
在大多数语言中,词被定义为能形成完整言语的最小语言单位。词的最小语义部分称为词素morpheme。根据交流方式的不同,词素可用形素grapheme(比如字母和字符等书写符号)拼写出或用音素(phoneme)(口语中可区分的语音单位)说出
在手语中用的符号也由称为音素的元素构成。
。确定词、词素和短语之间精确的分界并不总是很容易[1,2]。
111词元
假设英语中的词只由空格和标点隔开[3],考虑例11:
例11Will you read the newspaper? Will you read it? I wont read it
如果我们懂词源和句法知识,那么我们注意到这里有两个词可能和假设有些冲突:newspaper和wont。前者是一个复合词,有明显的派生结构。如果有词典或其他语言证据可佐证该词的来源的假设,我们可能会更详细地描述它。书面上,newspaper及其相关概念和单独的news与paper是不同的。然而,在口语中其区别却不甚明显,词的识别成了一个问题。
为了一般性,语言学家喜欢把wont分解为两个语法词,或称词元,其中每个词元有其独立的作用并有规范形式。从结构上说,wont可被分析为will后面跟随not。在英语中,这种词的切分tokenization和规范化normalization也许很少,而在其他语言中,这种现象可能很多。
在阿拉伯语或希伯来语中[4],某些词元在书写时需要与前后的词元连写,也可改变其形式。其内在的词法或句法单位可能体现在紧缩的一串字母中,并非能明晰地分解为词。很多语言中的词元有这种行为,这种词元经常被称为附着词。
在汉语、日语[5]、泰语的书写系统里,不采用空格来隔开词。在某种程度上形式地可区分的单位是句子或子句。在韩语中,字符串称为eojeol(词节),粗略地对应于语音或认知单位,比词大,比子句小[6],如例12所示:
4
例12
haksayngtuleykeyman cwusyessnunte使用耶鲁拼音表示韩文,通过点号标出原始的字符。使用连字号标记形态学边界,加号分开词元。
haksayngtuleykeyman cwusiessnunte
student+plural+dative+only give+honorific+past+while
whileheshegaveitonly to the students
尽管如此,基本的形态单位被视为有其句法地位[7]。在这些语言中,词的切分,或称分词word segmentation,是形态分析的基础性步骤,也是大多数语言处理应用的前提。
112词形原文lexeme按照字面意义是指词典的基本单位,实际就是“词”。当强调其基本意义时,也翻译为“语素”。这里为了和“word”相区分,译为“词形”。不采用目前的流行翻译“词位”。——译者注
词这个术语,通常我们不但指其在给定上下文中的语言形式,而且表示其形式背后的概念,以及可表示该概念的其他形式的集合。该集合被称为词形,或词项,它们构成了一个语言的词典。词可根据其行为分为动词、名词、形容词、连词、小品词等词类(词性)。词形的引用形式也称为原形lemma。
当我们把词转化为其他形式时,比如把单数的mouse转为复数mice或mouses,我们说对该词形进行了屈折变化。当把一个词形变化为形态上相关的另一个词,而不管其词类是否相同时,我们称对该词形进行了派生。例如,名词receiver和reception是由动词 to receive 派生而来。
例13Did you see him? I didnt see him I didnt see anyone
例13提出了didnt的切分和anyone的内部结构问题。在释义I saw no one中,词to see被屈折变化成saw以表示其过去时态的语法功能。同样,him是he或甚至表示所有人称代词的更抽象的语素的从格形式。在上述释义中,no one可以被认为是和词nobody同义的最小词。如果我们把两个紧密相关的词元no one当作一个固定的词理解,那么,对于用语法描述什么是一个词的困难就不复存在了。
在例子13的捷克语翻译中,词vidět“to see”屈折变化为过去时,而形式是由第一人称和第二人称的两个词元组成(即viděla jsj‘youFEMSG saw’and neviděla jsem‘IFEMSG did not see’)。捷克语的否定是一个屈折变化参数,而不仅是句法的,需同时在动词及其相关代词中标记,正如例14所示:
例14Vidělas ho? Neviděla jsem ho Neviděla jsem nikoho
saw+youare him? notsaw Iam him notsaw Iam noone
这里,vidělas 是 viděla jsi “youFEMSG saw”的紧缩形式。jsi“you are”中的s是附着词,由于捷克语的自由语序,可以附着在几乎任何词的后面。因此我们可提问:Nikphos neviděla?“Did you see no one?”,此处代词nikoho“no one”后面跟了这个附着词。
113词素
形态理论的主要差别在于是否并且如何将词形的性质与其结构部件联系起来[8,9,10,11]。
5
这些部件通常称为“节”segment或“形元”morph。词的表意形元称为某种功能的词素(morpheme)。
人类语言采用很多手段,可将形元或词素合并成词形。最简单的形态过程将形元一个接一个连接起来,如disagreements,其中agree是一个自由词素,其他三个是表达语法意义的黏着词素,合起来表示词的整体意义。
在更复杂的情形中,形元间可互相作用,其形式可有语音或书写的变化,称为“形音”(morphophonemic)变化。词素的其他形式称为变体词素(allomorph)。
在韩语中,形态变化和词素的形式依赖于语音的例子比比皆是。很多词素随着其语音上下文不同而系统地改变其形式。下面的例15列出了表示过去时态的时态标记的变体词素ess、ass、yess。前两个根据其前面动词词干的语音而变化,最后1个经常和动词ha“do”一起使用。适当的变体可直接跟在词干后面,也可以进一步紧缩,如例12中siess紧缩为syess。在形态分析中,变体词素规范化为词素的正规形式是有益的,尤其是当形元的紧缩与简单的切分相干扰的时候。
例15
紧缩形式a),b是普通的,但是需要引起注意,因为两个字符缩成了一个。其他类型(c),d,e)语音上不可预测,或与具体词相关。例如,cohass“have been good”永远不能紧缩,而noh和ass被合并成了 nwass,如例15(e)所示。
还有形成词的其他语言手段需要加以解释,因形态分析过程本身并不是小事。连接操作可能伴有形元的嵌入或交缠,这在阿拉伯语中很普遍。即使在英语中,也存在将词内部的元音进行改变的非连接的屈折变化:请比较mouse和 mice、see和saw、read和read的音变。
在阿拉伯语中,内部的屈折变化经常发生,并且具有不同的性质。词内部的一部分,称为词干,可由词根和词素模式来描述。词的结构因此可由抽象了词根的、只显示模式和附着在其左右的其他形元来描述。使用Buckwalter标记直译原来的阿拉伯文字。为了方便阅读,也给出了标准的语音转写,以减少歧义。"

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.