登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

『簡體書』NLP汉语自然语言处理原理与实践

書城自編碼: 2949617
分類: 簡體書→大陸圖書→社會科學語言文字
作 者: 郑捷
國際書號(ISBN): 9787121307652
出版社: 电子工业出版社
出版日期: 2017-01-01
版次: 1
頁數/字數: 544/
書度/開本: 128开 釘裝: 平装

售價:NT$ 706

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
反操纵心理学:夺回人生主导权 拒绝被操纵
《 反操纵心理学:夺回人生主导权 拒绝被操纵 》

售價:NT$ 249.0
同工异曲:跨文化阅读的启示(修订版)(师承钱锺书先生,比较文学入门,体量小但内容丰,案例文笔皆精彩)
《 同工异曲:跨文化阅读的启示(修订版)(师承钱锺书先生,比较文学入门,体量小但内容丰,案例文笔皆精彩) 》

售價:NT$ 199.0
牛津立法研究手册
《 牛津立法研究手册 》

售價:NT$ 1630.0
制度为什么重要:政治科学中的新制度主义(人文社科悦读坊)
《 制度为什么重要:政治科学中的新制度主义(人文社科悦读坊) 》

售價:NT$ 290.0
梦醒子:一位华北乡居者的人生(1857—1942))(第2版)
《 梦醒子:一位华北乡居者的人生(1857—1942))(第2版) 》

售價:NT$ 340.0
啊哈!原来如此(中译本修订版)
《 啊哈!原来如此(中译本修订版) 》

售價:NT$ 290.0
部分识别入门——计量经济学的创新性方法
《 部分识别入门——计量经济学的创新性方法 》

售價:NT$ 345.0
东野圭吾:变身(来一场真正的烧脑  如果移植了别人的脑子,那是否还是我自己)
《 东野圭吾:变身(来一场真正的烧脑 如果移植了别人的脑子,那是否还是我自己) 》

售價:NT$ 295.0

建議一齊購買:

+

NT$ 425
《 神经网络算法与实现 基于Java语言 》
+

NT$ 425
《 Python机器学习经典实例 》
+

NT$ 425
《 精通Python自然语言处理 》
+

NT$ 252
《 人工智能中的深度结构学习 》
+

NT$ 569
《 Keras快速上手:基于Python的深度学习实战 》
+

NT$ 569
《 深度学习算法实践 》
編輯推薦:
NLP,让人类与智能机器的交互不再遥远;深度学习,让语言解析不再是智能系统的瓶颈!
本书核心内容
NLP中的开源系统及其应用
中文分词源码解析
概率图模型的理论与算法
使用概率图模型进行序列标注
语料库的介绍与建设
深度学习与NLP
NLP与认知理论
汉语的句法与语义的解析
內容簡介:
本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。 本书包括NLP的语言理论部分、算法部分、案例部分,涉及汉语的发展历史、传统的句法理论、认知语言学理论。需要指出的是,本书是迄今为止*本系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。 本书适用于所有想学习NLP的技术人员,包括各大人工智能实验室、软件学院等专业机构。
關於作者:
郑捷:www.threedweb.cn网站的负责人,研究方向是机器学习与自然语言处理。当前负责的核心产品是高精度自然语言认知系统的设计与研发,研发目标是高精度(识别率为85%~95%)的统一架构的NLP认知系统,已经出版专著《机器学习算法原理与编程实践》,希望能与在NLP这方面有兴趣的读者一起学习交流。
目錄
目录
第1章中文语言的机器处理1
1.1历史回顾2
1.1.1从科幻到现实2
1.1.2早期的探索3
1.1.3规则派还是统计派3
1.1.4从机器学习到认知
计算5
1.2现代自然语言系统简介6
1.2.1NLP流程与开源框架6
1.2.2哈工大NLP平台及其
演示环境9
1.2.3Stanford NLP团队及其
演示环境11
1.2.4NLTK开发环境13
1.3整合中文分词模块16
1.3.1安装Ltp Python组件17
1.3.2使用Ltp 3.3进行中文
分词18
1.3.3使用结巴分词模块20
1.4整合词性标注模块22
1.4.1Ltp 3.3词性标注23
1.4.2安装StanfordNLP并
编写Python接口类24
1.4.3执行Stanford词性
标注28
1.5整合命名实体识别模块29
1.5.1Ltp 3.3命名实体识别29
1.5.2Stanford命名实体
识别30
1.6整合句法解析模块32
1.6.1Ltp 3.3句法依存树33
1.6.2Stanford Parser类35
1.6.3Stanford短语结构树36
1.6.4Stanford依存句法树37
1.7整合语义角色标注模块38
1.8结语40
第2章汉语语言学研究回顾42
2.1文字符号的起源42
2.1.1从记事谈起43
2.1.2古文字的形成47
2.2六书及其他48
2.2.1象形48
2.2.2指事50
2.2.3会意51
2.2.4形声53
2.2.5转注54
2.2.6假借55
2.3字形的流变56
2.3.1笔与墨的形成与变革56
2.3.2隶变的方式58
2.3.3汉字的符号化与结构61
2.4汉语的发展67
2.4.1完整语义的基本
形式句子68
2.4.2语言的初始形态与
文言文71
2.4.3白话文与复音词73
2.4.4白话文与句法研究78
2.5三个平面中的语义研究80
2.5.1词汇与本体论81
2.5.2格语法及其框架84
2.6结语86
第3章词汇与分词技术88
3.1中文分词89
3.1.1什么是词与分词规范90
3.1.2两种分词标准93
3.1.3歧义、机械分词、语言
模型94
3.1.4词汇的构成与未登录
词97
3.2系统总体流程与词典结构98
3.2.1概述98
3.2.2中文分词流程99
3.2.3分词词典结构103
3.2.4命名实体的词典
结构105
3.2.5词典的存储结构108
3.3算法部分源码解析111
3.3.1系统配置112
3.3.2Main方法与例句113
3.3.3句子切分113
3.3.4分词流程117
3.3.5一元词网118
3.3.6二元词图125
3.3.7NShort算法原理130
3.3.8后处理规则集136
3.3.9命名实体识别137
3.3.10细分阶段与最短
路径140
3.4结语142
第4章NLP中的概率图模型143
4.1概率论回顾143
4.1.1多元概率论的几个
基本概念144
4.1.2贝叶斯与朴素贝叶斯
算法146
4.1.3文本分类148
4.1.4文本分类的实现151
4.2信息熵154
4.2.1信息量与信息熵154
4.2.2互信息、联合熵、
条件熵156
4.2.3交叉熵和KL散度158
4.2.4信息熵的NLP的
意义159
4.3NLP与概率图模型160
4.3.1概率图模型的几个
基本问题161
4.3.2产生式模型和判别式
模型162
4.3.3统计语言模型与NLP
算法设计164
4.3.4极大似然估计167
4.4隐马尔科夫模型简介169
4.4.1马尔科夫链169
4.4.2隐马尔科夫模型170
4.4.3HMMs的一个实例171
4.4.4Viterbi算法的实现176
4.5最大熵模型179
4.5.1从词性标注谈起179
4.5.2特征和约束181
4.5.3最大熵原理183
4.5.4公式推导185
4.5.5对偶问题的极大似然
估计186
4.5.6GIS实现188
4.6条件随机场模型193
4.6.1随机场193
4.6.2无向图的团(Clique)
与因子分解194
4.6.3线性链条件随机场195
4.6.4CRF的概率计算198
4.6.5CRF的参数学习199
4.6.6CRF预测标签200
4.7结语201
第5章词性、语块与命名实体
识别202
5.1汉语词性标注203
5.1.1汉语的词性203
5.1.2宾州树库的词性标注
规范205
5.1.3stanfordNLP标注
词性210
5.1.4训练模型文件213
5.2语义组块标注219
5.2.1语义组块的种类220
5.2.2细说NP221
5.2.3细说VP223
5.2.4其他语义块227
5.2.5语义块的抽取229
5.2.6CRF的使用232
5.3命名实体识别240
5.3.1命名实体241
5.3.2分词架构与专名
词典243
5.3.3算法的策略词典
与统计相结合245
5.3.4算法的策略层叠
式架构252
5.4结语259
第6章句法理论与自动分析260
6.1转换生成语法261
6.1.1乔姆斯基的语言观261
6.1.2短语结构文法263
6.1.3汉语句类269
6.1.4谓词论元与空范畴274
6.1.5轻动词分析理论279
6.1.6NLTK操作句法树280
6.2依存句法理论283
6.2.1配价理论283
6.2.2配价词典285
6.2.3依存理论概述287
6.2.4Ltp依存分析介绍290
6.2.5Stanford依存转换、
解析293
6.3PCFG短语结构句法分析298
6.3.1PCFG短语结构298
6.3.2内向算法和外向
算法301
6.3.3Viterbi算法303
6.3.4参数估计304
6.3.5Stanford 的PCFG算法
训练305
6.4结语310
第7章建设语言资源库311
7.1语料库概述311
7.1.1语料库的简史312
7.1.2语言资源库的分类314
7.1.3语料库的设计实例:
国家语委语料库315
7.1.4语料库的层次加工321
7.2语法语料库323
7.2.1中文分词语料库323
7.2.2中文分词的测评326
7.2.3宾州大学CTB简介327
7.3语义知识库333
7.3.1知识库与HowNet
简介333
7.3.2发掘义原334
7.3.3语义角色336
7.3.4分类原则与事件
分类344
7.3.5实体分类347
7.3.6属性与分类352
7.3.7相似度计算与实例353
7.4语义网与百科知识库360
7.4.1语义网理论介绍360
7.4.2维基百科知识库364
7.4.3DBpedia抽取原理365
7.5结语368
第8章语义与认知370
8.1回顾现代语义学371
8.1.1语义三角论371
8.1.2语义场论373
8.1.3基于逻辑的语义学376
8.2认知语言学概述377
8.2.1象似性原理379
8.2.2顺序象似性380
8.2.3距离象似性380
8.2.4重叠象似性381
8.3意象图式的构成383
8.3.1主观性与焦点383
8.3.2范畴化:概念的
认知385
8.3.3主体与背景390
8.3.4意象图式392
8.3.5社交中的图式396
8.3.6完形:压缩与省略398
8.4隐喻与转喻401
8.4.1隐喻的结构402
8.4.2隐喻的认知本质403
8.4.3隐喻计算的系统
架构405
8.4.4隐喻计算的实现408
8.5构式语法412
8.5.1构式的概念413
8.5.2句法与构式415
8.5.3构式知识库417
8.6结语420
第9章NLP中的深度学习422
9.1神经网络回顾422
9.1.1神经网络框架423
9.1.2梯度下降法推导425
9.1.3梯度下降法的实现427
9.1.4BP神经网络介绍和
推导430
9.2Word2Vec简介433
9.2.1词向量及其表达434
9.2.2Word2Vec的算法
原理436
9.2.3训练词向量439
9.2.4大规模上下位关系的
自动识别443
9.3NLP与RNN 448
9.3.1Simple-RNN449
9.3.2LSTM原理454
9.3.3LSTM的Python
实现460
9.4深度学习框架与应用467
9.4.1Keras框架介绍467
9.4.2Keras序列标注471
9.4.3依存句法的算法
原理478
9.4.4Stanford依存解析的
训练过程483
9.5结语488
第10章语义计算的架构490
10.1句子的语义和语法预处理490
10.1.1长句切分和融合491
10.1.2共指消解496
10.2语义角色502
10.2.1谓词论元与语义
角色502
10.2.2PropBank简介505
10.2.3CPB中的特殊
句式506
10.2.4名词性谓词的语义
角色509
10.2.5PropBank展开512
10.3句子的语义解析517
10.3.1语义依存517
10.3.2完整架构524
10.3.3实体关系抽取527
10.4结语531
內容試閱
推荐序
自然语言处理是人工智能领域的一颗明珠,现在已经成为人工智能研究中最为活跃的领域。几十年来,随着计算机技术和人工智能技术的发展,自然语言处理取得了长足的进步。现在,自然语言处理技术正处在一个新的历史转折点,随着可获取信息量的爆炸性增长,信息过载问题愈发严重,以词法分析和词义理解为主的传统自然语言处理技术已经难以满足解决实际问题的需要,句子级乃至篇章级语义理解技术即将成为人工智能技术发展的新趋势。
自然语言处理作为人工智能与语言学的综合学科,理应从两个学科中汲取营养来推动自身的进步。但目前概率和数据驱动的方法在自然语言处理领域占据绝对的主流,加之近几年深度学习的异军突起,语言学知识在自然语言处理领域中受到的重视程度愈发不足。而以我在自然语言处理领域工作的经验来看,越深入研究,越能感觉到语言学知识不足的掣肘。特别是深层次的语义理解,脱离了语言学知识,就会变成无源之水、无本之木。常见的自然语言处理书籍对于解决具体问题的方法讲解已经足够丰富,但对于语言学基础理论的介绍和思考还略显不足。一些前辈虽然一直在思考语言和认知的本质,但其发表出来的内容只限于思考结果的一鳞半爪,较少结集成书。加之现在自然语言处理领域的学习者大多是计算机背景,极少系统地学习过语言学的基础理论。这样造成的现状就是从事自然语言处理的技术人员越来越多,但相互之间的讨论和经验分享多集中于具体的技术手段或算法的数学原理,而极少涉及语言学的基础理论和语义理解的本质问题。
本书作者通过对前人语言学理论和自然语言处理技术的深入梳理,形成了自己对于语义理解,特别是汉语语义理解独特的思考和一整套理论体系,提出了语义理解的系统解决之道。尽管如何才能让计算机理解语义,在学术界还没有定论,但作者系统性的思考和解决思路是非常难能可贵的。本书在内容上保证了理论和技术的平衡,在介绍术的同时,充分展示了作者对于道的思考成果。此书是自然语言处理书籍中的一股新风,希望其可以对语义理解的研究和发展起到积极的推动作用,同时引导自然语言处理领域的研究者,特别是初学者,加强对于语言学的理论的学习,更多地从问题的本源来寻求新的解决思路,而不仅仅满足于在传统解决思路上尝试新的技术手段。
愿每一位有志于从事自然语言处理的研究者,都能从此书中获得一些启示。
贾文杰:早年在富士通研发中心,著名的1998年人民日报语料库的研发单位之一,任高级研究员,负责情感分析,后进入360搜索引擎自然语言处理部,项目核心成员之一,主持搜索引擎分词,纠错等核心模块研发工作,历时3年,对搜索效果的提升起到重要作用。目前,转入移动互联领域,负责猎豹移动的自然语言处理部,任负责人。

前 言
写作本书的动机
自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的分支学科,主要研究如何让计算机处理和运用自然语言。自然语言处理广义上分为两大部分,第一部分为自然语言理解,是指让电脑懂人类的语言;第二部分为自然语言生成,是指把计算机数据转化为自然语言。本书重点讲解汉语自然语言处理方面的最新理论、技术和进展。
自然语言处理作为一个独立的学科诞生至今,已经半个多世纪了。与绝大多数传统学科的最大不同是,在这半个世纪中,它始终离问题的终结遥遥无期,当人们千辛万苦地获得一次又一次的突破后,又会被新出现的问题无情地阻拦,而再次陷入迷惘之中。在NLP中,问题好像没有最终解决方案,甚至连最佳实践也没有,而只有最新现状(State of art)。而近些年,那些历史上的State of art 正被不断地刷新、不断地超越。
就在十多年前,商业化的人机交互都是人们可望而不可即的目标,但现在智能机器人正逐渐走入市场,走入人们的生活。虽然这些技术还不够成熟,还要解决诸多问题,即便普通大众也能意识到,我们离人工智能的终极目标越来越近了。
面对市场上诸多的人工智能系统,以及背后的各种算法理论,使我想起了一部获奖的英国电影《模仿游戏》。这不是一部艺术上的State of art ,却赢得了第87届奥斯卡金像奖最佳改编剧本奖。在肯定这部作品的诸多因素中,我认为最重要的是,它宣誓了现阶段人工智能的本质:模仿。这也是本书自始至终贯穿的主题:模仿象似性算法理论。
但从另一个角度,我们希望能够终结一些问题,即便这些问题还未得到百分之百的解决(当然,从概率论的角度而言,没有百分之百),否则,我们很难进入以下阶段的研究,整个学科只会停滞不前。幸运的是,近些年,在序列标注上的全面突破,使我们有幸将目光放到了句子的范畴,最近提出的语义依存理论,更使汉语自然语言处理,无论理论还是实践都迎来了新的曙光。汉语的句子分析,终于跨越了句法的误区,走向了语义解析的道路。相信不久的将来,在语义解析的道路上,汉语NLP将会获得更大的突破。
本书的受众与特色
本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。为此,我们设定本书的读者为如下几种:
?具有一定计算机编程基础,对自然语言处理感兴趣的非专业人员。
?希望构建完整的NLP应用系统的专业工程技术人员。
?高校计算机专业和自然语言处理专业的大学生、研究生。
?高校自然语言处理专业的教师。
需要指出的是,本书是一本系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。
内容及体系结构
为兼顾各方面的需求,我们对全书各部分做了精心的安排。从结构上,全书分为如下三大部分。
(1)语言理论部分:涉及4个章节,第2章为汉语的发展历史;第6章为传统的句法理论;第7章为语料库和知识库的构建理论;第8章为认知语言学理论。
(2)算法部分:涉及4个章节,第3章为中文分词算法;第4章为NLP中的概率图模型算法体系;第6章为句法的自动分析算法,包括转换生成语法的算法原理,以及依存句法的应用;第9章系统介绍了神经网络到深度学习算法体系,以及使用LSTM实现序列标注和依存句法。本书介绍的算法都提供开源的代码,具体下载地址已在每章介绍算法的时候指出,读者可参考书籍和网址的讲解内容进行调试,快速应用于实践中。
(3)案例部分:涉及4个章节,第1章为开源NLP系统概览及入门代码;第5章为使用概率图模型算法进行词性标注、语义组块、命名实体识别等序列标注;第9章为使用Word2Vec的训练词向量模型;第10章为使用SVM进行长句切分、使用语义角色标注分析汉语句子等。
基本上每段理论讲解之后都辟出专门的案例讲解,以加深理论认识。对于重要的理论,甚至开辟专门的章节讲解其实现。案例分为两大部分,一部分是程序代码,读者可以参考书中的代码,将其直接应用到实践中;另一部分是语料,读者可以按书中指定的网络链接下载。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.