第5章 自然语言处理

自然语言处理(natural language processing,NLP)也称自然语言理解(natural language understanding,NLU),从人工智能研究的一开始,它就作为这一学科的重要研究内容探索人类理解自然语言这一智能行为的基本方法。随着近几年深度学习、人工智能的迅速发展,自然语言处理成为关注热点。显然,如果计算机能够理解自然语言,人机问的信息交流就能够以人们所熟悉的本族语言来进行。这不仅将成为计算技术的一项重大突破,将有助于揭开人类智能的奥秘.深化我们对语言能力和思维本质的认识,对于语言的教学与学习将会有巨大的指导意义。
作者:张子良

自然语言是指人们口常使用的语言,如汉语、英语、口语、法语等,它是人类进行学习和互相交流的工具。“在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用语言,据统计用于数学计算仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。

从研究内容和方法上来看,自然语言处理研究集认知科学、计算机科学、语言学、数学与逻辑学、心理学等多种学科于一身,其研究范畴不仅涉及对人脑语言认知机理、语言习得与生理能力的探索,而且,包括对语言知识的表达方式及其与现实世界之间的关系,语言自身结构、现象运用规律和演变过程,大量存在的不确定性和未知语言现象以及不同语言之间的语义关系等各方面问题的研究。因此,自然语言处理是现代信息科学技术研究不可或缺的重要内容。

1.1 技术框架

1.1.1 概述

本章内容是自然语言处理的关键性技术,从此法、句法到语义、篇章,由表层到深层,从句子到篇章涵盖不同的语言层面一般来说,这些技术所完成的任务并不是自然语言处系统的最终目的,但这些技术在大多数自然语言处理系统中都会被用到,甚至是必不可少的。自然语言处理涉及到的相关技术,可以按照不同的分类标准、基于不同的观察视角进行划分。基于不同的分类原则,自然语言处理相关技术的分类结果也有所不同。在这里,我们主要采用两个分类原则进行划分,其一、基于分析对象语言单位粒度的不同:词汇、语句和篇章;其二、基于分析内容性质的不同:形态学、语法学、语义学和语用学。按照以上的分类标准,自然语言处理的主要技术分类结果如下图所示:

1.1.1 基于分析对象语言单位的分类

词法分析(lexical

analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical

analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。词法分析涉及的主要技术包括是分词、词性标注、命名实体识别等。

(1)中文分词

中文分词分为人工分词与机器自动分词两种。人工分词存在分词不一致和处理速度慢的缺陷。对此,人们尝试用计算机代替人工分词,称为自动分词。目前,汉语自动分词主要有以下三大类的方法:基于词典的方法、基于统计的方法和混合方法。

基于词典的中文分词方法的三个要素为分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。正向扫描是指从待切分语句的开头开始扫描,而逆向扫描是指从待切分语句的末尾开始扫描。双向扫描是正向扫描和逆向扫描的组合。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。最大匹配法的基本思想是:取待切分语句的m个汉字作为匹配字段,其中m为机器可读词典中最长词条的汉字个数;查找机器可读词典并进行匹配。若能匹配,则将这个匹配字段作为一个词切分出来;若不能匹配,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。最小匹配法的基本思想是使待切分语句分词后得到的词最少。逐词匹配法是指把词典中的词按由长到短的顺序在待切分语句中进行搜索和匹配,直到把所有的词都切分出来为止。最佳匹配法的基本思想是词典中的词条按照词频的大小顺序排列,以求缩短分词词典的检索时间,从而降低分词的时间代价。

基于统计的分词方法所主要应用的是统计量,统计模型有:互信息、N元文法模型、神经网络模型、隐Markov模型(HMM)和最大墒模型等。这些统计模型主要是利用词与词的联合出现概率作为分词的依据。其原理是从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息为下式所示:

其中P(X,Y)是汉字X,Y的相邻共现概率,P(X)、P(Y)分别是X、Y在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而叉叫做无词典分词法或统计取词方法。基于统计的分词方法的优、缺点。基于统计的分词方法的优点是:(1)不受待处理文本的领域限制;(2)不需要一个机器可读词典。缺点是:(1)需要大量的训练文本,用以建立模型的参数;(2)该方法的计算量都非常大;(3)分词精度与训练文本的选择有关。

中文分词是中文信息处理的首要步骤,目前基于词典和基于统计的分词方法是现有分词技术的主要方法。而基于词典的分词方法无法处理歧义字段,基于统计的分词方法需要大量的词频计算耗费时间。鉴于这些问题有必要给出新的分词方法弥补这些不足。目前采用的最多的是混合方法。例如王显芳提出的利用覆盖歧义检测法和统计语言模型进行汉语自动分词。覆盖歧义检测法的基本原理是基于“长词优先”原则的与其它基于“长词优先”原则的切分算法相比,它在忽略覆盖歧义的同时保留了所有的交叉歧义,从而提供了一种能够对覆盖歧义和交叉歧义分开处理的方法,覆盖歧义检测法并没有直接输出句子的唯一切分结果,还需要利用其他知识进行切分排歧。统计语言模型利用词共同出现的概率关系来表示词之间的依赖关系,反映了语言的一些统计特性,恰好可以用来在多种候选切分结果之间选择一种切分结果。刘春辉提出的基于优化最大匹配与统计结合的中文分词方法,其设计思想是对输人待切分文本,首先通过系统的预处理模块,把句子切割出来,然后通过优化的正向最大匹配和逆向最大匹配方法对句子进行切分,如果两者一致就是正确的,否则通过比较词的个数,未登录词(词典中没有存储的词)来选择正确的切分,若仍然不能解决问题,则通过统计的方法确定歧义字段的切分。

(2)词性标注

词性是词汇基本的语法属性,通常也成为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一项非常重要的工作。词性标注的方法主要分为:基于统计的词性标注方法,基于规则的词性标注方法,统计方法与规则方法相结合。

七十年代末到八十年代初,随着经验主义方法在计算语言学研究中的不断流行,基于统计的词类排歧方法开始得到应用。其中具有代表性的系统是1983年,里奇(G.Leech)和加塞德(R.Garside)等人建立了CLAWS(Constituent Likelihood AutomaticWord-tagging System)系统,用概率统计的方法来进行自动词性标注,他们使用了133*133的词性共现概率矩阵,通过统计模型来消除兼类词歧义,自动标注的正确率达到96%。后来1988年,德洛斯(S.J.DeRose)对CLAWS系统做了一些改进。利用线性线性规则方法来降低系统的复杂性,提出了VOLSUNGA算法,大大地提高了处理效率,是自动标注的正确率达到了实用水平。

它是利用相邻词性同现概率和Markov语言模型,通过寻找最大概率的词性标记序列来完成句子的标注的。他有很多基于规则的方法没有的优点:如客观性好,异质性强,处理生词效果好。

基于规则的词性标注方法是人们提出的较早的一种词性标注方法,其基本思想是按兼类词搭配关系和上下文语境建造词类消歧规则。早期的词类标注规则一般由人工构造,如美国布朗大学开发的TAGGIT词类系统。然而,随着标注语料库规模的逐步增大,可利用资源越来越多,以人工提取规则的方式显然是不现实的,于是,人们提出了基于机器学习的规则自动提取的方法。

E.Brill提出了通过机器学习方法从大规模语料中自动获取规则的思想,从而为实现基于规则的词性标注系统提供了极大的便利。规则的自动提取主要是基于转换规则的错误驱动的学习方法,其基本思想是:首先运用初始状态标注器标识为标注的文本,由此产生已标注的文本。此外,李晓黎等人尝试了利用数据挖掘方法获取汉语词性标注规则的方法该方法不但根据上下文中的词性和词,而且根据二者的组合来判断某个词的词性。在统计预料规模交大的情况下,给定最小支持度和最小可信度后,首先采掘大于最小支持度的常规模式集,然后生成关联规则。若此规则的可信度大于最小可信度,则得到得到词性标注规则。只要最小可信度定义得足够合理,获得的规则就可以用于处理词性标注的兼类问题。以这些获取的规则作为统计方法的补充,从而可以较好实现汉语词性标注,这种方法对于训练预料有较大的依赖性,尤其在语料库规则不够大的情况下。而且,在规则集中如何利用归纳学习方法进行归纳,以提高规则匹配效率也值得进一步探讨。

理性主义与经验主义相结合的处理策略一直是自然语言处理领域的专家们不断研究和探索的问题,对于词性标注问题也不例外。周强提出了一种规则方法与统计方法相结合的词性标注算法,其基本思想是,对汉语句子的初始标注结果,首先经过规则排歧,排除那些常见的、语言现象比较明显的歧义现象,然后通过统计排歧,处理那些剩余的的多类词并进行未登录词的词性推断,最后人工校对,得到正确的标注结果。这样做的好处在于:1)利用标注语料对统计模型进行参数训练,可以得到统计排歧所需要的不同参数;2)通过将机器自动标注的结果(规则排歧与统计排歧)与人工校对结果进行比较,可以发现自动处理的错误所在,从中总结出大量有用信息以补充和调整规则库的内容。但规则作用域非常有限,而且没有考虑统计的可信度,这使规则与统计的作用域不明确。因此,张民等人通过研究统计的可信度,引入置信区间的方法,构造了一种基于置信区间的评价函数,实现了统计和规则并举。虽然统计方法与规则方法相结合的词性标注方法提升了准确性,但是并不是所有的情况都既使用统计方法又使用规则方法,因为这种方法的特点在于对统计标注结果的筛选,只对那些被认为可疑的标注结果,才采用规则方法。

(3)命名实体识别

命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法等。

基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

基于规则和词典的方法是命名实体识别中最早使用的方法,大多数参加MUC-7会议评测的系统,都是基于手写规则的方法。采取这种方法的代表性系统包括GATE(http://gate.ac.uk/)项目中的ANNIE系统以及参加MUC评测的FACILE系统等。它们都是依赖于手工规则的系统,都使用命名实体库,而且对每一个规则都赋予权值。当遇到规则冲突的时候,选择权值最高的规则来判别命名实体的类型。王宁等人利用规则的方法进行金融领域的公司名识别,该系统对知识库的依赖性强,同时开放和封闭测试的结果也显示了规则方法的局限性。

一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价太大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以在较短时间内完成。在CoNLL-2003会议上,所参赛的16个系统全部采用基于统计的方法,该方法成为目前研究的主流方法。这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料进行一次训练即可。基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Fileds,CRF)等。

在这4种学习方法中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。张祝玉等针对条件随机场的特征选取与组合进行了比较研究,通过实验比较得出在训练时应优先选择贡献度大的特征,同时还表明使用组合特征可以提升系统的性能。基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。SIGHAN Bakeoff08测评中,中文命名实体识别使用的语料主要包括:香港城市大学语料库、微软亚洲研究院语料库、北京大学语料库。这些语料库比较小、应用不广泛,无法应用于大规模的NER系统。因此,目前的问题是如何最大限度地使用这些有限的语料库。

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:(1)统计学习方法之间或内部层叠融合,如俞鸿魁等采用层叠隐马尔可夫模型对中文进行分词。(2)规则、词典和机器学习方法之间的融合,其核心是融合方法技术。在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。(3)将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术,在分类方面可以采用的融合技术主要包括将最大熵方法与基于词典匹配和规则模式的后处理相结合,前一阶段运用ME方法识别文本中的生物实体,第一阶段机器学习方法可能产生一定程度的边界识别错误和语义分类错误,通过第二阶段基于词典和规则模式匹配的后处理,修正实体边界并改进实体语义分类结果,提高了系统的准确率与召回率。

句法分析是自然语言处理(natural language processing, NLP)中的关键底层技术之一,其基本任务是确定句子的句法结构 或者句子中词汇之间的依存关系 。句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析(phrase structure parsing);另外一种是以获取局部成分 为目的的句法分析,被称为依存分析(dependency parsing)。

篇章分析与句法分析一样,不是自然语言处理的最终目的,而是某个具体处理任务的中间环节或必要过程。在具体实现中,篇章分析既需要研究篇章中所包含的各种小的语言单位,包括词汇、短语和句子,更需要研究这些单位是如何构成篇章的,以及构成部分之间的各种关系。著名的篇章理论有:言语行为理论、中心理论、修辞结构理论、脉络理论和篇章表示理论。篇章衔接性也是篇章分析的重要部分,主要表现为整个篇章范围内词汇或短语之间的关联,指篇章中存在与表层结构上的各语言成分之间的语法或语义关系。当语篇中一个成分的含义依赖于另一个成分的解释时,便产生衔接关系。此外,篇章分析还包括篇章连贯性,与衔接性不同的是,连贯性又称为内部联结,正是有了内部连接,才使得篇章具有整体性。

1.1.2 基于内容特性的分类

任何自然语言处理任务的核心都在于对自然语言理解这个重要的问题上。 Shwartz指出理解自然语言的计算机程序的编制过程中应包含三个主要问题。首先是关于思维的处理,第二是语言输入的表示和含义,第三是客观知识。

因此 ,一个自然语言处理系统需要具备三种知识即语法知识,语义知识和语用知识。

形态分析:语言形态学研究如何从比较小的意义单位(语素)构成词。语素通常被定义为语言中负荷意义的最小单位。例如,fox这个词只包含一个单独的语素(即语素fox),而cats这个词则包含两个语素:一个是语素cat,一个是语素-s。形态分析包括词的曲折变化和词的构词方法。

语法分析(syntax):语法知识是理解给出句子的需要,语法知识在自然语言处理系统中的应用就是处理文本的结构特性,称为语法分析( Sy ntactic Ana ly sis)。语法分析系统将完整的句子分解成简单的短语,并表现出句子成分间结构关系的特色。语法规则为一个给定的句子指定合理的语法结构。简而言之,语法分析就是研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是,为什么一句话可以这么说,也可以那么说。语法分析的方法包括:上下文无关语法,转换语法,剖析,转换网络,扩充转换网络。

语义分析(semantics):是一门研究意义,特别是语言意义的学科。任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。语义分析的目标就是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。即:根据句子的句法结构和句中每个实词的词义推导出能够反映这个句子意义(即旬义)的某种形式化表示。例如对于句子:“张三吃了苹果”和“苹果被张三吃 了”,虽然它们的表述形式不同,但表示成语义的形式就统一为:“吃(张三,苹果)”。

语用分析(pragmatics):是现代语言学用来指,从使用者的角度研究语言,特别是使用者所做的选择 、他们在社交互动中所受的制约 、他们的语言使用对信息传递活动中其他参与者的影响 。语用分析比语义分析更深一层,他考虑的是语句背后所表达的意义以及所处的语境。

1.2 算法模型

1.2.1 传统算法模型

传统算法模型往往基于隐马尔科夫模型。在统计自然语言处理中会经常遇到这样一类参数估值问题,就是当可观察数据为不完全数据时如何求解参数的最大似然估计。EM算法就是解决这类问题的经典算法,EM(expectation maximum)算法是由Dempster,Laird和Rubin 于1997年提出来的,这种方法广泛应用于不完全数据的参数估计。

EM算法有两个主要的应用:一个是用于数据确有缺失情况下的参数估计,另一个应用是通过假定存在另外一些缺失参数(这些参数可能是不存在的或隐藏的),这样可以大大简化似然函数。后一种在统计自然语言领域的应用更为普遍。

EM算法的基本思想是将问题求解分为两步,即E步骤(对完全数据集似然函数的对数求条件期望)和M步骤(对求出的期望值进行最大化),然后不断地迭代E步骤和M步骤,直到求出极大值点为止。这两步不断地迭代,每一次迭代都要确保增加对数似然函数值和确保似然函数收敛到一个局部极大值点。

EM算法在统计自然语言处理中有着广泛的应用,比如在HMM中的向前.向后(forward.backward)算法、PCFG中的向内一向Pt,(inside.outside)算法、EM聚类算法和无监督语义消歧算法中的参数估计问题都是EM算法的具体应用。

1.2.2 基于深度学习的算法模型

基于深度学习的算法模型是当前的主流方法。从神经网络的结构上看,主要可以分为三种方式:递归神经网络、循环神经网络和卷积神经网络。

递归神经网络(Recursive neural network) 的结构如图1-1所示,其核心为通过一个树形结构,从词开始逐步合成各短语的语义,最后得到整句话的语义。递归神经网络使用的树形结构一般为二叉树,在某些特殊情况下(如依存句法分析树^[26]^)也使用多叉树。基于递归神经网络的文本表示主要包括句法树的构建和子节点到父节点的组合函数。

图1-1 递归神经网络结构图图1-1 递归神经网络结构图

循环神经网络(Recurrent

neural network)由Elman在1990年首次提出。该模型的核心是通过循环方式逐个输入文本中的各个词,并维护一个隐藏层,保留所有的上文信息。循环神经网络是递归神经网络的一个特例,可以认为它对应的是一棵任何一个非叶结点的右子树均为叶结点的树。这种特殊结构使得循环神经网络具有两个特点:1)由于固定了网络结构,模型只需在O(n)时间内即可构建文本的语义。这使得循环神经网络可以更高效地对文本的语义进行建模。2)从网络结构上看,循环神经网络的层数非常深,句子中有几个词,网络就有几层。因此使用传统方法训练循环神经网络时,会遇到梯度衰减或梯度爆炸的问题,为针对此问题进行优化,提出了LSTM(Long

short-term memory)模型。该模型引入了记忆单元,可以保存长距离信息,是循环神经网络的一种常用优化方案。

卷积神经网络(Convolutional

neural network,CNN)最早由Fukushima在1980年提出,其核心是局部感知和权值共享。卷积神经网络通过其卷积核,可以对文本中的每个部分的局部信息进行建模;通过池化层,可以从各个局部信息中整合出全文语义,模型的整体复杂度为O(n)。近几年来,由于卷积神经网络(CNN)在计算机视觉中的成功应用,研究者提出了许多基于CNN的自然语言处理模型。如Kim CNN。

1.3 开源项目

1.3.1 概述

自然语言处理历经几十年的发展,已经沉淀了丰富的经验,在不同的发展时期,也涌现了一些比较知名的开源项目,这些项目或作用于自然处理的某一个方面,或服务有某几个方面,为自然语言处理的发展做出了杰出的贡献。比较著名的自然语言处理开源项目如下表所示:

表1:著名的自然语言处理开源项目

项目 网址 功能
IKAnalyzer http://code.google.com/p/ik-analyzer/ 中文分词
盘古分词 http://pangusegment.codeplex.com 中文分词
腾讯文智 http://nlp.qq.com/ 中文语义开放平台
SCWS http://www.scws.org/ 中文分词
结巴分词 https://pypi.org/project/jieba/ 中文分词
搜狗分词 https://www.sougou.com 中文分词
新浪云 http://www.sinacloud.com/ 云计算服务
NLPIR http://ictclas.nlpir.org/ 中文分词
语言云 https://www.ltp-cloud.com/ 语言技术平台云
BosonNLP https://bosonnlp.com/ 中文语义开放平台

1.4 发展瓶颈

中文分词 过程中,如果抛开具体上下文语境,分词结果可能存在一种、两种或者多种都是合理的情况,所以中文分词是一个难点。第二个痛点在于词性标注 ,以“我喜欢唱歌”为例,“我”是代词,“喜欢”是名词,“唱歌”是名词,这个过程即为词性标注。第三个是语法理论,这其中包括结构理论、变换理论、特征理论、配价理论、指向理论、范畴理论、认知理论、语用理论、移位理论、约束理论。在自然语言领域,如果想要机器真正的理解语义,就需要根据这些理论建立模型。然而,目前在中文自然语言处理方面,关于这些理论的深入研究明显不足,所以无法基于一种定向的模式结构去判定这句话里面的句法结构、文法结构。第四个是词义的消歧 ,其中包括组合歧义、人名歧义、语用歧义、语境歧义、真歧义、分词歧义。其本质在于对歧义的精准理解,即:当我们去表达一句话的时候,要想准确的理解语义,而不会被其产生的各种歧义分支所干扰到。

1.5 参考书目

  • 《统计自然语言处理》作者:宗成庆、清华大学出版社;
  • 《自然语言处理综论》作者:冯志伟、孙乐 电子工业出版社;
下一节:计算机视觉(Computer Vision, CV) 是一门研究如何让计算机达到人类那样看的学科。更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学,它的技术集数字图像处理、数字信号处理、光学、物理学、几何学、应用数学、模式识别、人工智能等知识于一体。其应用已经涉及到计算集合、计算机图形学、图像处理、机器人学等领域。在多媒体信息时代,对计算机视觉的研究工作显得尤为重要,人脸是图像中最重要的对象之一,人脸识别技术是计算机视觉与模式识别领域的重要课题。人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物识别技术。采用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部特征定位、提取,记忆存储和比对辨识达到识别不同人身份的目的。因此,随着越来越多企业跨界进入人脸识别领域,势必加剧该领域的竞争。未来的人脸识别技术的应用领域会越来越广,市场也将更广阔。本从人脸识别的角度重点阐述一下计算机视觉的技术框架、算法模型、开源项目以及发展瓶颈。
作者:张子良