自然语言处理中的语义到底是个什么概念?语义分析是要分析出什么结果?

已邀请:

zhaojing

赞同来自:

Computational Linguistics里的Semantics是继承自语言学的概念。
    比如你说,树。这只是一个符号而已。假如你知道了这个符号指的是那种高的长叶子的长在土里的那个东西(我这个描述弱爆了。。。),那么这些你想到的东西就可以算作‘树’这个符号的‘语义’。而如果你在说话/写文章/etc. 里用到了‘树’,很可能你指的是一颗特定的树,相当于一个实体(类似OO里的一个Object/Instance),而这一个特殊的实体很可能有一些更独特的属性。
    你有了一段Natural Language,你见到了一个词,Computational Semantics的目的是了解这个词儿的属性,以及这个实体和其他实体(可能存在)的关系,etc. 了解了这些,差不多可以说处理了它的语义。
举个例子,‘前面有一棵树’,Syntax层面上,你可以分析出‘一棵树’在这个句子里是一个NP,以及可以分成‘一颗’和‘树’,但是,它们仍旧是一些符号;到了Semantic层面,假如知道了‘树’是什么意思,那么从这句话里,计算机(是计算机,不是你)可以推断出树的‘位置’是前面,前面是土地(可以种树)等等,你知道关于这个实体的属性/关系越多,你能做的,能推断的东西就越多,在这个层面上,我们才‘可能’‘可以’说计算机理解了自然语言的语义。在Semantic层面之上,还可以讨论Pragmatics,说的是一个词一段话在具体语境下的语义。
    放到NLP的语境下来看,语义可以有很多种表现形式,比如Formal Semantic,讲求的是语义的精确(得发指的:()的表述,基于逻辑的数学模型(比如谓词逻辑,在此数学模型 != 统计模型),例如DRS,例如Ontology,基于Description Logic;比如Distributional Semantic,说的是一个词的语义可以由其共同出现的其他词来代表,著名的一个Implementation: Language Model, 就是传说中的n-gram及其数学组合方式(以及相关的smooth方法不细说),是统计模型,更好实现更容易开发更普适.

zhaojing

赞同来自:

引用《统计自然语言处理基础》中的两句话来解答这个问题:
    语义可以分成两部分:研究单个词的语义(即词义)以及单个词的含义是怎么联合起来组成句子(或者更大的单位)的含义
语义研究的是:词语的含义、结构和说话的方式。
    以上是书本中的定义,语义分析是一个非常宽泛的概念,任何对语言的理解都可以归纳为语义分析的范畴,笼统地谈语义是一个非常宽泛的概念。所以应该结合具体任务来看看什么是语义分析,以及语义分析的结果是什么。
从分析粒度上可以分成:词语级的语义分析,句子级的语义分析,以及篇章级别的语义分析。

词语级的语义分析
    词语级别的语义分析的主要研究词语的含义,常见的任务有:词语消歧、词表示、同义词或上下位词的挖掘。

词语消歧:一词多义是许多语言的固有属性。以“苹果”为例,可以指水果,又可以指美国的科技公司。词语消歧的任务是判断文中出现的词语是属于哪种意思。
词表示:深度学习兴起后,掀起了一波对词表示的研究浪潮。词表示的任务是用一个k维的向量表示一个词,并且该向量中包含着词语的意思。比较有代表性的工作是Tomas
Mikolov的Word2Vec,该方法训练得到的词向量能够让语义相关的词具有相似的词向量,并且词向量间还具有逻辑推算能力。
同义词和上下位词的挖掘:语言的多样性导致了多词义一,例如房子的近义词有房屋、房产。语言的层次性导致了词语间具有上下位关系,像房产、存款、股票可归纳为财产。可以使用一些机器学习的方法挖掘词语间的这种关系.

句子级的语义分析
    句子级别的任务就更多了,常见的任务有:语义角色标注、蕴含分析、句子表示、语义依存分析。

语义角色标注 (Semantic Role
Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
文本蕴涵(Textual entailment)是指两个文本片段有指向关系。当认为一个文本片段真实时,可以推断出另一个文本片断的真实性。完成这样。完成这样的任务,也需要从语义角度出发进行解决。
句子表示:同词表示类似,句表示研究的是用一个k维的向量表示一句话的含义。近几年,常用句向量在文本检索、问答系统中计算文档间的相似度。
语义依存分析 (Semantic
Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。比较有代表性的工作是哈工大刘挺老师实验室的LTP。

篇章级的语义分析

篇章级的语义分析是句子级研究的延伸,常见的任务是指代消解。

人称代词(Pronoun)

【李明】怕高妈妈一人呆在家里寂寞,【他】便将家里的电视搬了过来。

指示代词(Demonstrative)

【很多人都想创造一个美好的世界留给孩子】,【这】可以理解,但不完全正确

有定描述(Definite Description)

【贸易制裁】似乎成了【美国政府在对华关系中惯用的大棒】。然而,这【大棒】果真如美国政府所希望的那样灵验吗?

要回复问题请先登录注册