机器学习入门之机器学习与自然语言处理
小标 2019-04-11 来源 : 阅读 1144 评论 0

摘要:本文主要向大家介绍了机器学习入门之机器学习与自然语言处理,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之机器学习与自然语言处理,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

机器学习入门之机器学习与自然语言处理

一、 引言

随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中来并取得了良好的效果,促进了自然语言处理技术的发展。然而,自然语言处理领域仍然有许多课题尚待探索,为机器学习的研究与应用提供了广阔的舞台。

本文较系统地介绍了自然语言处理中广泛存在的歧义现象的类型、实例和问题,并提供了我们利用机器学习方法解决其中一些问题的实例。本文还引出文学语言对机器学习的挑战性课题,其目的是期望更多的机器学习专家关注自然语言处理领域中的问题,共同努力,使自然语言处理技术朝自然语言理解的方向不断前进。

 

二、自然语言处理的主攻方向

汉语信息处理很难回避的一个步骤就是把用汉字序列书写的句子切分为词的序列或者说从句子中辨识出词。在这个最基本的步骤中,就存在大量的歧义。例如,仅“白天鹅”这3天鹅//个字的序列落在更长的汉字序列中,歧义就可能得以消解。

白天鹅飞过来了——白天//可以///  (家里通常不会养天鹅)

个字应该如何切分的,必须依赖更大的上下文语境。

 

*课题“文本内容理解的数据基础(2004CB31810260603093)、国家博士后基金(20060400027)的支持。

 

动物园里,白天鹅在湖里游泳。——动物园////天鹅////游泳//

白天鹅在湖里游泳,夜晚青蛙在池边鸣唱。

——白天/////游泳//夜晚/青蛙////鸣唱//

歧义。见下例: 

老子不在家这里的“老子”如果读“lao3zi3,是指古代的人物;如果读lao3zi——“连”是名词,指军队的建制;

我们兄弟心连心——“连”是介词,“带”的意思。 

当词语切分和词性标注正确解决之后,还会面临语句结构的歧义。

两个孩子的母亲——/m  /q  孩子/n  /u  母亲/n

              ——[ [  /m  /q  孩子/n ]  /u  母亲/n ]

              ——[  /m  /q  [孩子/n  /u  母亲/n ] ]

(m,q,n,u 分别是数词、量词、名词、助词的代码)

短语中各个词的结合顺序不同,就构成结构不同的短语,意义也就不一样。

显然,动词“吃”与其后面同是宾语的“玉米”、“大碗”的语义关系是不一样的:“玉米”是“吃”的受事(动作所及的对象),“食堂”是“吃”的处所,“大碗这句话的意义的理解,则完全依赖说这句话的人身份和当时的心境:主人希望留客还是在下逐客令。只有对说话者的态度进行揣度分析,才能消解这种语境歧义。

自然语言处理技术的进步总是伴随着计算机系统内的知识库的丰富和发展。然而,人对知识的运用并不局限于已经知道的知识以及单纯的机械计算或逻辑推理,人还会灵活运用旧知识,从而创造出新知识。以下是笔者之一的亲身经历。

9

句话,就是读不懂,朦胧地做了这样的切分:“就”、“就到”、到”、“到过”、“过渡”、“带”、“带来”、“来”、“开垦”,总是感觉不连贯。无奈,也就放过去了。当读到删节号后的那句话时,“过渡带”这个新词突然被发现,而且很自然地联想到前面那句未能理解的话,现在也豁然理解了。那时笔者第一次接触“绿洲和沙漠过渡带让计算机理解符合规则(词法、句法、语义)的自然语言的语句和文本已经是十分困难的任务,不同语言单位的各种形态的歧义已经让研究者左支右绌,力不从心。然而,当自然语言处理面对语言中的各种修辞手法时,又会遭遇什么样的困难呢?

三、文学语言对机器学习提出的挑战

    曾说过,“自然语言是一套规则加噪声”。这个命题如果不算是一条定律,至少是一种看法。

    并非所有不合规则和常识的语句都是噪声。在常识范围内,动词“吃”的客体或对象通常是食物。土块不是食物。有报纸曾载,“中国河北省有个老太太吃土块”。显然不能认为这句违背常识的话是混在正常自然语言中的噪声。

1隐喻和影射

。”在计算语言学领域,特别是在汉语信息处理领域,中国内地学者只是近年来才开始关注“隐喻”的识别和求解[2,3]首先探讨隐喻和歧义的关系。歧义是指对同一个语言形式进行分析或理解时,至少存在两种不同的结果。歧义消解就是对两种以上的可能结果,在特定的语境中选择其中的一种作为答案。歧义的最终消解取决于语境,需要语境分析。机器理解的困难是“由同辨异”。

可以根据包含隐喻的语言单位的大小将隐喻划分为词汇级、语句级和篇章级。

<span style=""font-family: 宋体; mso-ascii-font-family: "" times="""" new="""" roman';="""" mso-hansi-font-family:="""" 'times="""" roman'""="""">从词汇级隐喻开始(以下涉及词义,均参照《现代汉语词典》[4]<span style=""font-family: 宋体; mso-ascii-font-family: "" times="""" new="""" roman';="""" ms

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程