Google 让机器更懂语言的博大精深,释出最大消除歧义资料库
分类:S漫生活

Google 让机器更懂语言的博大精深,释出最大消除歧义资料库

理解语言的核心自然是了解词语在文本中的不同含义。先来说个中文笑话:

如果让机器来理解这到底是什幺意思,想必它会很头痛的吧。

那幺用相对简单的英文?也没有那幺简单。毕竟一个单词可能包括数十个意思。

举个例子:「He will receive stock in the reorganized company.」这个句子中,我们结合上下词就能知道,「stock」是股票的意思,我们可以从牛津字典中找到更专业的解释。

但同样在牛津字典中,stock 这个词还有超过 10 个不同的含义,比如「(商店里的)库存」或是「(鞭子、钓竿等的)柄」。对于电脑演算法而言,如何从博大精深的含义中找寻某个句子中对应的词义?这的确是一个词义消歧难题,也就是 AI-Complete 问题。

19 日 Google 研究院又发出了重量级新闻,他们释出了利用 MASC&SemCor 资料集的大规模有监督词义消歧语词。这些语词会与牛津字典上的例句互相映照,广泛适用于各个社群。与此同时,本次释出也是最大的全句释义语词程式库之一。

有监督词义消歧

人们透过对句子中词语的内容进行理解,因为我们能透过常识判断内文的含义。比如同一个例子,「『stock』 in a business.」代表的自然是股票的意思,而「『stock』 in a bodega.」更有可能是库存的意思,即使这里的 bodega 也可能指酒窖生意。我们希望为机器提供足够的背景资讯,并应用于理解字句中词语的含义。

有监督词义消歧(WSD)尝试解决这一问题,也就是让机器学习使用人工记号的资料,并与字典中的词语所代表的典型含义符合。我们希望构建这样的监督模型,能够不考虑複杂语境,并符合句中单词在词典中最可能表达的含义。虽然这一点富有挑战性,但监督模型在大量训练资料支援下表现良好。

透过释出资料集,我们希望社群能够提出更好的算法,让机器对自然语言产生更深刻的理解,支援以下的应用:

人工注释

在人工记号的资料集中,每一个词义注释都由 5 个评估者进行审核。为了确保品质,这些评估者会进行训练(gold annotation),即让语言学家对一些研究样本进行标记。以下是我们的标记页面。Google 让机器更懂语言的博大精深,释出最大消除歧义资料库

在页面左边呈现的是 general 的常用词义及例句,在右侧的文本中,general 一词会标亮显示。除了符合词义,评估者还能对词语进行判断,可以指出包括「拼字错误」、「上述情况都不符合」、「不确定」等 3 种情况。此外,评估者可以对一些含有隐喻的词语进行记号并评论。

这些人工的词义标注採用 Krippendorff’s alpha(α >= 0.67 则具有一定可信度,α >= 0.80 则表示具有很高的可信度)进行判断,结果显示得分为 0.869。这是一个非常不错的成绩了。Google 让机器更懂语言的博大精深,释出最大消除歧义资料库

Wordnet Mappings

与此同时,Google 也释出了两个从牛津词典到 Wordnet 的对映。小的资料集中含有 2,200 个单词,而大的资料集则是演算法构建的。这两个对映内容能更将 Wordnet 的内容应用于牛津词典的语料库中,也能在使用过程中实行系统的构建。

研究成果已经收录在「Semi-supervised Word Sense Disambiguation with Neural Models」中,主要採用的是 LSTM 语言处理模型及半监督学习演算法。

上一篇: 下一篇:
猜你喜欢
热门排行
精彩图文