办事指南

软件从维基百科学习新单词

点击量:   时间:2018-01-18 01:03:16

研究人员表示,使用在线百科全书维基百科可以帮助机器理解博客和其他非正式文本中使用的俚语这个名为Zeitgeist的程序通过维基百科寻找有关新单词的条目,这些单词没有出现在名为WordNet的在线资源中,这是一种官方语言学工具,既是字典也是词库研究人员使用WordNet来帮助计算机理解人类语言没有出现在WordNet中的新单词或新词不可避免地使计算机难以理解当Zeitgeist找到关于一个新单词的维基百科条目时,它会查看与该页面之间的链接,爱尔兰都柏林大学的首席研究员Tony Veale解释说 “这些联系中是否存在一种模式,使我们能够理解新词的含义”他问道例如,找到了一个“gastropub”这个词的条目 - 一个专门从事食物的酒吧 - Zeitgeist可以通过链接到“pub”和“美食”的条目来确定自己的定义该程序不会读取链接到的页面,而是将它们的标题与WordNet数据库中的条目相关联 “链接结构反映了思想之间的联系,”Veale说,“但人们倾向于将所有事物联系在一起 - 他们会发生链接腹泻”为了防止这种情况混淆,Zeitgeist忽略了那些没有回应的链接如果链接指向的页面没有链接回新词,则会打折扣 Zeitgeist的一个限制是链接有时指向一篇不属于新词定义的文章例如,由于维基百科条目的链接,它理解“女性化” - 一个用来将女性描述为憎恨的词 - 是“女权主义者”和“纳粹”之间的组合但女权主义者实际上是一个与纳粹国家社会主义学说毫无关系的滥用术语因此,Zeitgeist不能依赖于创建字典式定义但这不一定是个问题,Veale说他认为Zeitgeist的方法足以解决人类写作的情绪他说,与纳粹一词的联系应该清楚地表明新词带有负面含义 “我们对计算机处理文本感兴趣,并且有办法理解新词的含义和意图,”Veale解释说 “这对于从理解电子邮件到总结新闻报道的应用程序非常有用”许多公司都对这种技术感兴趣,以了解人们在博客和留言板上对他们的产品所说的话 “他们可能会有很多俚语和新词,”Veale解释道 “这些词语出现的速度太快,无法出现在像WordNet这样的词典或资源中”John Carrol在英国苏塞克斯大学开发了能够理解人类语言的系统,他同意维基百科是一个寻找新词的好地方:“它就是这样的我认为,大型和最新的资源,我认为它将来会更多地用于这样的项目,“他说 “Zeitgeist是一个很好的工具,”Carrol补充道但他指出,它的局限性意味着它只能处理它在维基百科中发现的75%的新词他说,