办事指南

狂欢视频教会计算机识别声音

点击量:   时间:2019-02-07 07:12:05

混合图像/ Superstock作者:Aviva Rutkin现在机器也正在进行互联网观看狂欢 - 但有一些东西要展示它在观看了一年的在线视频后,计算机模型已经学会区分诸如鸟鸣,敲门声,打鼾和烟花等声音这种技术可以改变我们与机器交互的方式,使我们的手机,智能家居和机器人助手更容易理解周围的世界计算机视觉在过去几年中得到了显着改善,这得益于大量标记数据机可以在线使用他们现在可以像人类一样准确地识别面部或猫但他们的聆听能力仍然落后,因为没有多少有用的声音数据可用一组计算机科学家想知道他们是否可以依靠计算机视觉方面的进步来改善机器收听 “我们认为:'我们实际上可以将机器学到的视觉知识转移到我们没有任何数据的另一个领域,但我们确实在图像和声音之间实现这种自然同步,'”麻省理工学院的Yusuf Aytar说道技术 Aytar和他的同事Carl Vondrick和Antonio Torralba从Flickr下载了超过200万个视频,总运行时间超过一年计算机有效地通过视频进行马拉松,首先挑选镜头中的物体,然后比较它看到的原始声音例如,如果它发现了不同视频中婴儿的视觉特征,并发现它们经常出现在潺潺声中,即使没有视觉线索,它也会学会将声音识别为婴儿的唠叨 “这是从这些视频中学习而没有任何人在循环中,”Vondrick说 “从某种意义上来说,它只能通过一年的视频来识别声音”研究人员在三个数据集上测试了SoundNet模型的几个版本,要求它在诸如下雨,打喷嚏,滴答作响的时钟和公鸡等声音之间进行排序 计算机的最佳准确率为92.2%在同样的挑战中,人类得分为95.7%然而,一些声音仍然给SoundNet带来麻烦例如,它可能会将脚步声误认为是敲门声,或者是洗衣机的昆虫它有时也会混淆笑声和母鸡的声音但更多的培训可以帮助它理清细节该研究将于下个月在西班牙巴塞罗那举行的神经信息处理系统会议上展示 “这就像我们以前见过的一样,”英国肯特大学的Ian McLoughlin说我们大多数人主要使用语音和听力进行交流,所以这样的进步意味着我们有一天可以用更自然的方式与机器对话 “在人机交互方面,到目前为止,我们真的只是在探索视觉,”McLoughlin说 “我们用眼睛看图形 - 这就是计算机所做的事情但是下一个维度是音频“例如,我们中的许多人都很难找到一个声音激活的数字助理,比如Apple的Siri,因为它错过了单词或者听不到相关的噪音,因此无法理解我们所说的内容通过更多的倾听智能,这些助手可以更自然地与您沟通,如果您的言语被诸如救护车警报器或狗叫声等令人分心的噪音打断,请不要混淆它甚至可以使用这样的背景声音来理解情境的背景 Vondrick说:“麦克风比相机便宜得多,耗电少得多” “如果你想在手机上部署它,它就不会像你一直开着你的相机一样耗尽你的电池”家庭安全可能是另一个有价值的应用英国剑桥的Audio Analytic等公司旨在通过聆听威胁性的声音来帮助人们保护自己的财产 - 比如窗户破碎或烟雾警报声像SoundNet这样的程序使这个目标更加可行英国萨里大学的Mark Plumbley说:“这将允许你建立一个安全系统,或者可能会询问你的智能家居,以了解家中发生的事情” “随着谷歌和亚马逊最近发布Google Home助手和亚马逊Echo的消息,麦克风可能在家里和现在一直存在的想法可能会变得非常普遍”期刊参考:arXiv,DOI: 1610.09001阅读更多:自动twitcher识别不同的鸟类歌曲,即使有噪音更多关于这些主题: