谷歌人工智能部门DeepMind正与牛津大学研究人员合作,希望开发出全球最先进的“读唇”软件,可能比人类的“读唇”能力还要出色。 为实现这一目标,研究人员选取了数千个小时的BBC电视短片,上传到一个神经网络上,对其“读唇”软件进行训练,即根据主播嘴部运动来识别其播报内容。 结果,这款“读唇”软件的唇读准确率高达46.8%。相比之下,基于同样的测试内容,人类唇读的准确率只有12.4%。 这项研究基于牛津大学之前的一款人工智能“读唇”系统“LipNet”。LipNet能将视频中人物的嘴部运动与其台词进行匹配,准确率高达93.4%。当然,该准确率主要基于一些相对简单的句子。 DeepMind这款“读唇”软件名为“看、听、分析与拼写”(Watch, Listen, Attend, and Spell),与LipNet不同的是,DeepMind的软件致力于更难的长句。 为此,谷歌神经网络观看了来自BBC的约5000个小时的流行电视节目,包括《晚间新闻》和《提问时间》和《今日世界》等,共包含了11万个不同的句子,1.75万个不同的单词。相比之下,测试LipNet的句子只包含了51个不同的单词。 谷歌对此表示:“这项研究的目的是识别人们谈话时的短语和句子,有声音或没有声音都能识别。与之前的相关研究不同,它们仅限于有限数量的单词或短语,而我们的研究针对无限制的自然语言长句。” DeepMind团队认为,他们新开发的这款软件除了能帮助听力损伤人群,还支持其他一系列应用,包括注释电影、利用唇部动作与Siri和Alexa等数字助理通信等。 |
谷歌开发AI“读唇”软件 准确率比人类高3倍
数码录入:贯通日本语 责任编辑:贯通日本语
相关文章
东京游戏展闭幕 云服务渐成趋势
索尼为年末商战发布PS5相关信息 游戏行业或迎最大规模的更新换代
日本三大运营商推迟上市华为新手机:担心无法用谷歌软件
任天堂底气十足 认为谷歌涉足流媒体游戏“是良机不是威胁”
Beat Saber日本版将于下周发布
2018年日本主机市场:总规模4343亿日元 PS4卖出755万台
《刺激战场》5月登陆日本
上周日本市场销量:《怪物猎人:世界》加把劲呀
日本索尼要推动独立游戏走向世界全球
上周日本游戏销量榜:年末商战开始 市场升温
北京知识产权法院:3DMGAME破解传播日本光荣游戏判赔102万元
增产效应?Switch 日本销售一枝独秀飙 4 成
夏普Android One计划新成员Sharp X1即将登陆日本
日本电通等3社共推新款折叠版VR谷歌眼镜
详解EMUI 5.0:迄今为止最流畅的安卓系统
魅蓝、小米Root别担心,KingRoot给手机更多安全感
谷歌发布Voice Access 可通过语音控制手机
Android版本升级之路 有“糖”就能吃得到吗
Google.com和ɢoogle.com并不是同一网址
KingRoot 5.0来了!不怕静默安装“耍流氓”
一加3T国行版将至 配置顶配价格或有惊喜!
微信、游戏都来了,Moto 360满足你对智能手表的全部期待
Adobe研发音频“PS”软件开发者为清华金泽宇
谷歌系车载机器人问问魔镜 将带来怎样的出行体验
双11谨慎淘宝,腾讯手机管家查获5款病毒刷单APP