• 中国台湾网移动版

    中国台湾网移动版

七嘴八舌分不清谁讲话?Google靠AI分辨谁开口

2018-04-16 15:57:00
来源:中国台湾网
字号

  

  Google训练AI依据画面和声音判断说话的人。(图片来源:台湾“东森新闻云”)

  中国台湾网4月16日讯  据台湾“东森新闻云”报道,人类可以在嘈杂的人群中,依据声音传来的方向辨别说话的人,但计算机可就没有这么厉害了,不过 Google 今天公开一项技术,让AI在混杂的影片中,分辨开口说话的对象,并且将每一个人的声音拆开成为独立音档,这项技术除了有望改善YouTube的字幕功能外,也能提升多人视频对话的质量。

  据报道,Google藉由一段表演秀视频展示研究成果,AI会将声音元素与视觉画面结合起来进行判断,简单来说,当视频中左边的人在进行对话时,他的嘴巴应该要产生对应的开阖动作,AI藉由捕捉肢体细节来判断现在说话的人物是谁,接着再通过隔离单一声音讯号并加强、其他声音降低,完成独立单一音源的工作。

  除了展示隔绝声音的技术外,Google实际示范AI与YouTube目前的自动字幕的互动状况,这项技术未来有机会帮YouTube添加双轨道的字幕显示。

  Google特别提到,他们认为这项功能在视频会议上能有所贡献,期望技术能广泛运用在Google各项产品之中。若依据Google的论述,Hangouts、Duo 是有可能使用这项技术的产品名单,在七嘴八舌的视频会议中,藉由AI强化说话者的音量并隔绝杂音,会带来更好的服务体验。(中国台湾网 王怡然)

[责任编辑:王怡然]