微软管震:基于神经网络的语音合成(预览版)正式上线

2018-12-28

“我们听到一个词叫‘边缘智能 ’或‘边缘计算’,智能放在边缘上面,会产生很多有意思的事情。”


12月20日,微软中国首席技术顾问管震在“2019智能终端 AI+技术峰会暨2018全球好手机最佳供应商颁奖典礼”上发表了题为《边缘智能的力量》的演讲,并表示,微软目前在人工智能更新上有一些进展,其中包括语音合成、机器翻译研究系统等。

“5G到来之前,边缘计算是一个避不过去的话题。”



微软中国首席技术顾问管震


12月,基于神经网络的语音合成(预览版)正式上线。


据介绍,此版本的语音合成质量更高,引擎性能也更为出色。


“我很惊讶,我以为人工智能应该不会发展这么快。实际上,微软的语音合成已经达到一个较高的水平。”管震表示。


随后,管震现场播放了两段音频,“虽不至于诗与远方都是幻想,但陌生的环境未知的生活,并非每个人都有能力、有心境、有底气把日子过得开出花。”“为你找到以下列车,其中第一班是后天14:10从杭州出发,二等座价格是73元。”


“大家可以猜猜,哪个是录音,哪个是AI合成。”管震笑了笑说道,“实际上,这两段音频都是AI合成。”而前一段音频更具人性化。


管震指出,“客户向我们提出了更高的要求。毕竟手机的语音合成如果像地铁报站一样,给人的感觉会不舒服。”


据介绍,微软的定制化语音技术已经可以通过语音合成模仿人的说话、呼吸声,甚至读屏时有语气有情感,以此表现出人的特性。


今年,微软发布了一个参考设计,对于原场收音,可以单独挑出每个人的语音。微软的人工智能技术全部在云端运用。“微软擅长的是,在一定范围内,把语音挑捡出来并做出分析。”


管震透露,今年微软的目标,是在文本理解能力在标准的数据集、机器翻译的能力上超越人类,语音合成以及语义理解能力达到人类水准,机器可以和人们畅通对话。其中机器翻译的能力与语音合成技术已经落地。


本网站由阿里云提供云计算及安全服务 Powered by CloudDream