最新资讯风向标

“搜狗分身”技术亮相乌镇,“AI合成主播”入职新华社

2022-05-13 20:23 作者: 来源: 本站 浏览: 17次 字号:

摘要:   11月7日,第五届世界互联网大会如期在乌镇举行。   乌镇峰会是年度最盛大的互联网峰会之一,它不仅是行业精英交流学习的难得机会,同时,也是众多前沿科技成果的集中展示。在本届乌镇峰会上,搜狗便与新华社联手,共同推出了全球第一个AI合成主播,创造性地克隆出了真...

  11月7日,第五届世界互联网大会如期在乌镇举行。

  乌镇峰会是年度最盛大的互联网峰会之一,它不仅是行业精英交流学习的难得机会,同时,也是众多前沿科技成果的集中展示。在本届乌镇峰会上,搜狗便与新华社联手,共同推出了全球第一个AI合成主播,创造性地克隆出了真人主播的职业分身。

  所谓AI合成主播,顾名思义,是用人工智能技术合成的新闻主播。他不仅能用和真人一样的声音进行播报,甚至,连唇形、面部表情、肢体语言也能够与真人主播吻合,达到真假难辨的效果。AI合成主播的价值在于,可以大幅压缩新闻播报视频的后期制作成本,新华社副社长刘思扬表示:从今天开始,新华社AI虚拟主播就将正式上岗,成为新华社报道队伍中新的一员。

  

1.jpg(新华社主持人邱浩与自己的分身)

  那么,AI合成主播是如何产生的呢?搜狗语音交互技术中心总经理王砚峰透露,只需要由真人主播面对镜头录制一段播报新闻视频,搜狗分身技术凭借这段视频,就能将真人主播的声音、唇形、表情动作等特征进行提取,然后再通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的AI合成主播。

  

2.jpg

  王砚峰提到的搜狗分身技术,是搜狗公司的前沿技术之一,它包含语音合成和图像生成两大引擎。

  在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联;在图像生成引擎中,使用业界领先的搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。

  在以上两大引擎的基础上,搜狗分身能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。而AI合成主播还集成了搜狗其他领域的先进技术,例如,他可以自动识别中英文,并将中文直接转换成英文。

  

3.jpg

  值得一提的是,AI合成主播仅仅是搜狗分身技术的应用场景之一。得益于这项技术,搜狗可以批量复制风格各异的人类形象,满足用户的各种需求,例如合成教师、合成医生、合成客服等,从而提升不同行业的信息生产传播效率。

  此次搜狗与新华社的深度合作,是AI合成技术在全球新闻领域的首次应用,也是媒体与科技碰撞产生的全新果实。而AI合成主播的正式上岗,想必将影响除了新闻领域之外的、更广泛的社会生活。毕竟,人类与AI共舞的故事,现在才刚刚开始。