·目前,语音、眼睛、手势和面部表达已经结合起来,实现数字虚拟人交互的多维表达。下一步将重点关注元宇宙和现实世界之间的信息交流。
人工智能生成内容(AIGC)在热潮下,图像内容领域进展迅速,另一条轨道的人工智能语音生成也非常重要:如何使机器的声音与人类媲美?
科大讯飞作为人工智能语音领域的龙头企业,最近宣布新一代语音合成系统SMART-TTS有11种情感的声音已经。基于这一进展,科大讯飞总裁吴晓如最近对澎湃科技表示反对(www.thepaper.cn)据说公司已经开始将语音、眼睛、手势、面部表情结合起来,实现数字虚拟人交互的多维表达。下一步将重点关注元宇宙和现实世界之间的信息交流。
科大讯飞总裁吴晓如在2022年科大讯飞全球1024开发者节上发表演讲。
AIGC支持元宇宙的发展
AIGC与元宇宙的关系成为科技界越来越关注的话题。在全球疫情高峰期,元宇宙迅速进入人们的集体意识,受到追捧。然而,随着这个名词变得太时尚,人们似乎不像以前那样积极甚至看不起它。无论如何,为元宇宙提供动力的技术一直在加速发展,其中之一是生成人工智能(generative AI),它使用深度学习神经网络,根据简单的提示创造性的概念艺术和其他想法,称为人工智能生成内容(AIGC)。
上周,人工智能产品和GPU(图形处理器)制造商英伟达首席执行官黄仁勋接受科技媒体VentureBeat采访中,生成式人工智能将是变革性的,变革才刚刚开始。它最大的应用之一可能与元宇宙有关,因为开发者需要使用3D资产用于填充虚拟世界,因此对内容的需求很大。
吴晓如告诉记者,人工智能更多的是成为元宇宙发展的支持者,虚拟数字人技术可能是元宇宙着陆的先驱。技术上,AI虚拟人提供的远程交互功能已经成为生产力工具,可以提供虚拟图像的显示,并在生产系统中得到应用。
今年年初,科大讯飞正式启动讯飞超脑2030计划。愿景方面,在第一阶段(2022-2023),公司将推出软硬件机器人,同时推出专业数字虚拟人家庭,担任教师、医生等角色;在第二阶段(2023-2025),将推出自适应行走的外骨骼机器人和伴随数字虚拟人家庭;第三阶段(2025-2030),最终推出知识渊博的伴随机器人和自主学习的虚拟人家庭。全面进入家庭。
吴晓如认为,人工智能开放平台的三大趋势是虚拟与实体的深度合作,连接终端更加多样化,更深入地融入医疗、教育、工业等行业场景。
目前,科大讯飞已经展示了许多面向未来元宇宙的专业虚拟人和身临其境的人机交互系统。目前,视觉、手势、视觉和语音已经开始结合一些智能应用程序,以实现数字虚拟人交互的多维表达。吴晓如在接受媒体采访时说。
在具体规划方面,吴晓如表示,首先面对场景应用,建立场景模型,使科大讯飞翔AI建立未来行业场景模型的成本较低;二是提供AI API(应用程序接口,可理解为可公开访问的接入点)超级工具,即终端用户可直接使用的智能工具,如财务报销,人工辅助招聘;三是降低互动虚拟人的成本;四是打造软硬一体化机器人,实现更低的成本和效率;五是提高隐私和数据安全性。
科大讯飞新一代语音合成系统根据最新音合成系统SMART-TTS它已经能够产生11种情绪,包括快乐、抱歉、被宠坏、严肃、悲伤、困惑、恐惧、鼓励、愤怒、安慰和溺爱。每种情绪都有20种不同强度的调节能力。此外,它还提供了声音的创造力,允许用户根据自己的喜好调整停顿、重音、语速等。
2022科大讯飞全球1024开发者节在11月18日举行,科大讯飞AI研究院副院长高建清曾向澎湃科技等媒体介绍过这一新系统。
机器要想更自然地与人类互动,就需要通过听觉、视觉、语义和各种传感器的组合来获取更多有用的信息,AI感知模式必须从单模式发展到多模式,并逐步拟人化。高建清表示,关键算法的突破之一是使用少量的监督数据优化基于无监督学习的预训练框架。
具体来说,对于多模式语音识别、情感识别等多模式任务,新的预训练框架可以平等对待音频、人脸等不同模式的输入,整合内容、表达和身份信息的相关性,设计不同的训练目标。少量的监督数据构建代码,使训练机下降80%,实现实用的预训练。
在声音和虚拟图像生成技术方面,据高建清介绍,语义可控的声音和图像生成、语义驱动的情感和动作表达已经实现。如果输入长发,系统智能生成温柔大方的女性形象,声音端庄甜美;输入英俊潇洒,生成一些商业男孩形象,声音略带磁性。
通过分析声音中的节奏和语义信息,虚拟人可以流畅地切换动作,并拥有更自然的肢体语言。与传统的动作库相比,这个语义驱动系统在动作拟人化和契合度方面有明显的效果。高建清说。
高建清透露,科大讯飞AI下一步,研究院将发布三款重点产品:一是2022年推出专业虚拟人,2023年打造数字经济下的虚拟人家族;二是2023年发布宠物玩具;第三,青少年抑郁症筛查平台将于2023年在全国免费发布。
总的来说,对于下一个人工智能和元宇宙的结合,吴晓如告诉澎湃科技,未来元宇宙与现实世界互动时,需要完成信息交流,这可能是我们下一步努力的重点。