史上首个3D多语言AI记者来了,不仅写作、翻译无压力,还能一线报道国际体育赛事
Xiaomingbot可以生成与TTS模型输出音频的同步嘴唇动作,并渲染头发,衣服等。对于嘴唇动作,研究人员采用的是序列-序列模型(Seq2Seq)。该模型的输入序列是从TTS模型中提取的音素和相应的持续时间,而输出序列则是口型权重(嘴唇运动所产生的动画参数)。通过这些不同的口型权重,Xiaomingbot可以做出许多不同的面部表情。对于眼部、头发及皮肤的渲染,采用了3D渲染引擎Unity和不同的算法。 最后,研究人员表示,Xiaomingbot系统目前只是建构多功能AI系统的首次尝试。其在文本生成、讲话、表达等方面还有很大的局限性和进步空间。未来我们将会从可扩展的工作领域和对话交互能力两个方向进行改进和提升。 论文地址:https://arxiv.org/pdf/2007.08005.pdf https://syncedreview.com/2020/07/21/meet-bytedance-ais-xiaomingbot-worlds-first-multilingual-and-multimodal-ai-news-agent/ (编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |