您的位置:首页 >综合要闻 >正文

为什么您观看的下一个视频可能由AI配音

摘要 越来越多的由人工智能(AI)驱动的程序正在模仿从播客到视频等各种声音,专家表示,该软件非常逼真。一位业余电影制片人使用人工智能工具创作

越来越多的由人工智能(AI)驱动的程序正在模仿从播客到视频等各种声音,专家表示,该软件非常逼真。

一位业余电影制片人使用人工智能工具创作了他在Twitter上发布的一系列电影。费边·斯特尔泽使用AI语音生成工具为动画制作语音,这也是计算机生成的。

“通过深度学习进行的人工智能现在被证明是语音到文本和文本到语音(即说话和听觉)的最准确的方法,”计算机通信公司Sensety的首席执行官托德·莫泽尔(Todd Mozer)在接受电子邮件采访时告诉Lifewire。“这很有用,因为它有效。对于语音输出,人工智能可以创建新的声音和新面孔来准确地进行嘴唇同步,或者它可以复制已知的人。

智能语音

施特尔泽在推特上写道,他的电影《SALT》“是一部完全由人工智能生成的电影,社区选择推动了一个多情节的故事。这部剧的情节很难辨别,但它似乎有基于他Twitter账户上的剪辑的科幻元素。

像Stelzer这样的创作者有许多AI语音软件选项可供选择。例如,米克怪物提供了一个在线画外音库。该公司提供500多种声音,提供速率和音调选项,以及超过129种语言。对于Micmonster和类似程序,您所要做的就是键入您希望角色说出的单词。

Mozer表示,对人工智能生成的声音的兴趣激增是由社交媒体视频中字幕的使用日益增加所推动的。“能够自动将口语转化为文本对于字幕非常受欢迎的播客和视频来说是一个巨大的时间和成本,”Mozer说。“使用文本到语音转换系统也可以部署在播客和视频中,以更快地传达信息,并具有更好的清晰度,没有错误或”Ums“。

Mozer说,我们的大脑处理语音的速度比大多数人说话快得多,所以我们经常感到无聊和分心。“能够轻松加快语音速度,控制清晰度和音高,并快速编辑任何问题而不是重新录制是一个巨大的优势,”他说。

Mozer说,文本到语音转换系统也可以用于播客和视频中,以比大多数人更快地传达信息,并且具有更好的清晰度。“内容也可以由人工智能创建,但这仍处于起步阶段,容易出现事实不准确。我预计至少四年内不会有人工智能媒体获得奥斯卡金像奖。

英特尔前首席数据科学家、数据科学公司 Oii.ai 现任首席执行官鲍勃·罗杰斯(Bob Rogers)通过电子邮件告诉Lifewire,人工智能转换器语言模型(如GPT3)已经将几乎所有书面通信(如多种语言)提炼成一个可以创建自然流动通信的框架。

“通常,这种沟通甚至是有道理的,尽管他们目前没有太多的推理,”他补充说。“开始一句话,比如'狗吠叫的时候......'语言模型将愉快地填写'..当它的主人回家时,“或”...在接近车辆的声音下,取决于问题的周围环境。

语音的未来

科技投资者布莱恩·戴维·克兰(Brian David Crane)预测,未来,随着原始语音通过AI交互和迭代,制作类似的语音样本或语音混合以开发独特的声音,将会产生越来越多的深度假货。“通过NLP(自然语言处理)和AI,语音克隆将用于改善服务的个性化,即使在播客媒体中也是如此,”他补充说。

不过,当心看似真实的假声音,罗杰斯说。他补充说,已经可以键入脚本,然后模拟个人的声音,词形变化和视频图像来传递该脚本。

“显然,这意味着我们需要继续开发检测合成视频和音频的工具,以跟上技术的步伐,”他说。

版权声明:本文由用户上传,如有侵权请联系删除!