AI让赵本山、郭德纲一起飙英文:背后科技来自中国团队7个月收入百万美元

   

  近日,不少郭德纲说英文相声、赵本山伦敦腔接受采访、马保国狂飙日语化身马大佐的视频开始在互联网风靡,这背后的核心技术来自于一款AI视频工具。

  据悉,这一技术支持300多种声音、40多种语言,不但可以准确卡点,音色与讲母语时候的音色类似,甚至连口型都能对上。

  从上周开始,郭德纲说英文的视频就开始在抖音、微博等平台疯传,在这些视频中郭老师不仅用英文接受媒体采访,还用英文说相声。而这些视频并非简单的配音或者AI变声,而是高度贴合人物声线和风格、甚至连嘴型都匹配,以假乱真程度让围观者大为震惊。

  本周一赵本山用伦敦腔接受采访的视频以同样的原因在全网爆红。在这两例娱乐性极强的案例的启发下,有网友认为在未来翻译的工作非常有可能被AI取代,而好莱坞罢工所担忧的AI取代演员危机似乎也初见端倪。

  蓝鲸记者正常采访到了其中多条爆款视频的制作者UP主赛博法师,他告诉蓝鲸记者,这些视频的爆火在他的预期之中,在发作品之前,还在制作的步骤中的时候我就知道会火。他表示,自己本身是传媒、新媒体行业出身,进行AI相关联的内容创作也有半年多,觉得自身的网感和对AI发展的情况都有一定自信,在作品还在制作中的时候,我都在不禁感叹,实在是太像了。我们这些AI相关的创作者更了解现在的AI发展到哪一步了, 阈值比普通人更高,连我都感叹的东西,普通人看到也一定会赞叹。

  除了技术本身带给大家的震撼,这类爆款视频的主人公也是精心选择的结果,赛博法师表示,主要是反差感。赵本山和郭德纲都是老派语言类表演艺术家,他们在公众面前的形象都是比较有乡土气息的,并不那么洋气,那么设想一下,当观众们看着他们两个突然飚出一口英文会怎么样?我就是想抓住这个反差感,让他们第一时间吸引观众的耳朵和眼睛。

  不过从AI孙燕姿起,版权就像一把达摩克利斯之剑悬在创作者头上,赛博法师也不免有此担忧,他告诉蓝鲸记者,自己虽然同步在B站与抖音都发布了相关视频,但赵本山和郭德纲并没有在抖音火起来,很大程度上是因为被限流了,还是比较担心版权问题的,目前这还只是翻译了原视频,我要是直接修改人物发言内容,造成名誉受损、造谣等后果那就太严重了。

  据赛博法师介绍,AI郭德纲的实现主要基于一款AI视频工具HeyGen,用户只需上传视频,选择语言,就能生成自动翻译、音色调整、嘴型匹配的视频。

  HeyGen的开发团队为诗云科技,司如其名,公司名中的诗云取自刘慈欣科幻小说《诗云》,寓意人的创造性无法被科技取代,但创作的过程和效率却可以被机器极大优化,而现实中诗云科技要做的也是用AI生成内容,让用户以更低成本完成内容创作。

  据天眼查APP,诗云科技的法定代表人为徐卓,目前公司已完成两轮数百万美元融资。其中2021年3月,诗云科技宣布获得红杉中国种子基金和真格基金的天使轮投资;同年8月30日,诗云科技宣布获得数百万美元Pre-A轮融资,由IDG资本领投、红杉中国种子基金和真格基金跟投。

  徐卓英文名Joshua,他本科毕业于同济大学自动化专业,后前往卡内基梅隆大学攻读计算机硕士学位。作为明星应用Snapchat前100号员工 ,徐卓从0到1搭建了Snapchat广告平台、推荐算法系统和机器学习平台Barista,并负责AI camera的技术及产品研制,经验十分丰富。他的创业合伙人梁望此前在字节跳动担任北美设计主管,二人同属大厂精英。

  HeyGen于2022年7月正式推出,据36氪报道,HeyGen在7个月内实现了100万美元的ARR(年度经常性收入)。

  HeyGen的收入大多数来源于于付费,据赛博法师介绍,这款应用分年付和月付,月付最低29美元包含15分钟生成时间,再往上还有几个档次,主要是包含的生成时间不同。对这种的收费,赛博法师认为对于普通用户而言并不便宜,29美元/月的起步价对于美国人来说可能不算得上什么,对于国内来说就太贵了,毕竟换算下来两百块出头了。

  但同时他也肯定了HeyGen的技术:半年前的AI技术,还需要20-30分钟的人声素材,才能训练出一个声音模型,而HeyGen只需要几十秒,而且目前没见到同种类型的产品能做到像HeyGen一样对口型。

  自从ChatGPT在国内掀起AI浪潮后,大厂悉数投入战斗,但现实来看,当初对标ChatGPT的大模型类应用或尚未面世,或并未掀起太大水花,相反一系列具体的落地应用反而成为了一个个小爆款。

  SO-VITS-SVC源于2021年6月11日发布的VITS的开源项目。VITS是一种语音合成模型,能轻松实现文生音的效果。但VITS模型需要海量的训练数据,并高度依赖于人们对语料数据的文本标记,应用门槛很高。2022年8月26日,一位名为Rcell的B站用户在VITS的基础上,结合了Soft-vc、VIsinger等,开发出了SO-VITS-SVC模型。SO-VITS-SVC能够理解是一个音色转换的AI模型,仅需十几分钟的音频数据,便可以拟合成具备特定主体音色的工具。

  2023年8月,国内首个AIGC爆款应用妙鸭相机引爆网络,这是一款以AI大模型为基座的App,是由阿里大文娱投资的一个创业项目。该产品公布后,一些高峰期排队、个人隐私相关线月,凭借AI郭德纲与赵本山,HeyGen走入大众视野。

  纵观在国内激起大众舆论层面关注的几款AIGC应用不难发现,玩具属性似乎是走红的基础,当初对标第四次工业革命的AI创业浪潮则并没有在大众层面给生产力环节带来相应的惊喜。AIGC究竟会在多大程度上真正影响我们的生活?

  对此,赛博法师认为,一个技术从出现,到被大家熟知,需要一个过程。以玩具的形式出现在大众眼前,并不全是一件坏事,同一种技术,既能做成玩具,也能做成工具。比方说我之前做过摄影师,在我手里我觉得单反相机更好用,手机只是图一乐,拍不出相机的效果。但在普通人手里,相机还真没有手机好用,使用门槛的高低直接决定了适用人群,玩具也可,工具也可以,主要是看谁来用。