
自从 AI 出现以后,我刷视频,老被那种" AI 配音"的科普号整出戏。发音字正腔圆,但情绪语调听起来像白开水似的,听着耳朵都起茧子。
所以我对 AI 语音这个东西,一直保持保守态度。
虽然录视频时,我经常因为语音 NG,但真的被伤过太多次。市面上哪些号称 " 媲美真人 " 的 AI 语音,就像喝了假酒的 Siri 一样,每次听都觉得差一口气,太没活人感了。
上周,我看到 MiniMax 最新升级到了最新的 2.8 语音模型,据介绍,这货已经进化到人耳难辨的程度。
MiniMax 的 AI 配音
第一次打开 MiniMax 的语音生成界面还是挺简洁的。

同时,它还分成语音合成与音乐创作两个选项。(音乐创作不是我们今天的主题,想我测评这个模块的小伙伴,可以在评论区留言告诉我)
中间是一个大文本框,只要输入文本,调节好自己喜欢的参数,就能生成音频,整体简单方便。
可以看到,MiniMax 很贴心地给了新闻播报、说书、影视配音三个最主要的应用场景。
下面是模型的选择,最新的就是 2.8 的模型,分为两个,一个是 hd,一个是 turbo(一个主打情绪渲染,一个主打生成速度)。
最底下还有一个音色库,里面摆放了官方调设好的音色,老狐我虽然没有细数,但是鼠标一路滑下去,数量已经是非常客观了。

无论是御姐音、少年音、大叔音还是萝莉音,甚至是日中韩、法语、西班牙语都能选择,基本能覆盖日常使用了。
整体给我的第一印象,操作很简单,不到一分钟就能生成一段不错的语音,这效率让我流下了羡慕(嫉妒)的泪水。
(老狐我之前因为音色不满意,一段视频 NG 了几十次,拍了差不多一整天 ...)

当然,这样傻瓜式的操作能不能做出好语音?我们来点硬核的。
AI 也有语言天赋!
既然是测试,那就要有章法。
根据 MiniMax 自己宣传,目前是支持 40 多种语言,而且每种语言还配备不同的音色。
那我就要来先测试一下,逻辑很简单,从国内到国外,从常规到变态。
简单的来看,我先测试了个普通话,随手选了个御姐音试试效果。
没想到 ...
天啊!现在连 AI 配音都能做得这么逼真,这么欲的吗??
这一开头就给了我惊喜。
那事不宜迟,接下来开始测粤语,毕竟我生活在广州嘛。
粤语这玩意儿,很多 AI 都翻车。声调复杂,用词特殊,还经常夹杂英文——这可是香港人的日常操作。
我挑了钟嘉欣的名场面—— "cheap man"。这段台词可是经典中的经典,情绪要到位,粤语要正宗,还要夹杂英文。

出来的结果竟然还不错。
有着地道的港式粤语味道,夹杂着英文单词的语感,完全不像 AI 生成的。
虽然整体上还是有点僵硬,但确实像哪个香港妹子在念台词,整体能达到以假乱真的效果,它竟然差点骗过我的耳朵??
粤语这一关,过了。
粤语测完我准备上点难度,把外语测上。
这里我选了《教父》里的两个经典名场面。

教父那种沙哑低沉、缓缓道来却字字千钧的感觉,并不容易配好,所以我特意选了一个中老年男声音色。
虽然嗓音是那种略带沙哑的中老年声线,但吐字清晰,但就是这种 " 不完美 ",反而让整个人物立体起来了,真的有点教父内味了。
在这里,我再说一个有意思的。
测完粤语和英语,我突然发现一个好玩的功能:它居然支持口音模仿。
而且里面竟然还有印度口音!连阿三的口音也能模仿吗??
我怀着半信半疑的心态,试了一下印度口音的英语。还是刚才那段教父的台词,但这次加了印度口音标签。
音频出来的那一刻——我直接笑了。
味道太对了。那种浓浓的 " 印度阿三 " 味道蹭蹭就上来了。卷舌音、独特的节奏感,简直神还原。
我甚至脑补出了一个印度大叔穿着西装、戴着墨镜、用教父的语气说话的画面。
这波,我是服气的。
AI 配音还有情感语调?
到这里,多语言能力算是测完了,整体效果确实不错,但这只是基础。
配音演员厉害的地方在哪里?不是多语言的念字,而是情绪,语调。
同一句话,同样的文字,开心、愤怒、悲伤说出来完全是三种表现,AI 如果做不到这一点,就会瞬间出戏。
而这次 MiniMax 的 2.8 新 AI 语音模型,就是可以在输入的文字里面,插入各种标签。

例如说情绪标签,停顿标签,还有语气词标签,这个作用在 AI 语音里面可以说是质变!
各种组合,能让生成出来的语音,有更多的情绪语调感觉。
来实测一下效果。
我先是把刚才钟嘉欣的 Cheap man 台词重新生成了一遍,但这次加了 " 生气 " 和 " 厌恶 " 的情绪标签。

效果真的不一样了,加上情绪之后,那种怼人的名场面一下子就出来了。就连 "cheap man" 这种情绪化的词,她都说出了那种不屑、嫌弃的感觉。
就像你真的被人气到了,然后忍不住骂了一句 "cheap man" ——那种又气又看不起的感觉,真的非常到位。
我又试了一下教父的场景。
教父说话最大的特点是什么?不急不慢,每一句话都要停顿,每一个字都有分量。
我按着原场景,把话语做了一些停顿,让他在关键的地方停下来。

一下子,感觉就来了。
那种缓缓道来、字字珠玑的感觉,真的让人肃然起敬。如果闭上眼睛听,你真的会以为是一个老者在跟你说话。
我还自己尝试的时候,还发现了一点有意思的东西。
例如说,假如我连续加上好几个"哼唱"的预期标签上去,

它并不会机械地重复一个哼唱的音符,而是智能地连成一段轻哼,然后才开始说我给的台词。
整个配音显得角色非常可爱。
整体测试下来,作为一个科技博主,能看到,国产 AI 模型在语音生成上,对于情感细节的把控、对多语种的完美支持,确实走在了行业前列。
这一点让我由衷地感到骄傲。
但另一方面,我也开始为配音老师们捏把汗。
当一个模型能通过文字,捏造出任意声音时,那就注定阶级比较低,还只会念稿的工作岌岌可危。
不过所幸的是,技术永远是工具,现阶段,可以看出来,MiniMax 的语音模型依然提升空间,例如在情绪上,依然还未能完全模仿到位。
而且,即使 AI 能模拟出 99% 的完美声音,但决定声音此刻是哭是笑,依然掌握在人类手中。
正规股票配资开户提示:文章来自网络,不代表本站观点。