Meta的人工智能音频编解码器承诺比MP3压缩率高10倍

上周,Meta宣布了一种名为“EnCodec”的人工智能音频压缩方法,据报道,该方法可以以64kbps的速度压缩比MP3格式小10倍的音频,而且质量不会损失。据 Meta 说,这种技术可以在低带宽的连接中显著提高语音的音质,比如在服务不稳定的地区打电话。这种方法也适用于音乐。

据信,该技术可以在低质量的连接上实现高质量的通话和音乐。

上图:音频波中数据的图示。

上周,Meta宣布了一种名为“EnCodec”的人工智能音频压缩方法,据报道,该方法可以以64kbps的速度压缩比MP3格式小10倍的音频,而且质量不会损失。据 Meta 说,这种技术可以在低带宽的连接中显著提高语音的音质,比如在服务不稳定的地区打电话。这种方法也适用于音乐。

Meta于10月25日在一篇题为《高保真神经音频压缩》的论文中首次发布了这项技术,作者是Meta AI研究人员Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta 也在其博客上总结了关于 EnCodec 的研究。

上图:Meta声称其新的音频编码器/解码器可以压缩比MP3小10倍的音频。

Meta将其方法描述为一个训练有素的三部分系统,将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧率的“潜在空间”表示。然后,“量化器”将表示压缩到目标大小,同时跟踪最重要的信息,这些信息稍后将用于重建原始信号。(这个压缩信号是通过网络发送或保存到磁盘的。)最后,解码器利用单个CPU上的神经网络将压缩数据实时转换回音频。

事实证明,Meta使用“鉴别器”是创造这种方法的关键,这种方法可以在不丢失信号的关键元素的情况下尽可能地压缩音频,使其具有独特性和可识别性:

“有损压缩的关键是识别人类无法感知的变化,因为在低比特率下不可能实现完美重建。为此,我们使用‘鉴别器’来提高生成样本的感知质量。这就形成了一个猫捉老鼠的游戏,其中鉴别器的工作是区分真实样本和重构样本。压缩模型试图通过推动重构样本与原始样本在感知上更相似,来生成样本来欺骗鉴别器。”

值得注意的是,使用神经网络进行音频压缩和解压并不是什么新鲜事,特别是在语音压缩方面,但 Meta 的研究人员声称他们是第一个将该技术应用于48千赫立体声音频(略好于CD的44.1千赫采样率)的团队,这是互联网上分发的音乐文件的典型采样率。

上图:说明Meta的EnCodec压缩工作原理的框图。

至于应用,Meta表示,这种由人工智能驱动的“音频超压缩”可以在恶劣的网络条件下支持“更快、更高质量的通话”。当然,由于是元数据,研究人员也提到了 EnCodec 的元数据的含义,称该技术最终可以提供“丰富的元数据体验,而不需要重大的带宽改进”。

除此之外,也许有一天我们还能从中获得非常小的音乐音频文件。目前,Meta的新技术仍处于研究阶段,但它预示着未来高质量音频可以使用更少的带宽,这对流媒体网络负担过重的移动宽带提供商来说将是一个好消息。

THE END
责任编辑:赵龙
免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!