据信,该技术可以在低质量的连接上实现高质量的通话和音乐。
上图:音频波中数据的图示。
上周,Meta宣布了一种名为“EnCodec”的人工智能音频压缩方法,据报道,该方法可以以64kbps的速度压缩比MP3格式小10倍的音频,而且质量不会损失。据 Meta 说,这种技术可以在低带宽的连接中显著提高语音的音质,比如在服务不稳定的地区打电话。这种方法也适用于音乐。
Meta于10月25日在一篇题为《高保真神经音频压缩》的论文中首次发布了这项技术,作者是Meta AI研究人员Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta 也在其博客上总结了关于 EnCodec 的研究。
上图:Meta声称其新的音频编码器/解码器可以压缩比MP3小10倍的音频。
Meta将其方法描述为一个训练有素的三部分系统,将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧率的“潜在空间”表示。然后,“量化器”将表示压缩到目标大小,同时跟踪最重要的信息,这些信息稍后将用于重建原始信号。(这个压缩信号是通过网络发送或保存到磁盘的。)最后,解码器利用单个CPU上的神经网络将压缩数据实时转换回音频。
事实证明,Meta使用“鉴别器”是创造这种方法的关键,这种方法可以在不丢失信号的关键元素的情况下尽可能地压缩音频,使其具有独特性和可识别性:
“有损压缩的关键是识别人类无法感知的变化,因为在低比特率下不可能实现完美重建。为此,我们使用‘鉴别器’来提高生成样本的感知质量。这就形成了一个猫捉老鼠的游戏,其中鉴别器的工作是区分真实样本和重构样本。压缩模型试图通过推动重构样本与原始样本在感知上更相似,来生成样本来欺骗鉴别器。”
值得注意的是,使用神经网络进行音频压缩和解压并不是什么新鲜事,特别是在语音压缩方面,但 Meta 的研究人员声称他们是第一个将该技术应用于48千赫立体声音频(略好于CD的44.1千赫采样率)的团队,这是互联网上分发的音乐文件的典型采样率。
上图:说明Meta的EnCodec压缩工作原理的框图。
至于应用,Meta表示,这种由人工智能驱动的“音频超压缩”可以在恶劣的网络条件下支持“更快、更高质量的通话”。当然,由于是元数据,研究人员也提到了 EnCodec 的元数据的含义,称该技术最终可以提供“丰富的元数据体验,而不需要重大的带宽改进”。
除此之外,也许有一天我们还能从中获得非常小的音乐音频文件。目前,Meta的新技术仍处于研究阶段,但它预示着未来高质量音频可以使用更少的带宽,这对流媒体网络负担过重的移动宽带提供商来说将是一个好消息。
访谈
更多做行业赋能者 HID迎接数字化浪潮新机遇 破解新挑战
今年3月份,全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》(以下简称“报告”),该报告…
数字化浪潮下,安防厂商如何满足行业客户的定制化需求?
回顾近两年,受疫情因素影响,包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击,市场…
博思高邓绍昌:乘产品创新及客户服务之舟,在市场变革中逆风飞扬
11月24日,由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会,在深…