您的位置 首页 得到精选

卓克:连杨振宁都惊叹的降噪黑科技

你好,欢迎来到今天的《得到精选》,我是李南南。

今天的内容,来自卓克老师的《科技参考3》。我们都知道,在科技这件事上一直存在一个1+1>2的效应,也就是,很多新技术之间彼此碰撞,能够发生一些奇妙的化学反应。

今天我们要听的就是这么一个奇妙的组合,这就是AI加语义听觉。咱们先抛开具体的名词不说,这两个技术结合在一起,会产生什么效果呢?就拿降噪耳机来说,以前只是降噪,而现在AI和语义听觉这两个技术一叠加,它能够产生一个奇妙的效果,就是可以让降噪耳机屏蔽掉那些特定的声音源。就拿听演唱会来说,有了这个技术,你就可以只听台上的歌手唱歌,而不用听你旁边的那个人跑调的合唱。

那么这个技术背后是怎样的原理呢?它又会有哪些新的应用场景呢?

来,咱们有请卓克老师给咱们讲一讲。

你好,欢迎回到《科技参考》,我是卓克。

这期《科技参考》,我给大家介绍一个不久之后就会广泛应用在各耳机产品中的新技术——语义听觉(semantic hearing)。

这是声音降噪处理的一大步进展。这个进展和AI的发展密不可分,它会大幅提高今后音频产品的播放效果,也会大幅改善降噪耳机和助听器的效果,甚至会大幅改善公共场所的噪音环境。

在介绍新技术前,我们先来看看前两代噪音处理都是怎么做的。

杨振宁先生在2019年之前,每年都会有几次公开演讲,讲完后都有问答环节。这个环节的效果有一个分水岭,那就是2017年。在之前的演讲效果远不如后面的,主要就是因为他岁数大了,耳背。

2017年之前,往往是观众用话筒说一遍,杨振宁先生示意自己没听清,然后观众再大声喊一遍,往往还是听不清,之后还得上台趴在他耳边再重复,往往这次还是听不清。后来考虑到呼吸道疾病传染,也就不用提问的人上台了,由主持人在杨振宁先生耳边复述。所以,这样的问答环节是缺少交流感的。

但是2017年之后的演讲,杨振宁先生就再也不用别人在耳边复述了,因为他配了一个新的助听器。有一次,还因为一个问题和台下距离他七八米的小同学你一句、我一句争了起来。争的什么内容呢?其实就是大型加速器该不该现在建。

虽然争的内容也很值得一说,但咱们这期关注的是声音,所以暂且放在一边。杨振宁先生说,自己的助听器就是声音算法改进之后的成果,希望后辈学物理的同学们也去关注类似的、有实用价值的应用,比如声音算法的改进。

其实,2017年之前杨振宁先生也戴助听器,只不过那时候声音算法还是老套的。很多人也在后台问我,到底是哪个品牌、哪个型号的助听器使用了新的算法或者是什么算法。其实就是深度神经网络的算法。

具体哪些品牌、哪些型号是用这个技术量产的,我也不清楚细节,但是大致来说,一个2017年就在量产产品中使用的技术,而且还是对产品性能有大幅提升的技术,在六七年后的今天肯定已经广泛普及,甚至烂大街了,达到了谁不用谁淘汰的地步。

所以大概率说,今天助听器的五大品牌——峰力(PHONAK)、奥迪康(Oticon)、伯纳峰(Bernafon)、唯听(WIDEX)、西嘉(Signia)的中高端以上型号,肯定都使用了新的算法。

而这个算法也一样用在了降噪耳机中,因为降噪耳机实际上也是助听器的反向应用。

最早的降噪是手工做的,大致原理是对各种噪音进行采样分析。

噪音嘛,最典型的就是沙沙沙的白噪音、嗡嗡嗡的震动噪音,专业说法叫“红噪音”或者“布朗噪音”;还有电器噪音,就是电子设备电磁干扰出现的刺啦刺啦的声音;还有“谐波失真”,往往就是原始信号整数倍的噪音。

采样后,对每类噪音的各种案例做分析。

最容易去掉的是那些100Hz振动频率以下的低频噪音,去掉它们后的降噪效果也最明显。因为对人最有用的、带有丰富信息的声音,往往集中在人的语音范围之内,这基本集中在100Hz-1000Hz之间。

然后就是去除频率在3000Hz以上的噪音。首先,这个区域的信息含量已经降低了,可以适当地压低强度。具体方法就是使用滤波器,比如把20Hz-100Hz的声音强度滤掉95%,再把超过3000Hz的声音信号滤掉90%。我们有时候去唱卡拉OK,那些歌的伴奏就是利用这样的原理反向操作的,只不过乐器的声音里也有很多频率和人声是重合的,所以如果只单纯地压低人声所处频率范围内的所有声音,连伴奏都会闷得很。

那一时期的降噪或者助听器,就是靠人工的经验一点点调,试图找到一个将各频谱的声音压到多低,人听起来才能有最好效果的方式。但这种方式很不理想。

第二代技术就是杨振宁先生说的那种算法了——深度神经网络。

深度神经网络最初是用来高水平地进行分类用的分类器。比如,都是毛茸茸的,毛茸茸的猫和毛茸茸的狗有什么区别呢?人是可以一眼分出来的,机器之前不行,但深度神经网络可以。

通过把采集的数据变成向量,再不断地让向量之间做乘法,找到向量间的相似度,再通过多层神经网络抽取特征,层数越多,特征抽取得就越准确。在这样的训练下,日常生活中各种典型的噪音特征就都被提取出来了。

这些特征就存储在已经训练好的模型中。降噪耳机工作时,由多个麦克风一起收集外界的噪音,然后输入给模型,模型输出的结果就已经按要求把那些噪音都抠图抠出来了。处理器再让发声单元发出一个和抠出来的噪音响度相同、但相位正好错位180°的声音,于是正反两个波形几乎一致、振动方向相反的声波叠加在一起,加和效果就是零,噪音就这样被去除了。

索尼和Bose就是这方面的好手。所以,这两家的降噪耳机在2014年时最先突破,可以卖到三四千块钱一副。但六七年后,这样的算法早就是业内尽人皆知的技术了,比拼的主要是模型的细致与否,于是今天花300块钱买的降噪耳机效果,比2014年花3500块钱买的降噪耳机效果还要好。

在这一代的基础上,还可以把不需要降低的声音单独拎出来,也就是很多降噪耳机里的“通透模式”。就是在训练模型时,也把说话的嗓音特征勾勒出来,在输出的时候予以加强,或者是麦克风不止耳机外侧有,深入耳道的部分也设置麦克风,精准收集离听神经最近的环境数据,连血管搏动的低频噪音也能滤掉。

如果继续往下发展,就是“语义听觉”。这个算法在大类上依然属于深度神经网络,它的创新在于使用自注意力机制。

这句话一下出现了很多生词——

首先是“语义听觉”。通俗地说,它可以按声音的含义来区别对待处理,然后输出。比如敲门声、吸尘器声、汽车喇叭声、婴儿哭声、冲厕所声、玻璃打破的声音、打雷声。你说,上一代降噪耳机不也是能识别各种噪音吗?不,远没有这么具体。你可以戴上索尼1000XM5降噪豆,楼上装修,你依然可以听见变弱的砸墙声。但语义听觉降噪耳机是可以完全屏蔽掉这类噪音的。

其实从数学原理上说,前一代降噪技术也一样可以实现如此清晰地把这样的噪音勾勒出来的效果,但却无法抵消。原因是,降噪这个任务对延迟要求太严格了,当噪音出现后50ms还不能把反向波形叠加上去、正负相消,降噪效果就要大打折扣了。

所以,第二代技术就要在计算量和模型上做取舍。尤其是今天有线耳机已经越来越少,甚至挂在脖子上有一定体积的入耳式耳机都有点被歧视,那么电池容量和运算量上的限制就卡得更死了,于是上一代深度神经网络降噪的模型就不能太复杂。

但是,语义听觉使用的是和ChatGPT一样的Transformer模型,自注意力机制可以同时处理整个序列的所有元素,而不必像递归神经网络那样必须顺序地处理声音序列,运算效率大幅提升,从噪音的出现到处理完成的延时就能大幅缩短,于是模型可以考虑更多的参数。这些参数就是刚刚例子里那些特别具体的动静。

从理论上说,如果你特别发愁女朋友的唠叨,可以把她的声音纳入训练数据,以后家里就彻底安静了。而这一点,也是语义听觉降噪更具有优势的一点,也就是这个模型可以开放微调功能给用户。

华盛顿大学的几位声学科学家就在2023年11月举行的ACM用户界面软件技术研讨会上展示了他们的语义听觉成果。

我们先来听一段会上的演示。

第一个演示是用iPhone11手机通过Lighting接口连接耳机,提供数据和供电,人在家里吸地板,然后用语音下达指令:允许敲门声。

这算是一个比较常见的场景了——比如吸尘器的噪音特别大,而没听到快递员敲门。一会儿你耳机里听到的就是吸尘器开始工作,然后下达指令开启降噪,一下就安静了,接着出现的敲门声就是降噪后叠加的敲门效果,失真很不明显,但吸尘器的声音几乎完全没有了。

第二个场景是在公园长椅上录的。开始是环境声,有微风的声音和晨练人的谈话声,下达的指令是保留鸟叫声,然后开启降噪,瞬间就只有鸟叫声了。

你可以点击下图链接,戴上耳机来感受一下语义听觉降噪的效果。

延迟怎么样呢?模型的计算只使用iPhone11的芯片,延迟只有6.56ms。由于还考虑到双耳机降噪,需要处理2个略有差别的噪音来源的信号,而且还原过后还需要被试者能听到环境音里没有被滤掉的信号声音的方位,所以最终的结果仅有6.56ms,可以说是极为优秀的。

研究人员还测试了双耳降噪后,被试者对信号来源方向的判断准确性,50百分位的误差是22.5°。这个水平和不做任何处理时一般人对声音方位的判断是大致类似的,说明降噪后的声音没有被扭曲。

如果降噪不是用iPhone11,而是用今后肯定会附带各种神经处理单元的手机芯片,性能还能再提升,延迟还能再降低。

此外,他们还尝试了一种降低运算量,然后和当前的主动降噪技术合并使用的方法,就是噪音的去除方面依然使用上一代主动降噪技术,而有用信号的识别部分使用语义听觉加强。这种方法可以进一步降低延迟、减少计算量,同时大幅改善有用信号的清晰度。实际上,这个方向的尝试就非常适合给助听器用,因为它们需要很低的功耗,保持长时间工作。

同样地,既然是一个可以微调的模型,那也可以在噪音太大的公共场所放置一些喇叭,对典型的噪音进行消除。这时对功耗就没有要求了,模型的计算量可以适当大一些。比如,客机和高铁的坐舱里设置100个麦克风,实时降噪。

而且,我们也能预见到,今后5年的降噪耳机和助听器的效果还是继续猛增,所以现在就先不必砸钱买太贵的产品了。

好,内容听完了。

卓克老师的年度专栏《卓克·科技参考3》,目前已经更新到160多讲了。这也是我了解科技前沿进展最重要的渠道之一,包括科技大公司的动向,像英伟达、特斯拉、Meta ,都会讲到,还有那些跟生活、跟健康都密切相关的科学进展,专栏当中也都有深度的解读。

正好,现在是五一期间,这门课还有优惠活动,原价299元,现在只要249元。但是请你注意,优惠是有截止时间的,到5月5日就截止了。

现在,在得到首页搜索

“科技”

两个字,就能看到《卓克·科技参考3》的订阅入口,推荐你现在加入。

好,以上就是今天的内容。《得到精选》,明天见。

发表回复

返回顶部