飞晔 征稿
物理位 | 社会公众号 QbitAI随著成像演算法产业发展,现如今他们用保距感应器也能“捕捉”多维讯号了。
举个例子,这是他们用2D感应器拍下的两张“相片”,看起来充满了噪音统计数据:
不过,正是透过这张“相片”所包涵的统计数据,他们就能还原成出几段动态的音频来!
听起来很神奇,但透过一类名叫镜像填充成像(Snapshot Compressive Imaging, SCI)的方式,确实能同时实现。
这种方式能将多维统计数据作为三维量测展开取样, 进而同时实现高效率地以获取多维听觉讯号。
以照相机为例,虽然它是2D感应器,但如果想配套措施在照相机镜头后加个位数微镜电子元件量测设备 (Digital Micromirror Devices,DMD,这是一类能精确地控制光源的电子元件),就有配套措施使一般的照相机对多维统计数据展开最优化量测,得到简易的的2D统计数据,再还原成出多维3D的听觉讯号。
比如,一般的照相机帧率很低,一秒钟最多只能拍十张相片(假设能拍30张)。
当他们想摄制高速运动的物体时,只要给一般照相机加上这个位数微镜电子元件,它就会沿时间层次填充音频讯号,每拍下两张相片就能还原成出几帧甚至几十帧相片(也就是还原成出几段音频)。
假设他们给位数微镜电子元件默认的填充率是10,那么,现在拍两张相片就能还原成出10张相片(或者说是几段包涵了10帧相片的音频),而照相机的帧率也直接翻了10倍,变成一秒钟能拍300张相片。
现在难题来了,要怎样从那些含有噪音的填充保距量测统计数据中,尽可能高效率地恢复正常原初多维讯号呢?
随著广度自学产业发展,各种复建演算法也都被提了出,不过那些演算法复建讯号的准确性和灵活性仍然不够好。
为此,来自香港大学、中国科学院和西湖大学的研究人员,提出了一类用于音频镜像填充成像的Deep Equilibrium Models(DEQ)方式,目前已被AAAI 2023收录:
这种方式不仅提升了复建精确度和灵活性,还进一步强化了缓存占用空间——
演算法在训练和测试中只需要常数级缓存,即:在采用广度自学时,它所耗用的物理地址communicate互联网广度变化(而在采用现代强化方式时,它所耗用的物理地址communicate插值次数变化)。
一起来看看。
镜像填充成像难点是什么?
受益于新颖成像硬体和成像演算法的设计,镜像填充成像(Snapshot Compressive Imaging, SCI)控制系统能在一次镜像量测中,将多维统计数据作为三维量测展开取样, 进而同时实现高效率地以获取多维听觉讯号。
如图1所示,SCI控制系统能分为两个部份,硬体代码和软件音频:
△图1. 镜像填充成像控制系统采用保距感应器在镜像量测中捕捉多维统计数据
以摄制音频为例,透过硬体代码,SCI控制网络系统音频统计数据展开取样,在时间层次上填充;此后,采用演算法来复建原初的多维音频统计数据。
这里考虑音频SCI控制系统,如动图所示,下半部份展示的是SCI控制系统硬体部份得到的填充量测,下半部份是采用该学术论文提出的演算法恢复正常出的音频结果。
显然,整个成像过程中需要解一个逆难题:怎样从含噪音的填充量测中恢复正常音频。
尽管目前已经有很多复建方式能解SCI成像的逆难题,但那些方式各有缺陷,如图2所示:
△图2. SCI复建的现有方式和主要难题
其中,现代的强化演算法(a)性能有限。
而随著广度自学的产业发展,起新端的广度互联网(b)和unfolding方式(c)虽然能提高性能,但不可避免地随著层互联网广度的增加而遭受不断增长的缓存占用需求,并且需要精心地设计模型。
即插即用(PnP)框架(d)虽然享受统计数据驱动正则化和灵活插值强化的优点,但是这种演算法必须透过适当的参数设置来保证准确的结果,甚至需要采用一些复杂的策略来获得令人满意的性能。
相比于其他方式,学术论文提出了新演算法DE-RNN和DE-GAP,来保证复建结果的准确性和灵活性,其复建结果的性能能收敛到一个较高水平,如图3所示:
△图3. DE-GAP与其他方式复建结果对比
通常来说,以往方式如RNN和PnP的复建结果不稳定,甚至在长期插值中性能变差。
但DE-GAP复建结果却能随著插值次数的增加保持性能的提升,并最终收敛到稳定的结果。
这是怎么做到的?
引入先进模型提升性能
为了解决以往方式存在的难题、同时实现更先进的SCI复建,这篇学术论文首次提出了一类新思路——
采用DEQ模型,解决音频SCI复建的逆难题。
DEQ模型在2019年被首次提出,主要应用于自然语言处理中的大规模长序列语言处理任务。
如图4所示,DEQ模型能透过牛顿插值法等求根方式,在前向传播和反向传播的过程中直接解出不动点,进而仅采用常数级缓存就等效同时实现了无穷深互联网:
△图4. DEQ模型的解不动点方式(左)和常数级缓存占用(右)
(图4出自学术论文:S. Bai et al, “Deep equilibrium models”, NeurIPS 2019.)
具体来说,这篇学术论文首次将DEQ模型应用于两个现有的音频SCI复建框架:RNN和PnP。
效果也非常不错,RNN相当于仅采用常数级缓存同时实现了无穷深互联网,PnP等效于同时实现了无穷多插值强化步骤,并且在插值强化过程中直接解不动点。
如图5所示,学术论文为RNN和PnP分别设计了结合DEQ模型的插值函数,这里x是复建结果,y是填充量测,Φ是量测矩阵:
△图5. RNN和PnP分别结合DEQ模型后的插值函数
(具体推导过程和前后向传播的细节请见学术论文)
实验结果怎样?
学术论文在六个经典的SCI统计数据集和真实统计数据上都展开了实验,相较以往的方式,整体复建结果都要更好。
如表1显示,平均而言,这种方式在PSNR同时实现了大约0.1dB的改善,SSIM同时实现了大约0.04的改善。SSIM的改进表明,这种方式能复建具有相对精细结构的图像:
△表1. 音频SCI复建的六个经典统计数据集上不同演算法的PSNR(dB)和SSIM
图6则是经典统计数据集上不同演算法的复建结果对比,在一些细节的呈现上更加流畅清晰:
△图6
图7则是真实统计数据上不同演算法的复建结果对比,效果相比之下也要更好:
△图7
更多实验结果可见学术论文。
目前学术论文代码已开源,感兴趣的小伙伴们能用起来了~
(文末还附上了作者的讲解音频,深入浅出)
学术论文地址:
https://arxiv.org/pdf/2201.06931代码地址:
https://github.com/IndigoPurple/DEQSCI学术论文讲解音频by作者:英语:https://www.bilibili.com/video/BV1X54y1g7D9/中文:https://www.bilibili.com/video/BV1V54y137QK/塑料粤语:https://www.bilibili.com/video/BV1224y1G7ee/— 完 —
物理位 QbitAI · 头条号签约
还木有评论哦,快来抢沙发吧~