账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
浅谈Audio压缩技术发展现况
 

【作者: 陳惠芳】2000年04月01日 星期六

浏览人次:【7920】

在过去10年,CD音质的数字音乐已渐渐取代了模拟Audio,CD Audio的取样频率高(44.1kHz,16 bit),不仅声音数据保存容易且有着更好的听觉享受,但不经过压缩的音频数据量太大,在数字音乐应用整合到网络、无线通信、多媒体,就面临到要降低Channel带宽、有限储存容量及低成本等问题,而经过压缩的数字Audio技术让Audio数据更有效率的传送及储存,成为新宠。


MPEG Audio是一个开放的音频压缩标准,普及性高,目前的应用有VCD、DVD、SVCD、CVD、MP3。但MPEG-1的声音输出是2声道,在讲究临场感的剧场或家庭剧院应用,则需要MPEG-2及AC3的多声道声音输出,当前普遍应用在DVD Player上。另一方面,配合Internet传输的便利性,使得传统音乐市场,也转向数字化、小型性,与可移植性的方向前进。在各种环境下的应用,发展了许多的压缩方法,有A2b、MPEG Audio、AC3、Advanced CELP、Voxware、SoundVQ、MP3、AAC、WMAudio等等。


当前,MP3的压缩解压缩工具相当普及,应用的音乐类型符合一般的市场,造成一股风潮,刺激了音乐出版市场,改变用户习惯,从网络上下载音乐。相对的,厂商也提供了便利的播放环境,于是,可以播放音乐的手机,手表,PDA等产品,也渐渐取代了传统笨重的播放系统。对IC设计者而言,目前最大的课题是以现有的硬件,整合各种的音频压缩标准,迎合未来可能的产品应用,以下将就几项音频压缩标准作简单介绍。


各种压缩标准MPEG

MPEG是由Moving Picture Experts Group所订定的一系列公开标准,MPEG-1涵盖高取样频率的Stereophonic讯号,有着Transparent Quality;相较之下,MPEG-2提供Low Bit Rate的Stereophonic Audio、多声道的压缩及更高音频质量的声音。


MPEG-1依照压缩及解压缩的复杂度可分成3个层级(Layer),各有不同的目标应用。Layer1适用在Consumer产品,BitRate从32kbps到448kbps,订定的应用目标是DCC、Solid State Audio。Layer2相较Layer1提供更好的压缩比,主要用在Consumer及Profession的产品上,像是Audio Broadcasting、VCD、SVCD、CVD,BitRate从64kbps到384kbps。在MPEG-1中,压缩效果最好的就是Layer-3,一般简称MP3,它的压缩比约10到12倍,举例来说,CD音质的声音(44.1khz),一分钟歌曲压缩后的数据量为60*44.1k*2ch*2Byte =1M Byte,一片光盘可以存放750 MByte=750分钟的MP3歌曲=200~250首歌曲,容量相当惊人。


MPEG目标在Generic Audio,也就是各种类型的Speech和Music Signal,是属于Perceptual Coding。在Encoder端,将声音经过Filter Bank切割成32个相同带宽(Subband)的频率讯号,同时利用Psychoacoustic Model(人耳听觉模型),由听觉遮蔽效应,计算出人耳对于各个频带的声音的敏感度,决定各个频带的位个数及Quantization Scale,藉此以较低的数据量达到更好Audio Quality,最后将Quantize之后的声音样本,包装成MPEG 标准的格式。


在Decoder端,仅需要回复、重建Quantized Subband Sample,再将一组组的Subband Ssample转成时域的Audio信号,相对于Encoder,复杂度较低。各个Layer的Encode和Decode的复杂度比可参考(表一)。Layer3的的高压缩比使用的技术之一是Switch Hybrid Filterbank,多加一组MDCT,将频率分成576个,在声音的处理上可以有更细腻的效果。另外,以Huffman Coding储存Quantized Sample降低数据量,所以可以比Layer1 及Layer2有较好的声音质量而不增加数据量太多(图一)(图二)。



《表一 MPEG-1 Layer1,Layer2,Layer3 Encoder和Decoder的Complexity比较表》
《表一 MPEG-1 Layer1,Layer2,Layer3 Encoder和Decoder的Complexity比较表》
《图一 MPEG1 Encoding/Decoding Block Diagram》
《图一 MPEG1 Encoding/Decoding Block Diagram》

《图二 Layer3 Encoding/Decoding Block Diagram》
《图二 Layer3 Encoding/Decoding Block Diagram》

以各个Block的复杂度来看,Filter Bank所耗计算量最多,总共在一个Frame里(一个Frame要在26 ms内译码完成)要作36次的32点DCT,及乘大小为512 点的Window,这部分在实作上多以快速算法取代,或是由独立Hardware完成以达到Real-Time的要求。


MP3目前的应用已相当多,利用uP加上Dedicated /Accelerated Hardware或是DSP-based 的产品都有,TI、Motorolla、AnalogDevices、Samsung都已发展完成MP3的译码芯片。


MPEG-2:

MPEG-2以是否与MPEG-1兼容(Backward Compatible)分成两大部分,与MPEG-1兼容的标准提供多声道,产生的声音更有临场感(图三),同时也提供多语言,目前在DVD Player for PAL的系统规格上,Audio部分是将MPEG列为必要规格。MPEG-2的压缩解压缩的原理与MPEG-1类似,但是为了降低多声道数据量,用到CrossTalk、Prediction等技术。与MPEG-1兼容的这部分标准除了多声道之外,另有一个标准是以较低Sampling Frequency,应用在需要数据量较少的产品上。


《图三 MPEG-2 Multichannel BitStream》
《图三 MPEG-2 Multichannel BitStream》

在MPEG-2中的另一个标准是AAC(Advanced Audio Coding),与MPEG-1不兼容,AAC运用高分辨率的Filter Bank,以一半于MPEG-1的数据量提供更好的声音质量,在1996年英国的BBC及日本的NHK都证明AAC的Quality满足ITU-R的要求(图四)。AAC结合了1024点的MDCT,Temporal Noise Shaping、Prediction及Noiseless Coding等技术,来达到低数据量、高声音质量。为满足不同需要,AAC提供三种Profile,Main Profile的Quality最好,MPEG-2 Low-Complexity Profile不用到Prediction,Sampling-Rate-Scaleable Profile的复杂度最低。AAC同时也是MPEG-4 Audio的Kernel之一。


《图四 AAC Encoding Diagram》
《图四 AAC Encoding Diagram》

MPEG-4:

这个标准分成两部分:Synthetic Coding(MIDI、TTS、3D-localisation)及Natural Coding(Parametric Codec、CELP、MPEG2-AAC),目前尚未完全定案。


AC3:

这是由Dolby发展的Audio Standard,原是为了应用在电影胶卷上,为了节省空间而把人耳听不到的声音删除,节省数据量,与MPEG一样都属于Perceptual Coding。AC3最多有5.1个声道,包含5个全频的Channel及一个超重低音Channel,所以定位能力很好,而数据量在5.1 Channel时是384-640kbps。DVD Player NTSC系统的规格里将AC3列为必要的Audio规格。与MPEG最大不同点,在于虽然AC3包含于ATSC的标准之中,但实作时必须向Dolby License及通过Dolby的认证。


AC3是Adaptive Transform-based的编码(图五),用Princen-Bardley的TDAC(Time Domain Alais Cancellation)的FilterBank,Filterbank-based的编码,保留信号和Quantization噪声,在经过人耳听觉模型,消除人耳听觉上感觉不到Noise的数据,减少数据量。每一个Block有512个Sample,经Overlapping及MDCT Transform转成256个频域Sample。


《图五 AC3 Encoding/Decoding Diagram》
《图五 AC3 Encoding/Decoding Diagram》

同样是利用人耳听觉模型作位的分配,AC3将Transform的时频Sample分成Exponent和Mantissa分别Encode,由Exponent去计算个别Mantissa的分辨率,可以提高声音的质量,在位分配时,考虑到不同Channel之间的相似性,将部分Channel作Coupling,及相近的Exponent或Mantissa Encoding在一起,以节省多声道的数据量。


在实作上,最耗时的是Transform Kernel,而如果要通过Dolby认证,这部分运算可能累积的Error也要特别注意。其次是BitAllocation,在Encoding和Decoding端都必须计算BitAllocation,由解出来的Exponent计算Mantissa的位数,因此在Real-Time Decoder这部分的负担仅次于Transform Kernel。


SoundVQ:

这是由YAMAHA研发的压缩标准,压缩大小是MP3的30%~35%,80kbps的VQF档声音质量相当于128kbps的MP3,不过Sound VQF的解压缩复杂度约是MP3的2倍,目前压缩的BitStream较不多。


ATRAC(SONY SACD):

Sony、Sharp阵营主导的Super Audio CD,主要应用在MD上。用到的FilterBank是Hybrid QMF/MDCT。


WMA:

迎接数字音乐时代,Microsoft推出的Audio压缩标准,期望对在Internet上销售的的版权数据有更好的保护,并为CD-音质的音频信号提供更好的压缩。目前Microsoft在Streaming方面的技术Windows Media Technology中包含了WMA(Window Media Audio),压缩后的档案大小是MP3的一半,而声音质量与MP3相当,译码的复杂度也和MP3相当,是继MP3之后颇受注意的压缩标准。WMA之上有一层DRM(Digital Right Mangemnt),作音乐版权认证。目前WMA已实作在Cirrus Logic、TI的芯片上,预估支持WMA的PDA和Portable Device会越来越多。


总结

人耳可以听到的声音频率范围在20~20kHz,要有高的音频质量,同时要降低数据量,人耳听觉模型及听觉模型是最常被应用的,MPEG及AC3都是属于Perceptual Coding,压缩/解压缩的算法上有部分相似性。在IC设计的实作上,可以有机会共享部分硬件,降低成本。


目前的DSP运算能力越来越强,而更高声音分辨率及多声道的压缩标准,在剧院或是数字AV产品,信息家电上,被应用的很广;另一方面,网络和可移植性产品普及,也造就数字音乐的一片天空。高压缩率、高质量的压缩音频与生活息息相关。目前,另一个重点是保密的机制,由于音乐保密及版权的标准未定,对IC设计者而言,不明确的规格在发展上是成本的增加,相对的也使数字音乐市场的脚步变慢,因此订定一个统一的音乐保密协议及付费规定将有利加速市场的发展。


相关文章
以霍尔效应电流感测器简化高电压感测
以固态继电器简化高电压应用中的绝缘监控设计
以半导体技术协助打造更安全更智慧的车辆
适用於整合太阳能和储能系统的转换器拓扑结构
氮化??在采用图腾柱 PFC 的电源设计中达到高效率
comments powered by Disqus
相关讨论
  相关新闻
» 意法半导体突破20奈米技术屏障 提升新一代微控制器成本竞争力
» Pure Storage携手NVIDIA加快企业AI导入 以满足日益成长的需求
» ROHM推SOT23封装小型节能DC-DC转换器IC 助电源小型化
» 意法半导体先进高性能无线微控制器 符合将推出的网路安全保护法规
» ST推先进超低功耗STM32微控制器 布局工业、医疗、智慧量表和消费电子市场


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK83SCWKAUQSTACUK8
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw