账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
时域内插用任意延迟全通滤波器之设计
系统晶片设计专栏(1)

【作者: 王拓評、闕志達】2007年01月05日 星期五

浏览人次:【6478】

小数周期延迟滤波器是一种可用于内插离散讯号(DISCRETE-TIME SAMPLES)的装置,而其内插的位置由一非整数的延迟参数D来决定。小数周期延迟滤波器可应用在非常多与信号处理相关的领域,如语言处理、音响仪器模型或数位接收机中的时脉补偿电路。


实现小数周期延迟滤波器的架构主要可归纳为两类:分别是有限脉冲响应(FIR)滤波器和无限脉冲响应(IIR)滤波器[1]。以前者为架构,最著名的是Farrow内插器。当输入讯号能量集中在较低的频段时,此内插器即可达到足够的精确度并拥有低阶数和低硬体复杂度的优点。然而,当输入讯号能量散布至较高的频段时,则会产生相当严重的失真及振幅上的衰减[2]。


若以后者为架构,可以Thiran滤波器为代表。此小数周期延迟滤波器透过其系数镜射对称性的设计,保证全频段的量值响应(magnitude response)均具有单一相同(unity)增益。而此滤波器一样是透过一个小数周期延迟参数d来控制。参考文献[3][4]对此滤波器提出了电路设计,根据d,利用即时电路运算的方法来产生滤波器的所有系数。如此一来,当所需的滤波器的阶数很高时,便会产生相当长的关键路径延迟(critical path)和相当大的硬体使用量。


在本篇文章中,我们从Thiran滤波器的基础出发,提出数种改良式的硬体架构,以避免上述提及的缺点。除此之外,本文还提出阴影滤波器(shadow filter)的概念,用来解决当控制非整数周期延迟滤波器的随时变系数d产生溢位(overflow)时,所可能造成的电路不稳定( unstable)情形。


  


小数周期延迟全频段通过滤波器之架构

Thiran非整数周期延迟全频段通过滤波器

利用滤波器​​系数镜射对称性的设计,当一个N阶的无限脉冲响应滤波器具有(公式一)的转换函数(transfer function)时,不论系数ak的值为何,此滤波器即具有全通的特性。意即此滤波器在不同的输入信号频率下,其量值响应(magnitude response)均具有单一相同(unity)的增益,如(公式二)所示。



《公式一》
《公式一》

《公式二》
《公式二》

因此,当全通的特性已确定后,我们只需把重心移回至系数ak的设计上,也就是著重在相位响应(phase response)的部份,以达到小数周期延迟的功能。


Thiran小数周期延迟全通滤波器是以在零频率点有最大平坦的群体延迟(maximally-flat group delay)来做设计上的限制条件。如此一来,Thiran滤波器从零频率点到某一特定的频率点(根据使用者的设计需求而定)均有平坦的群体延迟(线性的相位响应)。根据文献[1],Thiran滤波器的系数公式为滤波器阶数N和非整数周期延迟参数d的函数,如下(公式三)。



传统剪裁的公式如下所示
传统剪裁的公式如下所示

其中(d)k 是从d、(d+1)到(d+k-1)共k项的连乘积;且d的合理范围为-0.5到0.5。此滤波器的输出除了原有欲得到的小数周期延迟d以外,由于其无限脉冲响应的电路特性,还会具有N个时脉周期(clock)的延迟,故总延迟为(N+d)个时脉周期。


(表一) 关键路径延迟比较

Type

Critical path

Real-time [4]

( M+1 ) M + {M+1+ } Ta

Table-lookup

Tm + 5Ta


Farrow内插器和Thiran滤波器的比较

为了要比较有限脉冲响应滤波器和无限脉冲响应滤波器两者间的效能,我们选取​​2阶4-tap的Farrow内插器[2]来和Thiran滤波器比较。 (图一)为理想Farrow内插器在频域上的量值响应及其相对应的错误量。由图一可知,在较高频段上,Farrow内插器会使输入信号的能量严重衰减,进而影响整个系统的效能。而Thiran滤波器则可完全免除掉这样的缺点:由公式一、公式二两式可知,即便滤波器系数经过定点数化(quantize)的处理,Thiran滤波器在全频段的量值响应上,均确保了单一相同的增益。


在完成两者频域上的效能比较后,改以输入真实讯号至Farrow内插器和Thiran滤波器,以比较两输出波形在时域上的效能差异,此时两电路的非整数周期延迟系数d均设为-0.5。如(图二),当输入讯号为加成性白色高斯杂讯(AWGN)时,相较于Farrow内插器而言,Thiran滤波器因具有单一相同增益的特性,使其输出保留了较多输入讯号的高频部份。如(图三),当输入讯号的能量是集中在较低的频段上时(band-limited),则Farrow内插器和Thiran滤波器的表现差异较不显著,但在输入讯号变动较快的一些转折处,仍可发现Thiran滤波器的输出较能跟上输入波形的变化,效能明显较优。


总而言之,在时域效能的评比上,同样以达成非整数周期延迟为目的,Thiran滤波器相较于Farrow内插器而言,更能忠实反应输入讯号在高频部份的细微变化。


传统Thiran滤波器之架构

为了实现Thiran滤波器的演算法,传统的作法是将(公式三)滤波器系数ak 的公式解拆成两个多项式的相乘:其中一个多项式和d无关;另一个则是以d为幂次的泰勒展开式[4]。其A(z)的转换函数如下(公式四)。



《公式四》
《公式四》

由公式三,滤波器的系数ak之分母具有控制小数周期延迟的参数d,当此滤波器要操作在即时系数更新的系统时,会造成硬体实现上的困难,而公式四的近似方法解决了这样的问题,但也付出了下述代价:如多项式乘积的近似造成精准度的丧失,且大量的乘加器的使用产生更长的关键路径延迟,和更大的硬体使用量。在假设文献[4]中的M、N和I均相等的情况下,关键路径延迟为(N+1)个乘法器和2N个加法器,并正比于滤波器阶数N;而其硬体复杂度则是和阶数N的平方成正比。



《图一 理想2阶4-tap Farrow内插器的量值响应(左图)及其错误量(右图)》
《图一 理想2阶4-tap Farrow内插器的量值响应(左图)及其错误量(右图)》

改良式的THIRAN滤波器架构

采用查表法来取得滤波器系数

在传统的Thiran滤波器架构中,为了即时更新滤波器系数ak,造成相当长的关键路径延迟。若采用查表法,以随时变小数周期延迟参数d来做为查表的位址,则可避免此一缺点并同时保留即时更新系数ak的能力。在实施缩减延迟的电路技巧(retiming technique) 后,并将对称系数的乘法器重覆使用,改良式的5阶Thiran滤波器架构如图四。如此一来,关键路径延迟将固定为一个乘法器和五个加法器,而和滤波器的阶数N无关。



《图二 时域上之输入输出波形仿真(输入讯号为加成性白色高斯噪声)》
《图二 时域上之输入输出波形仿真(输入讯号为加成性白色高斯噪声)》

采用线性近似法和两阶层查表法

Thiran滤波器的系数ak和小数周期延迟参数d具有一近似线性的关系,(图五)是以5阶Thiran滤波器为例所画的图。因此,若想进一步减低查表硬体的大小,我们可以先利用移位加法(shift-and-add)电路,根据d,来粗估滤波器系数ak的值。如此一来,查表内容只需存放理论值和近似粗估值间细微的差值即可,使得所需的查表硬体大幅缩小。


另一个可将查表大小再进一步缩小的方法是把存放上述细微差值的一个查表拆成两层的查表。第一层的查表使用小数周期延迟参数d的前几个位元(MSBs)做为查表的位址,而表内容储存的是一个系数理论值减去线性近似值的粗调值。换句话说,若d前几个做为第一层查表位址的位元均相同时,不论d剩下后几个位元(LSBs)的值为何,都是对应到相同的粗调值。而第二层的查表则是使用d全部的位元来做为查表的位址,储存的内容为系数理论值减去线性近似粗估和第一层查表粗估的值后,所剩下相当微小的差值。



《图三 时域上之输入输出波形仿真(输入讯号的能量集中在较低频段)》
《图三 时域上之输入输出波形仿真(输入讯号的能量集中在较低频段)》

设计实例

在此,我们举5阶Thiran滤波器来做为设计上的实例。我们给定其滤波器输入和输出、及小数周期延迟参数d的精确度均为10个位元。经过定点数的模拟后,滤波器的系数ak需要12个位元的精确度。由图五,a1在量值上的变化远较a2 到 a5为大,故以相同的精确位为基准, a2 到 a5需要的位元数远较a1为少。故5阶Thiran滤波器的系数组(a1, a2, a3, a4, a5)所需的定点数长度依序为(12, 11, 9, 7, 3)个位元。在使用单一查表的方法下,总查表的大小为1024*(12+11+9+7+3) = 43008 个位元。


若采用两层的查表来进一步缩减表大小,则第一阶层的查表需要d的前6个位元做为查表的位址;在达到和前述相同精确度的前提下,第一及第二层查表分别储存系数组ak的粗调及微调值,其所需的定点数长度分别为(12, 11, 9, 7, 3)和(6, 5, 3, 2, 1)个位元。而此两阶层查表所需要的总位元数减少到20096个位元。


若同时采用线性近似及两层查表的方法,则查表的部份只需储存系数理论值和线性近似粗调值的差值部份。一样以和前述相同精确度为前提,第一层的查表需要d的前7个位元做为查表的位址;而第一及第二层查表所需的定点数长度分别减少为(9, 9, 8, 5, 3)和(3, 3, 2, 1, 1)个位元。如此一来,此两层查表所需要的总位元数将进一步减少至14592个位元。此外,同时采用线性近似及两层查表的方法不仅减小了查表硬体的使用量,亦能保有使用查表法后,所拥有固定关键路径延迟的特性。其整体架构图如(图六)。


(表二) 硬体复杂度比较

Type

Real-time

u pdate [4]

One table

Two

tables

Linear

approxi.

& t wo tables

Combinational area ( μm 2 )

193709.09

156548.81

53638.41

45415.41

Noncombinational area ( μm 2 )

21734.64

11675.64

11675.64

11675.64

Total cell area

( μm 2 )

215447.61

168229.35

65313.86

57091.00


硬体比较

在本篇论文中,总共提及有四种Thiran小数周期延迟全通滤波器的设计:第一种为传统透过两个多项式相乘来取得系数的架构[4];而剩下的三种分别为使用一个查表、两层查表、和同时采用线性近似及两层查表的改良式架构。


(表三) 功率消耗比较

Type

Real-time

u pdate[4]

One table

Two tables

Linear

approxi.

& t wo tables

Total dynamic power ( μW )

1254.40

776.60

510.04

530.67

Cell l eakage p ower ( 你W )

984.03

800.42

311.91

245.67

Total power ( μW )

1255.38

777.40

510.35

530.91


关键路径延迟比较

和传统Thiran滤波器架构相较,改良式架构利用查表的方法,所产生的最大改进为大幅减少关键路径的延迟,并固定其关键路径延迟的长度。而传统做法为了达到系数的即时更新,其关键路径的延迟将线性正比于滤波器阶数N及参数M。 (表一)为传统架构和改良式查表架构之关键路径延迟的整理比较。



《图四 5阶Thiran非整数周期延迟全频段通过滤波器硬件架构图》
《图四 5阶Thiran非整数周期延迟全频段通过滤波器硬件架构图》

硬体面积和消耗功率比较

除了时间延迟上的效能改善外,改良式的架构亦可降低硬体面积和消耗功率。为了确保上述四种架构在硬体比较时的公平性,其滤波器的输入和输出及小数周期延迟参数d均给定为10位元的定点数长度;除此之外,查表内容的定点数长度均以达到最佳效能为选择考量,如第四章第3小节所述。


在合成上述四种不同的滤波器架构时,采用软体为设计编译器(Design Compiler),并给定10MHz的系统时脉(clock)和典型的模拟环境假设(typical condition),而设计资料库( design library)是采用联电0.18μm的制程。由于相邻d值的查表内容具有很高的相似性,因此,上述使用到查表法的架构均是使用组合式逻辑电路(combinational logic circuits)来实现;若采用暂存器档案(register file )来实现查表,则硬体面积反较使用组合式逻辑电路为大。(表二)为四种架构在硬体面积上的比较表,在同样达到系数即时更新的条件下,同时采用线性近似和两层查表的改良式架构的电路面积仅为传统架构的26.5% 。


除此之外,由于查表法避免了传统架构所需的大量乘法器,故可大幅缩减电路的消耗功率。由(表三)的功率消耗比较表可知,改良式架构相较于传统架构而言,最多可减少59.4%的功率消耗。然而,加入线性近似法的改良式架构,需要移位加法(shift-and-add)的运算,所需的动态消耗功率会略较仅使用两阶层查表的架构为大。因此,是否加入线性近似的技巧于两层的查表架构中,需要考量面积和功率间的取舍问题(trade-off)。



《图五 5阶Thiran非整数周期延迟全频段通过滤波器之系数ak对d作图》
《图五 5阶Thiran非整数周期延迟全频段通过滤波器之系数ak对d作图》

取样时脉偏移的补偿电路

输入缓冲暂存器(input buffer register)


Thiran滤波器使用可调整之小数周期延迟参数d来调控输出和输入讯号间小数部份的延迟;此外,为确保Thiran滤波器的稳定性(stability),d的范围应落在-0.5至0.5之间。若d是落在此区间内的某个定值,则此时滤波器可正确无误地运作。然而,当应用小数周期延迟滤波器于取样时脉漂移的补偿电路时,其d值通常为累加器的输出,故溢位现象会不断发生。当d值累加超过0.5时,即产生正溢位(overflow);累加至小于-0.5时,即产生负溢位(underflow)。解决溢位问题最简单而基本的方法是加入一个输入缓冲暂存器,即所谓的移位暂存器(shift register),如(图七)所示。


假设此时小数周期延迟滤波器的输入为x[n],当正溢位发生时,则滤波器的输入应更新为x[n+1]。这个过程等同于将图七的「窗户(window)」向左移动一个移位暂存器的长度。若发生负溢位时,则此「窗户」应向右移动一个移位暂存器的长度。


加入移位暂存器是有效解决溢位问题的方法,但要付出相当大的D flip-flop硬体是其最主要的缺点。若使用双埠的静态随机存取记忆体(dual-port SRAM),并利用记忆位置对应(memory mapping)的方法:一方面将输入讯号不断地依序存入记忆体中,另一方面使用一个额外的暂存器来储存读取记忆体之位址,当溢位的情形发生,便修改暂存器内代表记忆体位址的值,以控制此时要输入滤波器的讯号。这样的做法可节省相当多的循序逻辑电路(sequential logic circuits)。而此取样时脉漂移的补偿电路所能忍受最大的溢位次数是根据输入缓冲暂存器的长度或记忆体的大小而定。



《图六 利用线性近似及两阶层查表来取得滤波器系数ak》
《图六 利用线性近似及两阶层查表来取得滤波器系数ak》

阴影滤波器(shadow filter)

然而,单纯考量输入缓冲的设计并不能完全解决溢位时所发生的所有问题。当溢位产生后,由于瞬间d值的不连续,造成滤波器的系数会产生剧烈变化,见图五,而储存在滤波器内部的暂存器值也会随之大幅改变。由于Thiran滤波器是一种无限脉冲响应滤波器的架构,这样的改变会造成瞬间输出的剧烈变动,并造成电路不稳定(unstable)的情形。


有鉴于此,当溢位发生后,直接将滤波器系数的值更新,而不考量内部暂存器的稳定,不是一个理想的作法。为了确保无限脉冲响应滤波器的稳定,我们加入了阴影滤波器的概念,主要是由一个固定d值参数的Thrian滤波器所构成(根据发生溢位的种类来决定d值为0.5或-0.5) 。当溢位发生时,阴影滤波器内部暂存器的值将会立即地复制到可调式(主要的)Thiran滤波器内部的暂存器中,并同时更新滤波器系数ak的值。如此一来,将成功避免掉Thiran滤波器输出波形可能产生的不连续情形。



《图七 从输入缓冲缓存器中取得滤波器的输入》
《图七 从输入缓冲缓存器中取得滤波器的输入》

取样时脉偏移补偿电路之硬体架构

取样时脉漂移的补偿电路如图八所示。若此电路的取样时脉漂移值为固定,则会造成非整数周期延迟滤波器的随时变系数d每隔一段时间,即产生一次溢位。当图八中的累加器产生正(负)溢位时,比较器会产生1个位元的控制讯号来告知阴影滤波器,将其内部暂存器的值复制到可调式Thiran滤波器的内部暂存器中。


而在下一个时脉发生时,(图八)中的虚线区块(window)会左(右)移一个暂存器的长度。除此之外,取样时脉漂移值的最前一个位元(MSB)将会决定那一组系数(d为0.5时的系数或d为-0.5时的系数)会成为阴影滤波器的系数ak;并决定那一个移位暂存器的位置(x[n+1]或x[n-1])会成为阴影滤波器的输入。透过这些额外电路所形成的保护机制,将可完全避免因溢位而可能造成滤波器输出不连续的情形。



《图八 整合改良式Thiran非整数周期延迟全频段通过滤波器至取样频率漂移的补偿电路》
《图八 整合改良式Thiran非整数周期延迟全频段通过滤波器至取样频率漂移的补偿电路》

结语

本论文提出了低硬体复杂度的改良式Thiran小数周期延迟全通滤波器设计。藉由查表法来取得系数ak,并使用缩减延迟的电路技巧后,将可大幅缩减并得到一个和滤波器阶数N无关的固定关键路径延迟。除此之外,同时使用线性近似和两层查表的方法来即时得到滤波器系数ak,可再进一步减低硬体面积和消耗功率。总而言之,和传统的Thiran滤波器相较,改良式的电路架构不仅保有滤波器系数即时更新的特性,也相当显著地增进硬体的使用效率。


此外,本论文还提出阴影滤波器的概念,可完全避免小数周期延迟参数d产生溢位时,所可能产生的输出错误和不稳定情形。将此概念整合至改良式的Thiran滤波器,本论文提出了新式取样时脉漂移的补偿电路。


  


---作者王拓评为台大电子所硕士班研究生、阙志达教授为台大电子所所长;本文作者感谢国科会研究计画的补助,计画编号为NSC95-2219-E-002-020-- -


  


<参考资料:


[1] T.I. Laakso, V. Valimaki, M. Karjalainen, U.K. Lane, “Splitting the unit delay,” IEEE Signal Processing Mag., vol. 13, pp. 30-60, Jan. 1996.


[2] L. Erup, F. M. Gardner and R. A. Harris, “Interpolation in digital modems II. Implementation and performance,” IEEE Tran. on Communications, vol. 41, pp. 998-1008, June. 1993.


[3] Makundi M., Valimaki V., Laakso TI, “Closed-form design of tunable fractional-delay allpass filter structures,” in Proc. IEEE Int. Symp. Circuit and System (ISCAS 2001), vol. 4, pp . 434-437, May 6-9, 2001.


[4] Ji-Suk Park, Byeong-Kuk Kim, Jin-Gyun Chung, KK Parhi, “High-speed tunable fractional-delay allpass filter structure,” in Proc. IEEE Int. Symp. Circuit and System (ISCAS 2003), vol. 4, pp. IV-165- IV-168,?May 25-28, 2003.>


  相关新闻
» 是德、新思和Ansys共同开发支援台积电N6RF+制程节点射频设计迁移流程
» 美光32Gb伺服器DRAM通过验证并出货 满足生成式AI应用要求
» Cadence结合生成式AI技术 开创多物理场模拟应用新时代
» AMD公布2024年第一季财报 成长动能来自AI加速器出货增长
» 调研:2027年超过七成笔电将是AI PC 并具备生成式AI功能


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK85D7XH77YSTACUKG
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw