基于多级矢量量化实现优化LSF参数码本的设计

矢量量化(vector quantization)是一种极其重要的信号压缩方法,广泛应用于语音、图像信号压缩等领域。信息论的一个分支——“率-畸变理论”指出,无论对于何种信息源,即使是无记忆的信息源(即各个采样信号之间互相统计独立),矢量量化总是优于标量量化,且矢量维数越大优度越高。因此,目前国内外对于矢量量化技术的研究非常广泛而深入。平衡考虑量化效果和运算复杂度,多级矢量量化(msvq)提供了一个很好的折衷办法。
线性预测编码(lpc)参数能很好地表征语音信号的短时谱包络信息,在各种lpc参数中,线谱频率(lsf)较其它参数能更有效地表达lpc信息。k.k.paliwal和b.s.atal仔细研究了用24~26个比特量化一个10阶lsf参数的方法,提出了分裂矢量量化(split vector quantization)和多级矢量量化msvq(multistage vector quantization)两种方案,并且试验得到了用25比特的2级msvq能取得较好的量化效果(平均失真1db,2~4db概率小于2%,大于4db为0)。
msvq算法有效减小了码本容量,但如果在量化比特有限的情况下,想取得透明的量化效果,必须解决两个问题:(1)怎样搜索码本得到最佳匹配索引;(2)怎样设计码本。在算法设计中这两个问题必须统一考虑。对前一个问题,为了方便一般采用序列搜索算法,依次搜索得到各级的最佳匹配矢量。在码本设计中,更多的也是分级依次进行码本训练,割裂了各级码本之间的相关性。本文将着重研究多级矢量量化的联合优化码本设计问题。
1、 问题分析
传统的msvq算法在lsf参数码本设计时采用一种连续(stage-by-stage)的设计方法,第k级码本只与前面的第1至第(k-1)级码本有关,而不考虑后续各级码本,即将后续各级码本内容视为0。在量化时,同样只在本级寻找1个最佳匹配矢量,然后得到余量矢量送入下一级量化。量化过程可以用式(1)表示,假设有2级码本,需要找出各级码本索引:
在序列搜索算法中,搜索yi时,假设zj为0,搜索zj时yi已经固定。这样的搜索算法显然是一种次优的搜索算法,解决这个问题的方法是全搜索。全搜索是最优的搜索算法,但是其计算复杂度却是难以承受的。例如,一个25比特2级码本(13-12结构),其全搜索复杂度是上述连续搜索的2000倍以上。m进制搜索折衷解决了这个问题。在运算量大大减小的情况下,取得了逼近全搜索的量化效果。
在码本设计中,无论是经典的gla算法还是改进的模拟退火(sa)算法,码本设计都是逐级连续进行的。利用各级码本之间的相关性优化码本设计,可以较明显地改善msvq的量化效果。在应用联合码本设计方法量化音频dct系数时,已经取得了大约0.4 db的snr改善。本文在量化lsf参数时,对比300步的sr算法,得到了大约0.05db、约1bit的加权对数谱失真(wlsd)的改进效果。
2、 算法说明
2.1 失真距离量度
对一个msvq码本,为方便考虑假设共有2级码本。lsf参数为10维矢量。对lsf参数而言,其敏感矩阵(sensitivity matrix)是对角阵,因此可以用加权最小均方误差(wmse)代替加权对数谱失真(wlsd)作为失真量度。量化失真
r的经验值一般为0.15。
2.2 理论推导
对一个训练矢量集x和两级码本y、z,可以对x中每个矢量进行2级全搜索,得到最佳索引值对(i,j)。根据i和j的不同可以对x中每个矢量进行聚类。假设s为对第一级码字形成的聚类,si为所有x中第一级量化索引为i的训练矢量集合。同样假设r为第二级码字聚类,可知,{s1,s2,…,sk1}和{r1,r2,…,rk2}均是同一x集合的不同划分。对于x∈si,平均量化失真为:
2.3 算法描述
(1)设置初始码本,读入训练矢量文件,并对其进行两级码本全搜索,得到针对两级码本的聚类{s1,s2,…,sk1}和{r1,r2,…,rk2}。假设训练矢量个数为num,对所有训练矢量计算此时的量化失真之和,失真测度采用wlsd距离。设置迭代最大步数n,设置初始步数n=0;
(2)n=n+1,利用式(9)更新第一级码本;
(3)重新对训练矢量集进行全搜索,得到新的索引值对(i, j),然后利用式(10)更新第二级码本;
(4)再次对训练矢量集进行量化搜索,得到新的索引值对(i, j),并重新计算量化总畸变dn;
(5)判断n=n?若n<n,跳转至(2)继续进行迭代;若n=n,结束迭代,保存更新后的码字至码本文件。
2.4 算法的进一步优化
上述联合优化msvq算法中,很重要的一步就是对训练矢量进行聚类,使每个训练矢量得到一个最匹配的索引值对(i, j)。(i, j)应当是通过全搜索得到的全局最佳匹配矢量。在不需要在线更新码本的情况下,全搜索是可以采用的。然而如果在矢量维数较高时,想减小码本训练的运算量,也可以采用m进制序列搜索的方法。取m=8在实验中得到了很好的效果。这样即可得到一个性能近似的简化版jco-msvq码本设计方法。
另外,在码本设计中,可能出现聚类中无训练矢量,即出现空聚类的情况。这时可以删除该空聚类,并将包含训练矢量最多的那个聚类抖动成两个聚类。这样可以获得更小的联合量化误差,如图1所示。
3、 实验结果和分析
实际应用中,码本训练采用107 mb的语音文件,得到342302帧lsf参数(10维)和加权系数,训练矢量集足够大。在实际的2kbps语音编码算法中,对lsf参数进行3级矢量量化,比特分配为9/8/6,共23bits。利用联合优化码本生成算法进行300步迭代,与sr算法的第三级300步迭代结果进行比较,得到训练码本总畸变数据,如图2所示。
可以看到,同样步数的jco-msvq算法较sr算法能取得更小的量化畸变。sr算法经过一定步数的迭代,基本没有下探的空间。而jco-msvq算法则能继续优化码本,获得更好的量化效果。并且,与sr算法不同,jco-msvq算法中量化畸变是单调递减的,因在训练过程中每一步都是最优的(简化算法中是多进制搜索,因而是次优的)。
统计量化谱失真,联合码本优化msvq比其他的msvq有明显的改善。在同一个lsf量化器中分别采用23bits sr码本(码本1)、24bits sr码本(码本2)和23bits联合优化码本(码本3),测试语音为一个3.5mb的语音文件,既有男声也有女声,共11348帧lsf参数。统计量化谱失真得到表1所示数据。
从表1数据可以看到,同是23bits的量化,联合码本设计msvq与应用sr算法生成码本的msvq相比较,有大约1个比特的改善,接近于应用sr算法24bits量化的效果。甚至优于文献[2]中msvq算法的26bits量化(平均谱失真0.93db)。平均谱失真为0.87db,大于4db的谱失真统计为0,达到了透明量化的要求。
本文研究结果已经成功应用于1/2kbps可变速率声码器项目中。


MGCP协议,MGCP协议内容有哪些?
脊髓损伤原来是因为这个(惊呆了)
新能源汽车洗牌速度加快 比亚迪销量同比下滑 62.7%
靶式流量计的使用注意事项
华为投资国产以太网PHY芯片供应商裕太车通
基于多级矢量量化实现优化LSF参数码本的设计
国际制造业(手机)配套采购洽谈会明春再登场
iPhone 15的OLED面板订单传已落定,京东方退出?
北鲲云超算平台布局云计算市场
1.6TB大容量PCIe SSD,其IOPS突破3,000,000
NKD:容器云集群与OS一体化运维利器
如何快速的高效的完成轧机牌坊修复
选择合适的预测性维护传感器
微处理器芯片需求放缓 记忆体芯片生产商增长强劲
缺芯严重 拆洗衣机救急
又一起专利案,Tridonic因白光LED技术对德国Ingram提起诉讼
工业物联网能耗监测系统解决方案,实时管控、合理节能
LM5117搭建的的Buck电路详析
华为nova跳舞女神,上市4个月降600!
E拆解:麻雀虽小五脏俱全——O-Free蓝牙耳机