2026年FPGA大赛，用Zynq做实时语音关键词唤醒，MFCC和DNN推理的资源占用和延迟怎么平衡？

提问

开放5 回答 33 浏览 2026-05-22

我在备赛2026年FPGA大赛，想用Zynq做实时语音关键词唤醒，目前卡在MFCC特征提取和DNN推理的资源分配上。LUT和BRAM占用太高，导致延迟超过200ms。看到很多方案用HLS或者Vivado IP集成，但不知道具体怎么平衡流水线深度和资源复用。有没有做过类似项目的学长分享一下具体参数和优化技巧？比如MFCC的FFT点数和滤波器组数量怎么选，DNN量化位宽怎么定才能既省资源又保证准确率？

回答 5

芯片设计新人
2026-05-22 21:38
MFCC的FFT点数你试试512点，滤波器组20个，采样率16k，这样BRAM占用能降一半。DNN用8bit量化，精度损失0.5%以内。你当前用的FFT点数是1024吗？
嵌入式小白打怪
2026-05-22 21:38
做这个项目我建议先别急着优化，得把流水线拆开看瓶颈在哪。MFCC里计算量最大的是FFT和滤波器组，你用的Xilinx IP还是自己写的HLS？如果是HLS，记得把FFT的流水线深度设成auto，它会自动平衡资源。滤波器组那块，很多人一上来就搞40个Mel滤波器，但实际关键词唤醒只需要20个，降到20个后BRAM占用能省30%左右，延迟能压到150ms以内。DNN量化这块，8bit定点够用，别用16bit浮点，那是在浪费资源。如果你用Vivado，可以试试DSP48E2做乘法，一个能顶两个LUT。另外，注意MFCC和DNN之间的数据流，别用DMA搬运，直接在BRAM里做乒乓操作，延迟能再降20ms。你现在200ms延迟是哪一段最慢？是FFT还是DNN推理？
嵌入式小白
2026-05-22 21:38
资源占用高往往是因为你用了全精度浮点。建议把MFCC里的所有运算换成定点，FFT用Cordic算法实现，滤波器系数用12bit量化。DNN推理用4bit量化，配合retraining，准确率基本不变。这样LUT占用能降60%，BRAM占用降40%，延迟轻松到100ms以内。你目前的采样率和帧长是多少？如果是512点帧长，试试256点，配合50%重叠，实时性更好。
Verilog新手村
2026-05-22 22:01
说实话，你这个200ms的瓶颈大概率不在算法本身，而在数据搬运。Zynq的PS和PL之间通信太快被低估了，很多人一上来就用AXI DMA搬MFCC结果，但每次搬运的握手开销在实时系统里很要命。试试把MFCC的滤波器组系数和DNN权重全塞进BRAM，让PL自己做完整个流水线，只在最后把唤醒结果丢回PS。这样LUT占用可能会涨一点，但延迟能直接砍到80ms以下。你目前PS和PL之间用的什么数据通路？
码电路的阿明
2026-05-22 22:02
2026年大赛的话，我猜你们用的是PYNQ或者Zynq-7020吧？7020的BRAM只有560KB，确实容易爆。我的建议是别想着一步到位，先拿Caffe或TFLite把DNN训好，再用Vivado HLS做定点化，量化位宽从16bit往下降，每次降2bit测一次唤醒率。关键词唤醒任务对精度容忍度挺高的，一般降到6bit唤醒率还在95%以上，但BRAM能省一半。MFCC这边有个省钱技巧：Mel滤波器组用查表法实现，把三角窗系数预先算好存ROM，别用Cordic实时算，能省不少LUT。另外比赛评审喜欢看你们做了软硬件协同优化，建议留一个PS端的A53核做后处理或日志打印，别让PL扛所有活，这样答辩时也能讲清楚分区理由。你DNN是哪几层？全连接层多的话可以考虑把最后一层扔给PS做，延迟影响不大但能腾出BRAM给前头的FFT。追问一句：你们现在FFT用的是Xilinx的FFT IP还是自己写的？如果是IP，留意它占的BRAM跟你实际用到的阶数不一定成正比，有些模式会预分配最大阶数的存储，你得手动把transform length设成固定值才能省资源。