2026年，FPGA大赛做实时AI语音识别，MFCC特征提取和DNN推理的资源平衡怎么搞？求具体分工方案

提问

开放3 回答 9 浏览 2026-06-07

我们团队在备赛2026年FPGA大赛，用高云FPGA做实时AI语音识别，MFCC特征提取和DNN推理的资源平衡很难搞。MFCC需要大量FFT和滤波器，占用了很多DSP和BRAM，DNN推理又需要大量乘法器和缓存。请问有没有具体的分工方案，比如MFCC用PL侧实现还是PS侧？DNN推理怎么设计流水线才能减少资源冲突？求大佬指点具体步骤和优化技巧。

回答 3

逻辑设计初学者
2026-06-08 04:14
MFCC 的 FFT 部分用 PL 侧的专用 FFT IP 核做，DSP 切片基本就够用了，滤波器组用 BRAM 查表替代实时计算，省下来的 DSP 全部分给 DNN 推理。DNN 那边别搞全连接流水线，改成层间乒乓缓存，每层算完再切下一层，冲突就小了。高云的 DSP 数量有限，你先估算一下 MFCC 那边到底吃掉多少，再定 DNN 的量化位宽。
电路板玩家小王
2026-06-08 04:14
个人感觉你现在的核心矛盾不是分工方案，而是数据流方向没定死。MFCC 特征提取如果全放 PL，FFT 和 Mel 滤波器会吃掉大部分 DSP，DNN 推理只能吃残羹冷炙。反过来如果 MFCC 放 PS 侧，ARM 核跑软 FFT 实时性又不够。折中方案是：MFCC 中的窗函数和 FFT 用 PL 硬件加速，但 Mel 滤波器组和倒谱变换放到 PS 侧的协处理器跑，这样 DSP 只留给 FFT 和 DNN 的前几层。DNN 推理可以搞三级流水——输入缓存、层计算、输出写回，每级用双 buffer 防止停顿。注意高云的 BRAM 本来就少，别在 MFCC 那边用太多做系数存储，改用查找表压缩。你们现在用的高云具体是哪款芯片？不同型号的 DSP 和 BRAM 比例差挺多的。
嵌入式小白
2026-06-08 04:14
先泼一盆冷水：2026 年 FPGA 大赛的实时语音识别赛道，很多队伍会倒在资源规划上，尤其是 MFCC 和 DNN 抢 DSP 这个点。我建议你们放弃「全硬件流水线」的执念，改用时分复用思路。具体来说，MFCC 的 FFT 阶段可以用一个可配置的 FFT IP 核，通过状态机在不同时间片切换窗长和点数，而不是例化多个 FFT 核。Mel 滤波器组直接用 ROM 存预计算的三角滤波器系数，用加法器和移位寄存器替代乘法器，这样 DSP 占用几乎为零。省下来的 DSP 全部给 DNN 推理，但 DNN 推理也别做全并行，改成层内串行、层间流水——比如第一层卷积做完前几个乘法结果就立刻往第二层送，不用等整层算完。注意高云 FPGA 的 LUT 资源相对丰富，可以用大量 LUT 搭分布式 RAM 来缓存中间特征图，缓解 BRAM 压力。另外，比赛评审可能更看重完整度和实时性，你们可以适当降低 MFCC 的帧率（比如从 20ms 一帧降到 30ms），换取资源余量。最后提醒一点：高云的开发环境对时序约束比较敏感，MFCC 和 DNN 不同时钟域之间要做好异步 FIFO，别在跨时钟域上翻车。你们现在有确定用高云的哪款开发板吗？不同板子的外设接口也会影响方案选择。