2026年FPGA大赛备赛，用高云FPGA做实时AI语音关键词识别，MFCC特征提取硬件化时DSP资源不够，怎么通过时分复用和流水线重排优化？

提问

开放3 回答 13 浏览 2026-06-06

我们队伍今年FPGA大赛选了高云FPGA做实时AI语音关键词识别，MFCC特征提取硬件化后发现DSP资源不够用，算下来只有48个DSP，但MFCC的滤波器组和FFT要占80多个。想请教一下，通过时分复用和流水线重排能不能把DSP复用率提上去？具体怎么设计流水线才能不丢帧？另外，滤波器组系数能不能用LUT实现替代？求有经验的大佬指点。

回答 3

嵌入式小白菜
2026-06-06 10:20
其实你这个问题核心不是 DSP 够不够，而是算法和硬件的匹配关系还没拆开。高云那款 FPGA 的 DSP 只有 48 个，但 MFCC 里真正吃 DSP 的主要是 FFT 的蝶形运算和梅尔滤波器组的乘累加。你算出来要 80 多个，大概率是直接把所有滤波器通道同时做并行乘法了。但实际语音帧率也就几十毫秒一帧，完全可以用时分复用把多个滤波器通道串起来算，只要保证每个帧周期内能把所有通道算完就行。具体做法是把滤波器组拆成多个时间片，每个时间片只算一个通道的乘累加，中间结果存到寄存器或 BRAM 里。这样 DSP 用量就从通道数降到了单次乘法所需的个数，比如原来 26 个滤波器各要 2 个 DSP，现在可能 2 个 DSP 轮流算 26 次。关键在于流水线重排：你要把 FFT 和滤波器组之间的数据流错开，让 FFT 算完一帧后，结果按顺序喂给滤波器组，同时下一帧的采样数据开始进 FFT。这样用双缓冲或 Ping-Pong 结构就能避免丢帧。系数那块，滤波器组系数如果用 LUT 实现，单通道查表会消耗大量 LUT 和 BRAM，但如果你已经决定用时分复用，系数完全可以存在 BRAM 里做查找表，反而比 LUT 省资源。高云那个系列 BRAM 一般够用，先查手册看每块 BRAM 容量。还有个常见误区是觉得定点量化会大幅损失精度，但对于关键词识别这种分类任务，12 位定点足够了，能再省不少 DSP 位宽。建议你第一版先跑通单帧的时分复用流水线，把 DSP 压到 30 个以内，留余量给后续逻辑。你们现在代码写了吗？用的高云哪个具体型号？BRAM 和 LUT 的余量能报一下吗？这样能帮你判断要不要降 MFCC 阶数。
EE萌新笔记
2026-06-06 10:20
时分复用是正解。你先把 MFCC 的滤波器组按帧周期切成时间片，比如一帧 20ms，分成 26 片，每片只算一个滤波器，DSP 用量直接降到原来的 1/26。流水线重排要保证 FFT 输出和滤波器输入之间加一级 FIFO 缓冲，这样 FFT 算完一帧就开始算下一帧，滤波器同时从 FIFO 取上一帧数据。不会丢帧。系数用 BRAM 做 LUT 比用 LUT 更省资源，但别用分布式 RAM。先评估一下你们实际帧率，如果帧率不高，甚至可以只用一个 DSP 轮流算所有通道。
嵌入式开发萌新
2026-06-06 10:21
说实话，看到你们算出来要用80多个DSP，我第一反应是你们可能把MFCC的滤波器组当成全并行乘法阵列在规划了。高云那款FPGA的DSP48只有48个，但它的DSP本质上是硬核乘加器，最擅长的就是流水线化运算，而不是一群DSP同时干一件事。你们把帧周期和采样率理清楚了吗？比如常用场景是16kHz采样、帧长20ms、帧移10ms，那每帧就是320个采样点，MFCC的梅尔滤波器组一般是26到40个三角滤波器。关键约束是：每一帧必须在10ms的帧移时间内完成所有特征提取，否则声音就会丢帧。这个时间窗口决定了你能把DSP复用多少倍。假设你一帧要算26个滤波器，每个滤波器大概需要20到30次乘累加（看FFT点数），那总乘累加次数是固定的。如果你用2个DSP轮流算，每个DSP每帧要算几百次，但DSP的时钟能跑到200MHz以上，一帧10ms就是200万个时钟周期，算力绰绰有余。所以时分复用的本质不是省DSP数量，而是用时间换空间：把80个并行乘法换成2个串行乘法，中间结果存到BRAM或寄存器里，只要保证在一个帧周期内算完就行。具体设计上，我建议你们先做两件事：第一，用excel或者Python算一下每帧需要的总乘累加次数，除以DSP的时钟频率和帧周期，看需要几个DSP能跑满。第二，把FFT和滤波器组的数据流拆开：FFT做完一帧后，把频域数据存到一块双端口BRAM里，然后滤波器组从BRAM里按地址读取数据，一次只读一个频点，乘上系数累加。这样根本不需要80个DSP，4到6个就够用了，剩下的DSP还能留给后续神经网络推理。另外你说滤波器组系数能不能用LUT实现——LUT是逻辑资源，用来存几十个浮点系数不划算，而且高云的LUT本来就紧张。正确的做法是用BRAM做查找表，把每个滤波器的系数预先量化成16位定点数存进去，读取时直接乘。如果BRAM也不够，可以考虑把系数压缩成8位，或者用分布式RAM但只存一半系数，另一半用对称性推导出来。不过这些都是后话。你们现在的当务之急是先把帧周期的时序预算算清楚，再决定复用倍数。顺便问一句：你们MFCC用的是什么定点位宽？这个对DSP资源影响很大，如果用的是32位浮点那肯定要换。