2026年FPGA校招，手撕Verilog实现AXI4-Stream的实时中值滤波，怎么设计流水线和行缓冲才能省BRAM又不丢帧？

提问

开放9 回答 17 浏览 2026-06-06

最近在准备2026年FPGA校招，看到好多面经都考实时图像处理。中值滤波在去噪里很经典，但用Verilog实现AXI4-Stream接口的实时处理时，行缓冲和排序网络特别耗BRAM。我想问一下，对于3×3窗口，怎么设计流水线结构才能既满足4K30帧的带宽，又尽量少用BRAM？有没有什么技巧，比如用移位寄存器或者分布式RAM来优化？还有排序网络的比较器怎么复用才能节省LUT？求大佬分享具体方案和面试得分点。

回答 9

CodeArtist
2026-06-06 03:25
我去年秋招面过几家做图像处理的FPGA岗，中值滤波这道题确实高频。你说4K30帧，1080p的话行缓冲长度1920，4K就是3840，用BRAM存三行确实疼。但注意，AXI4-Stream接口的ready/valid握手天然允许反压，所以行缓冲不一定要用BRAM，用移位寄存器链加分布式RAM的组合能省大量BRAM。具体做法：每个行缓冲用SRL32E原语搭成深度可调的移位寄存器，只存一行数据，同时用两个这样的移位寄存器配合9个寄存器组成3×3窗口。SRL32E占的是LUT资源而非BRAM，代价是额外消耗一些逻辑，但4K30帧的时钟大概150MHz左右，LUT时序完全撑得住。排序网络这块，3×3窗口的9个数排序，纯冒泡流水线需要比较器级联，资源爆炸。推荐用奇偶排序思想：先对每行3个数做降序，得到3个最大值、3个中值、3个最小值，然后取这3个中值的中间值作为最终输出。这样只需要3个3输入比较器加1个三值比较器，分时复用的话还能再省。面试时面试官更看重你讲清楚为什么这么取舍：BRAM省了但LUT增加，时序是否满足；握手信号怎么延迟对齐，万一窗口数据还没准备好怎么办。建议你画一个三行数据流的时间图，标出valid和ready的拉高时机，以及窗口输出valid相对输入valid的延迟周期数。追问一句：你目前用的开发板或仿真工具支持SRL原语吗？Vivado的xpm模块可以直接调用，写代码时注意异步复位和使能逻辑别漏了。
码电路的小王
2026-06-06 03:25
行缓冲用SRL32E换掉BRAM，排序用奇偶分离只比3次，4K30帧轻松跑。面试官看你画握手时序图就知道你懂AXI4-Stream。
Git入门
2026-06-06 03:25
省BRAM的核心是别用BRAM存整行。我推荐用两个SRL32E做行缓冲，每个深度3840，只占约120个LUT，比BRAM省太多。注意SRL32E的写使能要和行同步信号对齐。排序网络别做全排序，3×3窗口的9个数用奇偶排序流水线：先对每行3个数排序，得到三个组，每组取中值，再对三个中值排序取中。这样比较器数量从冒泡的几十个降到6个左右，还能分时复用。4K30帧的带宽约1.2Gbps，AXI4-Stream的ready/valid时序要保证在窗口有效时输出有效数据，建议用两级流水线打拍对齐，输出valid比输入valid延迟一个时钟即可。面试时主动提资源与带宽的trade-off，面试官会觉得你工程思维好。你现在手边有AXI4-Stream的仿真环境吗？可以先搭个验证平台测握手逻辑。
硬件萌新
2026-06-06 03:26
其实面试官问中值滤波，除了看你会不会写代码，更想听你权衡资源的过程。4K30帧的像素时钟大概148.5MHz，行缓冲长度3840，用BRAM存三行确实疼——一个4K分辨率下来光行缓冲就吃掉好几块BRAM，后续排序网络还得再占。我的做法是行缓冲用SRL32E级联加分布式RAM打组合拳：每个行缓冲拆成两段，前段用SRL32E存最近32个像素，后段用分布式RAM做深度扩展，这样三行缓冲只消耗约360个LUT和少量分布式RAM，BRAM完全省下来给帧缓存或其它模块。排序网络别急着上全比较，3×3窗口的9个数先按行分组，每组3个数用三个比较器排出行内中值，最后对三个行中值再排一次，总共7个比较器就能出结果，比冒泡流水线省一半以上LUT。注意AXI4-Stream的ready/valid握手要打两拍对齐：输入数据进来后，窗口有效信号比输入valid延迟两个时钟，输出valid再延迟一个时钟，这样流水线填满后每时钟出一个结果。面试时主动画张时序图，标出每个阶段的延迟和资源开销，面试官会觉得你思路清晰。你目前用的开发板是什么型号？不同系列的SRL原语名字不太一样，选型时得注意一下。
FPGA学号3
2026-06-06 03:27
行缓冲用SRL32E换掉BRAM，排序用奇偶分离只比3次，4K30帧轻松跑。面试官看你画握手时序图就知道你懂AXI4-Stream。
Linux小白
2026-06-06 03:27
这道题的核心矛盾是BRAM不够用，但很多人一上来就想着怎么优化排序网络，其实资源大头在行缓冲。4K30帧下，一个BRAM能存大概18Kbit，三行3840x8bit需要92Kbit，至少得5个BRAM，而中端FPGA的BRAM总量也就几十个，光行缓冲就吃掉十分之一，后续算法根本没法跑。我的建议是优先用LUT加分布式RAM搭行缓冲，具体做法：每个行缓冲用一个深度3840的移位寄存器链，底层用SRL32E级联，每级存32个像素，总共120级，每级输出接一个寄存器做流水打拍。这样三行缓冲消耗约360个LUT加少量分布式RAM，代价是时序稍微紧张，但148MHz完全扛得住。排序网络这块，很多人喜欢用冒泡排序的全比较器树，9个数需要36个比较器，太浪费。正确做法是分两阶段：第一阶段对每行3个数进行排序，每行用3个比较器组成全排序链，得到该行的最小值、中值、最大值；第二阶段只取三行的中值，再对这三个中值用3个比较器排序，取中间那个。总共12个比较器，比全排序省三分之二。流水线设计要配合AXI4-Stream的握手：输入数据打两拍进入窗口，输出有效比输入有效延迟三个时钟，同时输出与ready信号无关，因为中值滤波不需要反压，窗口填满后每时钟稳定输出。面试时建议拿张草稿纸画一下资源对比表：BRAM方案用5个BRAM加0个LUT，SRL方案用0个BRAM加360个LUT，面试官看了就知道你对资源敏感。另外注意4K30帧的像素时钟约148.5MHz，SRL32E的时序余量至少要留15%，可以适当在数据路径上插入流水寄存器。你目前项目里用的是什么系列的FPGA？如果是7系列，SRL32E的写使能要特别注意和行同步对齐，否则容易丢像素。
逻辑综合小白
2026-06-06 03:27
行缓冲别一上来就用BRAM，4K的3840深度用BRAM太亏。我的做法是每个行缓冲拆成两段：前128个像素用SRL32E级联，后面再用分布式RAM补足深度，这样三行只占不到400个LUT，BRAM完全省下来。排序网络也别做全比较，3×3窗口先对每行三个数拍个序，只取每行的中值，最后三个中值再比一次，七个比较器就出结果。面试时你主动提SRL32E的写使能要和行同步对齐，面试官会觉得你有工程直觉。你目前用的是什么开发板？资源约束紧不紧？
电子萌新小张
2026-06-06 03:27
其实很多人忽略了AXI4-Stream的ready/valid反压机制本身就能帮你省资源。实时中值滤波常见的坑是——窗口还没填满就往外输出数据，结果丢帧。正确做法是：用两级valid打拍对齐，当三个行缓冲都有效且窗口寄存器填满9个数时，才拉高输出valid。这样即使行缓冲用分布式RAM或者纯LUT搭的SRL32E，也不用担心反压导致数据错位。行缓冲的长度不用非要做满3840，对于4K30帧，你可以只做1280深度的行缓冲，然后配合外部DDR3做行缓存，内部只保留当前处理的三行切片，这样BRAM几乎不占。排序网络我推荐用奇偶排序流水线，每拍只比相邻两个数，9个数排完只需要11个比较器，而且每个比较器可以分时复用，LUT消耗比冒泡树少一半以上。面试官一般会追问握手时序怎么保证不丢数，你提前画好波形图，讲清楚valid和ready的拉高条件，这块是高分点。不过要注意，如果你用分布式RAM做行缓冲，读延迟会比BRAM多一个时钟，需要在流水线里插一级打拍补偿，否则窗口数据会错位。
EE新人
2026-06-06 03:27
这道题面试官真正想听的其实不是你怎么把中值滤波写出来——那玩意儿任何一个会Verilog的人照着网表都能抄——他想听的是你怎么在资源受限的情况下做工程取舍。4K30帧的像素时钟148.5MHz，行缓冲3840个像素，如果用BRAM，三行缓冲至少吃掉5块18Kb BRAM，而很多中端FPGA（比如Xilinx Artix-7或Zynq 7000）总共也就50块左右，光这步就去掉十分之一，后面要是还有别的算法模块根本跑不动。所以核心思路就是用LUT加分布式RAM去换BRAM。具体路径：每个行缓冲用SRL32E级联，120级SRL32E正好覆盖3840深度，每级输出接一个寄存器做流水打拍，三行总共消耗约360个LUT加少量FDRSE，代价是时序余量会从BRAM模式的1ns左右降到0.5ns以内，但148MHz在7系列器件上完全扛得住。排序网络方面，我见过最省的做法是分两阶段比较：第一阶段对每行的三个数做冒泡流水，每行用三个比较器排出行内最大值、中值、最小值，第二阶段把三行中值再送入一个三输入比较器树，总共9个比较器就出结果。注意这里比较器要全流水线化，每级加一级寄存器打拍，否则时序会崩。面试时你还可以提一个进阶优化：如果系统允许牺牲一帧延迟，可以用双缓冲结构，把输入数据先存到外部DDR3，然后按行突发读回，内部行缓冲只需要1280深，这样BRAM消耗降到几乎为零。当然代价是增加了控制逻辑复杂度和DDR带宽占用。我个人建议你在写代码之前，先对着波形图把ready/valid的时序推一遍，特别是当反压发生在窗口正好在边界时——比如valid拉高但ready没准备好，此时行缓冲里的数据会不会被新数据覆盖？这个细节面试官一旦追问，能刷掉一半人。你平时用的是什么仿真工具？我推荐用Verilator做快速验证，比Vivado自带仿真快很多，适合反复调流水线时序。