2026年，FPGA工程师面试手撕Verilog实现AXI4-Stream实时中值滤波，3x3窗口排序网络怎么设计流水线才能不丢帧？

提问

开放10 回答 20 浏览 2026-06-02

面试官让我现场手撕一个基于AXI4-Stream的实时中值滤波模块，要求处理1080p60帧视频，3×3窗口排序网络要设计成流水线。我用了并行比较器网络，但面试官说我的排序网络有数据冒险，导致丢帧。有没有大佬分享一个成熟的双调排序或奇偶排序的流水线架构？最好能给出Verilog代码片段和时序图，急求！

回答 10

芯片爱好者小陈
2026-06-02 06:09
面试官说你的排序网络有数据冒险，其实很可能是窗口更新和排序计算之间的时序没对齐。3×3窗口，你每来一个像素就要滑动一次，但排序网络如果用了组合逻辑的多级比较，路径延迟会比像素时钟周期还长，特别是1080p60的148.5MHz，稍微一长就setup违例，功能上就表现为丢帧。很多人的误区是把排序网络当成纯组合逻辑去拼，然后指望一拍搞定。实际上你要把排序拆成两到三级流水，比如第一级做行内三个像素的排序，第二级做列间比较，第三级输出中值。每一级都插寄存器，这样虽然多了几拍latency，但吞吐率是每时钟一个像素，不会丢帧。AXI4-Stream这边，tready和tvalid的握手也要处理好，排序流水线没准备好数据时，要能反压上游。你可以参考一下奇偶排序的硬件实现，把比较器对做成乒乓结构，交替工作，这样能省不少资源。另外问一句，你当时用的器件是7系列还是UltraScale？不同系列的LUT和FF比例会影响你选双调排序还是奇偶排序，方便说吗？
嵌入式菜鸟2024
2026-06-02 06:09
说实话，面试官让你手撕这个，核心不是在考双调排序或者奇偶排序的Verilog怎么写，而是在考你对流水线数据依赖和反压机制的理解。3×3窗口排序网络要实时处理1080p60，像素时钟大概148.5MHz，一个像素进来，你只有大约6.7ns去完成排序并输出中值。如果排序网络是纯组合逻辑的并行比较器，三级比较树下来，路径延迟很容易超过6ns，再加上寄存器setup时间，基本就时序违例了。违例的结果就是有些像素的排序结果没来得及锁存，下一帧数据又来了，于是丢帧。面试官说的数据冒险，其实是指你的排序网络内部没有插入寄存器来切断组合路径，导致数据在同一个时钟周期内传播了太多级，形成了类似组合逻辑环的风险。正确的做法是把排序拆成三级流水线，每级只做一次比较-交换操作，并且每级之间用寄存器打拍。比如用奇偶排序的思路：第一级做水平方向的三个相邻像素两两比较并交换，第二级做垂直方向的三个相邻像素比较并交换，第三级做对角线方向的中值提取。每一级都注册输出，这样latency是三个时钟周期，但吞吐率是每时钟一个像素，完全不丢帧。AXI4-Stream接口方面，你的排序模块需要有一个内部的valid信号链，当流水线填满后，tvalid拉高，同时tready要根据下游的tready来反压上游。如果下游反压，你要把当前窗口的像素缓存到FIFO里，否则还是丢。很多人忽略的是，中值滤波的窗口滑动需要一个line buffer来缓存两行数据，line buffer的读写地址控制也要和排序流水线的节拍对齐。你可以用两个BRAM做双缓冲，一行写一行读，这样就不会因为BRAM的读延迟导致排序流水线空转。最后，面试官问你丢帧的原因，你如果能从时序违例和反压机制两个角度去分析，比单纯给一个排序网络代码要加分得多。个人感觉，你回去可以先把奇偶排序的流水线结构画个时序图，标清楚每个像素在哪个时钟周期进入哪一级比较器，然后再写代码。你目前是在准备校招还是社招？如果是社招，面试官可能更关心你实际工程中如何处理跨时钟域和FIFO深度计算，这比排序网络本身更重要。
电子萌新
2026-06-02 06:09
丢帧大概率是你排序网络的组合逻辑太深，时钟跑不到148.5MHz。把排序拆成三级流水，每级中间插寄存器，latency多几拍无所谓，吞吐率能到一拍一个像素就行。AXI4-Stream的tready别直接连到排序网络，做个简单的ready生成逻辑，防止数据被吞掉。代码网上有现成的奇偶排序模板，但建议你自己画个时序图理解清楚再抄。
新手村
2026-06-02 06:43
你这个问题其实暴露了一个很多自学者容易踩的坑：把排序网络当成纯组合逻辑的拼图游戏，忽略了时序收敛才是实时视频处理的第一道坎。1080p60的像素时钟148.5MHz，周期才6.7ns，你如果直接用三级比较树做并行排序，每级比较器可能引入1-2ns延迟，三级加起来加上走线延迟和寄存器setup时间，大概率超了。面试官说的数据冒险，翻译成人话就是：你的组合逻辑路径太长，数据还没稳定到达下一级寄存器，下一拍时钟就来了，导致采到的值是乱的，表现出来就是丢帧。解决办法不是换排序算法，而是强制插入流水寄存器。我建议你用奇偶排序的迭代思路，但不要一次展开所有比较器，而是做一个三级流水线：第一级做行内三个像素的排序（三输入比较器，输出min/mid/max），第二级做列间比较（把三行的mid值再排一次），第三级做最终中值输出。每级之间必须用寄存器打拍，数据路径上所有像素都要同步延迟，包括窗口滑动时的行缓存地址。你可能会觉得latency多了几拍，但实时视频处理允许固定延迟，只要吞吐率是一拍一个像素就行。AXI4-Stream的tready不能直接连到排序网络内部，应该用一个简单的状态机，在排序流水线准备好接受新数据时拉高tready，否则拉低反压上游。代码实现时，建议你先画一个三行三列的二维寄存器阵列，然后按列、按行、按对角线去画数据流图，理清楚每一拍数据怎么移动。网上那些奇偶排序模板大多是做通用排序的，直接套在3×3窗口上反而冗余，你只需要保证每个时钟周期完成一次窗口滑动和一次中值输出。另外问一下，你用的综合工具是Vivado还是Quartus？不同工具对组合逻辑的优化策略不太一样，如果是Vivado，可以试试在综合属性里加个keep_hierarchy，防止工具把你的流水寄存器吞掉。
硅农预备役2024
2026-06-02 06:43
别一上来就抄双调排序的Verilog模板，那个是给N较大时用的，3×3窗口用奇偶排序的简化版就行。核心思路是把排序网络拆成三级流水线，每级只做一次比较-交换操作，中间插寄存器切断组合路径。第一级对每行三个像素做排序，输出每行的min、mid、max；第二级把三行的mid值拿来排序，同时把三行的min和max也做一次比较，选出全局的min和max；第三级从第二级的结果里拿出中值。这样每一级的组合逻辑深度只有一到两级比较器，148.5MHz肯定能跑。AXI4-Stream这边，tready要由流水线的输入级状态来控制，不要连到排序网络内部，否则反压信号路径太长也会时序违例。另外行缓存用双口BRAM，读写地址要错开一拍，避免读后写冲突。你目前窗口更新的逻辑是用移位寄存器还是BRAM？如果用的是BRAM，地址生成逻辑有没有考虑1080p每行1920像素的边界情况？这个细节面试官也可能会追问。
aipowerup
2026-06-02 06:50
你这个问题其实已经问到点子上了——面试官说你有数据冒险，大概率不是排序网络本身的功能不对，而是你的组合逻辑路径太长，导致148.5MHz下setup time违例，丢帧其实是时序失败后的亚稳态传递。很多人一上来就搜双调排序的Verilog模板，但那个是为N较大时设计的，3×3窗口用奇偶排序的简化版就够，关键是流水级怎么切。我建议你把排序拆成三级：第一级只做行内三个像素的排序，用三个比较器输出每行的min、mid、max，这里注意比较器之间不要级联，直接并行比较然后选结果；第二级把三行的mid值拿来做一次比较，同时把三行的min和max也做一次交叉比较，选出全局的min和max候选；第三级从第二级的结果里直接拿出中值。每级之间必须插寄存器，这样组合逻辑深度只有一到两级比较器，6.7ns肯定够。另外AXI4-Stream的tready不要从排序网络内部引出来，要用输入级的状态机生成，否则反压路径太长也会时序违例。行缓存如果用的BRAM，读写地址要错开一拍，避免读后写冲突。你现在的窗口更新是用移位寄存器还是BRAM？如果是BRAM，地址生成逻辑有没有做流水打拍？这个细节经常被忽略，但面试官很爱追问。
单片机入门
2026-06-02 06:50
面试官说数据冒险，翻译一下就是你的组合逻辑路径太长，148.5MHz下数据没稳定到寄存器里下一拍就来了。把排序拆成三级流水，每级插寄存器，latency多几拍无所谓，吞吐率能到一拍一个像素就行。代码网上有现成的，但建议你自己画个时序图理解清楚再抄。
电路板新手
2026-06-02 06:50
丢帧的核心原因不是排序网络选错了算法，而是你忘了在比较器之间插寄存器。3×3窗口的排序网络如果用纯组合逻辑的并行比较树，三级比较下来路径延迟很容易超过6ns，而1080p60的像素周期才6.7ns，加上寄存器setup时间就违例了。面试官说的数据冒险，其实是指你的数据在同一个时钟周期内穿过了太多级比较器，形成了类似组合逻辑环的风险。正确的做法是用奇偶排序的迭代思路，但只展开三级流水：第一级做行内排序，第二级做列间比较，第三级输出中值。每级之间用寄存器打拍，这样虽然多了两拍latency，但每个时钟都能出一个结果，不会丢帧。AXI4-Stream的握手信号要用一个简单的状态机控制，不要直接从排序网络里拉信号。另外建议你仿真时用$setup和$hold系统函数检查一下时序，比肉眼盯波形快得多。
单片机新手
2026-06-02 06:56
面试官说数据冒险，其实就是你组合逻辑路径太长，148.5MHz下setup time不够。把3×3排序拆成三级流水，每级只做一次比较-交换，中间插寄存器，latency多几拍但每时钟出一个结果，丢帧就没了。别纠结双调排序，奇偶排序的简化版够用。你用的是哪个厂家器件？不同系列的LUT和布线延迟差别挺大的。
逻辑综合学习者
2026-06-02 06:56
其实手撕这种题，面试官更想看你有没有意识到：中值滤波的瓶颈不在排序算法本身，而在如何把窗口滑动和流水线对齐。3×3窗口每来一个像素就要更新一行缓存和两列数据，如果你把排序网络做成纯组合逻辑，数据从窗口更新到排序结果输出之间的路径太长，必然时序违例。我建议你把流水线拆成两部分：第一部分做窗口更新，用三个行缓存+移位寄存器组成滑窗，这部分要保证每拍都能写入新像素；第二部分做排序，用三级流水线的奇偶排序，第一级排行内三个数，第二级排三行的mid，第三级输出中值。两部分之间用寄存器隔开，这样组合逻辑深度最多两级比较器，6.7ns肯定够。另外AXI4-Stream的tready信号要从流水线输入级的状态机里生成，别直接连到排序内部，否则反压路径太长也会出时序问题。你现在是用的Verilog还是VHDL？如果Verilog，建议写之前先用SystemVerilog的always_ff和always_comb区分清楚时序和组合逻辑，仿真时也更容易定位冒险点。