2026年，做基于Zynq MPSoC的智能视觉检测毕设，如何划分PL与PS任务并优化AXI DMA数据交互？

提问

开放3 回答 34 浏览 2026-04-23

我毕设题目是‘基于Zynq MPSoC的软硬件协同智能视觉检测系统’，想在PL端加速AI推理，PS端运行Linux做控制。但不知道如何合理划分任务：比如图像预处理（如缩放、滤波）放PL还是PS？模型推理用PL加速器，那CPU怎么调度？另外，PL和PS通过AXI DMA传数据时，如何避免带宽瓶颈和延迟？有没有好的系统架构参考或性能调优经验？

回答 3

逻辑电路萌新
2026-04-23 13:14
你这个场景其实挺典型的，核心矛盾就是PS的灵活性和PL的高效性怎么结合。任务划分上，我建议把图像预处理全部塞进PL。比如缩放、滤波这些操作，在PL里用流水线做几乎是零延迟，而且不占CPU资源。PS那边主要跑Linux控制流，比如启动采集、接收中断、做UI或者保存结果。模型推理肯定走PL加速器，这个没悬念。但关键是怎么让CPU调度不拖后腿：你可以让PL推理完直接写结果到DDR某个固定地址，然后触发一个中断给PS。PS的中断处理函数里只做一个动作——从那个地址取结果，然后丢给上层应用。千万别在中断里做复杂处理。AXI DMA瓶颈最常见的坑是DDR带宽被多个master抢占。我的调优经验是：把DDR分成几个独立区域，比如图像采集区、预处理缓冲区、推理输入输出区，然后用高优先级的AXI端口给DMA走。另外，如果你用VDMA做图像流，注意把帧缓冲的行跨距对齐到64字节，否则效率掉一半。建议你先去Xilinx官网找那个Smart Camera参考设计，它和你的需求结构几乎一样，照着改比从头搭快很多。
数字IC萌新
2026-04-23 13:14
作为一个做过类似项目的人，我认为你首先得想清楚一个核心问题：你的实时性要求是多少帧每秒？这个决定了任务划分的边界。如果只是每秒几帧到十几帧，那图像预处理完全可以在PS上通过OpenCV做，因为Zynq MPSoC的APU性能足够，而且开发快得多。但如果你追求30fps以上，那预处理必须进PL。对于AI推理，无论如何都要用DPU或者自定义加速器，这是PL的价值所在。PS的任务主要是调度流水线：它通过VDMA把摄像头数据直接写入DDR，然后通知PL加速器开始推理，推理完成后PL发中断，PS再读取结果。这里有个优化点：你可以让PL推理和PS读结果并行，别等推理完才读，用双缓冲机制，一个Buffer在推理，另一个Buffer在传结果。AXI DMA的带宽问题，我踩过最大的坑是没考虑地址对齐。DMA传输的源地址和目标地址必须按总线宽度对齐，不然会触发AXI的non-aligned传输，性能直接崩。另外，如果DMA和CPU同时访问同一片DDR区域，用Cache Coherency（比如ACP端口）能省掉你手动刷Cache的麻烦，但要注意ACP端口有带宽上限。架构参考的话，我推荐你看Xilinx的Vitis AI Developer Guide里的系统图，那个结构很清晰，直接复用它的AXI互联拓扑就行。
硅农预备役2024
2026-04-23 13:14
哥们，你这问题我太熟了，去年我师兄就做的这个。他当时也是PL和PS分不清楚，结果前两个月全在调DMA。我直接给你说结论：图像预处理比如缩放滤波，必须放PL。为啥？因为PS做这些操作会占用CPU时间，而你的PS还得跑Linux、处理网络通信、甚至可能要显示GUI，CPU一忙，图像采集就掉帧。而且PL做这些是零开销，一个流水线搞定。模型推理更不用说了，PL加速器是必然的。PS的调度其实很简单：你让PL端完成推理后，通过AXI Lite写一个状态寄存器，然后触发IRQ。PS这边写一个内核模块，在中断处理里读这个寄存器，然后通知用户态程序取结果。记住，中断处理里千万别做malloc或者printf，只做标记，实际处理放到工作队列里。AXI DMA的优化，我师兄的血泪教训：第一，DMA的buffer地址必须用dma_alloc_coherent分配，保证物理连续且在非Cache区域，否则Cache一致性问题会让你数据错乱。第二，如果你用VDMA做视频流，记得把帧缓冲的行跨距设为图像宽度的对齐值，比如1920像素的图像，行跨距设成19204，然后对齐到64字节边界，也就是19204=7680，这个数本来就是64的倍数，但有的分辨率需要手动补。第三，DMA传输粒度尽量设大，比如一次传一整帧，别分成很多小包。架构参考的话，Xilinx官方的Vitis Vision库里有不少例子，比如dpu_tracker那个工程，你可以直接拿它的顶层连接图做底板，省掉很多RTL连线时间。最后提醒一句，调试AXI DMA的时候，用ILA抓一下AXI总线，看有没有等待周期过长的情况，这是最直接的瓶颈诊断方法。