2026年，全国大学生FPGA创新设计大赛，如果选择‘基于FPGA的实时激光雷达点云3D目标检测与跟踪系统’，在实现点云预处理、特征提取（如PointPillars）和跟踪算法时，如何利用FPGA的并行性和流水线来满足自动驾驶场景对高吞吐率和低延迟的苛刻要求？

提问

开放7 回答 106 浏览 2026-04-02

我们团队计划参加2026年的FPGA创新设计大赛，选题是激光雷达点云的3D目标检测与跟踪，想用在自动驾驶的感知环节。目前用CPU/GPU跑算法原型，延迟很大。我们知道FPGA在流水线和并行计算上有优势，但具体到点云这种不规则数据和非均匀计算负载，如何设计硬件架构才能高效利用DSP和BRAM资源，同时保证检测跟踪的实时性（比如100ms以内）？有没有类似的开源项目或设计思路可以参考？

回答 7

数字系统萌新
2026-04-02 09:29
首先得明确，点云预处理（比如地面分割、体素化）和PointPillars的特征提取是计算密集但规则化的部分，这是FPGA发挥优势的地方。我的思路是：把整个流程拆成多个流水线阶段，每个阶段内部尽量并行。比如，体素化可以按空间网格并行分配计算单元，每个网格独立统计点云并生成体素特征；特征提取中的2D卷积可以展开循环，用多个DSP单元同时计算。关键是要平衡流水线深度和资源占用，避免某一阶段成为瓶颈。建议先用高级综合（HLS）快速搭建原型，再针对关键路径手写RTL优化。开源方面，可以看看OpenPCDet里的PointPillars实现，以及Xilinx的Vitis Vision库，里面有些点云处理的例子可以参考。
芯片测试初学者
2026-04-02 09:29
我们去年做过类似的项目，最大的坑是点云数据的不规则性导致内存访问低效。我们的解决方法是：在预处理阶段，用FPGA的BRAM构建多个FIFO和缓冲区，对输入点云进行重排，把空间上相邻的点尽量放到连续地址，这样后续处理时能提高访存效率。对于特征提取，PointPillars的Pillar Feature Net部分可以用流水线并行处理多个体素，同时用多个DSP并行计算卷积核。跟踪算法（比如卡尔曼滤波）计算量小，可以放在软核（如MicroBlaze）上跑，跟硬件加速部分通过AXI流交互。记住，一定要做资源预估，别把BRAM用爆了，可以先在赛灵思的Zynq UltraScale+ MPSoC上评估，它DSP和BRAM资源比较丰富。
EE萌新求带
2026-04-02 09:29
从系统设计角度，你得先定义好数据流和接口。自动驾驶场景要求100ms以内，意味着从点云输入到跟踪结果输出，整个流水线延迟要严格控制。我建议采用模块化设计：第一个模块负责点云采集和预处理（去噪、体素化），用流水线处理每个激光雷达扫描线；第二个模块是PointPillars加速器，重点优化卷积和全连接层，利用FPGA的并行乘法累加单元；第三个模块做跟踪，可以用简化的IOU跟踪或卡尔曼滤波，这部分计算不重，但要注意与检测模块的时序配合。开源项目可以搜索“FPGA point cloud detection”，比如GitHub上有些基于Vitis HLS的PointPillars demo，虽然不完整，但能给你架构启发。另外，记得用仿真工具（如ModelSim）早期验证流水线冲突，避免后期调试头疼。
EE萌新求带
2026-04-02 09:56
我们去年做过类似的项目，延迟压到80ms左右。点云预处理是关键，因为数据进来是不规则的，直接上PointPillars的柱体划分（pillarization）很耗资源。我们的做法是：在接收点云数据流时，就用一个预处理模块做实时坐标变换和体素化。这里用流水线，第一级做坐标变换（DSP并行算），第二级做体素网格映射（用BRAM做查找表），第三级做每个体素内的特征计算（均值、密度等）。这样预处理完的数据已经是规整的网格，方便后续并行处理。特征提取部分，PointPillars的2D CNN部分很适合FPGA，我们把卷积层拆成多个并行的计算单元，每个单元处理一部分特征图，同时利用BRAM做权重和特征缓存，避免频繁访问DDR。跟踪算法（比如SORT）相对轻量，可以放在软核（如MicroBlaze）或者用硬件状态机实现。注意点：BRAM资源很紧张，要仔细规划数据流，避免中间数据反复搬运；另外，点云密度变化大，最好设计动态负载均衡，防止某些模块空闲。开源项目可以看Vitis Vision库里的点云例子，还有GitHub上一些用HLS实现的PointPillars简化版，但需要自己优化。
逻辑电路学习者
2026-04-02 09:56
从资源利用角度说，你得先分析算法各阶段的计算和内存需求。点云预处理：激光雷达数据是流式的，可以设计一个流水线，每个时钟周期处理一个点。用多个并行的DSP做坐标转换（比如到BEV），然后实时进行体素化。体素化可以用哈希表存到BRAM，但BRAM可能不够，可以考虑用外部DDR，但会引入延迟，所以尽量把热点数据放BRAM。特征提取：PointPillars的支柱特征提取是并行的，每个支柱独立，可以设计多个相同的处理单元（PE），每个PE处理一个支柱，同时计算。2D CNN部分，用Winograd或者直接卷积，并行化卷积窗口和通道。这里要大量用DSP，注意FPGA的DSP数量，可能要做时间复用。跟踪算法相对简单，可以用软核跑，或者写一个专用的流水线。整体架构建议用数据流驱动，每个模块之间用FIFO连接，避免阻塞。延迟预算：预处理（10ms）、特征提取（70ms）、跟踪（10ms），大概能控制在100ms内。常见坑：数据同步问题，点云和后续处理时钟域可能不同；还有资源估计不足，最好先用高层次综合（HLS）快速原型，再优化关键部分用RTL。参考：看看Xilinx的Vitis AI有没有相关模型，或者学术论文里FPGA加速PointPillars的设计。
逻辑设计新人Leo
2026-04-02 10:40
首先得明确痛点：点云数据不规则，直接上FPGA并行会浪费资源。我的思路是先做体素化（voxelization），把不规则点云转换成规则3D网格，这样后续的卷积操作就能用上FPGA的流水线了。具体步骤：1. 用BRAM做输入缓冲区，存原始点云；2. 设计一个流水线模块，每个时钟周期处理一个点，实时计算它属于哪个体素，并统计体素内点的特征（如最大值、平均值）；3. 体素特征提取后，用多个DSP并行做PointPillars中的2D卷积，这里可以展开卷积循环，同时计算多个输出通道；4. 跟踪部分可以用Kalman滤波，但得注意状态更新是顺序的，可以用流水线拆分成预测和更新阶段，中间用寄存器暂存。开源项目可以看OpenPCDet里的PointPillars实现，但那是软件，你需要自己重写成HLS或Verilog。注意：BRAM分配要小心，体素网格可能很大，得用压缩或分块来避免溢出。
EE萌新求带
2026-04-02 10:40
我们去年做过类似项目，关键是平衡并行度和资源。点云预处理最耗时的其实是体素化和特征统计，这部分可以用多个并行的处理单元（PE），每个PE负责一个空间区域，但需要解决点云分布不均的问题——建议先做粗略的空间划分，用流水线动态分配点给空闲的PE。特征提取时，PointPillars的伪图像卷积很适合FPGA：把每个pillar当成一个像素，用线缓冲（line buffer）和滑动窗口实现卷积的流水线，同时启动多个乘加器。跟踪算法别用太复杂的，简单IOU跟踪加线性预测就行，主要计算在检测端。延迟要压到100ms内，得算总流水线级数：假设点云输入10万点，体素化模块如果能每个时钟处理1点，在100MHz下也就1ms；卷积部分用深度流水线，延迟可能几十个时钟周期，整体远小于100ms。资源上，DSP重点用在卷积，BRAM多分给特征图和中间缓存。开源参考？FPGA点云检测的开源不多，但可以看Vitis Vision库里的卷积设计，以及GitHub上一些用HLS写的点云预处理模块。