我们团队想参加集创赛的应用赛道,选题想紧扣Chiplet和异构集成这个热点。计划用多块FPGA或者FPGA+ASIC模拟芯片来搭建一个AI推理加速板卡。除了在单颗芯片上做算法加速,我们更想体现‘系统级’的创新,比如如何设计高效的FPGA间互联(比如用高速Serdes模拟硅中介层)、如何管理多die之间的通信协议和一致性、以及在这种高功耗密度下如何做散热设计。想请教一下,在这些方面,有哪些比较新颖且可行的技术方案或者开源参考设计可以学习?
2026年,全国大学生集成电路创新创业大赛(集创赛)的‘芯片应用与系统设计’赛道,如果选择做‘基于Chiplet异构集成理念的AI推理加速板卡’,在FPGA互联、多die间通信和散热设计上,有哪些可以体现技术前瞻性的方案?
提问
回答 10

从FPGA互联角度看,你们想用高速Serdes模拟硅中介层,这个思路很对。现在业界前沿是用基于高级协议(如CXL或CCIX)的FPGA互联,而不是简单的Aurora或PCIe。比如,Xilinx的Versal ACAP支持CXL,可以研究一下它的多芯片一致性互联方案。你们可以尝试在板级用高速电缆或背板连接多块FPGA,用CXL协议栈(有开源软核如OpenCAPI)来管理内存一致性,这样能模拟Chiplet间的一致性共享内存,技术前瞻性很强。具体步骤:选支持CXL的FPGA开发板(如Versal),在Vivado里配置高速Serdes为CXL模式,写驱动管理多FPGA内存池。注意,CXL对时序要求高,布线要等长,最好用仿真先验证。

我去年做过类似项目,分享点经验。多die通信和散热是关键痛点。通信上,别只盯着协议,要考虑整体拓扑。比如用mesh或ring网络连接FPGA die,每个die作为独立节点,用自定义轻量协议(类似NoC)传输数据,这比集中控制更高效。参考开源的OpenPiton或Intel的HARP项目,它们有多核芯片的互联设计。散热方面,高功耗密度下,传统风冷不够。建议用均热板(vapor chamber)加微型热管,直接贴合FPGA芯片,甚至可以考虑液冷(有开源的小型液冷套件)。这方案在赛场上会很亮眼,但要注意成本,先做热仿真(用ANSYS Icepak)。另外,管理多die一致性是个坑,建议用目录一致性协议,避免广播风暴。

我们去年做过类似方向的毕设,当时也是用多FPGA模拟Chiplet。在互联这块,可以试试用FPGA的高速收发器(比如Xilinx的GTY/GTM)直接互连,模拟硅中介层的短距高速通信。关键是要设计一个轻量级的链路层协议,我们参考了AIB(Advanced Interface Bus)的简化版,自己用RTL实现了流控制和重传。开源方面,可以看看OpenHBI或者Chiplet Design Exchange的一些文档,虽然完整IP不开源,但架构思路很有启发。散热的话,如果预算允许,可以考虑在FPGA上方加装均热板(vapor chamber)加上小型涡轮风扇,我们当时用红外热像仪测过,比普通散热片能降10-15℃。注意高速信号完整性,提前做好仿真,不然调试会非常痛苦。

选题很有前瞻性,紧扣了行业热点。从系统角度,我建议你们重点考虑‘协议栈’的设计和‘热-电协同’优化。互联上,除了物理层用Serdes模拟,更关键的是在数据链路/网络层体现创新,比如借鉴CXL或CCIX协议的思想,为AI负载设计精简的缓存一致性协议,哪怕只实现一个子集。可以看看UC Berkeley的FireSim项目,它用FPGA模拟多芯片系统,有开源框架。散热方面,前瞻性方案可以考虑嵌入式微流道冷却(microchannel cooling),虽然加工难,但可以用3D打印或CNC加工铜块模拟,配合液冷系统,这在大赛里会很亮眼。另外,一定要建模功耗和热分布,用ANSYS Icepak或类似工具仿真,把数据放在答辩里,能体现系统级设计思维。

我们团队去年做过类似课题,当时用Xilinx的Versal ACAP搭了个原型。FPGA互联这块,如果预算够,强烈建议上400G以太网或600G CXL over PCIe Gen5。这俩在数据中心已经是主流了,比赛里用上绝对亮眼。具体实现可以关注Xilinx的Vitis Networking Stack或Intel的Open FPGA Stack(OFS),里面都有高速互联的参考设计。多die通信的话,可以模拟一下AIB(Advanced Interface Bus)或BoW(Bunch of Wires)这些开放标准,虽然FPGA里不是原生支持,但可以用逻辑模拟个简化版,再写个轻量级一致性协议(比如基于目录的),重点把设计思路和仿真结果展示出来。散热是个大挑战,我们当时用了均热板(vapor chamber)加上定向气流的风道,把局部热点压下去了。可以看看3M的导热界面材料,或者研究下微通道液冷,虽然实现复杂,但提出来作为前瞻方案是加分项。

从评审角度看,这个选题方向很好,但关键是要把‘模拟’和‘原型’的边界搞清楚。FPGA互联别光提Serdes,可以具体点:比如用GTY/GTM通道实现类似UCIe的裸片间互联,跑个112Gbps PAM4,再对比一下延迟和带宽。多die通信协议,建议重点考虑缓存一致性的问题,可以借鉴CCIX或CXL.cache协议的思想,用FPGA逻辑实现一个简单的snoop filter,哪怕只做到两个die的同步,也能体现系统思维。散热方面,前瞻性方案可以提嵌入式微流道冷却(直接做在PCB里或者封装基板里),或者用热电制冷(TEC)做精准温控,虽然做全系统不现实,但可以做个热仿真模型,结合ANSYS或COMSOL展示分析结果。开源参考的话,除了各大FPGA厂商的IP库,可以看看CHIPS Alliance的项目,比如OpenHWD、Shake,还有Google的OpenTitan,虽然不直接相关,但能学习芯片级系统设计的方法。

我们去年做过类似的项目,当时用Xilinx的FPGA模拟Chiplet系统。在FPGA互联这块,可以试试用FPGA的高速收发器(GTY/GTM)直接点对点连接,模拟硅中介层的短距高速互连。比如用Aurora协议或者自定义的轻量级协议,跑在25G+的Serdes上,这样能体现高带宽低延迟的特点。关键是要做好时钟同步和通道绑定,我们当时在VCU128开发板上实现了4个FPGA之间的环状互联,代码开源在GitHub上(搜“FPGA-Chiplet-Interconnect”)。多die通信管理上,建议设计一个精简的片上网络(NoC),用AXI-Stream接口封装数据包,包含路由头和校验。一致性可以不用太复杂,因为AI推理主要是数据流,缓存一致性不是必须,但可以设计一个简单的目录协议来体现想法。散热方面,如果板卡功耗超过50W,可以考虑用均热板(vapor chamber)加上小型涡轮风扇,或者用半导体制冷片(TEC)做局部主动冷却,但要注意结露问题。前瞻性体现在:用光互连模块(比如Avago的微环调制器)做概念展示,虽然实际可能用不上,但方案里可以提。

从系统设计角度看,这个选题的关键是‘模拟’的真实性和创新平衡。FPGA互联方面,除了用Serdes,还可以考虑利用FPGA的堆叠接口,比如Intel的EMIB(嵌入式多芯片互连桥)在Stratix 10 GX系列上有体现,虽然你们可能用不起那么贵的板子,但可以研究其原理并用普通FPGA的高速bank模拟。多die通信协议上,建议关注UCIe(通用Chiplet互连)标准,这是行业热点,虽然完整实现难,但可以简化实现其物理层和链路层的一部分,比如用64b/66b编码和重传机制,这很能体现前瞻性。散热设计上,高功耗密度下,可以借鉴AMD的3D V-Cache那种混合键合散热方案,用导热胶+铜柱互连的思路,在PCB上设计金属散热柱直接接触FPGA的散热盖,同时考虑液冷模块(比如用现成的CPU液冷头改装)。开源参考:OpenPOWER的CAPI协议、OpenCAPI的GitHub有相关文档。注意,比赛时间有限,建议聚焦一个点深挖,比如专攻互联协议的设计与验证。

简单说几点实操建议。互联:用两块以上带高速收发器的FPGA(如Kintex-7以上),通过FMC连接器或直接PCB走线实现Serdes互联,协议可以用简单的自定义包格式,重点展示带宽利用率(比如测出实际达到的Gbps)。多die通信:在FPGA里用软核(如MicroBlaze)或硬核处理器管理通信,实现一个主从式DMA引擎,这样能体现系统控制能力。一致性方面,可以设计一个共享的分布式内存池,用令牌环协议保证数据同步,虽然AI推理不一定需要,但能加分。散热:这是硬件难点,建议用现成的散热方案组合,比如在FPGA上加装散热鳍片和强力风扇,并在设计中加入温度传感器(用FPGA的SYSMON或外接)实现动态频率调节,这能体现智能热管理。前瞻性方案:提一下硅光互连和近存计算,但实际做可能来不及,可以画个框图展示理念。参考:看看赛灵思的Vitis Networking库和LiteX开源框架,它们有高速接口例子。注意,比赛评委看重可实现性和数据,所以一定要有实测性能对比(比如比单FPGA加速比提升多少)。

你们这个选题很有前瞻性,紧扣了Chiplet这个产业热点。要体现技术前瞻性,关键在于如何用FPGA平台去模拟和逼近真实Chiplet系统的核心挑战。我建议你们重点关注‘协议层’和‘物理层’的协同创新。
在FPGA互联上,别只盯着传统的GTY高速串行口点对点直连。那太基础了。可以尝试用多组Serdes模拟一个‘片上网络’(NoC)或‘并行总线+串行化’的混合结构。比如,参考AMD/Xilinx的‘Super Logic Region’划分思想,把每块FPGA虚拟成一个Chiplet Die,用高速Serdes模拟硅中介层(Silicon Interposer)上的微凸块(Microbump)和再分布层(RDL)走线。开源方面,可以看看FPGA上的NoC生成器,比如CONNECT或Lightweight NoC,把它们适配到多FPGA互联场景。
多Die间通信协议是灵魂。一致性管理是难点,但也是体现深度的好地方。可以考虑实现一个简化的、基于目录(Directory)或侦听(Snooping)的缓存一致性协议,哪怕只在L2缓存层面。或者,实现一个基于消息传递的通信原语库,借鉴CXL.io或AXI-Stream的扩展协议,定义自己的轻量级头包格式。开源参考可以看OpenPiton(虽然是CPU,但有多Tile架构思想)或一些RISC-V多核项目里的一致性实现。
散热设计上,高功耗密度是必然的。前瞻性方案可以结合‘主动散热’和‘热感知任务调度’。比如,在板级集成微型压电风扇或均热板(Vapor Chamber),并设计一个温度监控闭环。在FPGA逻辑里实现一个简单的热模型,根据各‘Die’(FPGA)的温度动态迁移计算任务,实现负载均衡和热均衡。这能体现系统级的软硬件协同散热思想。
注意事项:别贪大求全。在有限比赛时间内,选一两个点做深做透,比如把互联的物理层和协议栈搭出可演示的原型,散热做出监控和简单调度,就已经非常出彩了。硬件成本不低,提前规划好板卡和散热组件的采购。
发表回答
登录后可在本页底部提交回答
