FPGA加速AI计算的两位老牌玩家终于牵手

由 judy 提交于周五, 21 十二月 2018 - 10:19

相信您一定听说过基于FPGA的计算加速突然成为一个热门话题。你可能还听说过英特尔在几年前收购Altera超过160亿美元的消息。FPGA技术已逐渐的一个杀手应用程序。如今，随着摩尔定律的逐渐减缓。工程师寻找替代方法以更快的速度和更低的功耗处理更多数据，数据中心的控制正在酝酿着巨大的争夺战。

FPGA是加速许多类型计算工作负载的出色平台，特别是那些数据通路适用于大规模并行运算的工作负载。FPGA可以通过在硬件中实现重要的计算密集算法块来减少传统处理器，从而大幅减少延迟和（通常更重要的）功耗。

基于FPGA的加速的一大缺点是编程模型。为了从具有FPGA和传统处理器协同工作的异构计算系统中获得最佳性能，您需要一种方法来分解问题，将传统代码转换为适当的FPGA架构，并在精心设计的硬件配置中实现整体功能。除其他外，这需要FPGA设计方面的大量专业知识，以及将数据输入和输出这些FPGA加速器的总体策略，以及完成任务的存储器和存储架构。做到这一点并不是一件容易的事，并且有很多方法可以在整个过程中出错并最终从您的FPGA投资中获得很少的收益。

在本周在达拉斯举行的超级计算会议上，Bittware（今年早些时候被Molex收购）宣布他们与Nallatech“联手”（Molex去年收购了Interconnect Systems，Inc。）。在FPGA加速领域，这是一个大问题。虽然基于FPGA的加速对于我们大多数人来说可能是一个新的热门话题，并且看起来像是一个全新的世界正在为工程探索开放，但这些人已经有很长一段时间了。

Allan Cantle于1993年创立了Nallatech，专注于基于FPGA的加速。

我们在2004年首次开始了解Nallatech，到那时该公司已经有超过十年的经验来处理（当时）被称为“可重新配置计算”的挑战。Bittware在加速方面具有类似的传奇历史，从1991年开始使用基于DSP的ISA总线开始，到2004年与Altera合作转向FPGA。这两家公司很可能在基于FPGA的加速方面拥有更多的组合经验。

有趣的是，这项技术的这两位长期资深玩家将在Molex旗下团结一致。

根据公告，组合的Bittware / Nallatech团队将提供基于Intel和Xilinx的FPGA加速解决方案。Bittware称他们的目标应用包括机器学习推理，实时数据分析，高频交易，实时网络监控和视频广播等。Bittware正在利用Bittware，Nallatech和Molex的综合资源来获得大型企业客户。

Bittware将他们的解决方案分解为“计算”，且专注于“网络”和“存储”。虽然使用FPGA加速计算是一种魅力，但计算系统的每个部分都需要针对任务进行设计，否则您最终会将性能留在纸面上。FPGA可以在加速这些任务中发挥关键作用。几十年前，FPGA在网络业务中崭露头角，并且最近才在存储和计算方面证明了自己。

在计算方面，Bittware提供来自Intel和Xilinx的支持HBM2的FPGA器件。HBM集成对于英特尔和Xilinx都是新的，并且是一项改变游戏规则的创新，它允许加速应用程序，否则这些应用程序将受到传统分立存储器实现带宽的限制。例如，Bittware的520N-MX是一款全高双宽PCI-Express卡，包含一个Intel Stratix 10 MX FPGA，高达8 GB的集成HBM2 @ 512 Gbps，四个QSFP28网箱，每端口支持高达100G，两个支持DDR4 SDRAM，QDR-II + SRAM或Intel Optane 3D-XPoint的DIMM，两个用于直接扩展到NVMe SSD阵列的OCuLink端口，以及用于智能平台管理的“板卡管理控制器”（BMC）。

XUPVVH是一款3/4长PCIe板，带有Xilinx Virtex UltraScale + VU35P / VU37P，集成8 GB HBM2 @ 460 GBps，支持Gen1，Gen2或Gen3的PCIe x16接口，4个QSFP适用于4x 40 / 100GbE或16x 10 / 25GbE的笼子，以及高达256 GBytes的DDR4。由于VIrtex的280万个逻辑元件可以产生大量的热量，Bittware使用他们称之为“Viper”的平台，该平台使用计算机流动模拟以“热量优先”的方式驱动物理电路板设计，包括“使用热量”管道，气流通道和安排组件，以最大限度地提高服务器中有限的可用气流。“Viper板默认是被动的，可选择主动冷却。