军事和航空行业在进行图像和信号处理时需要执行大量的计算工作,这要求确保高级别的浮点数据精度。这些行业孜孜寻求可实时、更快速地处理更大的复杂数据集且减少能耗的解决方案。此类解决方案可帮助优化其嵌入式系统的尺寸、重量和功耗 (SWaP) 比。
去年的一项重大进展即推出 Intel® Xeon® 处理器 E5 v3 系列。这些处理器包括 Intel® Advanced Vector Extensions 2 (Intel® AVX2) 指令集,可提供明显优于 Intel® Advanced Vector Extensions (Intel® AVX) 和 Intel® Streaming SIMD Extensions (Intel® SSE) 的性能 – 请参见图 1。
图1.使用 Linpack* 基准对相同处理器的性能测量显示Intel® Advanced Vector Extensions 2 (Intel® AVX2)实现了显著的性能提升。
第一个版本的 Intel AVX 通过将浮点(矢量) (vector) SIMD 寄存器尺寸翻番(即,从 128 位达到 256 位)加快了浮点计算的性能,而 Intel AVX2 更出众。它通过 256 位整数指令扩展了 Intel SSE 和 Intel AVX,另外还增加了对浮点融合乘加指令以及累积运算的支持。通过实现每时钟周期每秒双精度浮点运算 (FLOPS) 数翻倍,Intel AVX2 从理论上可实现内核峰值浮点吞吐量翻倍(图 2)。
并非所有处理器都具有魔力 – 在处理器频率方面会有所权衡。但是,最新的 Intel Xeon 处理器 X5 v3 系列具有尽力确保随时提供最佳性能的新策略。我们来看看它如何工作。
当处理器检测到 Intel AVX2 指令时,将对内核施加额外的电压。处理器随后运行温度会变高,需要减少操作频率,从而将运算维持在 TDP 限值范围内。在最后一个 Intel AVX 指令完成后,维持较高电压 1 毫秒,之后,电压回到标定 TDP 电压水平。
过去,Intel 针对所有工作负载指定了标记的 TDP 频率和超频。Intel Xeon processor E5 v3 系列的显著改进是增加了两个新的 AVX 频率(图 3):
- AVX 基础 –
- AVX 最大全内核超频
图 3.全新的 Intel® Advanced Vector Extensions 2 (Intel® AVX2) 指令可在不高于标记 TDP 频率的情况下操作,而且仍提供高达两倍的浮点吞吐量。
这两个新频率具有三大优势:
- 使用大量 Intel AVX2 指令的工作负载可将处理器频率降至 AVX 基础频率,以保持在 TDP 限值范围内。
- 使用 Intel AVX2 指令的一些工作负载通过提供高于 AVX 基础频率的超频,直至"AVX 最大全内核超频",提供更出色的性能。
- 不使用 Intel AVX2 指令的工作负载能够以高达"最大全内核超频(非 AVX)"的标记 TDP 频率工作。
这里使用的一项关键技术是 Intel® Turbo Boost 技术。它可通过基于工作负载、活动内核数量、温度、功率和电流提供时机性频率提升,以实现最优性能。如果存在电力和热余量,Intel TurboBoost 技术会支持 Intel AVX2 工作负载根据时机以超频运行,从而增强性能。从另一方面来看,利用极高比例 Intel AVX2 指令的工作负载可能以更接近于 AVX 基础频率的频率操作。
无论如何,您将发现相较于使用前代处理器 Intel AVX 指令的工作负载,使用 Intel AVX2 的工作负载性能显著提升。Intel AVX2 最多可将峰值 GFLOPS 提高 1.7 倍(图 4)。
图 4.使用 AVX 基础频率计算理论性峰值 FLOPS 发现,相较于具有相同内核数以及与使用 Intel® AVX 相当的频率的前代处理器 (v2),具有 Intel® AVX2 的 Intel® Xeon®处理器 E5 v3 系列的峰值 GFLOPS 提高了 1.7 倍。提供这些优势的刀片和插板
Intel® 物联网解决方案联盟成员提供基于 Intel Xeon 处理器 E5 v3 系列(可提供更高的 Intel AVX2 性能)的刀片和插板。我们来看看专门为军事/航空应用而设计的刀片和插板。
Mercury Systems 提供 Ensemble* HDS6603 高密度服务器(图 5)。这款功能强大的开放式系统架构 (OSA) 刀片在单个 OpenVPX* 插槽中提供超过 1 TFLOP 的一般处理能力。HDS6603 是一种单插槽 6U OpenVPX (VITA 46/65) 兼容性模块,采用来自 Intel® Xeon® 处理器 E5-2600 v3 产品系列的两个 1.8 GHz 处理器,每个处理器有 12 个内核,通用处理能力总计达 1.38 TFLOPS。配置可包含高达 32 GB 的 DDR4-2133 SDRAM(每个处理器)。
图 5.Mercury Ensemble HDS6603 高密度服务器刀片
每个处理器包含融合的乘加 (FMA) 功能,其支持诸如快速傅里叶变换 (FFT)的通用雷达功能,以实现执行速度翻倍。板载 Gen 3 PCIe* 管道馈送模块的交换机互联结构,其由两台 Mellanox ConnectX*-3 设备进行管理,以实现 40Gb/s 的以太网或 InfiniBand* 模块间数据速率。本机 Intel® QuickPath Interconnect (Intel® QPI) 处理器之间的互联支持虚拟高速缓存关联处理器内核创建真正确定性的 SMP 环境。对于严苛的应用,Mercury 提供空气冷却、坚固耐用的传导冷却和 Air Flow-By* OpenVPX 包装选件。
来自Trenton Systems 的HEP8225 HDEC 系列系统主板 (SHB)采用两个 Intel® Xeon® 处理器 E5-2600 v3 产品系列和 Intel® C610 芯片集。HEP8225 SHB 的机械布局与当前的 PICMG* 1.3 系统主板类似(图 6)。为了减少蚕食性能的延迟,这款美国制造的系统将来自插板的两个处理器的全部 80 PCIe 链路路由至双密度 PCIe 卡边缘柄。插板中也提供额外的 I/O 和电源引脚,以在多种嵌入式计算应用中实现更大的系统设计灵活性。该额外的 I/O 还支持在 HDEC 系列系统内实现更高级别的电缆路由效率。
图 6.Trenton HEP8225 HDEC 系统主板。HEP8225 HDEC 系列系统功能包括:
- 从六核 Intel® Xeon® 处理器 E5-2608L v3 直到十二核 Intel® Xeon® 处理器 E5-2680 v3 的嵌入式处理器选件;也适用于十四核 Intel® Xeon® 处理器 E5-2695 v3
- 高达 128GB 的 DDR4 内存,每个处理器四个通道
- 2 个 10GbE 和 2 个 1GbE 以太网端口
- 6 个 USB 3.0 和 4 个 USB 2.0 接口
- 8 个 SATA 修订版 3.0 接口
- 用于系统管理的基板管理控制器 (BMC)
- 板载视频、音频和串行接口
- 适合严苛应用环境的新机械包装属性
HEP8225 SHB 可与很多 HDEC 系列背板和系统平台结合使用。 这些背板和平台支持军事/航空系统设计人员开发符合行业标准 2U、4U 和 5U 19 英寸机架式外形规格、但相较于传统系统可提供更高数据吞吐量的解决方案。 SHB 与背板共同最大化直接流向处理器的数据吞吐量,以减少延迟以及对更多 PCIe 交换机的依赖。
发现更多解决方案
您可在我们的解决方案目录找到更多军事/航空解决方案。您还可以浏览此社区,获取有关应对需要执行大量计算的图像处理需求的更多信息。如果您有希望我们讲述的特定话题,请告知我们。
了解更多 |
联系推荐的联盟成员:此博客中的解决方案:相关主题:
|
Trenton Systems是Intel®物联网解决方案联盟的Affiliate级会员。Mercury Systems是联盟的General级会员。
Mark Scantlebury 流动记者(英特尔合约记者),英特尔®物联网解决方案联盟