AWS Elastic Fabric Adapter (EFA) 是一种专为高性能计算 (HPC) 和机器学习 (ML) 工作负载设计的网络接口。它在 Elastic Network Adapter (ENA) 提供的高性能、低延迟网络基础上,增加了关键的“操作系统旁路”(OS-bypass)功能,它不属于普通网络适配器,核心定位是解决大规模并行计算中网络延迟高、带宽不足、集群不稳定的痛点。简单来说,EFA 让运行在 AWS EC2 实例上的应用程序能够直接访问网络硬件,无需经过操作系统内核。这种直接访问极大地减少了通信延迟,并支持大规模集群中实例间紧密、高效的协同工作,是实现规模化并行计算的核心网络技术。
具备微秒级低延迟通信能力,能将计算节点间数据传输延迟降至10微秒以内,远低于传统网络适配器。支持超高带宽传输,单个EFA适配器双向带宽可达20GB/s,多适配器聚合后可突破100GB/s,满足TB级数据快速传输需求。能实现CPU零占用传输,数据传输无需经过实例CPU,让CPU专注于计算任务,同时支持数千个节点的大规模集群通信,具备智能调度和故障隔离能力,避免网络拥堵和故障扩散。既保留了 ENA 的所有标准 AWS 网络功能(如 VPC、安全组),又为 HPC/ML 应用提供了专属的、加速的通信通道,实现了性能与云便利性的结合。
AWS EFA的工作原理核心是借助RDMA(远程直接内存访问)和SRD(WS可扩展可靠数据报)技术,简化数据传输环节、提升传输稳定性。传统网络需要通过CPU处理数据;但是EFA通过RDMA技术让计算节点间直接访问对方内存,跳过操作系统和CPU的中间处理步骤,数据在应用程序内存和网络适配器之间直接移动,大幅降低延迟并减少CPU占用。
EFA 主要服务于需要实例间超低延迟、高吞吐量通信的高性能节点间通信的工作负载。典型场景包括:使用 MPI (消息传递接口)进行大规模数值模拟的 HPC (高性能计算) 应用,如计算流体动力学、天气预测;分布式深度学习训练,尤其是使用多个 GPU 实例训练大型模型时,EFA 能显著加速 GPU 间的梯度同步;以及大规模数据分析框架中需要快速数据交换的环节;科学计算、流体力学分析、火箭气动仿真等场景。