初学入门 | AWS Elastic Fabric Adapter (EFA) 是什么？_AWS认证实战培训

基本概述

AWS Elastic Fabric Adapter (EFA) 是一种专为高性能计算 (HPC) 和机器学习 (ML) 工作负载设计的网络接口。它在 Elastic Network Adapter (ENA) 提供的高性能、低延迟网络基础上，增加了关键的“操作系统旁路”（OS-bypass）功能，它不属于普通网络适配器，核心定位是解决大规模并行计算中网络延迟高、带宽不足、集群不稳定的痛点。简单来说，EFA 让运行在 AWS EC2 实例上的应用程序能够直接访问网络硬件，无需经过操作系统内核。这种直接访问极大地减少了通信延迟，并支持大规模集群中实例间紧密、高效的协同工作，是实现规模化并行计算的核心网络技术。

主要功能

具备微秒级低延迟通信能力，能将计算节点间数据传输延迟降至 10 微秒以内，远低于传统网络适配器。支持超高带宽传输，单个 EFA 适配器双向带宽可达 20GB/s，多适配器聚合后可突破100GB/s，满足TB级数据快速传输需求。能实现CPU零占用传输，数据传输无需经过实例CPU，让CPU专注于计算任务，同时支持数千个节点的大规模集群通信，具备智能调度和故障隔离能力，避免网络拥堵和故障扩散。既保留了 ENA 的所有标准 AWS 网络功能（如 VPC、安全组），又为 HPC/ML 应用提供了专属的、加速的通信通道，实现了性能与云便利性的结合。

工作原理

AWS EFA 的工作原理核心是借助 RDMA（远程直接内存访问）和 SRD（AWS可扩展可靠数据报）技术，简化数据传输环节、提升传输稳定性。传统网络需要通过 CPU 处理数据；但是 EFA 通过RDMA技术让计算节点间直接访问对方内存，跳过操作系统和CPU的中间处理步骤，数据在应用程序内存和网络适配器之间直接移动，大幅降低延迟并减少CPU占用。

使用场景

EFA 主要服务于需要实例间超低延迟、高吞吐量通信的高性能节点间通信的工作负载。典型场景包括：使用 MPI （消息传递接口）进行大规模数值模拟的 HPC (高性能计算) 应用，如计算流体动力学、天气预测；分布式深度学习训练，尤其是使用多个 GPU 实例训练大型模型时，EFA 能显著加速 GPU 间的梯度同步；以及大规模数据分析框架中需要快速数据交换的环节；科学计算、流体力学分析、火箭气动仿真等场景。