엔비디아 ‘H100’ GPU의 성능을 최대 75%까지 효율적으로 활용할 수 있는 새로운 기술 ‘플래시어텐션-3(FlashAttention-3)’가 발표되었습니다. 이 기술은 대형언어모델(LLM)의 훈련 및 실행 시간을 크게 줄이고 비용을 절감할 수 있도록 합니다.
플래시어텐션-3는 어텐션(attention) 계산 속도를 높이는 기술로, 엔비디아 H100 GPU의 리소스 사용을 최적화하여 LLM 학습 및 추론의 성능과 효율성을 극대화합니다. 어텐션은 트랜스포머 아키텍처의 핵심 계층이지만, 계산 비용이 많이 들며 특히 컨텍스트 길이에 따라 비용이 제곱수로 증가하는 특성이 있습니다. 이로 인해 어텐션 메커니즘은 주요 병목 지점이 되며, GPU의 실제 성능 중 일부만 활용하는 결과를 초래합니다.
플래시어텐션-3는 GPU의 메모리 세그먼트 간 데이터 이동 작업과 연산 작업의 중첩을 최대화하도록 스케줄링하고 병렬 처리하는 방식으로 이러한 문제를 해결합니다. 이를 통해 데이터 전송을 기다리는 GPU의 유휴 시간을 줄여 성능을 향상시킵니다. 또한, GPU에 최적화된 행렬 곱셈과 최적화되지 않은 소프트맥스 연산을 교차 수행하여 어텐션 계산 시 발생할 수 있는 병목 현상을 줄입니다. 소프트맥스 함수는 어텐션 가중치를 정규화하는 데 사용되며, 계산 비용이 행렬 곱셈보다 더 많이 들기 때문에 이를 최적화하는 것이 중요합니다.
플래시어텐션-3는 양자화된 모델에서 어텐션 계산을 더 빠르고 정확하게 수행하기 위해 특별한 연산 배열을 사용합니다. 양자화(quantization)는 모델의 가중치를 적은 비트 숫자로 저장하여 모델 크기를 줄이는 기술로, 이를 통해 H100 GPU의 성능을 최대 75%까지 활용할 수 있습니다. 이는 이전 버전의 플래시어텐션보다 1.5~2배 빠른 속도를 자랑합니다.
이 기술을 통해 LLM을 훈련하는 데 걸리는 시간을 크게 줄일 수 있으며, LLM이 긴 컨텍스트를 효율적으로 처리할 수 있도록 도와줍니다. 또한, GPU 성능을 더 많이 활용함으로써 LLM을 실행하는 데 필요한 가속기 수를 줄이고 모델에서 추론을 실행하는 데 드는 비용을 대폭 줄일 수 있습니다.
현재 플래시어텐션-3는 깃허브에서 오픈 소스로 제공되고 있으며, 파이토치 및 허깅페이스 트랜스포머와 같은 딥러닝 라이브러리에 통합될 예정입니다.