NVIDIA Blackwell 아키텍처?

Blackwell 프로세서는 2,080억 개의 트랜지스터를 탑재하고 있으며 NVIDIA를 위해 맞춤 제작된 TSMC 4NP 프로세스를 사용하여 제조되었습니다. 모든 Blackwell 제품은 10TB/s의 칩 간 상호 연결을 통해 연결된 레티클 제한 다이 2개를 제공하여 캐시가 완전히 일관되고 CUDA와 호환되는 단일 GPU 슈퍼칩에서 GPU 다이 2개의 성능을 제공합니다.

2세대 생성형 AI 엔진

FP8(8비트 부동점) 및 FP16(16비트 부동점) 정밀도로 교육을 가속화하는 트랜스포머 엔진 기술을 지원하는 것 외에도 Blackwell은 새로운 생성형 AI 엔진을 도입합니다. 생성형 AI 엔진은 NVIDIA® TensorRT™-LLM 및 NeMo™ Framework 혁신과 결합된 맞춤형 Blackwell Tensor 코어 기술을 사용하여 거대 언어 모델(LLM) 및 전문가 혼합(MoE) 모델의 추론 및 교육을 가속화합니다.

Blackwell Tensor 코어는 대규모 MoE 모델의 추론을 강화하기 위해 새로운 커뮤니티 정의 마이크로스케일링 형식을 포함한 새로운 정밀도를 추가하여 높은 정밀도를 위한 보다 높은 정확도와 간편한 교체를 제공합니다. Blackwell Transformer 엔진은 마이크로 텐서 스케일링이라는 세분화된 스케일링 기술을 활용하여 성능과 정확도를 최적화함으로써 4비트 부동 소수점(FP4) AI를 구현합니다. 이를 통해 메모리가 지원할 수 있는 차세대 모델의 성능과 크기를 두 배로 늘리면서도 높은 정확도를 유지할 수 있습니다.

안전한 AI

Blackwell에는 강력한 하드웨어 기반 보안을 통해 무단 액세스로부터 민감한 데이터와 AI 모델을 보호하는 NVIDIA 컨피덴셜 컴퓨팅이 포함되어 있습니다. Blackwell은 업계 최초의 TEE-I/O 지원 GPU로, NVIDIA® NVLink®를 통한 인라인 보호 및 TEE-I/O 지원 호스트와 함께 최고 성능의 컨피덴셜 컴퓨팅 솔루션을 제공합니다. Blackwell 컨피덴셜 컴퓨팅은 암호화되지 않은 모드와 거의 동일한 처리 성능을 제공합니다. 이제 엔터프라이즈는 AI 지적 재산권(IP)을 보호하고 기밀 AI 훈련, 추론 및 Federated Learning을 안전하게 지원하는 것은 물론 가장 큰 모델도 성능이 뛰어난 방식으로 보호할 수 있습니다.

NVLink 및 NVLink Switch

엑사스케일 컴퓨팅과 매개 변수가 조 단위인 AI 모델의 잠재력을 최대한 활용하려면 서버 클러스터 내의 모든 GPU 간에 빠르고 원활한 통신이 필요합니다. 5세대 NVIDIA® NVLink® 인터커넥트는 최대 576개의 GPU로 확장되어 매개 변수가 수조 및 수조 조에 달하는 AI 모델의 성능을 가속화할 수 있습니다.

NVIDIA NVLink 스위치 칩은 하나의 72-GPU NVLink 도메인(NVL72)에서 130TB/s의 GPU 대역폭을 구현하며, NVIDIA 확장 가능한 계층적 집계 및 감소 프로토콜(SHARP)™ FP8 지원으로 4배의 대역폭 효율성을 달성합니다. 또한 1.8TB/s의 놀라운 상호 연결 속도로 단일 서버 이상의 클러스터를 지원하고 있습니다. NVLink를 사용하는 멀티 서버 클러스터는 컴퓨팅 증가와 균형을 맞춰 GPU 통신을 확장하므로 NVL72는 단일 8-GPU 시스템보다 9배의 GPU 처리량을 처리합니다.

Decompression Engine

데이터 분석 및 데이터베이스 워크플로우는 일반적으로 컴퓨팅에 CPU를 사용했습니다. 가속 데이터 사이언스는 비용을 절감하면서 가치 창출 속도를 높여 엔드 투 엔드 분석의 성능을 대폭 향상할 수 있습니다. Apache Spark를 비롯한 데이터베이스는 데이터 분석을 위해 대량의 데이터를 취급, 처리 및 분석하는 데 중요한 역할을 합니다.

Blackwell의 Decompression Engine과 고속 링크(900GB/s 양방향 대역폭)를 통해 NVIDIA Grace™ CPU 의 방대한 메모리에 액세스하는 기능은 데이터에서 최고의 성능을 위해 데이터베이스 쿼리의 전체 파이프라인을 가속화합니다. LZ4, Snappy 및 Deflate와 같은 최신 압축 형식을 지원하여 분석 및 데이터 사이언스를 지원합니다.

RAS(신뢰성, 가용성, 서비스 가능성) 엔진

Blackwell은 발생할 수 있는 잠재적인 결함을 조기에 식별하여 가동 중단 시간을 최소화하기 위해 전용 RAS(신뢰성, 가용성, 서비스 용이성) 엔진으로 지능형 복원력을 추가합니다. NVIDIA의 AI 기반 예측 관리 기능은 하드웨어 및 소프트웨어 전반에서 수천 개의 데이터 포인트를 지속적으로 모니터링하여 전반적인 상태를 파악함으로써 가동 중단 시간과 비효율성의 원인을 예측하고 개입합니다. 이를 통해 시간, 에너지 및 컴퓨팅 비용을 절감하는 지능형 복원력을 구축할 수 있습니다.

NVIDIA의 RAS 엔진은 우려되는 영역을 식별하고 유지 관리를 계획할 수 있는 심층 진단 정보를 제공합니다. RAS 엔진은 문제의 원인을 신속하게 파악하여 소요 시간을 단축하고 효과적인 해결을 촉진하여 가동 중단 시간을 최소화합니다.

NVIDIA 자료 제

https://www.nvidia.com/ko-kr/data-center/technologies/blackwell-architecture