OpenAI가 대규모 AI 학습을 위한 MRC 네트워킹을 상세히 설명하다

MRC 네트워킹은 AI 클러스터의 속도, 복원력, 학습 효율을 높입니다 OpenAI의 새로운 프로토콜이 어떻게 혼잡을 줄이고 작업을 원활하게 진행하는지 알아보세요

OpenAI는 대규모 AI 학습 클러스터의 속도와 복원력을 향상시키도록 설계된 네트워킹 프로토콜인 MRC(Multipath Reliable Connection)를 발표했습니다. 회사는 이 시스템이 AMD, Broadcom, Intel, Microsoft, NVIDIA를 포함한 파트너들과 함께 개발되었으며, 이제 더 넓은 업계에서 사용할 수 있도록 Open Compute Project를 통해 공개되었다고 밝혔습니다. 이 게시물은 MRC가 혼잡을 줄이고, 링크 및 스위치 장애를 더 빠르게 처리하며, 최첨단 모델 학습에 사용되는 슈퍼컴퓨터의 네트워크 운영을 단순화하도록 고안되었다고 설명합니다. 이는 이미 텍사스주 애빌린과 Microsoft의 Fairwater 슈퍼컴퓨터를 포함한 OpenAI의 가장 큰 NVIDIA GB200 슈퍼컴퓨터 전반에 배포되어 있습니다. OpenAI에 따르면, 이 접근 방식은 다중 평면 네트워크 설계, 여러 경로에 걸친 패킷 분산 전송, 그리고 SRv6 소스 라우팅을 결합해 네트워크의 일부가 실패하더라도 학습 작업이 계속 진행되도록 합니다. 회사는 이러한 변화가 학습 실행 중 발생하는 중단을 줄이고, 매우 큰 규모에서 전반적인 효율성을 개선하는 데 도움이 되었다고 밝혔습니다.