banner
뉴스 센터
그래픽 디자인 분야의 인상적인 경험.

메타 플랫폼에서 AI를 주도할 철

Aug 17, 2023

지난 30년 동안 HPC 클러스터와 지난 10년 동안 AI 교육 시스템에 대해 일관되게 사실인 것이 있다면 워크로드가 증가함에 따라 네트워크가 점점 더 중요해지고 있다는 것입니다. 노드는 물리적으로나 열적으로 의미가 있습니다.

AI 훈련 시스템의 경우 Meta Platforms가 만든 맞춤형 서버의 진화보다 이를 더 잘 보여주는 것은 없습니다. 2016년 여전히 Facebook이라고 불리던 시절과 Meta Platform이 2011년에 설립한 Open Compute Project에 최초의 AI 시스템 설계를 기부했을 때조차 말이죠. 무어의 법칙이 쇠퇴하는 시기에 이러한 하드웨어와 애플리케이션 소프트웨어의 공동 설계는 우리가 The Next Platform을 찾게 된 중심 주제 중 하나였으며, 이제 8년이 지났지만 하이퍼스케일러와 클라우드 빌더는 여전히 다시 가르치고 있습니다. AI 고유의 흥미로운 우여곡절을 통해 우리가 오래 전에 HPC 분야에서 배운 교훈 중 일부를 알려드리겠습니다.

이번 주 실리콘 밸리에서 열린 OCP 글로벌 서밋에서 Meta Platforms는 새로운 "Grand Teton" AI 시스템과 디스크 드라이브 기반의 "Grand Canyon" 고용량 스토리지 어레이를 공개했습니다. 두 제품의 디자인은 모두 Open Compute에 기부될 예정입니다. 다른 제조업체가 Iron Meta 플랫폼이 자체 AI 소프트웨어 스택에 사용할 시스템과 호환되는 시스템을 만들 수 있도록 프로젝트합니다.

Grand Teton 시스템의 전체 사양은 공개되지 않아 아쉽지만 회사의 인프라 담당 부사장인 Alexis Bjorlin이 게시한 블로그에서 어느 정도 통찰력을 얻었으며 Grand Canyon 스토리지 어레이의 사양은 실제로 OCP에서 이용 가능합니다. (Meta Platforms는 수십억 명의 사람들을 호스팅할 수 있는 충분한 비디오 스트리밍 대역폭을 가지고 있음에도 불구하고 누구나 어디서나 가상으로 이벤트에 참석할 수 있도록 OCP에 리소스를 기부하지 않기로 결정했습니다. 올해 사람들은 OCP Global Summit에 직접 참석해야 했습니다. 그래서 저희가 직접 만나 자세한 내용을 알 수는 없지만, 멀리서 서두르고 있으니 안심하세요.)

운 좋게도 우리는 2019년 이전 세대의 "Zion" AI 시스템과 2021년의 "ZionEX" 시스템을 만드는 데 사용되었던 하드웨어-소프트웨어 공동 설계의 Neo 시스템에 대해 지난 4월 Meta Platforms에서 발행한 논문을 검색해 보았습니다. 그것이 핵심이었고 회사는 올해까지 공개적으로 많은 것을 말하지 않았습니다. Neo는 소프트웨어 제어 하에 클러스터 내 메모리 계층의 다양한 부분을 유연하고 확장 가능하게 사용할 수 있도록 해주는 Meta Platform에서 만든 일종의 메모리 캐싱 하이퍼바이저입니다. (그런데 ZionEX 디자인은 OCP에 기여되었으며 현재 Zion 1.0 사양 문서에 포함되어 있습니다. Meta Platforms의 소식통에 따르면 Grand Teton은 2023년 4월 OCP에 기여될 예정입니다. 무슨 일이 일어났는지 알 수 없습니다. 원래 Zion 서버 사양에 맞춰.)

ZionEX 머신과 Neo 캐시 메모리 하이퍼바이저(Meta Platforms의 용어가 아닌 우리의 용어)는 현대 비즈니스의 핵심 워크로드인 딥 러닝 추천 모델(DLRM)을 훈련하는 데 사용됩니다. Facebook, Instagram, WhatsApp 및 나머지 스택에서 사용자에게 표시할 광고와 콘텐츠를 파악합니다.

DLRM과 변환기 모델(자연어 처리에 사용됨)에 필요한 마력은 4월 논문의 다음 차트에서 볼 수 있듯이 매우 높습니다.

Meta Platforms은 여러 Zion 시스템을 함께 연결하는 ZionEX 클러스터를 사용하여 950억에서 12조 매개변수 크기의 DLRM 모델을 훈련하고 단순한 Zion 머신 클러스터에 비해 훨씬 빠른 속도 향상을 제공했습니다. Meta Platforms에 따르면 원래 Zion 디자인은 확장이 잘 되지 않았으며 훈련 실행이 한 기계 내부에 갇히는 경우가 많았습니다. 그러나 ZionEX를 통해 Meta Platforms는 통합 이더넷을 통한 RDMA를 사용하여 CPU 네트워킹 스택을 우회하고 GPU가 이더넷 패브릭을 통해 서로의 메모리에 대한 전체 액세스를 제공하는 GPU용으로 완전히 연결된 토폴로지를 제시했습니다. (이에 대해서는 나중에 자세히 설명합니다.)