Facebook의 미래 랙 및 마이크로서버 아이언 내부

하이퍼스케일러와 클라우드 빌더는 지난 10여 년간 서버 분야에서 혁신의 속도를 설정해 왔으며, 특히 Facebook이 2011년 4월 Open Compute Project를 설정하고 2014년 초 Microsoft가 합류하여 기본적으로 Facebook이 내놓은 디자인과는 독특하고 대부분 호환되지 않는 완전히 새로운 서버 혁신 스트림입니다.

Microsoft는 이번 주 가장 최근에 열린 가상 Open Compute Summit에서 하드웨어 설계에 대해 많이 언급하지 않았지만 Facebook은 그렇습니다. Facebook의 기술 및 전략 이사인 Vijay Rao는 작년 OCP Summit에서 기계 학습 교육 시스템 "Zion"을 공개했습니다. 여기에는 밀도와 모듈성으로 인해 업계에서 도약할 것으로 생각되는 혁신적인 OCP Accelerator Module 아키텍처가 포함되어 있습니다 이 아키텍처를 활용할 수 있는 수많은 상호 연결 및 가속기를 제공합니다. Rao는 2015년 3월에 데뷔했으며 우리가 The Next Platform을 시작한 달이기도 한 Facebook의 "Yosemite" 마이크로서버 설계에 어떻게 더 작은 M.2 추론 엔진을 모아 배포할 수 있는지 암시했습니다. Yosemite 섀시는 Facebook이 선호하는 21인치 Open Rack 인클로저에 맞는 1/3 너비의 컴퓨팅 슬레드로, 처음에는 최대 4개의 단일 소켓 마이크로서버와 해당 노드 전반에 걸쳐 공유 네트워킹 및 스토리지, 그리고 최대 24개의 슬레드를 갖추고 있었습니다. 여기에 2개의 전원 선반과 일부 공간이 단일 개방형 랙을 채워 총 96개의 서버를 수용합니다.

작년 The Next AI Platform 이벤트에서 Rao는 Facebook이 상대적으로 겸손한 추론 엔진을 대규모로 병렬화하여 Yosemite와 같은 시스템 내에 배포할 수 있는 방법에 대해 조금 더 이야기했습니다. 올해 가상 OCP 서밋에서 Facebook의 엔지니어들은 정확하게 개요를 설명했습니다. 이를 수행하는 방법과 Intel의 "Cooper Lake" Xeon SP 프로세서를 기반으로 하는 미래의 1소켓 및 2소켓 서버에 대해 이야기합니다. 이 프로세서는 반 정밀도 FP16 및 Bfloat16 지원 덕분에 일부 추론 작업도 수행하게 됩니다. 해당 프로세서의 AVX-512 벡터 장치에서 데이터 형식 및 처리가 가능합니다.

Yosemite 섀시는 다양한 세대의 2소켓 시스템과 함께 Facebook 인프라의 큰 부분을 차지합니다. 우리는 2016년에 Facebook이 다양한 워크로드에 맞게 서버를 구성하는 방법을 프로파일링했으며 "Leopard" 2소켓 시스템과 Yosemite가 인프라의 대부분을 대표했으며 "Big Sur" GPU 지원 시스템은 상대적으로 용량은 적었지만 빠르게 성장하고 있었습니다. 중요합니다. 그러나 Facebook은 두 개 이상의 시스템을 만들어 오픈 소스에 기여했습니다. 소셜 네트워크의 ASIC 및 맞춤형 실리콘 소싱 이사인 Katharine Schmidtke의 기조 연설에서 다음 개요를 설명했습니다.

Facebook은 다양한 소프트웨어는 물론이고 데이터 센터, 랙, 서버, 스토리지 서버, 다양한 종류의 메자닌 및 네트워크 인터페이스 카드, 서버용 가속기 모듈, 모듈식 및 섀시 스위치, 광트랜시버 설계에 착수했습니다. 2011년에 공개된 오래된 Prineville 설계에서도 꽤 괜찮은 데이터 센터를 구축하고 더 저렴하고 허영심 없는 장비로 채울 수 있었습니다.

지난해 페이스북은 요세미티 섀시를 수정할 수 있는 방법과 요세미티 섀시에 맞는 추론 스틱용 "Glacier Point" 캐리어 카드를 사용하는 여러 공급업체의 상대적으로 겸손한 추론 엔진을 사용하여 대규모 병렬 추론 컴플렉스를 생성할 수 있는 방법에 대해 막연하게 이야기했습니다. 요세미티 인클로저. 올해 그들은 업데이트된 Yosemite V2.5 섀시와 실제로 생산 중인 Glacier Point V2 캐리어 카드에 대한 세부 정보를 제공했습니다. Facebook이 M.2 폼 팩터 PCI-Express 카드에 베이비 추론 칩을 사용하려는 데에는 여러 가지 이유가 있습니다. 우선, 회사는 애플리케이션 스택의 중요한 부분인 추론이 문제가 발생할 경우 엄청난 폭발 영역을 갖는 것을 원하지 않습니다. 더욱이 추론은 매우 가볍고 자연적으로 대규모 병렬 작업(예: 웹 서비스 제공)이며 자연스럽게 소형 장치에서 실행하는 데 적합합니다. 어쨌든 이러한 장치의 가격/성능 및 발열은 Facebook의 계산에 따르면 GPU 또는 FPGA에서 추론을 실행하는 데 매우 매력적입니다. 그러나 이러한 장치는 훈련에 그다지 능숙하지 않으며 이번 주에 발표된 새로운 "Ampere" GA100 GPU 엔진에 HPC, AI 훈련 및 AI 추론을 모두 통합함으로써 Nvidia가 수행하는 것과 정반대의 방향으로 나아갑니다. 그러나 Facebook에는 M.2 스틱에서도 실행될 수 있고 캐리어 카드에 배포되고 Yosemite 서버에 보관될 수 있는 비디오 인코딩 및 디코딩과 같이 지원해야 하는 다른 워크로드가 있습니다. 또한, 여기서 설명한 자체 개발 GLOW 컴파일러를 사용하면 추론 모델을 비교적 작은 여러 장치로 분할할 수 있으므로 추론이 더 많다는 이유만으로 추론을 수행하기 위해 더 무거운 컴퓨팅을 선택할 필요가 없습니다.

Facebook의 미래 랙 및 마이크로서버 아이언 ​​내부

Facebook의 미래 랙 및 마이크로서버 아이언 내부