OpenAI Công Bố Giao Thức MRC: 'Siêu Mạch Máu' Cho Các Siêu Máy Tính Huấn Luyện AI Khổng Lồ

OpenAI cùng các đối tác phần cứng vừa ra mắt MRC (Multipath Reliable Connection), một giao thức mạng đột phá giúp tối ưu hóa hiệu suất GPU và khả năng phục hồi cho các cụm máy tính quy mô 100.000 GPU.
Nút Thắt Mạng Trong Huấn Luyện AI
Trong huấn luyện AI quy mô lớn, chỉ cần một lần truyền dữ liệu bị trễ có thể tạo ra hiệu ứng gợn sóng (ripple effect), khiến hàng ngàn GPU đắt đỏ phải ngồi không. Khi OpenAI tiến tới dự án "Stargate" đầy tham vọng, định tuyến động truyền thống đã trở thành nguồn cơn chính gây ra độ trễ. Để giải quyết, OpenAI đã hợp tác cùng AMD, Broadcom, Intel, Microsoft và NVIDIA để phát triển MRC (Multipath Reliable Connection).
Cải Tiến Cốt Lõi: Multi-plane và Packet Spraying
MRC tái định nghĩa cách dữ liệu di chuyển giữa các GPU. Thay vì dùng một liên kết đơn lẻ, MRC sử dụng mạng đa tầng (multi-plane), chia giao diện 800Gb/s thành tám đường 100Gb/s song song. Điều này cho phép kết nối cụm 131.000 GPU chỉ với hai tầng switch, giảm mạnh mức tiêu thụ điện năng và độ phức tạp phần cứng.
Bổ trợ cho hạ tầng này là kỹ thuật Adaptive Packet Spraying. Khác với các giao thức truyền thống yêu cầu thứ tự gói tin nghiêm ngặt, MRC "phun" các gói tin qua hàng trăm con đường khác nhau cùng lúc. Nếu một con đường bị tắc nghẽn, MRC sẽ đổi đường trong micro giây. Nếu mất gói tin, hệ thống tự động bỏ qua đường đó ngay lập tức, khắc phục các lỗi mà trước đây phải mất hàng chục giây để xử lý.
Sự chuyển dịch sang thế chủ động
Việc OpenAI công bố MRC đánh dấu bước đi chiến lược nhằm "tiêu chuẩn hóa" tầng hạ tầng mạng. Bằng cách đóng góp đặc tả MRC cho Dự án Tính toán Mở (OCP), OpenAI đang đảm bảo rằng lộ trình nghiên cứu của họ không bị kìm hãm bởi các công nghệ mạng độc quyền. Cách tiếp cận "dẫn dắt bằng tiêu chuẩn" này buộc các nhà cung cấp phần cứng phải tuân theo nhu cầu mở rộng của OpenAI, biến hạ tầng siêu máy tính từ một "bộ khuếch đại lỗi" thành một môi trường ổn định, có khả năng tự chữa lành. Đây là sự chủ động kiểm soát chuỗi giá trị từ phần cứng đến phần mềm để hiện thực hóa mục tiêu AGI.
Nguồn: OpenAI MRC Networking