OpenAI5 phút đọc

GPT-5.3-Codex-Spark — Khi Tốc Độ Trở Thành Tính Năng, Không Phải Đánh Đổi

Bởi AI Guide News·Thứ Năm, 12 tháng 2, 2026

OpenAI vừa ra mắt GPT-5.3-Codex-Spark — mô hình lập trình agentic nhẹ chạy trên chip wafer-scale của Cerebras với tốc độ hơn 1.000 token/giây. Đây là công cụ lập trình AI đầu tiên được thiết kế xung quanh khả năng phản hồi thời gian thực.

[AD] Rectangle 300×250 / In-article

Hai Tốc Độ, Một Codex

Cho đến nay, các công cụ lập trình agentic được xây dựng xung quanh một chế độ hoạt động: bạn giao nhiệm vụ cho AI, lùi lại và chờ đợi — đôi khi vài phút, đôi khi lâu hơn. Codex của OpenAI đã rất xuất sắc trong loại công việc sâu và tự động đó. Nhưng có một nhu cầu lập trình khác chưa được đáp ứng: chu kỳ viết-xem-điều chỉnh-lặp lại từng khoảnh khắc, tương tác — cách các lập trình viên thực sự suy nghĩ qua một vấn đề.

GPT-5.3-Codex-Spark là câu trả lời của OpenAI cho khoảng trống đó. Đây là biến thể nhẹ hơn, nhanh hơn của GPT-5.3-Codex, được thiết kế đặc biệt cho tương tác thời gian thực trong môi trường Codex. Với Codex-Spark, Codex hiện hỗ trợ cả các tác vụ dài hơi, đầy tham vọng lẫn việc hoàn thành công việc ngay trong khoảnh khắc — hai tốc độ trong một công cụ duy nhất.

Phần Cứng Đằng Sau Tốc Độ

Để cung cấp năng lượng cho khả năng inference nhanh của Codex-Spark, OpenAI đã tích hợp chip chuyên dụng từ đối tác phần cứng Cerebras — đánh dấu mức độ tích hợp mới trong hạ tầng vật lý của công ty. Quan hệ đối tác giữa Cerebras và OpenAI được công bố tháng trước với thỏa thuận đa năm trị giá hơn 10 tỷ USD.

Chạy trên Cerebras Wafer-Scale Engine, Codex-Spark đạt tốc độ hơn 1.000 token mỗi giây, cho phép phản hồi gần như tức thì trong môi trường lập trình trực tiếp. Để đặt vào bối cảnh: hầu hết các mô hình frontier hiện nay chỉ chạy ở một phần nhỏ của tốc độ đó. Sự khác biệt không phải là từng bước — ở 1.000+ token/giây, độ trễ thực sự biến mất khỏi trải nghiệm người dùng.

Cerebras Wafer-Scale Engine có bộ nhớ trên chip lớn nhất trong bất kỳ bộ xử lý AI nào, cho phép inference tốc độ cao hàng nghìn token mỗi giây mỗi người dùng. Kiến trúc mở rộng ra hàng nghìn hệ thống, mở rộng dung lượng bộ nhớ nhanh vào miền nhiều terabyte để hỗ trợ các mô hình nghìn tỷ tham số. OpenAI kỳ vọng mang khả năng inference siêu nhanh này đến các mô hình frontier lớn nhất trong năm 2026.

Được Xây Dựng Cho Điều Gì?

Codex-Spark được tối ưu hóa cho công việc tương tác nơi độ trễ quan trọng không kém gì trí tuệ. Bạn có thể cộng tác với mô hình trong thời gian thực, ngắt hoặc định hướng lại nó khi đang làm việc, và lặp lại nhanh chóng với phản hồi gần như tức thì. Đây là mô hình tương tác hoàn toàn khác với các trợ lý lập trình AI truyền thống — ít giống việc giao đại lý tự hành, mà giống như ghép đôi với ai đó suy nghĩ ở tốc độ của một cuộc trò chuyện.

GPT-5.3-Codex-Spark được thiết kế là "trình điều khiển năng suất hàng ngày" và chủ yếu dành cho tạo mẫu nhanh — có nghĩa là nó có thể xử lý nhiều hơn chỉ các tác vụ lập trình cơ bản. Thực hiện các chỉnh sửa có mục tiêu, định hình lại logic, tinh chỉnh giao diện và thấy kết quả ngay lập tức — đây là những trường hợp sử dụng mà Spark được xây dựng xung quanh.

Thông Số Khi Ra Mắt

Tại thời điểm ra mắt research preview, Codex-Spark có:

Cửa sổ ngữ cảnh 128k — đủ cho codebase lớn và ngữ cảnh dự án đầy đủ
Chỉ nhập văn bản — hỗ trợ đa phương thức chưa được bao gồm ở giai đoạn này
Giới hạn tốc độ riêng — mức sử dụng không tính vào giới hạn tốc độ Codex tiêu chuẩn trong thời gian preview
Trạng thái research preview — quyền truy cập có thể bị giới hạn hoặc xếp hàng trong các giai đoạn nhu cầu cao

Bức Tranh Lớn Hơn: Chiến Lược Phần Cứng, Không Chỉ Là Model

Codex-Spark đáng chú ý không chỉ là một bản phát hành model mà còn là tín hiệu về hướng đi chiến lược phần cứng của OpenAI. Thay vì hoàn toàn dựa vào GPU đa năng, OpenAI đang bắt đầu tích hợp silicon chuyên dụng — trong trường hợp này là chip wafer-scale của Cerebras — trực tiếp vào stack inference cho các trường hợp sử dụng cụ thể nơi độ trễ là ràng buộc chính.

"Codex-Spark chỉ là một nếm thử những gì có thể trên phần cứng Cerebras. Mục tiêu rộng lớn hơn của chúng tôi là đẩy nhanh một phổ rộng các khối lượng công việc AI qua cả các trường hợp sử dụng thời gian thực và không đồng bộ," Sachin Katti, Trưởng bộ phận Compute Công nghiệp tại OpenAI, cho biết. Cách đặt vấn đề đó — thời gian thực và không đồng bộ như các chế độ bổ sung thay vì cạnh tranh — chính xác là cách cặp đôi Spark/Codex đang được định vị.

Nếu cuộc cách mạng lập trình 2025 là về AI có thể làm việc tự động hàng giờ, chương tiếp theo có thể là về AI cũng có thể suy nghĩ cùng bạn trong khoảnh khắc — ở tốc độ cuối cùng cảm giác như một cuộc trò chuyện thực sự.

undefined