OpenAI5 phút đọc

Bên Trong Vòng Lặp Agent của Codex — Cách Coding Agent của OpenAI Thực Sự Hoạt Động

Bởi AI Guide News·Thứ Sáu, 23 tháng 1, 2026

Kỹ sư Michael Bolin của OpenAI vừa tiết lộ chi tiết vòng lặp agent của Codex CLI — cơ chế cốt lõi biến một câu lệnh của người dùng thành code hoạt động. Về bản chất là một vòng lặp while, nhưng với kỹ thuật cực kỳ tinh tế bên trong.

[AD] Rectangle 300×250 / In-article

Cái Nhìn Hiếm Có Vào Bên Trong Máy

Kỹ sư Michael Bolin của OpenAI vừa công bố bài đầu tiên trong loạt bài kỹ thuật chuyên sâu về cách Codex CLI hoạt động — mức độ minh bạch hiếm thấy ngay cả theo tiêu chuẩn mã nguồn mở. Trọng tâm của bài đầu tiên: vòng lặp agent, logic cốt lõi điều phối mọi tương tác giữa người dùng, mô hình và các công cụ.

Codex CLI là agent phần mềm local đa nền tảng của OpenAI, được thiết kế để tạo ra các thay đổi code chất lượng cao, đáng tin cậy trong khi hoạt động an toàn và hiệu quả trên máy tính của bạn. Ra mắt vào tháng 4/2025, nhóm phát triển đã tích lũy được nhiều bài học quý báu cần chia sẻ.

Vòng Lặp, Được Giải Thích

Về cơ bản, vòng lặp agent là một chu kỳ năm giai đoạn lặp lại cho đến khi hoàn thành nhiệm vụ:

Lắp ráp prompt: Xây dựng prompt từ hướng dẫn, định nghĩa công cụ, context môi trường và đầu vào người dùng.
Inference: Gửi prompt đến mô hình qua Responses API và nhận về câu trả lời cuối cùng hoặc yêu cầu gọi công cụ.
Gọi công cụ: Nếu mô hình yêu cầu một công cụ (ví dụ: chạy lệnh shell, đọc file), thực thi nó.
Phản hồi công cụ: Đưa kết quả trở lại vào prompt và lặp lại.
Thông điệp assistant: Khi không còn lệnh gọi công cụ nào nữa, trả về phản hồi cuối cùng cho người dùng.

Một "lượt" duy nhất — một tin nhắn từ người dùng — có thể bao gồm hàng trăm vòng lặp inference-công cụ trước khi tạo ra phản hồi cuối cùng. Vòng lặp chỉ kết thúc khi mô hình quyết định đã hoàn thành.

Vấn Đề Bậc Hai Mà Không Ai Nói Đến

Đây là sự thật không thoải mái về các AI agent nhiều lượt: mỗi lượt mới phải bao gồm toàn bộ lịch sử cuộc trò chuyện trong prompt. Khi cuộc trò chuyện phát triển, mỗi yêu cầu đến API cũng tăng theo. Nếu không kiểm soát, điều này tạo ra tăng trưởng bậc hai trong lượng dữ liệu gửi mỗi cuộc trò chuyện.

OpenAI giải quyết điều này bằng hai cơ chế:

Prompt caching: Khi một prompt mới chia sẻ tiền tố chính xác với lần gọi inference trước, API tái sử dụng các tính toán trung gian thay vì xử lý lại mọi thứ. Điều này chuyển đổi hiệu suất bậc hai trở lại tuyến tính. Bí quyết: luôn đặt nội dung tĩnh (hướng dẫn, định nghĩa công cụ, cấu hình sandbox) ở đầu prompt, và nội dung biến đổi (tin nhắn người dùng) ở cuối.
Nén cuộc trò chuyện: Khi mức sử dụng token đạt ngưỡng, Codex tự động gọi một API endpoint chuyên biệt nén lịch sử cuộc trò chuyện thành bản tóm tắt cô đọng, thay thế lịch sử đầy đủ bằng phiên bản nhẹ hơn trong khi vẫn bảo toàn tính mạch lạc.

Stateless Theo Thiết Kế — Và Tại Sao Điều Đó Quan Trọng

Mỗi yêu cầu Codex gửi toàn bộ lịch sử cuộc trò chuyện đến API thay vì tham chiếu đến session ID được lưu trữ. Đây là chủ ý: các yêu cầu stateless đơn giản hóa cơ sở hạ tầng của nhà cung cấp API và — quan trọng hơn — hỗ trợ khách hàng Zero Data Retention (ZDR), những người yêu cầu OpenAI không lưu trữ dữ liệu người dùng phía server.

Khách hàng ZDR vẫn không mất quyền truy cập vào các lượt trước: nội dung reasoning được mã hóa từ các lượt trước có thể được giải mã phía server bằng khóa giải mã của chính khách hàng — một giải pháp thanh lịch cho một yêu cầu tuân thủ khó.

Bài Học Học Được Theo Cách Khó

Bolin không né tránh các lỗi. Một vấn đề ban đầu: hỗ trợ MCP (Model Context Protocol) của Codex CLI không liệt kê các công cụ theo thứ tự nhất quán, điều này âm thầm vô hiệu hóa prompt cache trong mỗi lần gọi — phá hủy hiệu suất mà không có bất kỳ lỗi rõ ràng nào. Việc sửa chữa khá đơn giản sau khi chẩn đoán được, nhưng việc tìm ra nó đòi hỏi phải theo dõi cẩn thận hành vi cache trong môi trường production.

Sự minh bạch ở đây rất đáng chú ý. OpenAI xác nhận rằng họ sử dụng Codex để phát triển chính Codex — và vẫn công bố các điểm thất bại. Sự trung thực đó xây dựng lòng tin nhiều hơn bất kỳ marketing bóng bẩy nào.

Bức Tranh Lớn Hơn

Điều mà bài viết của Bolin làm rõ là một coding agent không phải phép màu — đó là một vòng lặp với các guardrail được thiết kế rất cẩn thận. Phép màu đến từ chất lượng mô hình bên trong vòng lặp, quản lý context xung quanh nó, và sandbox giữ nó an toàn. Các bài tiếp theo trong loạt bài sẽ đề cập đến tích hợp công cụ, kiến trúc cơ sở hạ tầng và mô hình sandbox của Codex. Với bất kỳ ai đang xây dựng trên Responses API, các bài học ở đây áp dụng rộng rãi hơn nhiều so với chỉ Codex.

openaicodexcodex-cliagentllmlập-trìnhcoding-agentprompt-caching