OpenAI6 phút đọc

Harness Engineering — Cách OpenAI Xuất Xưởng 1 Triệu Dòng Code Mà Không Tự Viết Một Dòng Nào

Bởi AI Guide News·Thứ Tư, 11 tháng 2, 2026

Một nhóm ba kỹ sư tại OpenAI đã xây dựng codebase một triệu dòng trong năm tháng — không có một dòng code nào được viết thủ công. Kỷ luật làm cho điều đó trở nên khả thi được gọi là Harness Engineering, và nó đang định nghĩa lại công việc của kỹ sư phần mềm.

[AD] Rectangle 300×250 / In-article

Thí Nghiệm Thay Đổi Tất Cả

Vào tháng 8/2025, một nhóm ba kỹ sư tại OpenAI bắt đầu một dự án mới với một quy tắc duy nhất: không ai viết code thủ công. Mọi dòng code đều sẽ được tạo bởi Codex, tác nhân lập trình AI của OpenAI. Năm tháng sau, kết quả thật đáng kinh ngạc — khoảng một triệu dòng code production, 1.500 pull request được merge, và tốc độ phát triển được báo cáo nhanh hơn khoảng 10 lần so với kỹ thuật thông thường.

Điều thú vị không phải là kết quả đầu ra. Mà là những gì họ học được về điều thực sự làm cho các AI agent đáng tin cậy ở quy mô lớn — và kỷ luật mới nổi lên từ đó.

Harness Là Gì?

Thuật ngữ đến từ dây cương ngựa — bộ thiết bị hoàn chỉnh hướng dẫn một con vật mạnh mẽ đi đúng hướng. Phép ẩn dụ có chủ đích. Mitchell Hashimoto, đồng sáng lập HashiCorp và tác giả Terraform, đã kết tinh khái niệm này đầu năm 2026: "Agent = Model + Harness."

Model cung cấp khả năng lý luận — ngày càng trở thành hàng hóa phổ thông. Harness cung cấp mọi thứ còn lại: các quy tắc, ràng buộc, vòng phản hồi, cấu trúc tài liệu và cơ chế xác thực khiến model đáng tin cậy và an toàn để triển khai trong production. Prompt engineering tối ưu hóa một tương tác đơn lẻ. Harness engineering thiết kế môi trường quản lý hàng trăm quyết định tự chủ trong nhiều giờ.

Bốn Vấn Đề Họ Gặp Phải

Thí nghiệm OpenAI không hoạt động tốt ngay từ đầu. Năng suất ban đầu thấp vì các agent liên tục thất bại theo những cách có thể dự đoán được. Nhóm xác định bốn vấn đề tái diễn:

Thiếu ngữ cảnh: Agent không biết nên sử dụng tầng trừu tượng nào, quy ước đặt tên nào áp dụng, hay quyết định kiến trúc tuần trước đã dừng ở đâu — vì vậy nó đoán, và đoán sai, nhiều lần.
Công cụ yếu: Không có tích hợp công cụ đúng đắn, agent không thể phục hồi sau lỗi hoặc xác minh kết quả của chính mình.
Trôi dạt kiến trúc: Khi khối lượng code tăng, các agent bắt đầu sao chép các mẫu xấu và tích lũy nợ kỹ thuật — điều mà nhóm gọi là entropy.
Thất bại tự đánh giá: Các agent có hệ thống kém trong việc đánh giá kết quả của chính mình, thường kết thúc nhiệm vụ sớm khi cửa sổ ngữ cảnh đầy.

Mỗi vấn đề đều có cùng một giải pháp: đừng sửa prompt. Hãy sửa môi trường.

Harness Được Xây Dựng Như Thế Nào

Bản năng đầu tiên — một file AGENTS.md duy nhất chứa mọi quy ước và quy tắc — thất bại ngay lập tức. Một blob đơn lẻ không phù hợp với các kiểm tra cơ học, vì vậy trôi dạt là không thể tránh khỏi. Thay vào đó, nhóm đã xây dựng kiến trúc kiến thức có cấu trúc:

Một AGENTS.md ngắn (~100 dòng) đóng vai trò mục lục, không phải bách khoa toàn thư
Thư mục docs/ có cấu trúc là nguồn sự thật duy nhất
Tài liệu kiến trúc cung cấp bản đồ cấp cao nhất về các domain và phân lớp gói
Tài liệu thiết kế liên kết chéo được thực thi cơ học bằng linters và CI validation

Hiểu biết then chốt: viết quy tắc trong tài liệu vẫn cho phép agent vi phạm. Mã hóa nó ở cấp độ hệ thống ngăn chặn điều đó từ đầu. Ví dụ, hướng phụ thuộc được thực thi cơ học. Khi code được tạo vi phạm hướng kiến trúc, linter chặn nó và ngay lập tức đưa hướng dẫn sửa chữa vào ngữ cảnh của agent — cho phép tự sửa chữa mà không cần can thiệp của con người.

Con Người Lái. Agent Thực Thi.

Vai trò của ba kỹ sư không phải là viết code — mà là thiết kế hệ thống làm cho việc viết code trở nên đáng tin cậy. Khi điều gì đó thất bại, cách sửa gần như không bao giờ là "cố gắng hơn" hay "cải thiện prompt." Thay vào đó, nhóm hỏi: khả năng nào đang thiếu, và làm thế nào để làm cho nó vừa dễ hiểu vừa có thể thực thi cho agent?

Đây là sự thay đổi cơ bản mà harness engineering mang lại. Debug truyền thống là phản ứng: có gì đó hỏng, hãy sửa nó. Harness engineering là cấu trúc: có gì đó hỏng, hãy xây dựng một hệ thống để ngăn nó xảy ra nữa. Mỗi sai lầm trở thành một cải tiến vĩnh viễn cho môi trường — không phải một bản vá một lần.

Một Kỷ Luật Mới, Được Đặt Tên Trong 90 Ngày

OpenAI công bố kết quả vào tháng 2/2026. Trong vài tuần, Anthropic xuất bản ba bài báo kỹ thuật riêng biệt về cùng khái niệm. ThoughtWorks chính thức hóa một framework. Philipp Schmid tại Hugging Face gọi nó là "kỷ luật quan trọng nhất của 2026." Một lĩnh vực kỹ thuật mới đã hình thành trong chưa đầy ba tháng.

Tốc độ áp dụng phát tín hiệu điều gì đó quan trọng: harness engineering không đưa ra một ý tưởng mới nhiều bằng cách đặt tên cho một vấn đề mà mọi kỹ sư xây dựng AI agent đã gặp phải. Agent không phải là phần khó. Môi trường mới là.

Ý Nghĩa Với Kỹ Sư Phần Mềm

Ba kỹ sư OpenAI không bị thay thế — họ thay đổi những gì họ làm. Từ những người viết code, thành những người thiết kế hệ thống và kiểm soát chất lượng. Kỹ năng thủ công vẫn còn đó; phương tiện thay đổi.

Nếu quỹ đạo này tiếp tục, kỹ năng kỹ thuật có giá trị nhất trong thế giới agentic không phải là khả năng viết code — mà là khả năng thiết kế môi trường nơi AI viết code một cách đáng tin cậy. Điều đó đòi hỏi hiểu biết sâu về kiến trúc hệ thống, thiết kế vòng phản hồi, mã hóa ràng buộc và phân tích chế độ thất bại. Không ai trong số đó là kỹ năng mới. Tầm quan trọng của chúng vừa thay đổi đáng kể.

openaicodexharness-engineeringai-agentslập-trìnhgpt-5agentic-ai