OpenAI6 phút đọc

Data Agent Nội Bộ của OpenAI — 2 Kỹ Sư, 4.000 Người Dùng, 600 Petabyte

Bởi AI Guide News·Thứ Năm, 29 tháng 1, 2026

OpenAI xây dựng AI data agent nội bộ trong 3 tháng — 70% code do AI tự viết — hiện phục vụ 4.000 trong số 5.000 nhân viên mỗi ngày. Cái nhìn hiếm hoi vào cách AI doanh nghiệp vận hành thực sự.

[AD] Rectangle 300×250 / In-article

AI Quan Trọng Nhất Tại OpenAI Không Phải Là Một Mô Hình

OpenAI chi hàng tỷ đô la huấn luyện các mô hình frontier tạo ra tiêu đề báo. Nhưng trong nội bộ, một trong những ứng dụng AI có tác động nhất lại là thứ gì đó kém hào nhoáng hơn nhiều: một data agent được xây dựng bởi chỉ 2 kỹ sư trong 3 tháng, với 70% code được viết bởi chính AI. Hiện tại nó phục vụ hơn 4.000 trong số khoảng 5.000 nhân viên của công ty mỗi ngày.

Vấn đề nó giải quyết là điều mọi tổ chức lớn đều biết: nền tảng dữ liệu nội bộ của OpenAI trải dài hơn 600 petabyte trên 70.000 tập dữ liệu. Ngay cả với các nhà khoa học dữ liệu giàu kinh nghiệm, chỉ việc tìm đúng bảng dữ liệu cũng có thể mất nhiều giờ. Với nhân viên không chuyên kỹ thuật, việc có được câu trả lời dựa trên dữ liệu cho một câu hỏi kinh doanh gần như là điều ngoài tầm với.

Từ Hàng Giờ Viết SQL Đến Vài Phút Trên Slack

Agent này thay đổi căn bản quy trình đó. Một nhà phân tích tài chính giờ đây gõ câu hỏi bằng tiếng Anh thông thường vào Slack và nhận được biểu đồ hoàn chỉnh trong vài phút. Ước tính nội bộ của OpenAI cho thấy công cụ này tiết kiệm 2-4 giờ làm việc mỗi truy vấn. Nhưng tác động quan trọng hơn là về chất lượng: agent này hiển thị các phân tích mà nhân viên đã không thể thực hiện được với quy trình cũ — những câu hỏi chưa bao giờ được đặt ra vì nỗ lực không xứng đáng.

Giao diện được thiết kế đơn giản và tích hợp vào nơi nhân viên đã làm việc: Slack, giao diện web, IDE, Codex CLI và ứng dụng ChatGPT nội bộ. Đặt câu hỏi bằng ngôn ngữ tự nhiên, nhận kết quả có cấu trúc — biểu đồ, dashboard hoặc phân tích dài hình. Và điều quan trọng, công cụ này không chỉ dành cho chuyên gia dữ liệu. Engineering, Tài chính, Go-to-Market, Nghiên cứu và các bộ phận không chuyên kỹ thuật đều sử dụng hàng ngày.

Tại Sao Hầu Hết Data Agent Thất Bại — Và Cái Này Thì Không

Lý do hầu hết công cụ AI dữ liệu tạo ra câu trả lời sai không phải là mô hình — mà là thiếu ngữ cảnh. Agent của OpenAI được xây dựng trên năm lớp bối cảnh để ngăn chặn kiểu thất bại "tự tin mà sai":

Metadata sử dụng bảng: Hiểu sâu về schema với lineage và usage patterns để cải thiện mức độ liên quan của truy vấn
Chú thích của chuyên gia: Insights từ chuyên gia domain bổ sung ý nghĩa vượt ra ngoài metadata cấu trúc thô
Code enrichment bởi Codex: Thu thập thông tin từ các pipeline dữ liệu thực tế để hiểu cách dataset được xây dựng và biểu đạt về mặt ngữ nghĩa
Kiến thức thể chế: Tích hợp tài liệu nội bộ từ Slack, Notion và Google Docs — nắm bắt ngữ cảnh sự kiện kinh doanh và định nghĩa chỉ số
Bộ nhớ và học tập: Liên tục cập nhật dựa trên các sửa chữa và khám phá mới, cải thiện độ chính xác theo thời gian

Cách tiếp cận nhiều lớp này là điều phân biệt agent với một chatbot viết SQL. Nó biết "active user" có nghĩa gì tại OpenAI cụ thể — bao gồm các biến thể định nghĩa theo khu vực. Nó biết bảng nào là nguồn chuẩn cho một chỉ số nhất định. Nó cho thấy cách suy luận của mình, hiển thị SQL và lý luận để người dùng có thể kiểm chứng thay vì chỉ tin tưởng.

Bảo Mật Không Phức Tạp

Một trong những quyết định thiết kế thanh lịch nhất: agent không vượt qua kiểm soát truy cập. Nó thực thi cùng quyền truy cập đã điều chỉnh quyền truy cập dữ liệu nội bộ — người dùng chỉ thấy dữ liệu họ đã được phép xem. Điều này tránh được kịch bản ác mộng của một hệ thống AI trở thành lớp truy cập dữ liệu ngầm vượt qua quản trị hiện có.

Hệ thống sử dụng Evals API của OpenAI để liên tục theo dõi chất lượng đầu ra so với kết quả thực tế — về cơ bản là unit testing liên tục cho một analytics agent.

Bộ Công Cụ Ai Cũng Có Thể Nhân Rộng

Điều làm cho câu chuyện này đặc biệt liên quan là những gì OpenAI đã sử dụng để xây dựng nó: Codex, GPT-5, Evals API và Embeddings API — cùng những công cụ có sẵn cho bất kỳ nhà phát triển nào xây dựng trên nền tảng OpenAI ngày nay. Agent không phải là hệ thống độc quyền bị khóa trong OpenAI. Đó là bản thiết kế được xây dựng bằng cơ sở hạ tầng công khai.

Các bài học thiết kế quan trọng: công cụ dư thừa làm tổn hại chất lượng agent và nên được đơn giản hóa; hướng dẫn cấp cao hoạt động tốt hơn hướng dẫn từng bước chi tiết; và ngữ cảnh là một hệ thống cần được thiết kế kỹ càng, không phải prompt để điều chỉnh.

Đây Mới Là "AI Ở Quy Mô Lớn" Trông Như Thế Nào

Đây không phải demo. Không phải pilot. Đây là hạ tầng — âm thầm chạy phía sau 80% quy trình làm việc hàng ngày của công ty, tiết kiệm hàng nghìn giờ mỗi tuần, và hỗ trợ các quyết định trước đây đòi hỏi phải đặt ticket cho data science và chờ ba ngày. Không có giao diện hào nhoáng. Không có khả năng đột phá. Chỉ là câu hỏi đúng nhận được câu trả lời đúng, nhanh hơn trước.

Đối với các nhóm xây dựng công cụ AI nội bộ, data agent của OpenAI là bản thiết kế công khai rõ ràng nhất từ trước đến nay về những gì thực sự cần thiết: không phải mô hình tốt hơn, mà là ngữ cảnh tốt hơn, rào cản tốt hơn và đánh giá tốt hơn. Phần khó không bao giờ là AI. Đó là quản trị.

openaidata-agentaidoanh-nghiệpgpt-5codexhạ-tầng-dữ-liệucông-cụ-nội-bộ