OpenAI6 phút đọc

First Proof của OpenAI — Khi AI Đối Mặt Với Toán Học Nghiên Cứu Đỉnh Cao

Bởi AI Guide News·Thứ Sáu, 20 tháng 2, 2026

OpenAI tham gia thử thách First Proof — bài kiểm tra toán học khó nhất từ trước đến nay dành cho AI — và nộp chứng minh cho 10 bài toán nghiên cứu. Ít nhất 5 bài được tin là đúng. Kết quả ấn tượng, nhiều sắc thái, và là tín hiệu về hướng đi của AI reasoning.

[AD] Rectangle 300×250 / In-article

Bài Kiểm Tra Toán Học Khó Nhất Từ Trước Đến Nay Dành Cho AI

Ngày 5 tháng 2 năm 2026, mười một nhà toán học hàng đầu thế giới — từ Harvard, Stanford, Yale, MIT, EPFL và UC Berkeley — đặt ra 10 "bổ đề" cho các hệ thống AI giải trong một tuần. Không giống các kỳ thi olympiad hay benchmark trắc nghiệm, First Proof đòi hỏi thứ khó hơn về mặt chất lượng: chứng minh toán học hoàn chỉnh, đầu-cuối trong các lĩnh vực nghiên cứu chuyên sâu, mỗi bài cần chuyên gia xem xét để xác minh. Một số bài toán đã không ai giải được trong nhiều năm trước khi chính các tác giả tìm ra lời giải.

OpenAI nộp các lần thử chứng minh vào ngày Valentine, 14 tháng 2 năm 2026. Dựa trên phản hồi từ cộng đồng toán học, ít nhất năm lần thử của mô hình — bài 4, 5, 6, 9 và 10 — được tin là có xác suất cao là đúng. Đó không phải điểm hoàn hảo, nhưng là kết quả mà chỉ hai năm trước còn có vẻ không thể tưởng tượng.

Điều Gì Làm Cho Thử Thách Này Khác Biệt

Hầu hết các benchmark toán học AI kiểm tra xem mô hình có thể đưa ra đáp án đúng không. First Proof kiểm tra thứ khó hơn: liệu mô hình có thể xây dựng một lập luận hoàn chỉnh, chặt chẽ mà một nhà toán học sẽ chấp nhận là chứng minh không. Các bài toán được viết bởi các nhà nghiên cứu đang hoạt động — nhiều người là chuyên gia hàng đầu thế giới trong lĩnh vực của họ.

Với một số bài, OpenAI đã chọn lần thử tốt nhất từ nhiều vòng lặp của mô hình dựa trên phán đoán của con người. OpenAI thừa nhận quá trình này không có hệ thống như một đánh giá được kiểm soát hoàn toàn — sự thừa nhận thẳng thắn phản ánh cả thời hạn gấp rút lẫn độ khó thực sự của thử thách.

Hành Trình Dẫn Đến Đây

Tháng 7/2025: Mô hình reasoning đa năng của OpenAI đạt hiệu suất huy chương vàng tại Kỳ thi Toán Olympiad Quốc tế, ghi 35/42 điểm — ngang bằng mô hình Google DeepMind.
Tháng 11/2025: OpenAI công bố thử nghiệm GPT-5 giúp nhà nghiên cứu đạt tiến bộ cụ thể trong toán học, vật lý, sinh học và các lĩnh vực khác, kèm đánh giá trung thực về hạn chế.
Đầu năm 2026: GPT-5.2 đề xuất biểu thức ứng viên cho công thức biên độ gluon trong vật lý — sau đó được mô hình nội bộ chứng minh và tác giả xác minh.
Tháng 2/2026: Bài nộp First Proof — bài kiểm tra trực tiếp nhất về khả năng lý luận toán học cấp nghiên cứu.

Các Con Số Đứng Sau Tuyên Bố

Trên GPQA Diamond — benchmark cấp sau đại học về vật lý, hóa học và sinh học được thiết kế để "Google không tra được" — GPT-5.2 Pro đạt 93,2%, với GPT-5.2 Thinking sát ngay sau ở 92,4%. Trên FrontierMath (Bậc 1–3), benchmark về toán học cấp chuyên gia, GPT-5.2 Thinking thiết lập state of the art mới bằng cách giải 40,3% bài toán.

Phán Quyết Trung Thực: Ấn Tượng, Nhưng Chưa Thay Thế

Đánh giá của Scientific American nắm bắt được sắc thái: không có hệ thống AI nào giải được gần hết 10 bài, và "phán quyết đã có — AI chưa sắp thay thế các nhà toán học." Câu hỏi về sự tham gia của con người cũng nổi lên. "Khi đã có con người tham gia, làm thế nào chúng ta phán xét bao nhiêu là của con người và bao nhiêu là của AI?" — Lauren Williams của Harvard đặt câu hỏi.

Cách đặt vấn đề của chính OpenAI nhất quán với điều này: mục tiêu không phải để AI thay thế sáng tạo toán học, mà là đẩy nhanh nó. Giải 5 trong 10 bài cấp nghiên cứu không phải đích đến — đó là một điểm dữ liệu trong thử nghiệm đang diễn ra về trần thực sự nằm ở đâu.

Tiếp Theo: First Proof Vòng 2

Ban tổ chức First Proof đã thông báo loạt bài thứ hai, được thiết kế như benchmark chính thức nghiêm ngặt hơn chạy từ tháng 3 đến tháng 6 năm 2026. Quy tắc sẽ chặt chẽ hơn: mỗi câu hỏi chỉ được thử một lần, không có tương tác thêm, phản biện kín bởi các nhà toán học, và tiêu chí chấm điểm chuẩn hóa. OpenAI đã bày tỏ mong muốn hợp tác xây dựng khung đánh giá chặt chẽ hơn. Vòng tiếp theo sẽ cho biết kết quả tháng 2 là trần — hay sàn.

openaitoán-họcfirst-proofgpt-5reasoningnghiên-cứuolympiad