OpenAI6 phút đọc

AI Không Thể Giấu Suy Nghĩ Của Mình — Và Đó Là Tin Tốt Cho An Toàn AI

Bởi AI Guide News·Thứ Năm, 5 tháng 3, 2026

Nghiên cứu CoT-Control mới của OpenAI tiết lộ rằng các mô hình lý luận tiên tiến không thể che giấu hay thao túng chuỗi suy nghĩ nội tâm một cách đáng tin cậy — dù được yêu cầu làm vậy. Phát hiện bất ngờ với tác động lớn đến giám sát an toàn AI.

[AD] Rectangle 300×250 / In-article

Câu Hỏi Khiến Các Nhà Nghiên Cứu An Toàn AI Mất Ngủ

Khi các mô hình lý luận ngày càng mạnh hơn, một mối lo lớn đã nổi lên: điều gì xảy ra nếu AI học cách che giấu ý định của mình? Giám sát chain-of-thought (CoT) — đọc các bước lý luận trung gian mà mô hình tạo ra khi giải quyết vấn đề — đã nổi lên như một trong những công cụ an toàn hứa hẹn nhất hiện có. Nhưng nó chỉ hoạt động nếu các mô hình không thể gian lận với nó.

Nghiên cứu mới của OpenAI, công bố ngày 5/3/2026, cung cấp một câu trả lời đáng yên tâm — ít nhất là cho đến nay.

CoT Controllability Là Gì?

CoT controllability là khả năng của mô hình lý luận trong việc kiểm soát các thuộc tính của chuỗi suy nghĩ theo cách làm giảm khả năng giám sát. Hãy hiểu đơn giản: đây là khả năng AI tự kiểm duyệt hoặc định hình lại lý luận có thể quan sát được để tránh bị giám sát. Nếu mô hình có thể làm điều này một cách đáng tin cậy, giám sát an toàn dựa trên kiểm tra dấu vết lý luận sẽ bị phá vỡ về cơ bản.

Để đo lường điều này, OpenAI giới thiệu CoT-Control — bộ đánh giá mã nguồn mở gồm hơn 13.000 tác vụ. Các mô hình được đưa ra hướng dẫn về cách lý luận: tránh một số từ khóa nhất định, chỉ dùng chữ thường, thêm các cụm từ cụ thể. Những ràng buộc đơn giản. Câu hỏi đặt ra là liệu các mô hình có thể tuân theo chúng trong khi vẫn giải quyết bài toán cơ bản không.

Kết Quả: Mô Hình Không Thể Giấu Suy Nghĩ

Các phát hiện rất đáng chú ý. Trên 13 mô hình lý luận tiên tiến được thử nghiệm — bao gồm GPT-5.2, GPT-5.1, o3, o4-mini, Claude Sonnet 4.5, Qwen3 và DeepSeek R1 — điểm kiểm soát CoT chỉ dao động từ 0,1% đến 15,4%.

Ngược lại, các mô hình tương tự có thể kiểm soát kết quả đầu ra cuối cùng với độ tin cậy ≥60%, và lý luận bên ngoài trong các thẻ được chỉ định với ≥70%. Khoảng cách là rất lớn. Các mô hình giỏi định hình những gì chúng nói hơn nhiều so với định hình cách chúng suy nghĩ công khai.

Ví dụ cụ thể: Claude Sonnet 4.5 chỉ kiểm soát CoT của mình 2,7% thời gian, so với 61,9% cho kết quả đầu ra cuối cùng. Suy nghĩ rò rỉ ra ngay cả khi mô hình đang cố gắng kiểm soát nó.

Bốn Phát Hiện Chính

CoT ít có thể kiểm soát hơn kết quả đầu ra — phát hiện nhất quán trên tất cả các mô hình được thử nghiệm.
Mô hình open-weight lớn hơn cho thấy khả năng kiểm soát cao hơn — quy mô có ích, nhưng ngay cả các mô hình lớn nhất vẫn dưới 20%.
Thời gian lý luận nhiều hơn làm tình hình tệ hơn — khi mô hình được tính toán nhiều hơn để suy nghĩ lâu hơn, khả năng kiểm soát CoT thực sự giảm xuống. Lý luận mở rộng tạo ra đà không thể ngăn cản các nỗ lực tự kiểm duyệt.
Huấn luyện RL nhiều hơn làm giảm khả năng kiểm soát — huấn luyện RLVR bổ sung khiến các mô hình ít có khả năng thao túng dấu vết lý luận của chúng hơn.

Tại Sao Điều Này Xảy Ra: Không Gian Riêng Tư Của Suy Nghĩ

Nghiên cứu đưa ra hiểu biết quan trọng về lý do CoT khó kiểm soát đến vậy. Quá trình huấn luyện học tăng cường dạy mô hình rằng chuỗi suy nghĩ của nó là không gian riêng tư — nơi nó có thể suy nghĩ tự do mà không bị phạt, giống như luồng suy nghĩ nội tâm của con người. Đồng thời, việc huấn luyện tối ưu hóa cho các chuỗi suy nghĩ hữu ích nhất để đạt được câu trả lời đúng. Hai động lực này cùng nhau làm cho dấu vết lý luận vừa biểu đạt vừa thực sự khó để có ý thức ngăn chặn.

Điều Gì Nếu Mô Hình Biết Mình Đang Bị Theo Dõi?

Các nhà nghiên cứu đã thử nghiệm một kịch bản đối nghịch: điều gì xảy ra nếu mô hình biết mình đang bị giám sát? Họ thông báo rõ ràng cho các mô hình rằng CoT của chúng đang bị giám sát. Kết quả: tăng nhỏ nhưng đáng chú ý trong khả năng kiểm soát — nhưng vẫn còn rất xa mức đủ để phá vỡ giám sát như một lớp an toàn. Ý thức về giám sát một mình không đủ để cho mô hình khả năng che giấu ý định một cách đáng tin cậy.

Cam Kết Của OpenAI Trong Tương Lai

Các phát hiện có hậu quả trực tiếp đối với cách OpenAI tiếp cận đánh giá an toàn. Công ty đã công bố hai cam kết cụ thể:

Khả năng kiểm soát CoT sẽ được báo cáo trong system card của các mô hình tương lai, bắt đầu từ GPT-5.4 Thinking — biến nó thành chỉ số an toàn tiêu chuẩn.
OpenAI sẽ tránh áp lực tối ưu hóa trực tiếp lên chuỗi lý luận của các mô hình tiên tiến — một thực hành mà nghiên cứu cho thấy có thể vô tình dạy mô hình ngăn chặn hoặc định hình lại suy nghĩ có thể nhìn thấy.

Tại Sao Điều Này Quan Trọng Hơn OpenAI

Nghiên cứu này quan trọng vì giám sát CoT là một trong số ít cơ chế an toàn có khả năng mở rộng cùng với năng lực mô hình. Khi các hệ thống AI trở nên tự chủ hơn và được triển khai trong các cài đặt có cược cao, khả năng kiểm tra lý luận của chúng theo thời gian thực là một biện pháp bảo vệ quan trọng.

Phát hiện hiện tại — rằng các mô hình thực sự khó che giấu suy nghĩ — không phải là sự đảm bảo vĩnh cửu. Khả năng kiểm soát tăng theo quy mô, và khi mô hình ngày càng mạnh hơn, đo lường liên tục sẽ là điều thiết yếu. Nhưng hiện tại, đó là tín hiệu có ý nghĩa rằng một trong những công cụ quan trọng nhất của an toàn AI vẫn còn nguyên vẹn.

Nguồn: https://openai.com/vi-VN/index/reasoning-models-chain-of-thought-controllability/

undefined