EVMbench — Benchmark Mới Của OpenAI Để Đo Lường AI Bảo Mật Smart Contract

OpenAI và Paradigm vừa ra mắt EVMbench — benchmark mã nguồn mở kiểm tra khả năng AI trong việc phát hiện, vá lỗ hổng và khai thác các lỗ hổng smart contract. Với hơn 100 tỷ USD tài sản crypto đang bị đặt cược, cuộc đua giữa AI tấn công và phòng thủ nay đã có thể đo lường được.
Bài Toán 100 Tỷ Đô La
Smart contract thường xuyên bảo mật hơn 100 tỷ USD tài sản crypto mã nguồn mở — và chúng không thể thay đổi sau khi triển khai. Một lỗ hổng duy nhất có thể đồng nghĩa với hàng tỷ đô la bị rút cạn trong vài phút mà không có cách khắc phục. Kiểm tra bảo mật truyền thống tốn kém, chậm chạp và vẫn bỏ sót các lỗi nghiêm trọng. OpenAI đang đặt ra câu hỏi thẳng thắn: liệu AI có thể làm tốt hơn không?
Cùng với công ty đầu tư crypto Paradigm, OpenAI đã ra mắt EVMbench — benchmark mã nguồn mở đo lường khả năng AI phát hiện, vá lỗ hổng và khai thác các lỗ hổng nghiêm trọng trong smart contract trên Ethereum Virtual Machine (EVM). Được công bố ngày 18/2/2026, đây vừa là công cụ đo lường vừa là lời kêu gọi hành động cho toàn bộ hệ sinh thái bảo mật blockchain.
Ba Chế Độ, Ba Thách Thức
EVMbench đánh giá AI agent qua ba tác vụ bảo mật riêng biệt:
- Detect (Phát hiện): Agent kiểm tra toàn bộ repository và được chấm điểm dựa trên số lỗ hổng thực tế tìm thấy. Thách thức: agent đôi khi dừng lại sau khi tìm một lỗi thay vì quét toàn bộ codebase.
- Patch (Vá lỗ hổng): Agent phải loại bỏ lỗ hổng mà không phá vỡ chức năng dự định của contract. Một bản vá gây lỗi biên dịch hoặc làm hỏng logic cốt lõi vẫn là thất bại. Đây là chế độ khó nhất.
- Exploit (Khai thác): Agent đóng vai kẻ tấn công trong môi trường blockchain sandbox và phải thực thi giao dịch rút cạn tiền từ đầu đến cuối. Chấm điểm qua replay giao dịch xác định — tiền có di chuyển hay không.
Trong ba chế độ, AI hoạt động tốt nhất ở exploit — nơi mục tiêu rõ ràng và phản hồi nhị phân. Detect và patch vẫn khó hơn đáng kể.
Bộ Dữ Liệu: Lỗ Hổng Thực, Rủi Ro Thực
EVMbench dựa trên 120 lỗ hổng nghiêm trọng được tuyển chọn từ 40 cuộc kiểm tra bảo mật, chủ yếu từ Code4rena — một trong những nền tảng thi đấu kiểm tra bảo mật smart contract lớn nhất. Benchmark cũng bao gồm các tình huống từ quy trình kiểm tra bảo mật cho Tempo — blockchain Layer-1 của Stripe thiết kế cho thanh toán stablecoin thông lượng cao.
Để ngăn nhiễm dữ liệu, EVMbench nhúng chuỗi canary vào script để các mô hình tương lai có thể lọc dữ liệu benchmark trong quá trình huấn luyện. Tuy nhiên, OpenZeppelin chỉ ra rằng các mô hình với cutoff huấn luyện vào giữa đến cuối 2025 có thể đã được tiếp xúc với các báo cáo lỗ hổng này — mối lo ngại mà benchmark thừa nhận nhưng không thể loại bỏ hoàn toàn.
Con Số Đáng Lo Ngại
Quỹ đạo hiệu suất rất đáng chú ý. Khi Paradigm bắt đầu dự án này, các mô hình AI hàng đầu chỉ có thể khai thác dưới 20% lỗi Code4rena nghiêm trọng. Hôm nay, GPT-5.3-Codex khai thác thành công hơn 70% các lỗ hổng tương tự. Đó không phải cải thiện dần dần — đó là bước nhảy vọt trong khả năng tấn công.
Hàm ý không thoải mái: AI đang trở thành kẻ tấn công thực sự có năng lực. Phía phòng thủ — vá lỗ hổng đúng cách — chưa theo kịp tốc độ đó. Như đối tác Paradigm Alpin Yukseloglu nhận định: "Giờ đây rõ ràng với chúng tôi rằng một phần ngày càng lớn của các cuộc kiểm tra bảo mật trong tương lai sẽ được thực hiện bởi agent." Benchmark tồn tại chính xác để đảm bảo các công cụ phòng thủ tiến hóa với cùng tốc độ.
Lưỡng Dụng Theo Thiết Kế
OpenAI thẳng thắn thừa nhận rằng an ninh mạng vốn là lưỡng dụng. EVMbench cố tình kiểm tra cả tấn công lẫn phòng thủ — không phải vì muốn xây dựng khai thác tốt hơn, mà vì bạn không thể xây dựng phòng thủ hiệu quả nếu không hiểu mình đang bảo vệ chống lại điều gì.
Các biện pháp giảm thiểu của OpenAI bao gồm huấn luyện an toàn, giám sát tự động, quy trình truy cập đáng tin cậy cho các khả năng nâng cao, và mở rộng Aardvark — agent nghiên cứu bảo mật hiện đang trong beta riêng tư. Chiến lược dựa trên bằng chứng và lặp đi lặp lại: đẩy nhanh người phòng thủ, làm chậm lạm dụng, đo lường cả hai liên tục.
Bức Tranh Lớn Hơn
EVMbench ra mắt vào thời điểm AI đang chứng minh có thể điều hướng trong môi trường code có rủi ro kinh tế cao — không chỉ tóm tắt hay giải thích chúng. Với việc triển khai smart contract trên Ethereum đạt mức cao kỷ lục (1,7 triệu contract triển khai trong một tuần vào tháng 11/2025), bề mặt cho các lỗ hổng chỉ ngày càng tăng.
Benchmark có sẵn miễn phí trên GitHub. Liệu cộng đồng bảo mật sử dụng nó chủ yếu như thước đo hay như sân tập cho thế hệ agent kiểm tra bảo mật AI tiếp theo sẽ quyết định thử nghiệm này diễn ra như thế nào — và bao nhiêu trong số 100 tỷ USD đó vẫn an toàn.