OpenAI7 phút đọc

OpenAI Nâng Tầm Trí Tuệ Giọng Nói: Thế Hệ Mô Hình Realtime Mới Đổ Bộ API

Bởi AI Guide News·Thứ Năm, 7 tháng 5, 2026

OpenAI vừa thực hiện bước chuyển mình quan trọng cho hạ tầng âm thanh với bộ ba mô hình mới: GPT-Realtime-2, Translate và Whisper, cho phép AI phản hồi và hành động trong thời gian thực.

[AD] Rectangle 300×250 / In-article

Giọng Nói: Giao Diện Tương Tác Tối Thượng

OpenAI vừa chính thức ra mắt bộ ba mô hình âm thanh tiên tiến, định hình lại cách chúng ta giao tiếp với phần mềm. Bản cập nhật này đưa trí tuệ giọng nói thoát khỏi cơ chế "hỏi-đáp" đơn thuần để tiến tới khả năng tư duy và hành động chủ động trong thời gian thực.

GPT-Realtime-2: Mô hình đầu tiên sở hữu khả năng lập luận đẳng cấp GPT-5, hỗ trợ cửa sổ ngữ cảnh 128K và các cấp độ tư duy tùy chỉnh (từ minimal đến xhigh).
GPT-Realtime-Translate: Dịch thuật trực tiếp hơn 70 ngôn ngữ đầu vào, giữ nguyên nhịp điệu và ngữ điệu tự nhiên của người nói.
GPT-Realtime-Whisper: Công cụ chuyển chữ trực tuyến độ trễ thấp, phục vụ nhu cầu ghi chú cuộc họp và phụ đề trực tiếp ngay tức thì.

Sự chuyển dịch sang thế chủ động

Bước đi này của OpenAI cho thấy một tầm nhìn rõ ràng về kỷ nguyên "Agentic Voice" (Agent giọng nói). Thông qua các tính năng như "Preambles" (câu dẫn như "để tôi kiểm tra") và gọi công cụ song song, AI giờ đây không chỉ trả lời mà còn thực sự "làm việc" trong khi hội thoại vẫn đang diễn ra. Việc nâng cấp mạnh mẽ bộ nhớ ngữ cảnh lên 128K là minh chứng cho thấy OpenAI đang chuẩn bị cho những phiên làm việc phức tạp, kéo dài nhiều ngày, nơi AI đóng vai trò như một cộng sự thực thụ thay vì một trợ lý ảo thông thường.

Nguồn: OpenAI Advancing Voice Intelligence

openairealtime-apigpt-realtime-2tri-tue-nhan-taogpt-5am-thanh-aicong-nghe-moi