Mistral ra mắt Voxtral, mô hình AI âm thanh mã nguồn mở đầu tiên của hãng

Khi các hệ thống AI ngày càng có năng lực hơn, giọng nói nhanh chóng trở thành cách mặc định để chúng ta giao tiếp với máy móc. Startup AI Mistral của Pháp đã tham gia cuộc đua âm thanh với mô hình mở đầu tiên của hãng, nhằm thách thức sự thống trị của các hệ thống doanh nghiệp đóng bằng các lựa chọn mã nguồn mở.

Vào thứ Ba, Mistral đã công bố phát hành Voxtral, dòng mô hình âm thanh đầu tiên của hãng nhắm đến các doanh nghiệp.

Công ty giới thiệu Voxtral là mô hình mở đầu tiên có khả năng triển khai “trí tuệ giọng nói thực sự hữu dụng trong sản xuất.”

Nói cách khác, các nhà phát triển sẽ không còn phải lựa chọn giữa một hệ thống mở, giá rẻ nhưng thường mắc lỗi trong việc chuyển đổi giọng nói thành văn bản và không thực sự hiểu những gì đang được nói, với một hệ thống hoạt động tốt nhưng bị đóng, khiến nhà phát triển phải trả chi phí cao hơn và ít kiểm soát hơn trong quá trình triển khai.

Đối với các doanh nghiệp, điều đó có nghĩa là Voxtral cung cấp một giải pháp thay thế phải chăng mà công ty tuyên bố là “rẻ hơn một nửa giá” so với các giải pháp tương đương.

Mistral cho biết Voxtral có thể chuyển đổi giọng nói thành văn bản tối đa 30 phút. Nhờ kiến trúc LLM cốt lõi của nó, Mistral Small 3.1, nó có thể hiểu tới 40 phút, cho phép người dùng đặt câu hỏi về nội dung âm thanh, tạo tóm tắt hoặc biến lệnh thoại thành các hành động trong thời gian thực như gọi API hoặc chạy các hàm. Voxtral cũng đa ngôn ngữ, với khả năng chuyển đổi giọng nói thành văn bản và hiểu các ngôn ngữ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Đức, tiếng Hà Lan và tiếng Ý.

Công ty đang cung cấp hai biến thể của “mô hình hiểu giọng nói” của mình. Đầu tiên, Voxtral Small, có 24 tỷ tham số cho các triển khai quy mô sản xuất và cạnh tranh với ElevenLabs Scribe, GPT-4o-mini và Gemini 2.5 Flash.

Thứ hai, Voxtral Mini, có 3 tỷ tham số cho các triển khai cục bộ và biên. Ngoài ra còn có một phiên bản API siêu rẻ, tối giản, tốc độ cao của mô hình 3 tỷ tham số có tên Voxtral Mini Transcribe được tối ưu hóa cho các trường hợp sử dụng chỉ chuyển đổi giọng nói thành văn bản và hứa hẹn vượt trội hơn OpenAI Whisper với giá chưa bằng một nửa.

Người dùng có thể dùng thử Voxtral miễn phí bằng cách tải xuống API trên Hugging Face hoặc kiểm tra các mô hình trong chatbot Le Chat của Mistral. Theo công ty, việc tích hợp API vào các ứng dụng có giá từ 0,001 USD mỗi phút.

Việc ra mắt này diễn ra một tháng sau khi Mistral công bố Magistral, dòng mô hình suy luận đầu tiên của hãng hoạt động bằng cách giải quyết vấn đề từng bước để cải thiện độ tin cậy.

Mistral, một trong những công ty AI hàng đầu ở châu Âu, nổi tiếng với việc ủng hộ các mô hình AI mã nguồn mở. Đầu tháng này, TechCrunch đưa tin rằng công ty đang đàm phán để huy động tới 1 tỷ USD vốn cổ phần từ các nhà đầu tư như quỹ MGX của Abu Dhabi.

Mistral ra mắt Voxtral, mô hình AI âm thanh mã nguồn mở đầu tiên của hãng

Bài viết liên quan

1 tỷ USD cho nội dung AI kém chất lượng? Tại sao Disney chi mạnh tay và đưa các nhân vật mang tính biểu tượng của mình lên OpenAI

300.000 dáng nhân vật chỉ trong tích tắc với AI: Chuyến thăm Disney của tôi đã hé lộ một thực tế mới của hoạt hình

300.000 tư thế hoạt hình AI trong tích tắc: Chuyến thăm Disney của tôi và thực tế mới cho phim hoạt hình