Nhà phát triển Pháp Mistral AI đang phát hành một bộ mô hình ngôn ngữ mới được thiết kế để mang khả năng AI cao cấp đến nhiều người hơn, bất kể họ ở đâu, khả năng truy cập internet của họ có đáng tin cậy hay không, hoặc họ nói ngôn ngữ nào.
Vào thứ Ba, công ty đã công bố một mô hình ngôn ngữ lớn mới, có tên là Mistral Large 3, được dùng cho các mục đích tổng quát, đa năng. Hãy nghĩ đến ChatGPT hoặc Gemini. Các mô hình khác có nhiều kích cỡ và khả năng khác nhau và được xây dựng để sử dụng trên chính các thiết bị . Những mô hình nhỏ hơn này có thể chạy trên máy tính xách tay, điện thoại thông minh, trong ô tô hoặc trên robot, và có thể được tinh chỉnh để thực hiện các tác vụ cụ thể.
Tất cả các mô hình đều là mã nguồn mở và open weight, nghĩa là các nhà phát triển sử dụng chúng có thể xem cách chúng hoạt động và tinh chỉnh để phù hợp với nhu cầu của họ. “Chúng tôi tin tưởng sâu sắc rằng điều này sẽ giúp AI dễ tiếp cận với mọi người, về cơ bản là đặt AI vào tay họ,” Guillaume Lample, đồng sáng lập và nhà khoa học trưởng tại Mistral AI, cho biết trong một cuộc phỏng vấn.
Mistral AI, được thành lập bởi các cựu nhà nghiên cứu từ Google DeepMind và Meta, không nổi tiếng ở Mỹ bằng các đối thủ như OpenAI và Anthropic, nhưng lại được biết đến nhiều hơn ở Châu Âu. Cùng với các mô hình dành cho các nhà nghiên cứu và công ty, công ty còn cung cấp một chatbot tên là Le Chat, có sẵn qua trình duyệt hoặc trong các cửa hàng ứng dụng.
Các mô hình AI được thiết kế để đa ngôn ngữ
Lample cho biết công ty có mục tiêu với bộ mô hình mới của mình là cung cấp các khả năng AI tiên tiến, cao cấp, có mã nguồn mở và dễ tiếp cận. Một phần trong đó liên quan đến ngôn ngữ. Hầu hết các mô hình AI phổ biến ở Mỹ được xây dựng chủ yếu để sử dụng bằng tiếng Anh, cũng như các công cụ đánh giá hiệu năng (benchmarking tools) so sánh khả năng của các mô hình. Và mặc dù các mô hình đó có khả năng hoạt động bằng các ngôn ngữ khác và dịch thuật, nhưng chúng có thể không tốt bằng những gì các tiêu chuẩn đánh giá gợi ý khi được sử dụng bằng các ngôn ngữ không phải tiếng Anh, Lample nói.
Mistral AI muốn các mô hình mới của mình hoạt động tốt hơn cho người nói mọi ngôn ngữ, vì vậy họ đã tăng lượng dữ liệu đào tạo không phải tiếng Anh theo tỷ lệ với dữ liệu tiếng Anh. “Tôi nghĩ mọi người thường không quá chú trọng vào khả năng đa ngôn ngữ vì nếu họ làm vậy, hiệu suất trên các tiêu chuẩn đánh giá phổ biến mà mọi người đều thấy cũng sẽ bị giảm sút một chút,” Lample nói. “Vì vậy, nếu bạn thực sự muốn mô hình của mình tỏa sáng trên các tiêu chuẩn đánh giá phổ biến, bạn phải hy sinh hiệu suất đa ngôn ngữ. Và ngược lại, nếu bạn muốn mô hình thực sự giỏi về đa ngôn ngữ, thì bạn phải từ bỏ các tiêu chuẩn đánh giá phổ biến, về cơ bản là như vậy.”
Đa dạng kích thước cho đa dạng mục đích sử dụng
Ngoài mô hình Mistral Large 3 đa năng, với tổng cộng 675 tỷ tham số, còn có ba mô hình nhỏ hơn được gọi là Ministral 3 — 3 tỷ, 8 tỷ và 14 tỷ tham số — mỗi mô hình có ba biến thể, tổng cộng là chín. (Một tham số là trọng số hoặc chức năng cho mô hình biết cách xử lý dữ liệu đầu vào của nó. Các mô hình lớn hơn thì tốt hơn và có khả năng hơn, nhưng chúng cũng cần nhiều sức mạnh tính toán hơn và hoạt động chậm hơn.)
Ba biến thể của các mô hình nhỏ hơn được phân loại như sau: một mô hình cơ bản có thể được người dùng tinh chỉnh và điều chỉnh, một mô hình được Mistral tinh chỉnh để hoạt động tốt, và một mô hình được xây dựng để suy luận, dành nhiều thời gian hơn để lặp lại và xử lý một truy vấn nhằm đưa ra câu trả lời tốt hơn.
Các mô hình nhỏ hơn đặc biệt quan trọng vì nhiều người dùng AI muốn một thứ gì đó thực hiện tốt và hiệu quả một hoặc hai tác vụ, trái ngược với các mô hình tổng quát lớn và tốn kém, theo Lample. Các nhà phát triển có thể tùy chỉnh các mô hình này cho những công việc cụ thể đó, và một cá nhân hoặc một công ty có thể lưu trữ chúng trên máy chủ riêng của họ, tiết kiệm chi phí chạy chúng trong một trung tâm dữ liệu nào đó.
Các mô hình nhỏ hơn cũng có thể hoạt động trên các thiết bị cụ thể. Một mô hình nhỏ có thể chạy trên điện thoại thông minh của bạn, một mô hình lớn hơn một chút trên máy tính xách tay của bạn. Điều đó mang lại lợi ích về quyền riêng tư và bảo mật — dữ liệu của bạn không bao giờ rời khỏi thiết bị của bạn — cũng như tiết kiệm chi phí và năng lượng.
Một mô hình nhỏ chạy trên chính thiết bị cũng không cần truy cập internet để hoạt động, điều này rất quan trọng khi bạn nghĩ về việc AI được sử dụng trong các thiết bị như robot và ô tô, nơi mà việc dựa vào Wi-Fi đáng tin cậy để mọi thứ hoạt động bình thường là không khả thi.