WEBSITE ĐANG PHÁT TRIỂN

ViGen: bộ dữ liệu AI tiếng Việt mã nguồn mở lớn nhất từ trước đến nay — tại sao người Việt cần quan tâm?

ViGen là dự án tạo ra bộ dữ liệu tiếng Việt khổng lồ để huấn luyện AI — do Meta, NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) và AI for Vietnam phối hợp thực hiện, với sự tham gia của NVIDIA và Viettel. Phiên bản đầu tiên Vi-Primer 1.0 đã có 50 tỷ token dữ liệu tiếng Việt chất lượng cao, mã nguồn mở hoàn toàn. Nói thẳng: đây là lý do AI sẽ hiểu tiếng Việt tốt hơn, hiểu văn hóa và ngữ cảnh Việt Nam đúng hơn — và tại sao điều đó quan trọng hơn bạn nghĩ.

ViGen: bộ dữ liệu AI tiếng Việt mã nguồn mở lớn nhất từ trước đến nay — tại sao người Việt cần quan tâm?

Nội dung chính

1. Có một sự thật mà không ai nói thẳng về AI tiếng Việt hiện tại

Bỏ jargon sang một bên: AI nói tiếng Việt hiện nay thường kém hơn AI nói tiếng Anh, tiếng Trung, hay tiếng Nhật. Không phải vì AI kém thông minh — mà vì khi huấn luyện, chúng được "ăn" nhiều dữ liệu tiếng Anh hơn tiếng Việt gấp nhiều lần.

Hình dung đơn giản: Nếu bạn muốn dạy một đứa trẻ tiếng Việt nhưng chỉ cho chúng đọc sách tiếng Anh, kết quả sẽ thế nào? Đúng vậy — tiếng Việt của chúng sẽ "nghe" nhưng không thật.

AI hiện tại cũng vậy. ChatGPT hay Claude biết tiếng Việt — nhưng đôi khi hiểu sai sắc thái, dùng từ lạ tai người Việt, hoặc không hiểu ngữ cảnh văn hóa đặc thù. Lý do: dữ liệu tiếng Việt chất lượng cao quá khan hiếm trong quá trình huấn luyện.

ViGen ra đời để giải quyết đúng vấn đề đó.


2. ViGen là gì — con số cụ thể

ViGen (Vietnamese Generative Data Initiative) là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ huấn luyện và đánh giá các mô hình AI lớn (LLM).

Các con số đáng chú ý:

  • Thu thập 150 tỷ token dữ liệu tiếng Việt thô từ nhiều nguồn
  • Sau xử lý, phân loại và lọc: còn 50 tỷ token chất lượng cao sẵn sàng dùng để huấn luyện AI
  • Phiên bản đầu Vi-Primer 1.0 đã được phát hành
  • Giấy phép ODC-By 1.0 — bất kỳ ai cũng được dùng, chia sẻ, phát triển tiếp, kể cả mục đích thương mại (chỉ cần ghi nguồn)

50 tỷ token là nhiều như thế nào? Để so sánh: một cuốn sách trung bình có khoảng 100.000 từ (~130.000 token). 50 tỷ token tương đương khoảng 385.000 cuốn sách tiếng Việt — đây là bộ dữ liệu tiếng Việt lớn nhất từ trước đến nay ở dạng mã nguồn mở.


3. Ai đứng sau và tại sao họ làm điều này?

Meta — Tại sao Meta quan tâm đến tiếng Việt? Việt Nam có 99 triệu người dùng, trong đó hàng chục triệu người dùng Facebook/Instagram/WhatsApp mỗi ngày. AI hiểu tiếng Việt tốt hơn = sản phẩm Meta tốt hơn ở Việt Nam. Đây là lợi ích thương mại rõ ràng — không phải từ thiện thuần túy.

NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) — Đơn vị nhà nước chịu trách nhiệm điều phối và đảm bảo dữ liệu phù hợp với giá trị và đạo đức Việt Nam.

AI for Vietnam — Tổ chức phi lợi nhuận quy tụ chuyên gia AI người Việt trong và ngoài nước.

NVIDIA, Viettel — Đối tác chiến lược về hạ tầng tính toán và dữ liệu viễn thông.


4. Lộ trình — đang làm đến đâu?

Giai đoạn Thời gian Nội dung
Phase 1 2025 (hoàn thành) Thu thập, xử lý dữ liệu, phát hành Vi-Primer 1.0
Phase 2 2026 (đang thực hiện) Tinh chỉnh dữ liệu, 10 bộ đánh giá AI tiếng Việt, công cụ cho lập trình viên
Phase 3 2027 Cập nhật dữ liệu liên tục, công cụ AI nâng cao cho doanh nghiệp

Tại AI Day 2026 (16/4), ViGen được nhắc đến như một trong những sáng kiến trọng tâm trong chiến lược hạ tầng AI Việt Nam của NIC và Meta.


5. Ai có thể dùng được ngay?

Lập trình viên và nhà phát triển AI: Tải bộ dữ liệu Vi-Primer 1.0 về để huấn luyện hoặc fine-tune mô hình AI tiếng Việt riêng. Giấy phép ODC-By 1.0 cho phép dùng trong sản phẩm thương mại.

Startup AI: Thay vì tự thu thập dữ liệu tiếng Việt (tốn kém, phức tạp về bản quyền), dùng ViGen làm nền tảng và tập trung vào xây dựng sản phẩm.

Nhà nghiên cứu và học viên: Bộ 10 framework đánh giá AI tiếng Việt (phát hành trong 2026) sẽ là chuẩn chung để so sánh hiệu suất các mô hình AI nói tiếng Việt.


Điều này ảnh hưởng gì đến bạn?

Nếu bạn chỉ là người dùng AI thông thường — bạn sẽ không thấy tác động ngay hôm nay. Nhưng trong 1-2 năm tới:

AI sẽ hiểu tiếng Việt đúng hơn. Không còn những câu trả lời "đúng nghĩa đen nhưng sai ngữ cảnh". Không còn dịch thuật nghe lạ tai. AI sẽ hiểu khi bạn nói "ăn cơm chưa?" không phải câu hỏi về bữa ăn mà là câu chào hỏi xã giao.

Startup AI Việt Nam sẽ có lợi thế. Khi có dữ liệu tiếng Việt chất lượng cao miễn phí, chi phí xây dựng AI tiếng Việt giảm đáng kể. Điều đó có nghĩa là nhiều sản phẩm AI tiếng Việt tốt hơn sẽ xuất hiện — phục vụ người Việt tốt hơn.

Test thực tế cho mình: Hãy thử cùng một câu hỏi với ChatGPT bằng tiếng Anh và tiếng Việt — bạn sẽ thấy sự khác biệt. ViGen là dự án đang cố thu hẹp khoảng cách đó.


Số liệu & thống kê

Chỉ số Con số Nguồn
Dữ liệu thô thu thập 150 tỷ token VietnamPlus
Dữ liệu chất lượng cao 50 tỷ token VietnamPlus
Tương đương sách ~385.000 cuốn Ước tính
Giấy phép ODC-By 1.0 Dự án ViGen
Framework đánh giá AI (2026) 10 bộ Lộ trình ViGen
Số giải pháp dự thi từ 2022 750+ từ 20+ quốc gia VietnamPlus

Sources

# Title URL Ghi chú
1 Dự án ViGen - VietnamPlus https://www.vietnamplus.vn/du-an-vigen-tao-ra-nen-tang-du-lieu-tieng-viet-ma-nguon-mo-cho-ai-post1020595.vnp Nguồn VI, chi tiết dự án
2 NIC và Meta bắt tay - Doanh nghiệp hội nhập https://doanhnghiephoinhap.vn/nic-va-meta-bat-tay-phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-112223.html Nguồn VI, thông tin hợp tác
3 ViGen - Thời báo Tài chính https://thoibaotaichinhvietnam.vn/vigen-bien-ai-thanh-cong-cu-manh-me-cho-nguoi-viet-172411.html Nguồn VI, phân tích
4 Phát triển dữ liệu mã nguồn mở - Bộ KH&CN https://mst.gov.vn/phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-197251118154132797.htm Nguồn VI, chính thức
5 Vietnam Open Data Ecosystem https://www.vietnam.vn/en/phien-ban-thu-nghiem-dau-tien-he-sinh-thai-ai-viet-nam-du-lieu-mo-tieng-viet Nguồn EN, tổng quan

Bài viết liên quan

Xem thêm
Tin tức AI

Google I/O 2026: Gemini 3.5, kính AI thông minh và kỷ nguyên agent – điều gì thay đổi với bạn?

Google vừa kết thúc sự kiện I/O 2026 với hàng loạt công bố lớn: Gemini 3.5 và Gemini Omni (tạo video từ bất kỳ đầu vào nào), Gemini Spark (agent AI cá nhân chạy nền 24/7), kính thông minh Android XR hợp tác với Warby Parker và Gentle Monster, cùng Android 17 với widget tạo bằng AI. Hầu hết tính năng mới đã có sẵn hôm nay trên Android, iOS và web.

Tin tức AI

Google AI Pro vs Ultra 2026: gói nào đáng tiền cho người Việt?

Google vừa sắp xếp lại gói AI sau I/O 2026 với 3 tier: AI Free (miễn phí), AI Pro ($19,99/tháng ≈ 510.000 VNĐ), và AI Ultra ($99,99–$249,99/tháng ≈ 2,5–6,4 triệu VNĐ). Bài này phân tích từng gói bằng số liệu cụ thể để bạn biết: mình thuộc nhóm nào, nên mua gì, và quan trọng nhất – liệu Ultra có đáng gấp 12 lần Pro?

Tin tức AI

Android 17: 5 tính năng AI đáng chú ý nhất – điện thoại của bạn sắp thông minh hơn nhiều

Google vừa giới thiệu Android 17 – bản cập nhật AI lớn nhất cho Android trong nhiều năm. 5 tính năng nổi bật: Create My Widget (tự tạo widget bằng AI), Rambler (gõ văn bản bằng giọng nói tự nhiên), Pause Point (chống doom scrolling), Intelligent Autofill (tự điền form thông minh), và Gemini Intelligence (Gemini tích hợp sâu vào hệ thống). Beta đã có sẵn cho Pixel và một số máy partner.