Mô hình AI nghìn tỷ tham số của Perplexity: Mixture-of-Experts (MoE) trên AWS EFA

So sánh thông lượng của Kimi-K2 và DeepSeek-V3 được phục vụ bằng các nhân Perplexity mới

Điều gì sẽ xảy ra nếu các mô hình AI phức tạp nhất từng được xây dựng, những "gã khổng lồ" nghìn tỷ tham số có khả năng định hình lại các ngành công nghiệp, có thể chạy mượt mà trên bất kỳ nền tảng đám mây nào? Nghe có vẻ như khoa học viễn tưởng, nhưng Perplexity đã biến điều này thành hiện thực. Bằng cách vượt qua các rào cản kỹ thuật trong việc triển khai các mô hình Mixture-of-Experts (MoE) nghìn tỷ tham số, Perplexity đã đạt được một kỳ tích mà nhiều người trong lĩnh vực AI coi là gần như không thể. Các mô hình này, với quy mô đáng kinh ngạc và yêu cầu tính toán lớn, từ trước đến nay thường bị giới hạn trong các thiết lập chuyên biệt. Giờ đây, nhờ những đổi mới trong giao tiếp đa nút và tối ưu hóa nhân, chúng không chỉ có tính di động cao mà còn hiệu quả hơn bao giờ hết. Đây đánh dấu một thời điểm tuyệt vời trong trí tuệ nhân tạo, một thời điểm có thể định nghĩa lại cách chúng ta tiếp cận các ứng dụng AI quy mô lớn.

Trong bài viết này, chúng ta sẽ khám phá cách những tiến bộ của Perplexity đang mở khóa tiềm năng của các mô hình nghìn tỷ tham số như Kimi-K2 và DeepSeek-V3. Từ kiến trúc độc đáo của các mô hình MoE đến những thách thức phức tạp trong việc mở rộng chúng trên nhiều nút, bạn sẽ hiểu rõ hơn về các giải pháp đổi mới giúp tạo nên những đột phá này. Bạn cũng sẽ khám phá cách các đổi mới của Perplexity, như kiến trúc CPU-GPU lai và công nghệ giao tiếp tốc độ cao, đang giải quyết các nút thắt từng hạn chế khả năng mở rộng. Khi các hệ thống AI ngày càng lớn hơn, những phát triển này đặt ra một câu hỏi hấp dẫn: bước nhảy vọt về khả năng mở rộng và tính di động này sẽ cho phép chúng ta khám phá những biên giới mới nào?

Tóm tắt nhanh các điểm chính :

Perplexity đã triển khai thành công mô hình Mixture-of-Experts (MoE) nghìn tỷ tham số trên các nền tảng đám mây đa dạng, giải quyết các thách thức trong triển khai đa nút và thiết lập các tiêu chuẩn mới về khả năng mở rộng và hiệu suất.
Kiến trúc MoE sử dụng các lớp chuyên gia thưa thớt, chỉ kích hoạt một tập hợp con các chuyên gia cho mỗi đầu vào, điều này giảm yêu cầu tính toán trong khi vẫn duy trì độ chính xác cao, nhưng đòi hỏi các giải pháp đổi mới để định tuyến và giao tiếp token hiệu quả.
Các tối ưu hóa nhân được Perplexity giới thiệu, như kiến trúc CPU-GPU lai, RDMA, NVLink và các bộ đệm gửi/nhận được tối ưu hóa, giải quyết các nút thắt giao tiếp trong các thiết lập đa nút, cho phép mở rộng hiệu quả các mô hình MoE.
Các điểm chuẩn hiệu suất xác nhận những tiến bộ này, cho thấy độ trễ giảm và thông lượng cao hơn cho các mô hình quy mô lớn như Kimi-K2 (1 nghìn tỷ tham số) và DeepSeek-V3 (671 tỷ tham số), đặc biệt trong các khối lượng công việc đòi hỏi cao.
Các nỗ lực trong tương lai bao gồm hợp tác với AWS để nâng cao hiệu suất của Elastic Fabric Adapter (EFA) và khám phá các kỹ thuật micro-batching, đảm bảo sự tiến bộ liên tục trong khả năng mở rộng và hiệu quả của AI cho các ứng dụng thực tế.

Perplexity đã đạt được một cột mốc quan trọng trong trí tuệ nhân tạo bằng cách triển khai thành công các mô hình Mixture-of-Experts (MoE) nghìn tỷ tham số trên các nền tảng đám mây đa dạng. Thành tựu này giải quyết các thách thức quan trọng trong triển khai đa nút, thiết lập một tiêu chuẩn mới về hiệu suất và khả năng mở rộng. Thông qua các tối ưu hóa nhân nâng cao, Perplexity đã cho phép suy luận hiệu quả cho các mô hình quy mô lớn như Kimi-K2 và DeepSeek-V3. Những đổi mới này giải quyết các nút thắt chính trong giao tiếp giữa các nút, đảm bảo khả năng mở rộng và tính di động liền mạch trên nhiều môi trường đám mây khác nhau.

Điều gì khiến Mixture-of-Experts (MoE) trở nên khác biệt?

Kiến trúc Mixture-of-Experts (MoE) nổi bật như một cách tiếp cận tuyệt vời để mở rộng mạng nơ-ron lên đến hàng nghìn tỷ tham số. Không giống như các lớp dày đặc truyền thống, MoE sử dụng các lớp chuyên gia thưa thớt, chỉ kích hoạt một tập hợp con các chuyên gia cho mỗi đầu vào. Thiết kế này làm giảm đáng kể yêu cầu tính toán trong khi vẫn duy trì độ chính xác cao của mô hình. Tuy nhiên, việc triển khai các mô hình MoE đặt ra những thách thức độc đáo. Giao tiếp thưa thớt giữa các chuyên gia đòi hỏi các nhân chuyên biệt để định tuyến token hiệu quả, đặc biệt trong các thiết lập đa nút nơi chi phí giao tiếp có thể cản trở hiệu suất.

Bằng cách sử dụng kích hoạt thưa thớt, các mô hình MoE đạt được sự cân bằng giữa hiệu quả tính toán và độ chính xác, biến chúng thành lựa chọn ưu tiên cho các ứng dụng AI quy mô lớn. Tuy nhiên, sự phức tạp trong việc quản lý định tuyến token và giao tiếp giữa các nút nhấn mạnh sự cần thiết của các giải pháp đổi mới để phát huy hết tiềm năng của chúng.

Thách thức trong triển khai đa nút

Các mô hình nghìn tỷ tham số quá lớn để vừa với giới hạn bộ nhớ của một nút GPU đơn, khiến việc triển khai đa nút trở thành một điều cần thiết. Tuy nhiên, điều này mang lại những phức tạp đáng kể trong cả giao tiếp giữa các nút và trong nội bộ nút. Các công nghệ như InfiniBand và AWS Elastic Fabric Adapter (EFA) thường được sử dụng để kết nối các nút, nhưng chúng có những hạn chế cố hữu về độ trễ và thông lượng.

Đối với các mô hình MoE, nơi yêu cầu định tuyến token thường xuyên giữa các lớp chuyên gia thưa thớt, những hạn chế này có thể ảnh hưởng nghiêm trọng đến hiệu suất tổng thể. Nhu cầu giao tiếp thường xuyên giữa các nút làm tăng thêm thách thức, vì ngay cả những sự thiếu hiệu quả nhỏ trong truyền dữ liệu cũng có thể dẫn đến sự chậm trễ đáng kể. Để vượt qua những rào cản này, cần có sự kết hợp giữa đổi mới phần cứng và phần mềm nhằm tối ưu hóa các đường dẫn giao tiếp và đảm bảo khả năng mở rộng hiệu quả.

Đổi mới nhân: Giải quyết các nút thắt giao tiếp

Để giải quyết các thách thức của việc triển khai đa nút, Perplexity đã giới thiệu một bộ tối ưu hóa nhân được thiết kế đặc biệt cho các mô hình MoE. Những tiến bộ này bao gồm:

Kiến trúc CPU-GPU lai: Cách tiếp cận này sử dụng thế mạnh của CPU cho các hoạt động điều phối và GPU cho các tác vụ tính toán chuyên sâu, đảm bảo xử lý hiệu quả quá trình định tuyến và kết hợp token.
RDMA, NVLink và GDRCopy: Các công nghệ này cho phép truyền token tốc độ cao cả giữa các nút và trong nội bộ GPU, giảm đáng kể chi phí giao tiếp và cải thiện hiệu quả luồng dữ liệu.
Bộ đệm gửi/nhận được tối ưu hóa: Các bộ đệm được tinh chỉnh giảm thiểu độ trễ trong quá trình điều phối token, đảm bảo giao tiếp nhanh hơn và đáng tin cậy hơn giữa các nút.

Những đổi mới nhân này cho phép các mô hình MoE mở rộng hiệu quả trên nhiều nút, đạt được hiệu suất hàng đầu trên các nền tảng như AWS EFA và ConnectX-7. Bằng cách giải quyết các nút thắt giao tiếp vốn có trong các thiết lập đa nút, những tiến bộ này mở đường cho việc triển khai các mô hình nghìn tỷ tham số với hiệu quả chưa từng có.

Điểm chuẩn hiệu suất: Xác nhận các tiến bộ

Các tối ưu hóa nhân của Perplexity đã trải qua quá trình kiểm tra nghiêm ngặt thông qua các điểm chuẩn hiệu suất, cho thấy những cải tiến đáng kể so với các triển khai trước đây như DeepEP và các nhân dựa trên NVSHMEM. Kết quả cho thấy độ trễ thấp hơn đáng kể và thông lượng cao hơn, cho phép triển khai hiệu quả các mô hình quy mô lớn như Kimi-K2 (1 nghìn tỷ tham số) và DeepSeek-V3 (671 tỷ tham số).

Khả năng mở rộng của các mô hình này đặc biệt rõ ràng ở các kích thước lô trung bình và lớn, nơi các nhân được tối ưu hóa duy trì thông lượng nhất quán trên các nút. Tính nhất quán này đảm bảo rằng các mô hình có thể xử lý các khối lượng công việc đòi hỏi cao, biến chúng trở thành lý tưởng cho các ứng dụng như xử lý ngôn ngữ tự nhiên, hệ thống đề xuất và các tác vụ AI quy mô lớn khác. Các điểm chuẩn nhấn mạnh tác động thực tiễn của những đổi mới này, xác nhận hiệu quả của chúng trong các kịch bản thực tế.

Hướng đi tương lai: Nâng cao khả năng mở rộng và hiệu quả

Perplexity đang tích cực hợp tác với AWS để nâng cao hơn nữa hiệu suất của Elastic Fabric Adapter (EFA). Các bản cập nhật đã lên kế hoạch cho efa-direct và libfabric nhằm mục đích giảm chi phí giao tiếp và cải thiện khả năng mở rộng, cho phép triển khai đa nút hiệu quả hơn nữa. Ngoài ra, công ty đang khám phá các kỹ thuật micro-batching, có thể giảm độ trễ hơn nữa và nâng cao hiệu quả phục vụ các mô hình lớn.

Những nỗ lực này phản ánh cam kết của Perplexity trong việc đẩy lùi giới hạn về khả năng mở rộng và hiệu suất của AI. Bằng cách liên tục tinh chỉnh cả giải pháp phần cứng và phần mềm, công ty đang đặt nền móng cho các mô hình AI lớn hơn và hiệu quả hơn trong tương lai. Việc tập trung vào đổi mới đảm bảo rằng các mô hình nghìn tỷ tham số sẽ vẫn đi đầu trong nghiên cứu AI và các ứng dụng thực tế.

Thúc đẩy tiến bộ trong AI quy mô lớn

Những tiến bộ của Perplexity trong việc triển khai các mô hình Mixture-of-Experts (MoE) nghìn tỷ tham số đại diện cho một bước nhảy vọt đáng kể trong trí tuệ nhân tạo. Bằng cách giải quyết các thách thức của việc triển khai đa nút và tối ưu hóa các đường dẫn giao tiếp, công ty đã làm cho các mô hình khổng lồ này trở nên dễ tiếp cận và hiệu quả hơn trên các nền tảng đám mây. Khi những đổi mới đang diễn ra tiếp tục tinh chỉnh các công nghệ này, các ứng dụng tiềm năng của các mô hình nghìn tỷ tham số sẽ mở rộng, thúc đẩy tiến bộ trong nghiên cứu AI và các triển khai thực tế. Những phát triển này không chỉ nâng cao khả năng mở rộng của các hệ thống AI mà còn mở ra những khả năng mới để giải quyết các vấn đề phức tạp trong các ngành công nghiệp. Đọc toàn bộ bài nghiên cứu trên arXiv.

Nguồn : Perplexity

Được đăng dưới: AI, Tin tức công nghệ, Tin tức nổi bật

Ưu đãi mới nhất từ Geeky Gadgets

Tiết lộ: Một số bài viết của chúng tôi có chứa liên kết liên kết (affiliate links). Nếu bạn mua hàng thông qua một trong các liên kết này, Geeky Gadgets có thể kiếm được hoa hồng liên kết. Tìm hiểu về Chính sách tiết lộ của chúng tôi.

Mô hình AI nghìn tỷ tham số của Perplexity: Mixture-of-Experts (MoE) trên AWS EFA

Điều gì khiến Mixture-of-Experts (MoE) trở nên khác biệt?

Thách thức trong triển khai đa nút

Đổi mới nhân: Giải quyết các nút thắt giao tiếp

Điểm chuẩn hiệu suất: Xác nhận các tiến bộ

Hướng đi tương lai: Nâng cao khả năng mở rộng và hiệu quả

Thúc đẩy tiến bộ trong AI quy mô lớn

Bài viết liên quan

Google I/O 2026: Gemini 3.5, kính AI thông minh và kỷ nguyên agent – điều gì thay đổi với bạn?

Google AI Pro vs Ultra 2026: gói nào đáng tiền cho người Việt?

Android 17: 5 tính năng AI đáng chú ý nhất – điện thoại của bạn sắp thông minh hơn nhiều