Do nhu cầu của nhiều anh chị em là muốn có AI chạy riêng trên máy, cho các mục đích như:
- xử lý dữ liệu nội bộ an toàn.- tránh phụ thuộc vào internet.
- muốn tối ưu tốc độ phản hồi.- tùy chỉnh mô hình theo nhu cầu cá nhân hoặc công việc.
- giảm chi phí sử dụng dịch vụ AI đám mây.- nghiên cứu và thử nghiệm các mô hình mới.
- tích hợp vào phần mềm/thiết bị nội bộ
- hay đảm bảo tuân thủ các yêu cầu bảo mật và pháp lý đặc thù của công ty hoặc cơ quan
....
1. Máy tính mình dùng để cài cắm làm Macbook Pro M3 Max, 36GB RAM. Cấu hình này vượt trội hơn cấu hình tối thiểu (16GB) mà mình có đề cập bên trên. Nhưng về cơ bản 16GB là đủ để bạn có thể trải nghiệm được mô hình này, dù bạn sẽ phải hơi dè sẻn (tức là phải tắt hết những phần mềm khác đi).
Lý do là bởi khi chạy thì phần mềm thao tác với mô hình sẽ tải mô hình lên RAM để xử lý, và nó sẽ ngốn đâu đó khoảng 13 GB RAM của bạn. Như vậy bạn sẽ chỉ còn 3GB cho hệ điều hành, nó sẽ hơi đơ đơ và phản hồi bạn chậm đấy.
2. Phần mềm mình sử dụng ở đây là LM Studio, mình dùng nó vì nó có nhiều tính năng hơn một đối thủ khác tương tự là Ollama.Bạn có thể tải về LM Studio tại: https://lmstudio.ai/docs/app -> Bấm nút Download ở góc trên bên phải.

3. Sau khi tải LM Studio về bạn tiến hành cài nó như bình thường, như bao phần mềm khác, không có gì đặc biệt cả.
Sau khi cài xong bạn mở nó lên, nó sẽ hỏi bạn kiểu kiểu như này, mục đích là để phân loại bạn vào nhóm người dùng phù hợp để hiển thị hướng dẫn sử dụng chứ cũng ko có gì to tát.

4. Bước tiếp theo, nếu bạn thấy nó hiển thị GPT OSS 20B thì đơn giản là bấm vào đó và tải nó về để trải nghiệm thôi.
Quá trình này sẽ mất khoảng 15-30p tùy theo tốc độ mạng và cần khoảng tối thiểu 15GB ổ cứng trống.

5. Sau khi hoàn thành download mô hình, nó sẽ hiển thị 1 nút Start a new chat để bạn có thể bắt đầu trò chuyện với mô hình.

6. Chọn đúng mô hình GPT OSS 20B mà chúng ta vừa tải về và chat với nó thôi.
