Anthropic ra mắt Claude Opus 4.6 - model AI mạnh nhất thế giới

1. Claude Opus 4.6 là gì và có gì mới?

Model AI hàng đầu của Anthropic

Claude Opus 4.6 là phiên bản mới nhất trong dòng model cao cấp nhất của Anthropic - dòng Opus. Nếu bạn hình dung hệ thống AI của Anthropic như một đội ngũ nhân viên, thì Opus là "nhân viên cấp cao nhất" - thông minh nhất, xử lý được công việc phức tạp nhất, nhưng cũng tốn tài nguyên nhất.

So với phiên bản trước (Claude Opus 4.5), Opus 4.6 được nâng cấp toàn diện ở ba mặt chính:

Lập trình tốt hơn: Lên kế hoạch cẩn thận hơn, duy trì công việc dài hơn, tự phát hiện lỗi của chính mình
Cửa sổ ngữ cảnh 1 triệu token: Lần đầu tiên một model dòng Opus có thể xử lý lượng thông tin khổng lồ trong một lần hội thoại
Khả năng xuất 128.000 token: Có thể viết ra những bài phân tích, báo cáo, hoặc đoạn code rất dài trong một lần trả lời

Cửa sổ ngữ cảnh 1 triệu token nghĩa là gì?

Để hiểu đơn giản: "token" là đơn vị mà AI dùng để đo lường văn bản. Trung bình, 1 token tương đương khoảng 0.75 từ tiếng Anh (hoặc khoảng 0.5 từ tiếng Việt). Vậy 1 triệu token tương đương khoảng:

750.000 từ tiếng Anh - bằng khoảng 10 cuốn tiểu thuyết trung bình
Một cuốn sách dày 2.000-3.000 trang
Toàn bộ mã nguồn của một dự án phần mềm lớn

Trước Opus 4.6, hầu hết các model AI chỉ "nhớ" được khoảng 100.000-200.000 token trong một cuộc hội thoại. Điều này giống như bạn nói chuyện với một người chỉ nhớ được 10 trang sách gần nhất. Với 1 triệu token, Opus 4.6 có thể đọc và phân tích toàn bộ một dự án mã nguồn, một bộ tài liệu pháp lý dày, hay một cuốn sách hoàn chỉnh - rồi trả lời câu hỏi về bất kỳ chi tiết nào trong đó.

Trên benchmark MRCR v2 (đo khả năng tìm kiếm thông tin trong văn bản dài) tại 1 triệu token, Opus 4.6 đạt độ chính xác 76% - gấp 4 lần so với model Sonnet 4.5 trước đó (18.5%).

2. Kỷ lục benchmark - Opus 4.6 mạnh đến mức nào?

Vượt trội trong lập trình

Claude Opus 4.6 đạt điểm cao nhất (state-of-the-art) trên Terminal-Bench 2.0 với 65.4% - đây là bài đo khả năng lập trình trong môi trường terminal (dòng lệnh), mô phỏng cách lập trình viên thực sự làm việc. Điều này có nghĩa Opus 4.6 không chỉ viết code giỏi, mà còn biết cách tương tác với hệ thống, chạy lệnh, đọc lỗi, và sửa chữa - giống một lập trình viên thật ngồi trước máy tính.

Vượt GPT-5.2 trong công việc tri thức

Trên benchmark GDPval-AA - bài đo khả năng thực hiện công việc tri thức có giá trị kinh tế thực tế trên 44 ngành nghề (tài chính, luật, y tế, kỹ thuật...) - Opus 4.6 vượt GPT-5.2 của OpenAI tới 144 điểm Elo. Để so sánh, trong cờ vua, khoảng cách 144 điểm Elo tương đương sự khác biệt giữa một kiện tướng và một đại kiện tướng.

Bảng so sánh nhanh

Tiêu chí	Claude Opus 4.6	GPT-5.2	Gemini 3.1
Context window	1 triệu token	256K token	2 triệu token
Terminal-Bench 2.0	65.4% (cao nhất)	Chưa công bố	Chưa công bố
GDPval-AA	Cao nhất	Thua 144 Elo	Chưa công bố
Output tối đa	128K token	32K token	64K token
Giá (input/output per 1M token)	$10/$37.50	Tương đương	Tương đương

Cần lưu ý: Gemini 3.1 của Google có context window lớn hơn (2 triệu token), nhưng việc có context window lớn không đồng nghĩa với việc sử dụng nó hiệu quả. Opus 4.6 được đánh giá cao hơn về khả năng thực sự tận dụng cửa sổ ngữ cảnh lớn một cách chính xác.

3. Phát hiện hơn 500 lỗ hổng bảo mật zero-day

Chuyện gì đã xảy ra?

Trong quá trình thử nghiệm trước khi ra mắt, Anthropic đã cho Opus 4.6 phân tích mã nguồn của nhiều thư viện phần mềm mã nguồn mở phổ biến. Kết quả: model đã tự phát hiện hơn 500 lỗ hổng bảo mật chưa từng được biết đến (gọi là "zero-day" - lỗ hổng mà chưa ai phát hiện và chưa có bản vá).

Zero-day là gì?

"Zero-day" là thuật ngữ an ninh mạng chỉ một lỗ hổng bảo mật mà:

Chưa ai biết đến (kể cả nhà phát triển phần mềm)
Chưa có bản sửa lỗi (patch)
Hacker có thể khai thác ngay lập tức nếu phát hiện ra

Tìm được một lỗ hổng zero-day đã khó - các chuyên gia bảo mật giỏi nhất có thể mất hàng tuần đến hàng tháng. Việc Opus 4.6 tìm được hơn 500 lỗ hổng như vậy cho thấy khả năng phân tích code của model đã vượt xa những gì con người có thể làm trong cùng khoảng thời gian.

Các lỗ hổng được tìm thấy ở đâu?

Các lỗ hổng trải rộng từ lỗi làm crash hệ thống đến lỗi hỏng bộ nhớ (memory corruption) trong các công cụ được sử dụng rộng rãi như GhostScript (phần mềm xử lý PDF) và OpenSC (thư viện thẻ thông minh). Khi Anthropic cho chấm điểm hiệu quả của Opus 4.6 trên 40 cuộc điều tra an ninh mạng, model cho kết quả tốt nhất trong 38/40 trường hợp so với các model Claude 4.5 trước đó.

Đây là một bước ngoặt lớn: AI giờ đây không chỉ giúp viết code, mà còn có thể bảo vệ code bằng cách phát hiện lỗ hổng trước khi hacker tìm ra.

4. "Vibe working" - kỷ nguyên mới của làm việc với AI

Từ "vibe coding" đến "vibe working"

Nếu bạn theo dõi tin công nghệ, có thể bạn đã nghe thuật ngữ "vibe coding" - khái niệm mô tả việc người dùng chỉ cần mô tả ý tưởng bằng ngôn ngữ tự nhiên, và AI sẽ viết code cho họ. Người dùng không cần biết lập trình, chỉ cần biết mình muốn gì.

Với Opus 4.6, Anthropic mở rộng khái niệm này thành "vibe working" - làm việc theo cảm hứng với AI.

Scott White, Giám đốc sản phẩm doanh nghiệp của Anthropic, giải thích trên CNBC: "Vibe coding bắt đầu tồn tại như một khái niệm, và mọi người giờ có thể biến ý tưởng thành hiện thực. Tôi nghĩ chúng ta đang chuyển sang vibe working."

"Vibe working" là gì?

Nói đơn giản, "vibe working" nghĩa là:

AI không chỉ là công cụ thực thi mệnh lệnh, mà là đồng nghiệp hiểu bối cảnh rộng của công việc bạn đang làm
Bạn không cần ra lệnh từng bước. Thay vào đó, bạn chia sẻ mục tiêu và bối cảnh, rồi AI tự lên kế hoạch và thực hiện
AI có thể đọc toàn bộ dự án (nhờ context window 1 triệu token), hiểu cấu trúc tổng thể, rồi đưa ra giải pháp phù hợp

Ví dụ thực tế: thay vì nói "viết cho tôi hàm sắp xếp danh sách," bạn có thể nói "dự án của tôi đang bị chậm khi xử lý đơn hàng lớn, hãy phân tích toàn bộ code và đề xuất cách tối ưu." Opus 4.6 sẽ đọc toàn bộ mã nguồn, hiểu kiến trúc hệ thống, tìm điểm nghẽn, và đề xuất (hoặc tự thực hiện) giải pháp.

Agent Teams - đội nhóm AI

Cùng với Opus 4.6, Anthropic giới thiệu tính năng "Agent Teams" - cho phép nhiều phiên bản Claude làm việc song song trên các phần khác nhau của cùng một dự án, rồi tổng hợp kết quả. Điều này giống như có một đội ngũ nhân viên AI, mỗi người phụ trách một mảng, làm việc đồng thời.

5. Điều này ảnh hưởng gì đến bạn?

Nếu bạn là người dùng thông thường

Opus 4.6 hiện có sẵn trên claude.ai cho người dùng trả phí (gói Pro, Max, Team, Enterprise). Bạn sẽ nhận thấy Claude thông minh hơn rõ rệt trong các cuộc trò chuyện dài, phân tích tài liệu phức tạp, và hỗ trợ công việc chuyên môn. Context window 1 triệu token nghĩa là bạn có thể gửi cho Claude cả một bộ hồ sơ dày và yêu cầu phân tích - điều trước đây không thể làm được.

Nếu bạn là lập trình viên

Đây có lẽ là bản nâng cấp quan trọng nhất. Opus 4.6 vượt trội trong lập trình agentic - nghĩa là nó có thể tự lên kế hoạch, tự viết code, tự chạy thử, tự phát hiện lỗi, và tự sửa. Với Claude Code (công cụ lập trình chuyên dụng của Anthropic), bạn có thể giao cho AI những dự án phức tạp mà trước đây cần cả đội lập trình.

Nếu bạn làm việc văn phòng

Khái niệm "vibe working" ảnh hưởng trực tiếp đến bạn. Trong tương lai gần, AI sẽ không chỉ giúp bạn viết email hay tóm tắt tài liệu, mà sẽ trở thành một đồng nghiệp thực sự - hiểu bối cảnh công việc của bạn, tự đề xuất giải pháp, và thực hiện các tác vụ phức tạp thay bạn.

Về bảo mật

Việc Opus 4.6 phát hiện 500+ lỗ hổng zero-day là tin tốt cho tất cả người dùng internet. Các phần mềm mã nguồn mở được sử dụng rộng rãi sẽ an toàn hơn khi có AI giúp phát hiện lỗ hổng sớm. Tuy nhiên, cũng có lo ngại rằng công nghệ tương tự có thể bị lạm dụng bởi hacker - Anthropic cho biết họ đã có các biện pháp bảo vệ để ngăn chặn việc này.

Cuộc đua AI đang nóng lên

Opus 4.6 ra mắt cùng ngày với GPT-5.3-Codex của OpenAI - cho thấy cuộc đua AI đang diễn ra với tốc độ chưa từng thấy. Đối với người dùng, đây là tin tốt: cạnh tranh giữa các công ty sẽ dẫn đến sản phẩm tốt hơn, giá rẻ hơn, và nhiều tính năng hơn.

Nguồn tham khảo

#	Nguồn	Liên kết
1	Anthropic - Giới thiệu Claude Opus 4.6	anthropic.com
2	TechCrunch - Anthropic releases Opus 4.6 with new agent teams	techcrunch.com
3	CNBC - Anthropic launches Claude Opus 4.6 as AI moves toward a vibe working era	cnbc.com
4	MarkTechPost - Anthropic Releases Claude Opus 4.6	marktechpost.com
5	Cybersecurity News - Claude Opus 4.6 Vulnerabilities	cybersecuritynews.com
6	Serenities AI - Claude Opus 4.6 Agent Teams 1M Context	serenitiesai.com