Alibaba Cloud vừa chính thức ra mắt Qwen3 – loạt mô hình ngôn ngữ lớn (LLM) mới nhất được kỳ vọng sẽ cạnh tranh trực tiếp với các tên tuổi hàng đầu trong lĩnh vực trí tuệ nhân tạo như Gemini-2.5-Pro, Grok-3, DeepSeek-R1 và o3-mini.
Điểm nổi bật của Qwen3
Qwen3 bao gồm 8 phiên bản, trong đó có 6 mô hình dense (từ 0.6 tỷ đến 32 tỷ tham số) và 2 mô hình MoE (Mixture of Experts) tiên tiến là Qwen3-30B-A3B và Qwen3-235B-A22B. Điểm nổi bật của dòng mô hình này là khả năng cân bằng hiệu suất và chi phí tính toán, giúp tối ưu cho cả người dùng cá nhân và doanh nghiệp lớn.

Mô hình mạnh nhất, Qwen3-235B-A22B đã đạt kết quả ấn tượng trên nhiều tiêu chuẩn đánh giá uy tín như ArenaHard, AIME’24 và CodeForces Elo. Cụ thể, mô hình này ghi điểm 95,6 trên ArenaHard, gần bằng Gemini 2.5 Pro (96,4), và vượt trội hơn DeepSeek-R1. Đáng chú ý, trên CodeForces Elo, Qwen3-235B-A22B đạt 2056 điểm, vượt cả Gemini 2.5 Pro và DeepSeek-R1, cho thấy khả năng đặc biệt mạnh mẽ trong các tác vụ lập trình phức tạp.

Trong khi đó, phiên bản MoE nhỏ hơn, Qwen3-30B-A3B, dù chỉ kích hoạt khoảng 10% tham số nhưng vẫn vượt mặt QwQ-32B trên nhiều bài kiểm tra, bao gồm ArenaHard (91,0 điểm so với 89,5 điểm của QwQ-32B).
Phiên bản nhỏ nhất, Qwen3-4B, cũng thể hiện hiệu quả đáng ngạc nhiên khi sánh ngang với Qwen2.5-72B-Instruct, dù có số lượng tham số thấp hơn nhiều lần.
Tính năng đột phá và mã nguồn mở
Qwen3 được thiết kế với nhiều tính năng nổi bật, đặc biệt là chế độ suy nghĩ linh hoạt. Người dùng có thể kích hoạt chế độ suy nghĩ (Thinking) dành cho các tác vụ phức tạp như toán học và lập trình hoặc các tính năng khác như tạo ảnh, video, tìm kiếm sâu (Deep Research),… .

Bên cạnh đó, Qwen3 sở hữu khả năng đa ngôn ngữ vượt trội với hỗ trợ hơn 100 ngôn ngữ và phương ngữ khác nhau, trong đó có tiếng Việt. Điều này giúp Qwen3 trở nên rất phù hợp với các ứng dụng toàn cầu, đặc biệt tại các thị trường đa dạng văn hóa.
Alibaba Cloud đã quyết định mở mã nguồn hoàn toàn loạt mô hình Qwen3 theo giấy phép Apache 2.0, cho phép cộng đồng công nghệ và doanh nghiệp dễ dàng tiếp cận, phát triển và triển khai các ứng dụng mới dựa trên nền tảng này. Người dùng quan tâm có thể tìm thấy các tài liệu hướng dẫn chi tiết và mã nguồn trên GitHub Qwen3 hoặc các nền tảng phổ biến như Hugging Face và ModelScope.
Sự ra mắt của Qwen3 không chỉ đáp ứng nhu cầu ngày càng cao về hiệu năng và hiệu quả chi phí trong lĩnh vực AI mà còn thúc đẩy sự phát triển của các mô hình ngôn ngữ mở. Cùng với các đối thủ khác như Llama 3.3 và Mistral Small 3, Qwen3 đang góp phần quan trọng vào việc phổ cập và thúc đẩy ứng dụng AI rộng rãi hơn trên toàn thế giới. Qwen3 được kỳ vọng sẽ cạnh tranh trực tiếp với các tên tuổi hàng đầu trong lĩnh vực trí tuệ nhân tạo như Gemini, Grok, DeepSeek và ChatGPT.
Comments