Tổng quan về deepseek v3
deepseek-v3 là mô hình hỗn hợp chuyên gia (MOE) với 671 tỷ tham số, được kích hoạt 37 tỷ tham số cho mỗi token. Mô hình này vượt trội trong các tác vụ mã hóa, toán học và đa ngôn ngữ, vượt trội hơn các mô hình mã nguồn mở hàng đầu như qwen2.5-72b và llama-3.1-405b, và tương thích với các mô hình mã nguồn đóng như gpt-4o và claude-3.5-sonnet trong các bài kiểm tra chuẩn. Được đào tạo trên 14,8 nghìn tỷ token với độ chính xác hỗn hợp fp8, mô hình này đạt hiệu suất tối ưu với cửa sổ ngữ cảnh 128k và tốc độ tạo nhanh gấp 3 lần so với phiên bản tiền nhiệm.
Các tính năng chính của deepseek v3
Kiến trúc MOE: Tổng cộng 671 tỷ tham số, 37 tỷ tham số được kích hoạt cho mỗi token, giảm 80% chi phí tính toán.
MLA (Multi-Head Latent Attention): Nén các cặp khóa-giá trị để giảm 40% mức sử dụng bộ nhớ trong khi vẫn duy trì hiệu suất.
Đào tạo fp8: mô hình moe nguồn mở đầu tiên sử dụng fp8 mixed precision, cắt giảm chi phí đào tạo xuống còn 5,57 triệu đô la (2,788 triệu giờ GPU h800).
Dự đoán đa token (mtp): dự đoán trước nhiều token, cải thiện khả năng tạo mã và tính nhất quán của văn bản dài.
Cân bằng tải động: Chiến lược không mất dữ liệu phụ trợ đảm bảo việc sử dụng chuyên gia mà không phải đánh đổi hiệu suất
Các trường hợp sử dụng deepseek v3
Tạo mã: vượt trội hơn hầu hết các mô hình trên livecodebench (40,5% pass@1) và codeforces (51,6 phần trăm).
Suy luận toán học: đạt 90,2% trên math-500 và 43,2% trên cnmo 2024, vượt qua gpt-4o và claude-3.5.
Giáo dục & Nghiên cứu: đạt 88,5% trên mmlu, lý tưởng cho việc hỏi đáp học thuật và phân tích bài báo kỹ thuật.
Tự động hóa doanh nghiệp: Xử lý hóa đơn đa ngôn ngữ và quy trình hỗ trợ khách hàng thông qua API.
NLP tiếng Trung: chiếm ưu thế c-eval (86,5%) và c-simpleqa (64,8%), được thiết kế riêng cho các nhiệm vụ dựa trên thực tế của tiếng Trung