4月29日上午,阿里巴巴开设了新一代汤蒂·Qianwen模型Qwen3(定义为Qianwen3)的来源,参数卷仅为DeepSeek-R1的1/3,并宣布了成本和性能的重大崩溃,超过了R1和OpenAI-O1等顶级模型。 Qianwen3是一种“混合推理模型”,将“快速思考”和“慢思维”整合到同一模型中,从而大大节省了计算强度的消耗。据了解,Qianwen3采用了混合专家(MOE)的架构,总参数为235b,仅需要22B来激活它。 Qianwen3具有36T代币数据的训练前体积,在训练后阶段进行了许多强化研究之后,非思想模型与思维模型无缝集成。 Qianwen3的概念,后续指令,工具调用,多语言能力等高度黑暗。操作大大。只能使用4 H20来部署Qianwen 3全样版本,而视频记忆消耗仅为具有相似性能的模型的三分之一。 (温门)