内容持续更新中
11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K token…