昆仑万维的新突破：全球首创单台RTX 4090服务器推理，开源2千亿稀疏大模型天工MoE

2024-06-03

0

昆仑万维的新突破在于其开源的2千亿稀疏大模型天工MoE，这是全球首个支持单台RTX 4090服务器进行推理的开源MoE模型。昆仑万维的这一成就不仅体现了其在人工智能领域的技术创新能力，也标志着中国在AI大模型研发领域迈出了重要的一步。以下是具体分析：

模型创新与技术特点

模型规模与结构：Skywork-MoE模型拥有总参数量为146B，激活参数量为22B，共有16个Expert，每个Expert大小为13B。这种结构使得模型在处理复杂任务时能够更加高效和灵活。
MoE Upcycling技术的应用：该模型是首个将MoE Upcycling技术完整应用并落地的开源模型。MoE（Mixture of Experts）技术允许模型在处理不同数据时选择最合适的子模型（Expert），从而提高处理效率和准确性。
推理成本的降低：与传统的Dense模型相比，Skywork-MoE能在相同的激活参数量下达到接近70B Dense模型的能力，但推理成本降低了近3倍。这意味着在实际应用中，该模型能大幅节省资源消耗，提高运算效率。

硬件支持与推理能力

支持单台RTX 4090服务器推理：Skywork-MoE是首个能在单台配备8张RTX 4090显卡的服务器上进行推理的开源MoE大模型。这一点对于减少硬件成本、简化部署流程具有重要意义。
推理性能的提升：通过优化模型结构和利用高性能硬件，Skywork-MoE在保证高精度的同时，还能达到2200 tokens/s的推理吞吐量。这对于需要快速响应的应用场景尤为重要。

开源意义与社会影响

推动技术共享与创新：昆仑万维通过开源Skywork-MoE模型，鼓励更多的开发者和研究人员参与到MoE技术的研究和应用中来，共同推动人工智能技术的发展。
降低AI应用门槛：开源此类高效、低成本的大模型，有助于降低中小企业和个人开发者使用AI技术的门槛，加速AI技术的普及和应用。

未来发展方向

持续优化模型性能：随着硬件技术的发展和算法的进一步优化，未来Skywork-MoE模型的性能有望进一步提升，满足更多复杂应用场景的需求。
探索更多应用场景：基于Skywork-MoE的强大能力和高效率，可以探索将其应用于语言处理、图像识别、自然语言理解等多个领域，拓宽其应用范围。

根据官方测试，在相同的激活参数量 20B（推理计算量）下，Skywork-MoE 能力接近 70B 的 Dense 模型，使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3，用更小的参数规模做到了相近的能力。

模型权重下载：https://huggingface.co/Skywork/Skywork-MoE-base
https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
模型开源仓库：https://github.com/SkyworkAI/Skywork-MoE
模型技术报告：https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
模型推理代码：（支持 8 x 4090 服务器上 8 bit 量化加载推理） https://github.com/SkyworkAI/vllm

©️版权声明：若无特殊声明，本站所有文章版权均归爱音熊导航集原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。