说到做到,马斯克承诺的开源版大模型 Grok 终于来了!
今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。
这也使得Grok-1成为当前参数量最大的开源大语言模型。
一、Grok-1是什么?
Grok-1 是 xAI 开发的基于大型语言模型的生成式人工智能聊天机器人。它是埃隆·马斯克 (Elon Musk) 发起的一项举措,是对马斯克共同创立的 OpenAI ChatGPT 崛起的直接回应。该聊天机器人被宣传为“具有幽默感”,并且可以直接访问 Twitter (X)。
Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。
Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。
Grok-1模型的公开发布,为研究人员和开发者提供了一个新的大型语言模型资源。
在去年 11 月的官宣博客中(参见《马斯克 xAI 公布大模型详细进展,Grok 只训练了 2 个月》), xAI 写道:
Grok 是一款仿照《银河系漫游指南》设计的 AI,可以回答几乎任何问题,更难能可贵的是,它甚至可以建议你问什么问题!
Grok 在回答问题时略带诙谐和叛逆,因此如果你讨厌幽默,请不要使用它!
Grok 的一个独特而基本的优势是,它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 系统拒绝的辛辣问题。
Grok 仍然是一个非常早期的测试版产品 —— 这是我们通过两个月的训练能够达到的最佳效果 —— 因此,希望在您的帮助下,它能在测试中迅速改进。
xAI 表示,Grok-1 的研发经历了四个月。在此期间,Grok-1 经历了多次迭代。
在公布了 xAI 创立的消息之后,他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。之后,他们对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的 SOTA 语言模型,在 HumanEval 编码任务中达到了 63.2% 的成绩,在 MMLU 中达到了 73%。
二、Grok-1的网站地址:
1、官网地址:
2、Github仓库:
https://github.com/xai-org/grok-1
3、模型下载:
xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获 3.4k 星标,热度还在持续增加。
三、Grok-1的模型细节:
1、基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;
2、3140 亿参数的 MoE 模型,在给定 token 上的激活权重为 25%;
3、2023 年 10 月,xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
四、业内达人怎么看Grok-1?
1、知名机器学习研究者、《Python 机器学习》畅销书作者 Sebastian Raschka 评价道:「Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」
2、DeepMind 研究工程师 Aleksa Gordié 则预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。
3、还有一位推特用户 @itsandrewgao 详细分析了 Grok-1 的架构细节,并做出了一下几点总结。
4、Grok-1 的开源已经引发了不少讨论。值得注意的是,技术社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至 OpenAI 的员工也发帖表示对该模型很感兴趣。
5、鉴于马斯克对开源的积极态度,有些技术人员已经在期待后续版本的开源了。