跳转到内容

DBRX

维基百科,自由的百科全书
DBRX
DBRX的萤幕截图
DBRX的萤幕截图
开发者Mosaic ML和Databricks团队
首次发布2024年3月27日
源代码库https://github.com/databricks/dbrx
许可协议Databricks Open License
网站https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

DBRX是一个由Databricks的Mosaic ML团队开发的开源大型语言模型(LLM),于2024年3月27日释出[1][2][3]。模型采用专家混合架构的Transformer模型,总参数数量为 1320 亿个,其中每个token启动360亿个参数(来自16位专家中4位)[4]。释出的模型包括基础模型与经过指令调校的变体[5]

释出时,DBRX在语言理解、程式设计能力及数学等多项基准测试中,表现优于其他知名开源模型,如MetaLLaMA 2、 Mistral AI的 Mixtral以及X AIGrok[4][6][7]

该模型于3072台Nvidia H100上训练,采用 InfiniBand连接,带宽达每秒3.2兆字节,训练持续约2.5个月,总训练成本约为1000万美元[7][1]

参考资料

[编辑]
  1. ^ 1.0 1.1 Introducing DBRX: A New State-of-the-Art Open LLM. Databricks. 2024-03-27 [2024-03-28] (美国英语). 
  2. ^ New Databricks open source LLM targets custom development | TechTarget. Business Analytics. [2024-03-28] (英语). 
  3. ^ Ghoshal, Anirban. Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok. InfoWorld. 2024-03-27 [2024-03-28] (英语). 
  4. ^ 4.0 4.1 A New Open Source LLM, DBRX Claims to be the Most Powerful – Here are the Scores. GIZMOCHINA. 2024-03-28 (英语). 
  5. ^ Wiggers, Kyle. Databricks spent $10M on new DBRX generative AI model. TechCrunch. 2024-03-27 [2024-03-29] (美国英语). 
  6. ^ Data and AI company DataBrix has launched a general-purpose large language model (LLM) DBRX that out... Maeil Business Newspaper. 2024-03-28 [2024-03-28] (英语). 
  7. ^ 7.0 7.1 Knight, Will. Inside the Creation of the World's Most Powerful Open Source AI Model. Wired. [2024-03-28]. ISSN 1059-1028 (美国英语).