蘋果推出300 億參數MM1 多模態AI 大模型,具備影像辨識與自然語言推理能力

近日,蘋果公司成立的研究團隊在ArXiv 中發表了一篇名為《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的論文,介紹了一篇「MM1」多模態大模型,該模型提供了30億、70億、300億高解析度參數規模,擁有影像辨識和自然語言推理能力。

蘋果推出300億參數MM1多模態AI大模型,具備影像辨識與自然語言推理能力

蘋果研究團隊的相關論文主要是利用MM1模型做實驗,透過控制各種指標,找出影響模型效果的關鍵因素。研究表明,影像解析和影像視覺標記數量對模型表現影響增大,語言連結器對模型表現影響增大模型的影響較小,不同類型的預訓練資料對模型的表現有不同的影響。

蘋果推出300億參數MM1多模態AI大模型,具備影像辨識與自然語言推理能力

蘋果推出300億參數MM1多模態AI大模型,具備影像辨識與自然語言推理能力

據介紹,研究團隊首先在模型架構決策和預訓練資料上進行小規模消融實驗。之後利用混合專家(Mixture of Experts)架構以及一種名為 Top-2 Gating 的方法構建了 MM1 模型,號稱不僅在預指標訓練中實現了最好的表現表現,在一系列已有的多模態基準上監督後也能保持有對抗的性能。

研究人員對「MM1」模型進行了測試,號稱 MM1-3B-Chat 和 MM1-7B-Chat 相當於近似相同規模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA 、ScienceQA、MMBench 、MMMU 和MathVista 中表現極為突出,但整體表現不如Google的Gemini 和OpenAI 的GPT-4V。

蘋果推出300億參數MM1多模態AI大模型,具備影像辨識與自然語言推理能力

Leave a Reply

Your email address will not be published. Required fields are marked *