一、多模態大模型行業概述
多模態大模型指的是將文本、圖像、視頻、音頻等多模態信息聯合起來進行訓練的模型。
二、我國大模型行業政策
隨著當前人工智能行業的發展,大模型技術也不斷發展,而為推動大模型在行業中的應用,我國及部分省市發布了多項行業政策,如2024年1月工業和信息化部等七部門發布的《關于推動未來產業創新發展的實施意見》、2023年12月國家發展改革委等部門發布的《關于深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》等。
我國及部分省市大模型行業相關政策
層級 | 發布時間 | 發布部門 | 政策名稱 | 主要內容 |
國家級 | 2023年8月 | 工業和信息化部、財政部 | 電子信息制造業2023—2024年穩增長行動方案 | 鼓勵加大數據基礎設施和人工智能基礎設施建設,滿足人工智能、大模型應用需求。 |
國家級 | 2023年12月 | 國家發展改革委等部門 | 關于深入實施“東數西算”工程加快構建全國一體化算力網的實施意見 | 建立健全算法開發利用機制,積極開展大模型創新算法及關鍵技術研究,提升數據分析能力,降低大模型計算的算力消耗水平。 |
國家級 | 2024年1月 | 工業和信息化部等九部門 | 原材料工業數字化轉型工作方案(2024—2026年) | 建設適用于生成式人工智能的行業數據集,基于現有通用大模型技術底座進行定制化開發訓練,構建細分行業大模型,面向新材料研發、供應鏈優化、大宗商品價格預測等應用需求,加快大模型技術深度創新。 |
國家級 | 2024年1月 | 工業和信息化部等七部門 | 關于推動未來產業創新發展的實施意見 | 超大規模新型智算中心,加快突破GPU芯片、集群低時延互連網絡、異構資源管理等技術,建設超大規模智算中心,滿足大模型迭代訓練和應用推理需求。 |
省級 | 2023年5月 | 山西省 | 全面推進煤礦智能化和煤炭工業互聯網平臺建設實施方案 | 建設煤炭工業互聯網平臺,組建我省煤炭工業互聯網平臺公司,充分利用省內各類資源,建設以人工智能大模型為核心的全棧式一體化工業互聯網基礎平臺。 |
省級 | 2023年9月 | 北京市 | 北京市促進未來產業創新發展實施方案 | 重點支持機器人技術與多模態大模型融合發展,推動機器人從“仿人”向“類人”演進,通過類人機器人感知認知一體化,實現自主修復、自我迭代能力,突破面向新環境新任務的自主適應和推理決策能力發展,搶先布局具身智能研究領域。 |
省級 | 2023年9月 | 寧夏回族自治區 | 寧夏回族自治區教育數字化戰略行動計劃 (2023—2027年) | 拓展平臺應用功能,升級網絡學習空間,建設智能化學習支持系統,探索人工智能大模型技術應用,打造覆蓋全平臺的智能搜索引擎。 |
省級 | 2024年1月 | 上海市 | 上海市優化政務服務提升行政效能深化“一網通辦”改革行動方案(2024-2026年) | 強化智能服務中樞底層能力。夯實數字底座,探索運用大模型技術賦能政務服務,持續豐富文字識別、語音識別、圖像識別、自然語言處理等人工智能模型倉庫,打造高效、集約、規范、開放的智能服務生態。 |
資料來源:觀研天下整理
三、大模型市場規模及預測
在市場需求的增長以及政策支持的背景下,我國大模型市場規模將不斷增長,預計到2025年市場規模將突破300億元。而多模態大模型作為AI模型的發展方向,在各項相關技術愈發成熟下,其應用領域也將愈發廣泛,比如說商業定制、游戲和影視等。而隨著其應用領域的不斷拓展下,其需求量也將增加,預計2025年我國多模態內容市場規模800億美元。
資料來源:觀研天下整理
目前國內外已經有多家互聯網相關企業推出了AI視頻生成算法及工具情況,將多模態大模型應用在相關產品中,比如在2024年2月OpenAI就推出了Sora,可以通用的視覺數據模型(general purpose simulators),能生成各種持續時間(甚至長達1分鐘)、寬高比和分辨率的視頻和圖片。
國內外部分廠商AI視頻生成算法及工具情況
公司/團隊 | 算法/工具名稱 | 時間 | 底層模型/架構 | 核心功能及亮點 |
螞蟻技術研究院 | CoDeF | 2023年8月 | CoDeF(內容變形場) | CoDeF是一項真實時、強細節、高保真的視頻處理技術,用于完成視頻風格遷移任務。 |
Runway | RunwayGen2 | 2023年3月 | DiffusionModel | Gen-2在上增添了文成視頻、圖生視頻、及文字+圖片生成視頻的新功能,實現了從頭直接生成視頻的技術突破。 |
Meta | EMUEdit&Video | 2023年11月 | DiffusionModel | Emu Edit模型僅用文字指令就可以準確編輯圖像,而通過分解文字轉視頻(Text-to-Video)的生成過程,Emu Video方法可以改善最終生成視頻的品質和多樣性。 |
谷歌 | W.A.L.T | 2023年12月 | Transformer架構+LVDM方法 | 使用因果編碼器在統一的潛在空間內聯合壓縮圖像和視頻,實現跨模態的訓練和生成,生成基準測試上實現了SOTA,無需使用無分類器指導。 |
字節跳動 | MagicVideoV2 | 2024年1月 | 3DMorphable+DiffusionModel | 模型可以根據用戶輸入的任意文本描述,生成具有出色保真度和平滑度的高分辨率視頻,支持4K、8K 超高清畫質,以及多種繪圖風格。 |
OpenAI | Sora | 2024年2月 | Transformer架構+LDM方法 | 通用的視覺數據模型(general purpose simulators),能生成各種持續時間(甚至長達1分鐘)、寬高比和分辨率的視頻和圖片。 |
資料來源:各模型技術文檔、觀研天下整理
四、多模態大模型行業融資情況
從融資情況來看,目前多模態大模型行業融資情況較為頻繁,在2024年2月已經發生兩起投融資事件,分別為Weitu AI 公司獲得的天使輪融資和聯匯科技獲得的戰略融資。
2023-2024年多模態大模型行業相關融資情況
企業簡稱 | 時間 | 事件 |
MiniMax | 2023年6月 | 2023年6月,通用大模型初創企業MiniMax完成新一輪融資,總規模超2.5億美元,項目估值超過10億美元,躋身AIGC獨角獸行列。而在此前,MiniMax已完成兩輪融資,投資方包括米哈游、IDG資本、高瓴創投、云啟資本以及明勢資本等。據悉,MiniMax具備自研文本、語音等多模態融合的通用大模型能力,目前已推出自研產品AI聊天應用Glow。 |
智子引擎 | 2023年8月 | 2023年8月,多模態大模型公司智子引擎完成天使+輪融資。此輪融資由兩家頭部投資機構聯合領投,軟通高科等多方跟投,竟合資本擔任獨家財務顧問。本融資資金將主要用于擴充團隊和購買算力。 |
HiDream.ai | 2023年12月 | 2023年12月,HiDream.ai完成新一輪融資,本輪投資由科大訊飛創投基金領投,將門創投等多家機構跟投。本輪融資將用于產品研發、電商場景的市場拓展和C端產品出海方向的發展等。據悉,HiDream.ai是一家定位于圍繞視覺方向,打造生成式多模態基礎模型及應用的初創公司。 |
Weitu AI | 2024年2月 | 2024年2月多模態大模型初創公司香港 Weitu AI 公司完成了天使輪融資,天使輪估值一億美金。 |
聯匯科技 | 2024年2月 | 2024年2月,聯匯科技完成新一輪數億元戰略融資,投資方由中國移動產業鏈發展基金中移和創投資、前海方舟(前海母基金管理機構)旗下中原前?;鸷妄R魯前?;鸬榷嗉覚C構組成。據悉,本輪融資將用于多模態大模型及自主智能體的技術研發、產品創新及市場拓展,進一步擴大在運營商、能源電力、媒體等行業與重點細分市場的領先優勢。 |
資料來源:公開資料、觀研天下整理(XD)
觀研天下®專注行業分析十一年,專業提供各行業涵蓋現狀解讀、競爭分析、前景研判、趨勢展望、策略建議等內容的研究報告。更多本行業研究詳見《中國多模態大模型行業發展現狀研究與投資前景分析報告(2024-2031年)》。

【版權提示】觀研報告網倡導尊重與保護知識產權。未經許可,任何人不得復制、轉載、或以其他方式使用本網站的內容。如發現本站文章存在版權問題,煩請提供版權疑問、身份證明、版權證明、聯系方式等發郵件至kf@chinabaogao.com,我們將及時溝通與處理。