一、行業相關定義
多模態(Multimodality)是指集成和處理兩種或兩種以上不同類型的信息或數據的方法和技術。在機器學習和人工智能領域,多模態涉及的數據類型通常包括但不限于文本、圖像、視頻、音頻和傳感器數據。多模態系統的目的是利用來自多種模態的信息來提高任務的性能,提供更豐富的用戶體驗,或者獲得更全面的數據分析結果。
多模態大模型就是一種能夠理解和處理多種類型的機器學習模型——而類型也被叫做模態,包括文本,圖片,音頻,視頻等。這種模型可以融合多種不同模態的信息,執行更復雜和智能的任務;如視覺問答(AI 面試官),圖文生成,語音識別與合成等。
二、行業市場規模
根據觀研報告網發布的《中國多模態大模型行業現狀深度研究與發展前景分析報告(2025-2032年)》顯示,多模態模型通過融合語言模態與圖像模態,將語言模態包含的文本理解與思維鏈能力投射在圖像模態上,賦予了模型圖像理解與生成功能。從 AI 技術范式來看,多模態技術通過預訓練+調參的方式顛覆了傳統機器視覺小模型 CNN 高度定制化的業務模式,模型的泛用性大幅度提高。
在市場需求的增長以及政策支持的背景下,我國大模型市場規模將不斷增長,預計到2025年市場規模將突破300億元。而多模態大模型作為AI模型的發展方向,在各項相關技術愈發成熟下,其應用領域也將愈發廣泛,比如說商業定制、游戲和影視等。2024年上半年,國內多模態大模型行業市場規模為33.33億元,具體如下:
資料來源:觀研天下數據中心整理
三、行業供應規模
2023年生成式人工智能概念興起至今,國產生成式人工智能大模型如雨后春筍般涌現。截至目前,我國已初步構建了較為全面的人工智能產業體系,相關企業超過4500家,核心產業規模已接近6000億元人民幣,產業鏈覆蓋芯片、算法、數據、平臺、應用等上下游關鍵環節。
產品數量方面,生成式人工智能產品在我國百花齊放。截至2024年7月,我國完成備案并上線、能為公眾提供服務的生成式人工智能服務大模型已達190多個,我國以大模型為代表的人工智能普及率達16.4%。
產業融合方面,生成式人工智能與各行各業的融合正在我國加速落地。生成式人工智能與制造業、農業、醫療、教育等傳統行業深度融合,推動產業轉型升級,促進新業態、新模式的不斷涌現。尤其在2024年,隨著生成式人工智能技術的日趨成熟,各大科技企業的模型調用價格顯著下降,從而明顯降低了其他行業對生成式人工智能技術的應用成本。
截至2024年11月,我國共有309個生成式人工智能產品完成備案,北京、上海、廣東三省的生成式人工智能備案產品數量占比分別達到31.1%、27.2%和11.7%。
生成式人工智能產品完成備案數量(截止2024年11月)
屬地 | 數量 | 屬地 | 數量 |
北京 | 96 | 上海 | 84 |
廣東 | 36 | 浙江 | 25 |
江蘇 | 18 | 四川 | 9 |
貴州 | 5 | 湖南 | 4 |
山東 | 4 | 天津 | 4 |
河北 | 3 | 重慶 | 3 |
海南 | 2 | 安徽 | 1 |
福建 | 1 | 河南 | 1 |
黑龍江 | 1 | 湖北 | 1 |
江西 | 1 | 遼寧 | 1 |
寧夏 | 1 | 陜西 | 1 |
云南 | 1 | 國資委 | 6 |
資料來源:中國互聯網絡信息中心,觀研天下數據中心整理
2024年以來, 國內Al 大模型Q技術和應用逐漸從文本擴展至更多模態。隨著OpenAI發布GPT-4系列多模態版本,掀起了國內外多模態理解大模型的研發熱潮和廣泛應用。
市場主流多模態大模型產品
模型名稱 | 所屬團隊 | 屬地 | 類型 |
ChatGPT-4o-latest | OpenAI | 海外 | 閉源 |
GPT-4o-2024-05-13 | OpenAI | 海外 | 閉源 |
Step-1V-8k | 階躍星辰 | 國內 | 閉源 |
hunyuan-vision | 騰訊 | 國內 | 閉源 |
SenseChat-Vision 5.5 | 商湯 | 國內 | 閉源 |
Claude-3.5-Sonnet | Anthropic | 海外 | 閉源 |
InternVL2-40B | 上海人工智能實驗室 | 國內 | 開源 |
Gemini-1.5-Pro | 海外 | 閉源 | |
ERNIE-4-Turbo | 百度 | 國內 | 閉源 |
Qwen2-VL-72B | 阿里云 | 國內 | 開源 |
GLM-4V-Plus | 智譜AI | 國內 | 閉源 |
MiniCPM-V2.6 | 面壁智能 | 國內 | 開源 |
GPT-4Turbo-0409 | OpenAI | 海外 | 閉源 |
海螺AI | MiniMax | 國內 | 閉源 |
Yi-Vision | 零一萬物 | 國內 | 閉源 |
DeekSeek-VL-7b-chat | 深度求索 | 國內 | 開源 |
Phi-3.5-vision-Instruct | 微軟 | 海外 | 開源 |
資料來源:SuperCLUE-V,觀研天下數據中心整理
四、行業細分市場分析
1、C端市場
在面向C端用戶的,通用行政辦公類應用和消費服務應用受AI大模型影響的智能化升級節奏更快,產品化落地較快,其主因是在數據可采集的渠道更加豐富且受監管的要求較低。2024年上半年中國多模態大模型toC市場規模約為20.00億元左右,具體如下:
資料來源:觀研天下數據中心整理
2、B端市場
面向B端用戶的,專業化程度較高的領域,例如醫療、金融、工業等行業的智能化升級需要更多專業領域的數據訓練,相應的商業化節奏較慢,其主因是行業的特殊性導致數據安全要求較高、試錯成本高、受監管要求較高等。2024年上半年中國多模態大模型toB市場規模約為13.33億元左右,具體如下:
資料來源:觀研天下數據中心整理
五、行業競爭格局
在大模型領域,國際巨頭布局大模型較早,或投資或自研(微軟作為 OpenAI 最大股東、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等),并利用大模型賦能各自原有的強勢業務線,做產業升級。比如微軟用 GPT-4 賦能 Azure 云服務、Office365、搜索業務等;谷歌和 Meta 利用大模型生成創意廣告文案/圖片賦能廣告主,抑或是在廣告業務的多個環節提升精準度和效率。該模式常見于大廠,大模型+原有業務即利用大模型的語言能力提升傳統業務的智能化水平,同時利用傳統業務積累的龐大數據資源反哺大模型持續迭代。
國內大模型的性能加速追趕海外。OpenCompass 于 2023 年 7 月由上海人工智能實驗室推出,構建了一套中英文雙語評測基準,旨在系統性分析國內外大模型的綜合客觀性能。通過其 24 年 1 月的榜單,我們觀測到智譜清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有較為全面的性能,在語言和知識等基礎能力維度上可比肩 GPT-4 Turbo。
目前,多模態是主流的迭代路徑,互聯網大廠利用生態優勢將多模態能力融進具體使用場景。和海外相似,國內大模型的迭代方向也能捕捉到多模態的趨勢。如百度文心一言的多模態體現在 toB 平臺“智能云千帆”,幫企業將大模型運用到需要文生圖、文生視頻的場景;訊飛星火則將多模態能力落地在教師助手、口語訓練等教育場景。多模態的訓練對參數規模和算力支持要求更高,芯片供給側的緊缺也一定程度上成為各平臺算力擴張的阻礙。
國內大模型規格對比
模型名稱 | 參數 | 模態 | 上下文窗口 (tokens) | 是否開源 | 所屬公司 |
文心一言 4.0 | 超萬億 | 多模態(文本、視頻、圖像、音頻) | 約 2.8 萬字 | 否 | 百度 |
ChatGLM-6B | / | 多模態(文本、圖像) | 12.8 萬 | 是 | 智譜 AI |
Qwen-72B | 720 億 | 多模態(文本、視頻、圖像、音頻) | 3 萬 | 是 | 阿里 |
盤古 3.0 | 100/380/710/1000 億(四個版本) | 多模態(文本、圖像) | - | 否 | 華為 |
星火開源-13B | 130 億 | 多模態(文本、視頻、圖像、音頻) | - | 是 | 科大訊飛 |
資料來源:觀研天下數據中心整理
總體上,目前,我國多模態大模型企業不斷發展,如百度、騰訊、阿里巴巴、字節跳動、華為等,憑借強大的技術實力、海量的數據資源、充足的資金支持以及豐富的行業經驗,在多模態大模型領域占據重要地位。例如,百度的文心大模型在 2024 年 11 月的日均 tokens 調用量超過 1.5 億次,用戶規模達 7000 萬;騰訊的混元大模型上線視頻生成能力,引發關注;字節跳動的豆包視覺理解模型以低價格吸引眾多客戶。
人工智能創業公司方面,以智譜 AI 為代表的初創企業,通過技術創新和產品差異化,在市場中脫穎而出,獲得了一定的市場份額和用戶認可。如智譜 AI 完成 30 億元人民幣的新一輪融資,其 C 端產品 “清言” 用戶數達 2500 萬,商業化收入實現超 100% 的增長。
科研院所和高校方面,像北京智源研究院、清華大學等,在大模型評測等方面取得優秀成果,為行業發展提供了技術支持和理論指導,推動了多模態大模型技術的進步。(WWTQ)

【版權提示】觀研報告網倡導尊重與保護知識產權。未經許可,任何人不得復制、轉載、或以其他方式使用本網站的內容。如發現本站文章存在版權問題,煩請提供版權疑問、身份證明、版權證明、聯系方式等發郵件至kf@chinabaogao.com,我們將及時溝通與處理。