多模态AI大模型分析报告( 27 页)

    2024-02-19

多模态AI大模型分析报告( 27 页)


目录

1 多模态推动人工智能迈向AGI .......4

1.1 多模态或成为AI 大模型主流......4

1.2 多模态发展路径逐步清晰,底层技术日臻成熟....4

2 国内外大模型陆续更新,瞄准多模态方向升级.......6

2.1 OpenAI 谷歌引战多模态,视频为重要角力点...... 6

2.1.1 OpenAI 密集剧透GPT-5,或将实现真正多模态.......6

2.1.2 OpenAI 推出首款视频生成模型Sora,视频更加接近真实世界......7

2.2 谷歌推出Gemini,实现大模型多模态原生.....11

2.2.1 Gemini 正式对外发布,多模态理解优势突出.......11

2.2.2 Gemini 1.5 突破100 万token,多模态能力实现飞跃......12

2.3 Meta 坚持模型开源,建设生态巩固优势..... 15

2.4 国内加速对齐海外龙头,细分领域或有优势......17

3 多模态提升大模型泛化能力,应用场景拓展性强.....20

3.1 通用多模态大模型积极开放,挖掘垂直场景广阔空间......21

3.2 AI+办公:重塑办公模式,解放员工生产力.... 22

3.3 AI+教育:助力教育行业应材施教,促进教育师资均衡.... 24

3.4 AI+电商:AI 模特换装到AIGC 赋能运营,全方位渗透电商产业链...... 24

3.5 AI+医疗:医疗领域数据模态丰富,大模型融入提升效能.... 25

4 投资建议......27

5 风险提示......27

图表目录

图表1: 大模型朝多模态方向发展...... 4

图表2: 多模态大模型一般架构...... 5

图表3: 2019 年至今多模态预训练大模型重要算法与数据集.....5

图表4: CLIP 为连接文本与图像的桥梁....6

图表5: Meta-Transformer 可同时处理12 种模态.......6

图表6: 2023 年7 月,GPT-5 商标处于注册流程中.....6

图表7: GPT 历次更新梳理..... 7

图表8: GPT-4 数据集构成(预测) ...... 7

图表9: Sora 可生成一分钟长视频..... 8

图表10: Sora 将视觉数据转换为patch .....8

图表11: Sora 根据文本说明生成高质量视频....... 9

图表12: Sora 根据冲浪图片(左)生成冲浪动态视频(右) .......9

图表13: Sora 从视频片段开始向前/向后扩展视频......9

图表14: Sora 能够编辑视频风格..... 10

图表15: Sora 生成可变大小的图像..... 10

图表16: Sora 生成带有动态摄像机运动的视频..... 10

图表17: Gemini 支持输入文本、图像、语音和视频输出文本和图像.... 11

图表18: Gemini 包括三种不同规模的模型.....11

图表19: Gemini 识别蓝色小鸭子素材.....11

图表20: Gemini 处理做菜任务.....12

图表21: Gemini 处理视频任务.....12

图表22: Gemini 1.5 Pro 领先基础模型的上下文长度....... 13

图表23: Gemini 1.5 Pro 分析和总结阿波罗11 号登月任务的402 页记录.....13

图表24: Gemini 1.5 Pro 分析和总结44 分钟的巴斯特・基顿无声电影.......14

图表25: Gemini 1.5 Pro 高效处理100000 行代码..... 14

图表26: Gemini 1.5 Pro 在基准测试中性能领先....... 15

图表27: Gemini 1.5 Pro 在长token 理解上性能超越GPT-4 Turbo ....15

图表28: Meta 主要开源大模型梳理.... 15

图表29: ImageBind 为跨越六种模态的大模型...... 16

图表30: ImageBind 在音频和深度方面优于专家模型......16

图表31: AnyMAL 多模态输出示例..... 17

图表32: 我国部分多模态大模型梳理...... 17

图表33: 国产大模型与海外龙头厂商仍有差距......18

图表34: 阿里通义千问多模态大模型测试性能媲美GPT-4V 和Gemini ....19

图表35: 智谱CogView3 效果逼近DALLE·3 ......19

图表36: Emu2 在十余个图像和视频问答评测集上取得最优性能...... 20

图表37: 国产大模型与海外大模型差距逐步缩小......20

图表38: 多模态大模型可灵活部署于垂直场景......21

图表39: 调用GPT API 客户梳理.... 21

图表40: GPT 大模型降价前后对比..... 22

图表41: MS365 Copilot 解放员工生产力、提高技能....... 23

图表42: Microsoft 365 Copilot 应用领域.... 23

图表43: Dynamics 365 Copilot 在CRM/ERP 的应用.......23

图表44: 2023 年海外AI+办公产品梳理..... 24

图表45: Duolingo Max 产品介绍..... 24

图表46: Khan Academy 引导学生解决问题.......24

图表47: Stable Diffusion 应用AI 对模特换装....... 25

图表48: 2023 年海外公司利用AIGC 赋能运营案例.... 25

图表49: 医疗健康大模型的类别和实例...... 26

图表50: Med-PaLM-M 所用基准数据集的模态和任务....26

图表51: 国内外部分AI 医疗大模型梳理....27


[报告关键词]:   多模态    AI大模型  
合作共赢,共创未来

需要信息管理相关资料和报告?

每年为数千个企事业和个人提供专业化服务;量身定制你需要的信息管理的资料和报告

相信我们!企业客户遍及全球,提供政府部门、生产制造企业、物流企业、快消品行业专业化咨询服务;个人客户可以提供各类经济管理资料、商业计划、PPT、MBA/EMBA论文指导等。

点此填写您的需求

15+年的经验,值得信赖

可以QQ联系我们:896161733;也可以电话:18121118831

**涉及个人信息严格保密,敬请放心

商务服务

可以微信或者电话联系:18121118831

商业计划书

商务文档撰写

提供商业计划书、投资计划书咨询、撰写和指导

点击查看详细

可行性研究报告

商务咨询业务

服务企业、政府和投资者,提供各个产业可行性研究报告撰写和咨询服务

点击查看详细

物流产业园区规划

商务咨询业务

为企业提供物流园区规划咨询,包括市场调研、可行性、总体战略和运营规划等等

点击查看详细

PPT设计制作

商务PPT制作

商业计划书是一份全方位的项目计划,它从企业内部的人员、制度、管理以及企业的产品、营销、市场等各个方面对即将展开的商业项目进行可行性分析(包含论文PPT)。

点击查看详细