中国最专业、最具规模的信用评级机构之一。 业务包括对多边机构、国家主权、地方政府、金融企业、非金融企业等各类经济主体的评级,对上述经济主体发行的固定收益类证券以及资产支持证券等结构化融资工具的评级,以及债券投资咨询、信用风险咨询等其他业务。
作者:守望者34
来源:静水深漩(ID:zealsaint111)
此前基于行业周期与国家政策趋势的研判,我提前对科技赛道进行了重点布局,也因此在2024-2025年连续两年收获了连续跑赢市场的投资收益。站在2026年年初,面对当下瞬息万变的复杂世界,未来一年的投资方向亟待重新梳理与聚焦。
过去一年人工智能的发展让我很是焦虑,人工智能新技术迭代速度不仅远超人类过往发展节奏,更在以惊人的加速度向前推进,持续追踪这份技术变革的过程中,让我深感疲惫与焦虑。如何守住自身的核心竞争力不被技术颠覆,又能借力人工智能打造超越市场的竞争力,实现持续超额增长是我过去一年在反复思考的问题。
基于这份思考与探索,我展开了本次的年终回顾与年初展望。本期为第一期,核心内容是对大模型进行回顾和分析。
一、大模型发展阶段
(一)发展阶段总览
自2022年10月,Chat GPT3.5火爆全网后,大模型的发展呈现出四个相互叠加、螺旋上升的阶段。

对话阶段:我将2022-2023年这个区间分类为对话阶段,该阶段主要特点是奠定了大模型的基础交互能力。
增强阶段:我将2023-2024年这个区间分类为增强阶段,即多模态、长上下文、部分工具的使用开始。
推理阶段:我将2024-2025年这个区间分类为推理阶段,即思维链、强化学习Scaling Law这类主流方法大放异彩。
Agent阶段:从2025年年初到现在我认为是Agent走向台前的阶段,主要特点是人工智能可以自主执行、任务可以自动化执行等。
(二)对话阶段
1、标志性事件时间线
2022年开始的人工智能对话开启了人机交互的新纪元,可能有人会说更早的时间就已经接触到了GPT,但这里我定义的时间线为一项技术/产品走向大多数人的时间。
2022-2023年标志性的技术或产品时间线如下:
时间 | 事件 | 公司/机构 | 核心意义 |
2022.11.30 | ChatGPT发布 | OpenAI | 首次将大模型对话能力推向大众,5天用户破百万 |
2023.02.01 | ChatGPT Plus发布 | OpenAI | 商业化探索开始,$20/月订阅模式 |
2023.03.14 | GPT-4发布 | OpenAI | 多模态能力突破,约1-1.8万亿参数 |
2023.03.14 | Claude发布 | Anthropic | 安全对齐理念落地,提供替代选择 |
2023.03.21 | Google Bard发布 | 搜索巨头入局,后更名为Gemini | |
2023.07 | Claude 2发布 | Anthropic | 100K上下文窗口,企业级应用 |
2023.11 | GPT-4 Turbo发布 | OpenAI | 128K上下文,知识更新至2023年4月 |
2、核心技术革新
2022-2023年,核心突破体现在架构和上下文窗口拓展方面。
架构突破:GPT-4参数达到了1-1.8万亿(预估);MMLU得分86.4%,GPT-3这一项得分为43.9%;GSM8K数学推理得分92.0%,GPT-3这一项得分为10.4%。
上下文拓展:GPT-4 Turbo达到了128k tokens,开启了模型可以处理更复杂需求的能力。
3、解决的核心问题梳理
这一阶段大模型的发展,行业探索出了人工智能与人配合的基础方案,回顾这一阶段,我们更多的是把大模型当做一个对话工具使用,因为其幻觉问题将其当做搜索或问答工具的人不多。
问题 | 解决方案 | 影响 |
人机交互门槛高 | 自然语言对话界面 | 普通用户可直接使用AI |
知识获取效率低 | 即时问答+多轮对话 | 替代传统搜索引擎场景 |
内容创作成本高 | 文本生成+代码编写 | 文案、编程效率提升10倍+ |
模型安全性不足 | RLHF人类反馈强化学习 | 减少有害输出 |
(三)推理阶段
1、推理阶段时间线
交互阶段大多数情况下只是一个有趣的聊天工具,而推理功能的出现将人工智能与解决问题开始联系到了一起。
2024-2025年期间,大模型经历了推理功能出现到不断强化的过程。
时间 | 事件 | 公司/机构 | 核心突破 |
2024.09.12 | o1模型发布 | OpenAI | 首个推理专用模型,思维链技术 |
2024.12 | o3/o3-mini发布 | OpenAI | 推理能力大幅提升 |
2025.01.20 | DeepSeek-R1发布 | DeepSeek | 开源推理模型,MIT许可证 |
2025.01.31 | o3-mini正式发布 | OpenAI | 首次向免费用户提供推理模型 |
2025.04.16 | o3/o4-mini发布 | OpenAI | 快速、高效推理 |
2025.06.10 | o3-pro发布 | OpenAI | 最高可靠性推理模型 |
2、核心技术革新
该阶段的核心创新为基于Scaling Law的强化学习,该技术支持了多项技术的应用和拓展。
思维链技术:思维链技术的出现使得大模型在回答问题前能进行多步推理,提升模型处理问题的能力;为了加强推理能力,强化学习得以定向应用。
标志性模型:2025年1月,DS发布了-R1模型引爆了国内大模型应用的热潮。R1模型几个核心特点,完全开源,训练成本仅为o1的很小比例,671B参数。
3、解决的核心问题
这一阶段大模型通过思维链、强化学习等基础技能的革新,使得大模型可以开始承担相对复杂的工作。
印象中我大约是在25年一季度末,二季度初开始使用人工智能辅助分析工作。到了三季度时候,大量的分析工作开始使用人工智能。当时间线到了四季度和26年1月的时候,思维逻辑的验证也开始使用人工智能。
问题 | 解决方案 | 影响 |
复杂推理能力不足 | 思维链+强化学习 | 数学、编程、科学问题解决能力质变 |
模型"幻觉"问题 | 多步验证推理 | 事实准确性显著提升 |
推理成本高昂 | 蒸馏小模型 | 边缘设备可部署 |
闭源模型垄断 | DeepSeek开源 | 降低行业门槛,促进创新 |
(四)Agent阶段
1、Agent发展时间线
2025年第一次听Agent的时候,让我又震惊又期待,突然发现我的很多想法因为“手残”问题(不会编程)无法实现,而Agent让我看到了希望。
最近比较火的Agent集群按照我的理解就是多Agent并行,多Agent执行下,不同的Agent代表了不同的角色,例如有的负责提出思路,有的负责审视,有的负责提出反对意见等等,通过这样一个多Agent“争吵”、协同的模式解决复杂问题,并提升精准度。
时间 | 事件 | 公司/机构 | 核心能力 |
2023.03.30 | AutoGPT发布 | 开源社区 | 首个自主AI Agent实验 |
2023.11 | Custom GPTs发布 | OpenAI | 用户可创建专用Agent |
2024.03 | Devin 1.0发布 | Cognition | 首个AI软件工程师 |
2024.06 | Claude 3.5 Sonnet | Anthropic | Computer Use能力 |
2024.11 | MCP协议发布 | Anthropic | 标准化AI工具接口 |
2025.01.23 | Operator发布 | OpenAI | 浏览器自动化Agent |
2025.02 | Claude Code发布 | Anthropic | 编程Agent工具 |
2025.04 | Devin 2.0发布 | Cognition | 多Agent并行,降价至$20/月 |
2、核心技术更新
整体看我认为Agent是通向全面AGI的过程,在过去的发展中,我们看到Agent拥有了感知能力,这一点区别于大语言模型的基础能力。例如,Agent可以感知我们的屏幕,基于我们的屏幕和任务需求再进行推理,这样就实现了对工具的调用。
在这2年中,我们看到了Claude Computer Use通过技术的革新可以实现像人类一样使用计算机,能进行网页搜索、填写表格、操作软件等等。
3、解决的核心问题
Agent会有一篇专门梳理,此处作为简单的功能梳理。
这两天通过扣子搭建了属于自己的投资类Agent,顿时感觉拥有了自己的“军团”。
问题 | 解决方案 | 影响 |
AI只能对话不能执行 | 计算机使用能力 | 自动化网页操作、软件使用 |
编程效率瓶颈 | AI软件工程师 | 端到端软件开发自动化 |
工具集成复杂 | MCP标准化协议 | 统一AI与外部系统接口 |
单任务限制 | 多Agent并行 | 复杂项目协同处理 |
(四)文生图/视频阶段
1、标志性事件时间线
文生图/视频是最有意思的一个领域,一开始我觉得这个领域主要是为了解决图片和视频创作问题,伴随了解的深入才意识到这里核心是让人工智能懂得世界运行的法则,例如物理法则。一旦人工智能理解了法则,那么人工智能将实现AGI。
过去几年标志性事件梳理如下:
时间 | 事件 | 公司/机构 | 核心突破 |
2022.04 | DALL-E 2发布 | OpenAI | 高质量图像生成 |
2022.07 | Midjourney v3发布 | Midjourney | 艺术风格图像 |
2022.08 | Stable Diffusion发布 | Stability AI | 开源图像生成 |
2023.10 | DALL-E 3发布 | OpenAI | 与ChatGPT集成 |
2024.02 | Sora发布 | OpenAI | 文本生成视频,60秒[^52^][^53^] |
2024.02 | Stable Diffusion 3发布 | Stability AI | 开源模型升级[^21^] |
2024.08 | DALL-E 3免费版 | OpenAI | 每日2张免费生成[^21^] |
2024.12 | Sora公开可用 | OpenAI | ChatGPT订阅用户可用[^21^] |
2025.03 | GPT-4o图像生成 | OpenAI | 原生多模态图像生成[^21^] |
2025.05 | Google Veo 3发布 | 高质量视频生成[^21^] |
2、核心技术革新
过去几年技术迭代体现在更高的画质,更好的物理法则理解能力,更长的连续视频时间等方向。
以Sora的技术特点为例,采用扩散模型+Transformer架构,通过该方式实现了60秒连续视频生成、多种画面比例(宽屏/竖屏/方形)、视频扩展和编辑能力。
这两天字节发布的SeeDance 2.0再次引起了市场的热潮。我使用这个工具做了一个10秒的视频,从结果看,画面清晰、逻辑合理,理解物理法则(例如拳头碰撞产生的回弹等细节处理)。
3、能解决的核心问题
从当前看解决了图像内容生成,视频内容生成复杂的问题,可以被应用于广告制作、影视制作、游戏制作等等,但从中期看,是机器人、更好的研发工具的基础技术。
问题 | 解决方案 | 影响 | 问题 |
视觉内容创作门槛高 | 文本到图像/视频 | 设计师、创作者效率提升 | 视觉内容创作门槛高 |
创意表达受限 | AI辅助创意生成 | 降低专业软件学习成本 | 创意表达受限 |
视频制作成本高 | AI视频生成 | 小规模团队可制作专业视频 | 视频制作成本高 |
(五)不同模型技术之间关系
从前面的梳理我们可以看到,模型技术的迭代是一个渐进的过程,并且在不断加速,同时我们也看到不同技术之前呈现了能力叠加演进的特点。
模型能力的迭代中每个新阶段都建立在之前阶段的能力之上,类似点亮技能树。文生图/视频能力与各阶段并行发展,并且在2025年后,各个阶段能力开始融合,于是我们看到了GPT-5统一对话+推理模式。
试想一下,2024年的时候我们为了完成一个工作需要频繁的切换人工智能工具,而现在可以在部分环境下使用同一个工具完成,预计未来,伴随模型技术的进一步融合,一个对话框完成所有需求将成为主流发展方向。

二、2025-2026年主要技术革新
通过前面对2022-2026年的回放,我粗略对大模型的过去进行了梳理,总结了五个主要趋势。
趋势 | 描述 | 代表产品 |
推理能力普及化 | 从专业模型走向通用集成 | GPT-5统一架构、Qwen3混合模式 |
Agent能力实用化 | 从实验走向生产环境 | Operator、Devin、Claude Code |
开源模型高端化 | 开源性能逼近闭源 | DeepSeek-R1、Llama 4、Qwen3 |
多模态原生融合 | 统一架构处理多种模态 | GPT-4o、Gemini 2.0/3.0 |
长上下文竞赛 | 百万级上下文成为标配 | Llama 4 Scout(10M)、Gemini 2.5 Pro(2M) |
(一)重大技术革新
2025年是奇幻的一年,可能未来回身看的时候会被定义为人类科技开始进入奇点的元年,几个重要的特征包含:
推理能力普及:o3系列、DeepSeek-R1推动推理模型大众化。
Agent元年::Operator、Devin、Claude Code等产品标志着AI从"会说"到"会做"。
开源的时代:Llama 4、Qwen 3、DeepSeek等开源模型性能逼近闭源模型。
统一架构趋势:GPT-5整合对话与推理能力,混合专家模型(MoE)成为主流
(二)主要技术革新列示
1、基础模型类
时间 | 公司/机构 | 模型名称 | 类型 | 核心参数/特点 |
2025.01.20 | DeepSeek | DeepSeek-R1 | 推理模型 | 671B参数,MIT开源,性能对标o1,蒸馏版1.5B-70B |
2025.01.28 | Alibaba | Qwen2.5-Max | MoE基础模型 | 超20万亿tokens预训练,性能优于DeepSeek-V3 |
2025.03.27 | Alibaba | Qwen2.5-Omni-7B | 多模态模型 | 7B参数,端到端多模态,支持文本/图像/音频/视频 |
2025.04.29 | Alibaba | Qwen3系列 | 混合推理模型 | 6个Dense模型(0.6B-32B)+2个MoE模型(30B/235B),119种语言 |
2025.05 | Anthropic | Claude Opus 4 / Sonnet 4 | 基础模型 | 编码、推理、Agent能力大幅提升,ASL3安全级别 |
2025.08.07 | OpenAI | GPT-5 | 统一基础模型 | ~3-10万亿参数(估算),融合GPT+o系列推理能力,智能路由系统 |
2025.08 | OpenAI | GPT-5.2 | 基础模型升级 | GPT-5迭代版本,性能优化 |
2025.11 | OpenAI | GPT-5.1 | 基础模型 | 生态集成增强,插件支持 |
2、推理模型类
时间 | 公司/机构 | 模型名称 | 类型 | 核心参数/特点 |
2025.01.31 | OpenAI | o3-mini | 轻量推理模型 | 首次向免费用户开放,快速推理 |
2025.04.16 | OpenAI | o3 / o4-mini | 推理模型 | 快速、成本高效,强AIME性能 |
2025.05.28 | DeepSeek | DeepSeek-R1-0528 | 推理模型更新 | R1升级版,推理能力增强 |
2025.06.10 | OpenAI | o3-pro | 专业推理模型 | ChatGPT Pro/API可用,最高可靠性 |
2025.08.21 | DeepSeek | DeepSeek V3.1 | 基础+推理 | 新版本升级 |
2026.02(预计) | DeepSeek | DeepSeek V4 | 推理模型 | Engram记忆架构,100万+上下文,代码生成超越Claude/GPT |
3、多模态模型类
时间 | 公司/机构 | 模型名称 | 类型 | 核心参数/特点 |
2025.03.27 | Alibaba | Qwen2.5-Omni-7B | 多模态 | 7B参数,全模态理解 |
2025.03 | OpenAI | GPT-4o图像生成 | 图像生成 | 原生多模态图像生成 |
2025.05 | Veo 3 | 视频生成 | 高质量AI视频生成 | |
2025.07.22 | Alibaba | Qwen3-Coder-480B-A35B | 代码多模态 | 480B总参数/35B激活,256K上下文(可扩展至1M),7.5T代码数据 |
2025.08.04 | Alibaba | Qwen-Image | 图像生成 | 20B参数,MMDiT架构,原生文本渲染 |
2025.08.19 | Alibaba | Qwen-Image-Edit | 图像编辑 | 语义控制+外观保持 |
2025.11 | Gemini 3 Pro | 多模态 | 代码生成速度领先,大规模上下文,屏幕/视频理解 |
4、垂类模型类
时间 | 公司/机构 | 模型名称 | 类型 | 核心参数/特点 |
2025.01.23 | OpenAI | Operator | AI Agent | CUA模型,浏览器自动化,87%标准任务成功率 |
2025.02 | OpenAI | Deep Research | 研究Agent | o3模型支持,5-30分钟生成专业报告 |
2025.02 | Anthropic | Claude Code | 编程Agent | 首个Agentic编码工具,研究预览版 |
2025.04 | Cognition | Devin 2.0 | 软件工程Agent | MultiDevin并行,云IDE,$20/月定价 |
2025.04 | Anthropic | Research + Google Workspace | 研究Agent | 跨内部工作上下文和网络搜索 |
2025.05 | Anthropic | Web Search API | Agent工具 | 为Claude添加实时网络搜索能力 |
2025.07.24 | Alibaba | Qwen-MT | 翻译专用 | 92种官方语言支持 |
2025.09.23 | Alibaba | Qwen3Guard | 安全模型 | 实时风险检测,多语言支持 |
2025.09.29 | Anthropic | Claude Sonnet 4.5 | 编程Agent | SWE-bench Verified 77.2%(82%并行测试),30小时+持续专注 |
2025.11.24 | Anthropic | Claude Opus 4.5 | 编程Agent | SWE-bench Verified 80.9%,降价67% |
2026.01 | Anthropic | Cowork | Agent GUI | Claude Code图形界面版,面向非技术用户 |
(三)奇幻的一年
2025年是极具奇幻色彩的一年,人工智能在这一年里实现了跨越式进化——从最初辅助我分析行业、研究市场,逐步深入到拆解我的逻辑思维漏洞、精准补全短板,最终形成能协助我高效推进工作的智能体集群。回望这一过程,其难度不断提升、进化速度持续加快。结合前文对人工智能主流技术及技术间关联的拆解分析,我更加坚定一个判断:我们正处在人类文明加速发展的前期,甚至可能已正式步入这一加速周期。对于投资而言,若能明确当前属于文明加速期、而非互联网泡沫时代的特征,那么坚定拥抱人工智能领域的投资机会,便是必然选择。后续篇章中,我将进一步拆解、分析、聚焦相关内容,不断思考人工智能的发展逻辑与投资价值。
注:文章为作者独立观点,不代表资产界立场。
题图来自 Pexels,基于 CC0 协议
本文由“静水深漩”投稿资产界,并经资产界编辑发布。版权归原作者所有,未经授权,请勿转载,谢谢!

静水深漩 











