趋势掘金：【关键词“OPENAI”】OpenAI还会发布什么今天已经发布了o1-full和

【关键词“OPENAI”】OpenAI还会发布什么今天已经发布了o1-full和o1-pro。
带来了更好的Coding能力，且o1-pro接受图片输入，对应更好的VLM视觉模型。虽然关于测评和200美金的价格争议很多，但正如Noam Brown说的，更重要是从o1-preview到o1 pro，2个月时间的边际进步速度。后面还会发布什么？
1. Agent，可能是这12天最大亮点。
可能不仅是一个agent，而是多agent体系。首先有一个Agent驱动基座模型，实现长的CoAT（思维动作链）。OpenAI有过一个工作叫Agent Executor Chain，通过HTML和截图解析，借助GPT-4o足够长的输入token，生成长动作指令。基于这个Agent驱动基座模型，可以微调出不同的Agent LLM。如海外曝光的下图，panda, tiger, Viper，whale等等动物名和元素名，可能对应多种多样的agent LLM基于此，还看到OpenAI有一个叫“swarm虫群”的软件框架，可以组合Agent模型、多Agent编排、Agent间通信、外部和内部数据库耦合。此外， OpenAI过去的工作似乎实现了一种认知架构，信息的工作记忆、长期记忆，动作空间的内部、外部动作，决策的交互循环、规划和执行、任务分解决策树。AISI UK写了一篇关于长期任务的新闻稿，OpenA可能已经实现长期稳定的执行Agent，不是十几步，而是几百步。
2. Sora可玩版本。
OpenAI 10月份发过一个sCM(Simplifying Continuous-Time Consistency Models )，相比扩散模型的图像生成速度提升50倍，可能解决sora成本的老大难问题
3. GPT-4.5。
有可能就是GPT-4o的增强版，更新了知识截止日期，更多的post-train强化学习，降低了幻觉。这可能也不算GPT-5的Preview。到这里，OpenAI的模型家族可能出现三条线：LLM知识模型（GPT系列），LRM推理模型（o1系列），LAM动作模型（Agent系列）
4. VLM的real time，实时的视觉模型。这个会非常适合端侧比如眼镜、机器人视觉方面的AI应用
5. OpenAI浏览器。
简单做个换皮的浏览器对于OpenAI来说不够重磅。其他家的浏览器Agent通过扩展实现，权限是请求浏览器，再到操作系统。如果单独做浏览器，就可以直接请求到操作系统，从而和ChatGPT客户端联动，甚至是替代。浏览器是大多数人用的最多的软件，可以绑定SearchGPT来进行多模态搜索和生成上下文搜索。从浏览器做AI流量入口是最合适的，有足够的权限做交互。
6. Fine tuning。
团队做了更细粒度的方案提供结构化API调用，为Agent模块开发做准备，而不是仅提供输出JSON的能力。然后是让开发者可以通过API调用o1的结构化输出和函数调用。
7. SearchGPT的多模态查询。
人们在搜索时可能不知道名字和概念，模棱两可的形容，对于搜索引擎来说是无效的。所以思路是生成一个图像，让图像和搜素结果关联，用图像、prompt、特征识别和文本作为查询信息。
8. 代码编辑器。
最近Editor Agent的Bolt、WindSurf，尤其是Cursor非常火。考虑到Anthropic Sonnet已经成了coding的领头羊，OpenAI可能会有动作。其他还可能有NSFW（文字对话游戏）、V2A（视频转音频）、Robotics模型、Enterprise版本增强、其他格式输出等小技巧。储备了这么久，应用方面铺了这么多人和卡，东西很多的，就看能否点燃大家的想象力了。目前看sora已经没什么预期差（之前demo过于惊艳了），GPT-5这次不会有的（可能真有preview？不确定），GPT-4.5依然是LLM老范式下的成果。更大的惊喜或者能给想象力的，可能就是agent。

(特别声明：仅供参考，入市有风险，投资需谨慎)

更多精彩内容，关注云掌财经公众号（ID：yzcjapp）

以上内容由投资顾问高***（执业编号：A038******）提供，以上建议仅供参考，据此操作，盈亏自担！股市有风险，投资需谨慎！珞珈投资ZX0077 售后投诉电话：0755-61957028 0755-25880000 点击查看风险提示及免责声明

热股榜

代码/名称	现价	涨跌幅
加载中...

加载中 ...

找回密码

用户反馈

云掌财经APP下载

二维码已过期

使用云掌财经APP扫码登录

找回密码

用户反馈

云掌财经APP下载