【关键词“OPENAI”】OpenAI还会发布什么今天已经发布了o1-full和o1-pro。
带来了更好的Coding能力,且o1-pro接受图片输入,对应更好的VLM视觉模型。虽然关于测评和200美金的价格争议很多,但正如Noam Brown说的,更重要是从o1-preview到o1 pro,2个月时间的边际进步速度。后面还会发布什么?
1. Agent,可能是这12天最大亮点。
可能不仅是一个agent,而是多agent体系。首先有一个Agent驱动基座模型,实现长的CoAT(思维动作链)。OpenAI有过一个工作叫Agent Executor Chain,通过HTML和截图解析,借助GPT-4o足够长的输入token,生成长动作指令。基于这个Agent驱动基座模型,可以微调出不同的Agent LLM。如海外曝光的下图,panda, tiger, Viper,whale等等动物名和元素名,可能对应多种多样的agent LLM基于此,还看到OpenAI有一个叫“swarm虫群”的软件框架,可以组合Agent模型、多Agent编排、Agent间通信、外部和内部数据库耦合。此外, OpenAI过去的工作似乎实现了一种认知架构,信息的工作记忆、长期记忆,动作空间的内部、外部动作,决策的交互循环、规划和执行、任务分解决策树。AISI UK写了一篇关于长期任务的新闻稿,OpenA可能已经实现长期稳定的执行Agent,不是十几步,而是几百步。
2. Sora可玩版本。
OpenAI 10月份发过一个sCM(Simplifying Continuous-Time Consistency Models ),相比扩散模型的图像生成速度提升50倍,可能解决sora成本的老大难问题
3. GPT-4.5。
有可能就是GPT-4o的增强版,更新了知识截止日期,更多的post-train强化学习,降低了幻觉。这可能也不算GPT-5的Preview。到这里,OpenAI的模型家族可能出现三条线:LLM知识模型(GPT系列),LRM推理模型(o1系列),LAM动作模型(Agent系列)
4. VLM的real time,实时的视觉模型。这个会非常适合端侧比如眼镜、机器人视觉方面的AI应用
5. OpenAI浏览器。
简单做个换皮的浏览器对于OpenAI来说不够重磅。其他家的浏览器Agent通过扩展实现,权限是请求浏览器,再到操作系统。如果单独做浏览器,就可以直接请求到操作系统,从而和ChatGPT客户端联动,甚至是替代。浏览器是大多数人用的最多的软件,可以绑定SearchGPT来进行多模态搜索和生成上下文搜索。从浏览器做AI流量入口是最合适的,有足够的权限做交互。
6. Fine tuning。
团队做了更细粒度的方案提供结构化API调用,为Agent模块开发做准备,而不是仅提供输出JSON的能力。然后是让开发者可以通过API调用o1的结构化输出和函数调用。
7. SearchGPT的多模态查询。
人们在搜索时可能不知道名字和概念,模棱两可的形容,对于搜索引擎来说是无效的。所以思路是生成一个图像,让图像和搜素结果关联,用图像、prompt、特征识别和文本作为查询信息。
8. 代码编辑器。
最近Editor Agent的Bolt、WindSurf,尤其是Cursor非常火。考虑到Anthropic Sonnet已经成了coding的领头羊,OpenAI可能会有动作。其他还可能有NSFW(文字对话游戏)、V2A(视频转音频)、Robotics模型、Enterprise版本增强、其他格式输出等小技巧。储备了这么久,应用方面铺了这么多人和卡,东西很多的,就看能否点燃大家的想象力了。目前看sora已经没什么预期差(之前demo过于惊艳了),GPT-5这次不会有的(可能真有preview?不确定),GPT-4.5依然是LLM老范式下的成果。更大的惊喜或者能给想象力的,可能就是agent。
(特别声明:仅供参考,入市有风险,投资需谨慎) 带来了更好的Coding能力,且o1-pro接受图片输入,对应更好的VLM视觉模型。虽然关于测评和200美金的价格争议很多,但正如Noam Brown说的,更重要是从o1-preview到o1 pro,2个月时间的边际进步速度。后面还会发布什么?
1. Agent,可能是这12天最大亮点。
可能不仅是一个agent,而是多agent体系。首先有一个Agent驱动基座模型,实现长的CoAT(思维动作链)。OpenAI有过一个工作叫Agent Executor Chain,通过HTML和截图解析,借助GPT-4o足够长的输入token,生成长动作指令。基于这个Agent驱动基座模型,可以微调出不同的Agent LLM。如海外曝光的下图,panda, tiger, Viper,whale等等动物名和元素名,可能对应多种多样的agent LLM基于此,还看到OpenAI有一个叫“swarm虫群”的软件框架,可以组合Agent模型、多Agent编排、Agent间通信、外部和内部数据库耦合。此外, OpenAI过去的工作似乎实现了一种认知架构,信息的工作记忆、长期记忆,动作空间的内部、外部动作,决策的交互循环、规划和执行、任务分解决策树。AISI UK写了一篇关于长期任务的新闻稿,OpenA可能已经实现长期稳定的执行Agent,不是十几步,而是几百步。
2. Sora可玩版本。
OpenAI 10月份发过一个sCM(Simplifying Continuous-Time Consistency Models ),相比扩散模型的图像生成速度提升50倍,可能解决sora成本的老大难问题
3. GPT-4.5。
有可能就是GPT-4o的增强版,更新了知识截止日期,更多的post-train强化学习,降低了幻觉。这可能也不算GPT-5的Preview。到这里,OpenAI的模型家族可能出现三条线:LLM知识模型(GPT系列),LRM推理模型(o1系列),LAM动作模型(Agent系列)
4. VLM的real time,实时的视觉模型。这个会非常适合端侧比如眼镜、机器人视觉方面的AI应用
5. OpenAI浏览器。
简单做个换皮的浏览器对于OpenAI来说不够重磅。其他家的浏览器Agent通过扩展实现,权限是请求浏览器,再到操作系统。如果单独做浏览器,就可以直接请求到操作系统,从而和ChatGPT客户端联动,甚至是替代。浏览器是大多数人用的最多的软件,可以绑定SearchGPT来进行多模态搜索和生成上下文搜索。从浏览器做AI流量入口是最合适的,有足够的权限做交互。
6. Fine tuning。
团队做了更细粒度的方案提供结构化API调用,为Agent模块开发做准备,而不是仅提供输出JSON的能力。然后是让开发者可以通过API调用o1的结构化输出和函数调用。
7. SearchGPT的多模态查询。
人们在搜索时可能不知道名字和概念,模棱两可的形容,对于搜索引擎来说是无效的。所以思路是生成一个图像,让图像和搜素结果关联,用图像、prompt、特征识别和文本作为查询信息。
8. 代码编辑器。
最近Editor Agent的Bolt、WindSurf,尤其是Cursor非常火。考虑到Anthropic Sonnet已经成了coding的领头羊,OpenAI可能会有动作。其他还可能有NSFW(文字对话游戏)、V2A(视频转音频)、Robotics模型、Enterprise版本增强、其他格式输出等小技巧。储备了这么久,应用方面铺了这么多人和卡,东西很多的,就看能否点燃大家的想象力了。目前看sora已经没什么预期差(之前demo过于惊艳了),GPT-5这次不会有的(可能真有preview?不确定),GPT-4.5依然是LLM老范式下的成果。更大的惊喜或者能给想象力的,可能就是agent。
更多精彩内容,关注云掌财经公众号(ID:yzcjapp)
以上内容由投资顾问高***(执业编号:A038******)提供,以上建议仅供参考,据此操作,盈亏自担!股市有风险,投资需谨慎!珞珈投资ZX0077 售后投诉电话:0755-61957028 0755-25880000 点击查看风险提示及免责声明
- 热股榜
-
代码/名称 现价 涨跌幅 加载中...
加载中 ...