专业股票配资论坛机器人走世界模型还是VLA路径？智平方郭彦东给出答案

机器人究竟应该走VLA（Vision-Language-Action Model 视觉-语言-动作模型的缩写）路线，还是世界模型路线？6月，北京智源大会现场专业股票配资论坛，围绕具身智能的技术路线之争再次成为行业焦点。

在此次大会具身产业CEO论坛，智平方创始人兼CEO郭彦东对这一行业争论抛出明确答案：世界模型不是VLA的竞争路线，而是VLA体系中的核心组成部分；而在世界模型与VLA融合之后，类脑架构将成为下一代机器人大脑的重要演进方向。

不少研究者认为，机器人首先需要建立对物理世界的理解能力，才能进一步产生可靠行为；也有人认为，VLA直接从视觉和语言生成动作，是更高效、更现实的技术路径。

郭彦东认为，从生命演化的角度来看，行动能力并不是孤立产生的。生命首先需要感知环境、理解环境，然后才会产生行动。

也就是说，世界模型负责理解世界，而VLA负责作用于世界，两者并非对立关系，而是天然统一的整体。

他在演讲中指出，当前被广泛讨论的“世界模型”，本质上并不是物理规律驱动，而是靠海量数据训练出来的。“数据足够多，模型就知道水杯越过桌面会下落、手机屏幕用力敲可能会碎——这不是物理规律的总结，而是大数据学习的结果。”

基于这一判断，郭彦东给出了VLA的定义：VLA是多种模态融合的大数据驱动的端到端模型架构的总称。在这个定义下，世界模型与VLA没有本质区别，更不是替代关系。

“世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测，它是一个非常好的空间基础模型，是VLA空间感知的一部分，能帮助机器人大脑越来越好。”

他进一步用具体任务解释了为什么两者必须融合：“如果不把世界模型合并在VLA里面，很多任务完全做不了。比如泡茶要先拿茶包再倒水，做咖啡要先拿杯子再接水——这些推理认知逻辑靠语言模型更容易完成。世界模型擅长的是短程预测，比如水杯靠近桌边可能掉落。只有把两者合并，机器人才既能做短程物理预测，又能做长程任务规划。”

除了在VLA中融合世界模型的预测能力，智平方还利用世界模型生成真实环境中难以采集的边缘数据（corner case）。“比如采集杯子数据时，采集到的可能都是桌子中间的，忘记采集桌子边缘的。这时就可以用世界模型生成桌子边缘的样本，来补足VLA。”

基于这一判断，智平方很早便推动世界模型与VLA的融合研究。2025年11月，智平方联合北京大学率先推出融合世界模型的新一代架构Video2Act，首次实现“先预测、后执行”的机器人模型范式。

他指出，关于“世界模型还是VLA”的争论，正在被新的技术范式所取代。当下，真正重要的问题已经不再是谁替代谁，而是谁能够率先实现两者的深度融合。

在智源大会上，郭彦东重点介绍了智平方最新发布的类脑具身智能系统NeuroVLA，同时具备主动感知、故障自恢复与时序记忆三大类生物运动能力的具身智能系统。

从端到端VLA，到Video2Act，再到NeuroVLA。过去三年，智平方持续围绕机器人大脑进行系统性创新。如果说VLA让机器人拥有了行动能力，世界模型让机器人拥有了理解和预测能力，那么NeuroVLA则进一步赋予机器人接近生物系统的反应与控制能力。

南方+记者郜小平专业股票配资论坛

利鸿网配资提示：文章来自网络，不代表本站观点。