金沙娱乐网峰瑞成本李丰: 具身智能要落地, 可能得抄这三份功课

发布日期：2026-05-09 13:36 来源：未知作者：admin 浏览次数：

莫得最热，唯有更热。

具身智能范围从来不缺新故事。

仅在当年一个月里，英伟达发布物理 AI 模子 Cosmos；阿里发布绽开式天下模子 HappyOyster；腾讯开源混元 3D 天下模子 2.0；“AI 教母”李飞飞创办的 World Labs 也在 4 月发布了 Marble 1.1 系列模子，主打大法式 3D 场景生成。

天下模子、UMI（Universal Manipulation Interface）、物理仿真，这些也曾主要出面前学术论文中的认识，依然成为行业照拂的高频词。

4 月 23 日，在由投中操纵的“第 20 届中国投资年会·年度峰会”上，峰瑞成本创举结伙东谈主李丰直言，生成高维数据、天下模子和物理模子，是具身智能现时的三个投资热门新想法。

在他看来，这些新认识和新气象的出现，根源在于终止数据，“具体来说，是东谈主类从来莫得蓄积过多数包含这些物理量和物理天下交互轨则的数据，咱们从来莫得大规模产生过这类数据。”

而市集对生成高维数据、天下模子和物理模子等想法的热捧，本质上齐是为了处置并吞个问题——如安在莫得这类数据的情况下，依然能处置问题，完成想要兑现的各样机器东谈主操作任务。

以下为李丰现场演讲实录，经投中网整理，转载时内容有微调——

当先恭喜投中20届年会班师举办，也相等感谢投中的邀请。面前作念投资东谈主其实不太容易，市集上日眉月异的认识太多，咱们总得接续地更新学问、捏续学习。

今天共享的，也仅仅咱们我方的一些不雅察和想法。最近又出现了相等多的腾达事物和新认识，我从中挑了几个，跟寰球疏导。

/ 01 /

具身智能的三件新事：UMI、天下模子、物理模子

莫得推行也能采数据：UMI 把录像头挂上了胸口

从去年年底运转，无论是好意思国如故中国，齐出现了无推行机器东谈主的数据，叫 UMI（Universal Manipulation Interface）数据。

UMI 数据的生成，带来的铁心便是出现了好多新契机，以及好多看似有远景的创业公司，它们会提供多样各样的数据麇集建树。比如你最近看到的，有东谈主在胸口挂个录像头，再加上偶然有触觉、偶然莫得触觉的建树；无论是遥操作、手上戴的机械手，如故平直用手完成各样动作，齐属于这一类，也便是生成高维数据。

天下模子：险些通盘机器东谈主公司齐在讲的故事

面前更好意思丽的认识是天下模子，今天险些通盘机器东谈主公司齐会提到这个词。

天下模子试图通过引入新的三维数据，包含与物体构兵并更变其状态的交互数据，来构建一个新的模子，看这个新模子能否更好地贯通东谈主类到底是怎样与物体进行交互，况且更变物体状态的。

面前国表里有相等多新兴公司和有名企业齐在涉足这个范围。海外的发展依然汹涌澎拜，国内则算是刚刚起步。面前往看具身联系表情，基本上寰球齐会讲天下模子的故事。

物理模子：阳光终于照到了数学系和物理系

天下模子里还有一个略略绝顶的小分支，叫物理模子。它背后的基本逻辑是：既然机器东谈主要与物理天下交互，不如从物理天下过往的训诲中鉴戒。这些过往的训诲，便是行业里原来所说的仿真，或者叫物理仿真。

物理仿真自己，便是咱们对现实天下中存在的物理气象，进行数学和物理层面的模拟、归纳与缱绻。今天这个小分支，便是把这些过往被称为仿真（无论是 CAE 如故 CAD）的才气，再行融入到模子当中。

旨趣其实很简便，最终目的齐是为了处理和贯通东谈主类怎样与物理天下交互。

这和今天寰球讲的大言语模子不相似：大言语模子专注于处理数字信号联系的问题，无论是数字化的文本信息、数字化的像素，如故视频信息；而面前要处置的问题是，桌上的杯子是什么情况、杯子倒了会怎样样、怎样把杯子提起来、怎样把杯子放到别的场地——这些齐属于天下模子要笼罩的内容，包含天下模子里阿谁小小的分支。

新故事所代表的三个想法

咱们梳理这些内容，是因为它们各自代表了不同的想法。

第一类没什么争议，生成高维数据，主若是把新的数据麇集设施和新的数据处理设施考虑在了一齐。

第二类是天下模子，面前由原来偏缱绻机或者大模子、作念 computer vision（缱绻机视觉）的东谈主在主导——无论是把缱绻机视觉用在东谈主脸识别上、用在自动驾驶上，如故用在发展出大言语模子架构上。

第三类是物理模子。这个小分支里出现了好多作念数学和物理的东谈主。不错说，投资范围的晨曦，或者说早期投资的故事与泡沫，终于从缱绻机系挪出了一部分阳光，照到了数学、物理这些范围里。

/ 02 /

吵杂背后的两大挑战

吵杂背后灭亡挑战。

言语模子，瞻望不了物理天下

第一个挑战是言语模子。咱们不从技能架构上照拂，只说中枢问题——言语模子对物理天下进行瞻望和生成数据的才气依然不够用了。

不够用的一大进展便是，它无法瞻望物理天下中具体物品、具体对象的状态变化。

一个超等大模子，如故一群模子相互打和谐？

还有一个挑战，便是单一模子的局限。

就像大言语模子，如果最终要作念成单一模子，既要能贯通东谈主类的意图，又要能贯通语义（也便是知谈这个东西是什么），还要能瞻望和贯通物理量的更变——比如把这个东西端起来、把水倒出来、把东西碰倒，还要判断这个东西是重是轻、是什么材质，以及这种材质的弹性、硬度、摩擦力是高是低，等等。

如果一个模子能像这样包揽通盘事情，既能贯通意图、识别对象，还要瞻望这些物理量，以及动作发生后物理量的变化，那这个模子最终会比面前大得多、复杂得多。

因为这是一个相等高维的任务。原来的言语模子只需要处理数字化的信息和像素，而面前要瞻望这样多维度的内容，假如还想用单一模子来处理，以咱们东谈主类现存的联想力来看，这会是一个超等大的模子。临了需要些许数据来熟习它，它会是何等复杂、何等徒然算力、何等徒然各样能源，今天咱们还不知所以，这是一个尚未有谜底的问题。

另一个可能的谜底是多模子会通：把多样各样的物理量滚动为仿真联系的内容，让它与某一个基座模子进行交互。需要某类学问时，就调用这部分联系的才气；需要某种物理量时，就调用对应的模子。如果是这样，就会波及到多数模子的交叉、调用与会通——而这些模子之间怎样兑现交叉、调用和会通，面前也莫得谜底。

这便是在前边三件事的基础上，依然出现的两个挑战，无论咱们接管哪一条发展旅途，齐绕不开。

根源：咱们莫得这种数据蓄积

这个挑战的开始其实也很明确。寰球看到的这些气象、新创业公司和新范式想法，根源齐是相似的——莫得数据。

具体来说，是东谈主类从来莫得蓄积过多数包含这些物理量和物理天下交互轨则的数据，咱们从来莫得大规模产生过这类数据。

是以无论是前边提到的第一、二、三类创业想法，本质上齐是为了处置并吞个问题——如安在莫得这类数据的情况下，依然能处置问题，完成想要兑现的各样机器东谈主操作任务。

/ 03 /

具身智能的三角敛迹

如果把具身智能的方针四肢一个平面坐标系，便是三个不同的想法，我把它们称之为三角敛迹：复杂性、奏遵守、泛化性。

具体来说：

1. 复杂性：要完成绝顶复杂的任务——这类任务对东谈主类来说不一定复杂，但对机器东谈主来说相等复杂。以及，这里说的不是灵通联系的任务，而是操作类任务，也便是和手联系的任务。

2. 泛化性：让一个模子既能用在 A 类机器东谈主、B 类机器东谈主、C 类机器东谈主上，还能适配不同的诈欺场景。

3. 奏遵守：有些场景是和实验联系的，有些是工业操作场景，再比如和剪头发、推拿联系的做事于东谈主的场景——明显没东谈主但愿推拿时被摁断一根肋骨，也不但愿剪头发时被剪秃一块，这就波及到不同场景下的奏遵守问题。

咱们梳理这些内容的原因，是因为面前寰球看到的大部分 demo（演示版块）齐离推行诈欺有些差距。这些 demo，齐在致力于评释，这个三角形的面积不错变大，不错向三个维度膨胀——如果是空间坐标系，便是体积变大，在各个想法齐兑现膨胀。

苦难的是，在咱们面前能看到的有限范围内，即使是 demo 层面，大部分表情也仅仅在平面坐标系的三角形里，致力于把其中一个角或者一个半角略略膨胀一丝。咱们还莫得明确看到，有哪种设施能把这三个角同期向外拉很远，从而让三角形的面积大幅增大。这冒昧便是今天机器东谈主操作范围的近况。

总结一下刚才讲的通盘气象：在依然汹涌澎拜的具身智能机器东谈主创业方进取，有这样三件新事，对于这三件新事的深远照拂还未几，但信托很快，金沙娱乐网寰球会运转照拂咱们刚才提到的两个挑战。

今天咱们讲的这些新模子，畴昔到底会是什么神情？是变成更大、更复杂致使超乎咱们面前联想的单一模子，如故会出现多个模子相互调用，但多模子怎样会通，仍未可知？这便是挑战所在。而这些挑战出现的根源，便是今天莫得饱胀的数据。我说的“莫得”，是指莫得处置这类问题所需要的、包含物理天下交互和物理量的联总共据。

此外，今天寰球看到的险些通盘 demo，齐在力求评释我方能把这个三角形拉大，但大部分公司在 demo 层面（而非信得过趣味趣味上的诈欺层面）能作念到的，仅仅把其中一个角略略拉长，偶然再把另一个半角略略拉长。

/ 04 /

以史为鉴：三条依然走过的路

投资最让东谈主头疼的事情是，除了提议问题，还得致力于寻找处置决策。

咱们面前莫得明确的处置决策，唯有一些以史为鉴的参考案例。

大言语模子：吃掉了东谈主类近40 年的互联网文本

咱们先以寰球最熟悉的大言语模子为例。

从 2012 年深度学习高潮运转，算法的演进阅历了一系列迭代——固然从卷积神经汇集（CNN）运转的这一串算法结构或算法逻辑的迭代，跟今天的大言语模子并不是在并吞条阶梯上。

紧接着在 2014 年之后，出现了生成起义汇集（GAN）技能。跟着技能范式进一步演进，其后才集中到了以 Transformer 为代表的大言语模子的算法逻辑。这便是算法的迭代进程。包括大模子在内的算法迭代从来不是线性的，不是寰球按照行动一步一个台阶往上爬，而是爬了两三步之后，换一个角度再爬两三步，再换一个角度赓续爬。

咱们再说说大言语模子的数据开始。今天咱们能熟习出的基座模子，很猛进程上依赖于近 40 年蓄积的互联网文本数据。寰球使用电脑冒昧有 30 年，使用手机冒昧有 15 年。在这 40 年里，咱们使用这些智能建树的进程中，产生了超等浩荡的文本公开数据库，这些数据便是大言语模子得以熟习、并取得今天这样效果的数据开始。

要补充的是，这仅仅熟习文本的部分。刚才咱们提到，面前要熟习的具身模子，需要涵盖更多维度——既有 3D 空间，又有具体物体，还包含物理量、交互形式，并但愿它具备瞻望才气。这些事情依然远远超出了瞻望下一个“词”的范围，比单纯的言语瞻望要复杂得多，更何况咱们面前还莫得运转像攒互联网文本数据那样大规模蓄积联系的数据。

自动驾驶：先卖你一辆车，顺遂把数据收了

自动驾驶则有点绝顶。

今天寰球在网上常常会看到争论：不同公司争论今天的自动驾驶到底要不要经过 L3 阶段？是否不错不经过 L3 平直到 L4？

为什么会有这样的争论？包括特斯拉在内，今天大部分自动驾驶技能，面前齐停留在 L3 到 L4 之间，暂时还莫得哪家公司能信得过声称我方依然高出了 L4——这里说的是绽开路面，不是口岸、矿区或者园区这类相对闭塞的环境。

但自动驾驶的发展，也阅历了从以规矩为主，到今天最好意思丽的端到端（和大言语模子的架构肖似）的进程。另外还有一件比拟独特的事：自动驾驶的算法迭代也不是线性的，它也不是顺着一条路一步一步走出来的，而是在几个不同的方进取往复交叉鼓动的。

再说说自动驾驶的数据开始，这一丝就更绝顶了。自动驾驶的数据简直主要靠它我方赢得。

以特斯拉为例，在去年以前，绝大多数东谈主买新能源车的时候，无论它是电架构的如故混动的，寰球买的是车自己。在去年或客岁以前，大部分东谈主买车还不是为了自动驾驶，而是为了省钱、好开好用、欢欣、加快快。而寰球买车的时候，凑巧这辆车上搭载了通盘的传感器，因为它是一款消费品。

打个比喻寰球就认识了：寰球用智高东谈主机和电脑，笃信不是为了让市集上任何一家互联网巨头赢得我方的图片、文本和语音数据。但因为智高东谈主机和电脑是寰球的消费品，凑巧搭载了后置高清录像头、麦克风阵列、GPS 芯片，是以寰球在使用这些建树的进程中，产生了无数的数据为互联网巨头所用，而这些数据，也成了今天各样模子需要的数据开始。

自动驾驶的绝顶之处就在于，它先把我方变成了一款受接待的消费品，寰球风物购买。寰球买车的同期，也把车上搭载的通盘传感器买了且归，这些传感器产生的数据，又能拿回首匡助自动驾驶技能进行大规模的迭代。正因为这个原因，寰球会发现，谁领有的数据越多，谁的自动驾驶技能可能高出得就越快一丝。

但这些数据不是它向寰球购买的，而是它卖给寰球一款寰球需要的消费品，这款消费品上凑巧搭载了相等多的传感器，这些传感器就把驾驶数据、环境数据、车内驾驶民风、路况气象等，滚动成了自动驾驶模子熟习所需的数据。

这在历史上是很稀有的，它是一个我方给我方蓄积数据的范围——不是因为它是自动驾驶技能，而是因为它当先是一辆车。在当年十年里，寰球买车不是为了买自动驾驶功能，仅仅为了买一辆车，而传感器是车上自带的。

AlphaFold：数据不够，先验学问来补

临了咱们看 AlphaFold（卵白质结构瞻望）。它的三个模子版块，也阅历了不同的发展进程。天然面前它的算法结构，也和咱们今天照拂的这些大模子有联系性，或者说在某种趣味趣味上是端到端的。

在发展初期，它需要借助多数已有的东谈主类数据，或者说需要加入一些物理模子。什么是物理模子？便是咱们所说的热力学、能源学。是以在 AlphaFold1 和 AlphaFold2 阶段，需要加入好多东谈主类依然总结的先验学问，也便是一些生物轨则，以及与化学、物理联系的轨则和算法。

AlphaFold 的数据，伊始在 AlphaFold1 阶段比拟少，因为它需要的口舌常专科的数据——它要处置的是一个极其具体的问题：卵白质序列最终会怎样折叠，这条长链条贯通下来之后是什么神情？

它的数据发展也阅历了这样一个进程：一运转唯有小数的卵白质结构数据，这时候就需要加入较多的物理、数学模子和先验学问；其后数据多了一丝，物理、化学、数学模子和先验学问就不错减少一丝；数据再增加一些，这些模子和学问就再减少一丝。天然，这其中还波及好多与实验联系的责任。

AlphaFold 的发展旅途的绝顶之处在于：它不是通过消费者蓄积数据，而是依靠十分专科的科研数据。但在其模子进化到今天的进程中，很长一段时候内，考虑者齐加入了东谈主类的先验学问、物理模子、数学模子等，来匡助它在发展进程中处置问题。之后，跟着新数据接续蓄积，加上多数实验的考证和纠正，才发展到了今天的 AlphaFold3。今天它可能需要的物理与数学模子以及先验学问，依然略略少了一丝。

不外它凑巧是一个瞻望细目的单一维度课题的模子，主要目的便是处置卵白质贯通下来之后怎样折叠。它不需要像具身智能那样处置那么多维度的问题，不需要处置状态变化、对象变化、相互作用以及多样物理量等复杂问题。

/ 05 /

十年之后，谜底可能在这三条路里

上头讲到的大言语模子、自动驾驶、AlphaFold，是我面前能料想的不错参考的三种事物的迭代进程。

大言语模子用了全东谈主类蓄积近 40 年的数据，加上非线性的算法迭代，到今天才发展出能够处理言语联系的逻辑。

自动驾驶从 2015 年投资最热的时候运转，用了十年时候发展到今天的 L3.5 阶段，天然时期也际遇了一些不同的挑战。它的算法迭代也不是线性的，它的数据是靠我方赢得的——但原因不是它让寰球帮衬麇集数据，仅仅通过卖给寰球一辆车，车上凑巧搭载了这些传感器，是以它我方为我方创造了数据。

AlphaFold处置的是卵白质结构和折叠这个专科问题，它用了多数的专科数据，处置了一个单一维度的问题，同期算法也阅历了几次不同的迭代，况且在中间很长一段时候里，借助了东谈主类的先验学问、物理模子、数学模子等，来匡助它处置发展进程中的问题。

这是三条不同的发展谈路，寰球不错凭证我方的情况，各自接管参考谜底。

今天具身智能出现的这些挑战，在十年以后，最终要么是以这三个案例中的某一个为正本得到处置，要么是会通这三个案例各自的上风，酿成交叉性的处置决策。具体是哪一种，这是一个绽开的问题——咱们只可提议问题，无法给出细目的谜底。

以上内容，仅供寰球参考或者想考。谢谢寰球。

金沙娱乐网

金沙电玩城app官方下载

上一篇：上一篇：金沙JinSha(中国)娱乐网入口莫斯科告捷日将全面甩手挪动互联网，有线宽带不受影响

下一篇：下一篇：金沙娱乐网爱奇艺AI艺东说念主库风云背后: 长视频AI化的机遇与凡俗东说念主的担忧

关于金沙娱乐

金沙娱乐网 峰瑞成本李丰: 具身智能要落地, 可能得抄这三份功课

金沙娱乐网峰瑞成本李丰: 具身智能要落地, 可能得抄这三份功课