自动驾驶与家用机器人:大模型应用层的新突破方向

核心观点

自动驾驶、家用机器人可能是更多的大模型应用层突破方向。自动驾驶是AI最大的单体应用场景,能够帮助进行数据维度融合。sora大模型出现,能够很好的丰富数据维度的生成数量和差异度,有一定的应用想象力。

未来技术路线:主要关注1)哪个模型能够更好融合多模态数据,做到数据对齐。2)在异构数据增加后,模型复杂程度变化较小。

开源vs闭源:当前大型企业闭源用的多,未来开源是大势所趋。如果生态建构良好,开源闭源都可以。如果做不好生态建设,还是可能用闭源,当前也是闭源居多,专家认为未来项目制、用户付费的比例可能达到30-50%。

算力需求:视觉模型的需求量将1-2倍多于文本需求量,2024国内文本需求量约为200万张A100。

芯片替代英伟达可能性:训练侧没有厂商和英伟达抗衡,推理侧华为或能抗衡。1)国内:华为训练稳定性较好,但是价格上已经接近英伟达,其次生态侧差距明显。训练端生态差距尤其明显;推理侧生态可以满足需求。2)国外:AMD有一定的转换损失(20%以内),其次开发者数量、算子库差一些。英特尔性价比高,基本架构不如英伟达cuda,且整体的开发差很多。高通配合手机厂商的AI进程,手机端竞争力强。Google架构比较新,性能、定价高。特斯拉走存算一体架构,整体架构层面、高带宽、性能层做的比较好。

一、专家介绍行业近期情况

我是做视觉大模型的推理,同期大模型无论技术架构Genmini,OpenAI,Facebook,本质上都是向通用AGI发展,做到如何理解世界。当下阶段,短中期初始适用阶段有所应用区别,而后续每种技术可能各有优劣。Sora技术大家了解比较多,核心其在用的是多年前开发出的视觉表征技术,将其用在了大模型训练中,最后将两种架构(diffusion+transformer)进行融合,再叠加大量数据与算力,从而实现目前的比较有限的效果。而其后续若继续精细化模型任务,则需要多模态融合经验,融合多模态比技术架构更难克服。因为大的技术架构、数据表征是多年前的技术,更大是工程层面,丰富的视觉经验更为重要。其次,是否真的具有技术创新性,我们看到很多对外的demo,其理解物理规律的能力还比较初步,并没有真正理解。只是通过视觉数据驱动的物理引擎,大量视觉片段叠加强力文本理解能力,文本层面能够更好的做到理解一些物理规律,当下的视觉模型不具备对现实世界的映射。当下无论国内外,走向应用层时,在需要绝对精细化、安全的层面,不太能够使用目前的大模型。目前的大模型在游戏,娱乐,影视,沉浸式娱乐应用中,将更快的进行商业化。其次,工业中的数据管理也可能较快,比如消防、家电企业使用数据孪生做项目管理,进行任务建模和模型结合,而不涉及制造场景。最后,在教育场景,文本到视频做教学助教、VIP,提高学习效果与兴趣可能会较快进入商业化阶段,另外像广告营销,社交,文艺节目(短动画)等落地更快。有想象力的场景则更多是自动驾驶、机器人、游戏板块,虽然目前还存在一定的限制,比如超长上下文、世界模态、高质量数据集。目前sora可能不会专门做某个场景,还是偏视频创意,偏c端的整体应用,自动驾驶机器人更可能是机器人本行业公司率先冒头,甚至说英伟达等公司(有推理、测试、边缘计算)先把对应场景做出来。    

三大模型技术路线不同,本质都是往AGI走,Meta意识到视觉任务太多,分割、检测,其发现如果将视觉作为中间层,学习好这个中间层,就可以借助中间层完成上层任务的表征,这也更像人类理解世界的方式。我们也发现如果用这种方式做模型,在继续往垂类拓展时,对视频连续性的保证和动作预测都更加适用。Sora目前由于集合文本层面的理解能力(GPT4),想象空间更大一些,能够在看到一些东西后创造新的合理世界(Meta是看到即学到不会创造),天马行空能力强,官方也在偏创意方向推动(第一波推动)。后续则要加音频,在创意方向先行动。Google最近视觉侧模型有一些问题,但其在模型架构层面有优势,其超长上下文能力无论是文本侧、世界模型、多模态模型,都至关重要,是除算力、数据库外最重要的一部分,google一直在进行主流大模型架构的改进,比较可能将超长上下文能力上拓展为无限上下文,能通过一些引擎做出企业机器人、文生视频的数字人,这是整体三家模型的观点。

自动驾驶侧可能有比较好的应用,这是AI最大的单体应用场景,能够帮助进行数据维度融合,帮助我们增加训练功能。自动驾驶进行了四种技术迭代(BEV感知transfomer-时空序列-占用网络),该核心架构将有助于视觉侧的数据感知融合,sora大模型出现,能够很好的丰富数据维度的生成数量和差异度,尽管在生成质量上有一定的问题,但其能显著提升数据生成效率,个人认为有一定想象力。其次,其想做世界模型,世界模型发展到现在,最早基于视觉层面的规则,使用包含规则数据训练,该方法目前仍在应用。这种方式问题在于遇到自动驾驶问题,没有世界级的直观视觉经验。类似大模型能够帮助理解复杂场景,从认知层面去改善,相应驾驶、座舱层面互动中可能会有一定应用想象空间。

二、Q&A

Q:自动驾驶、工业落地很快,如果单纯用在娱乐上,与工业革命差距很大,如果从生产角度来说,转向工业自动化是不是好方向?而工业领域应用短期内没办法看到通用大模型产生的更多效率提升(工业领域机械化程度已经较高),因此,工业领域的突破和效率提升您怎么看?

A:模型侧和工业侧供求分析。sora模型侧进行数据理解、编辑能力,可以往工业级生产应用,meta将其放在感知、控制阶段。工业界自动化核心是满足节点形式复杂多样的连续任务,在这种情况下,大模型可能会向之前比较耦合的流程,比如硬件制造中工控poc,每种硬件的制造、开发框架都不一样,如果通过大模型全部接下来有难度。有些领域更需要个性化、精细化定制,如果在模型基础能力上做定制,模型能力则更容易应用。比如智能装配、智能焊接场景,需要一些比较算法,图像的指挥规划能力,这些场景都是依靠机器人的主观推断能力,这些场景中加入模型能力,效果不会特别明显,以前也已经有类似的场景。刚刚说的自动驾驶、家用机器人可能是更多的应用层突破方向。大模型助力工业级,对于意图的理解,如何转化为动作,可以看到西门子、奔驰、奥迪都有小范围应用,尽管目前效率提升,效果都存在问题,但是后续肯定会有对应解决方案。以及包括代码生成、构建大型知识库等,也是能够通过大模型帮助企业进行处理。    

Q:技术路线,尽管都基于transfomer架构,但是其中decoder、decoder+encoder路线也各不相同,未来模型会收敛还是进一步分化?

A:之前也有不同技术路线,大模型出来后纯decoder路线展示了一定的优势。如果纯用GPT寻找上下文本的关系,则通过decoder的方式,无论在效率、学习性能上都表现更好。视觉模型对于encoder与decoder都比较依赖,因为视觉模型需要进行多模态融合对齐,需要encoder帮助其表征到一个层面,这个层面维度可以自行定义。因此,视觉层面需要同时使用encoder与decoder。不同架构主要要看后续在多模态融合上,哪个架构能够在空间、时间、声音这5个维度进行融合、对齐,哪种架构对于多模态融合能力更强。其次,哪种架构对于不同类型数据的统一表征能力更强,哪种架构不会随着数据复杂度而变化,或者变化不那么陡峭,这是比较好的架构。训练侧主要是看多模态异构数据的融合和文字表征,这是其架构的核心能力,我们不需要知道有多少数据,是机器需要更多不同特征数据,我们需要做的是怎么将更多数据压缩至更少范围内,让机器有效学习,这是其目的。对外能力是做生成还是预测,视频摘要等,都是解决以上两个问题后才有的问题。

Q:开源、闭源情况,后续模型领域会成为谷歌、安卓双寡头?

A:当下,短期落地的都是闭源,开源是偏社区,个人场景进行。真正大型企业闭源用的多,未来开源是大势所趋,需要超强技术创新,才能做到像安卓生态这么好,背后核心是现阶段该技术体系内模型工具、数据、应用,有没有业务服务的技术跟进。推理端英伟达是闭源的,但是生态最好,其次开源或闭源都需要打造良好生态,生态做好了,开源闭源都可以。如果做好生态,大模型领域和操作系统类似,开源闭源都可以,如果做不好生态建设,还是可能用闭源,当前也是闭源居多,个人认为未来项目制、用户付费的比例可能达到30-50%。

Q:海内外算力需求,厂商自研取代英伟达的可能性?

A:目前我们看到的模型,视觉模型侧的算力需求,训练侧主要架构如果使是diffusion模型,加上transfomer后,算力需求不会差距很大,需求主要由参数量、数据量共同决定,再乘以全市场多少人做视觉模型(肯定也是大语言模型厂家做),需求较为恒定。模型参数量需要从技术层分析,视觉层面本身的信息表征能力不如文本丰富,文本背后无论是信息量、任务更复杂,视觉侧都是视觉动作的预测。视觉信息本身信息量(看到一张视频、图片,信息量是确定的)少于语言模型,结合上述架构,10亿参数就可以做小世界模型,OpenAI后续可能加入音频模态,参数可能做到上万亿。数据量级别视频数据量大于文本侧,文本大模型输入的数据不超过1000db,国外视觉模型大概输入数量在300-500万段,换算成tokens比文本大几十倍,从训练侧来看,最后参数量可能比文本侧多,因为其数据量惊人的多,且视觉学习是源源不断的。推理侧来看,做1min的视频,sora是关键帧加渲染,补齐,meta是每一帧预测,两者对显存端消耗还好,一张32G显卡可以服务4-5用户,一台服务器30-40个用户同步推理,整体需求量视觉比文本丰富很多。综合下来,视觉模型的需求量将1-2倍倍于文本需求量的卡,2024国内文本需求量约为200万张A100。    

替代英伟达可能性:1)国内:我们用华为、海光、寒武纪三家,华为训练稳定性稍微比英伟达好一些,但是价格上华为已经接近英伟达,其次生态侧差距明显。训练端,生态差距明显;推理侧生态、性价比较高,因为只做前向计算,推理侧目前生态、能力都可以满足需求。

2)国外:AMD最大问题是支持主流框架时需要转换,有一定的转换损失(20%以内),其次开发者数量、算子库差一些,优点是性价比大于华为,且在金融方面应用好,多边缘全覆盖。英特尔性价比不错,基本架构BN不如英伟达cuda,且整体的开发差很多。高通也做AI算力,更多是偏边缘与终端,高通着力解决如何将计算做的更高效,且安全隐私做的更好,能配合手机厂商的AI进程,竞争力强。Google架构比较新,通过定制化方式,性能、定价高,也有边缘端TBU,对于其中的光芯片都有软件控制。特斯拉也在做芯片、多边缘,存算一体架构,它发现该领域方式能走通,整体架构层面、高带宽、性能层做的比较好。

Q:长期与短期内谁能和英伟达抗衡?

A:训练侧很难抗衡。Google性能强,但是比较专用化,有自己的应用场景。推理侧,华为可以抗衡,训练侧华为即将推新卡,性能不错,但英伟达也要发新卡,只能慢慢追赶。互联网厂最近在买华为的卡,国内几个厂商华为在训练侧好些,推理侧三家差不多。国外:高通主要发力手机端,AMD偏工业、嵌入式。英伟达比较闭源,但是有用户粘性(之前用英伟达训练大模型的厂商会继续选择英伟达),其价格高、技术支持力度稍弱。

Q:一级市场投资大模型公司的热度情况,国内像百度、科大讯飞已经出现,小厂商建大模型的热度?

A:构筑大模型赋能产品的应用多些,但纯做大模型的比较少。比如清华系生数科技也在做智能图像,国内创业企业的特点是比较难追赶国外步伐。创业公司也能意识到文生视频模型重要,但还没有把功能做好的时候,就被OpenAI超过,国内外创业公司都有类似瓶颈,可能做到最后美图、Adobe等具有应用场景的公司,其结合大模型后更能创收。其他没有具体应用场景的公司,完全依靠大模型会落后,专注大模型领域可能走出来的是清华智谷、月之暗面,其操作、长上下文能力、场景理解能力更好,能知道客户的需求。这些创业公司比做通用大模型能够走出来的可能性大,而做开源的更容易在后续被取代。

Q:国内多模态大模型、文字部分,优势明显的厂家?

A:现在阶段还是技术比拼,视觉模型字节跳动,无论是算力还是抖音场景包括数据,以及研发投入(去年开始有100多人),虽然在大语言模型侧没有很多特点,但在视频侧可能研发成功。视频创意侧,美图秀秀优势明显,其对能力的更新换代,场景相对来说比较容易持续扩展,其去年年中开始应用AIGC,功能目前不断进行优化。其次,在教育、tob侧,科大讯飞文生视频在教学侧能够生成动态教学教程和教学视频,和产品更好绑定,这部分功能如果只拿语言模型做效果会差一些。清华智谷、月之暗面在国内技术侧能够产生突破效果。    

Q:图片、视频模型与文本语言模型相比,最主要的区别在哪里?之前看到的文生图、视频都是创业公司做,创业公司资源比较有限,本身参数规模小,但是语言模型参数规模很大,OpenAI也做的是语言为主,后续怎么看多模态模型与语言模型的区别,只有Genma、OpenAI这种多模态大模型能够生存,还是说类似stable diffusion这种单纯做多媒体文本的厂家也有自己的生存空间?

A:最后发展还是会做多种模态叠加(文本、视频),目前有企业出专门针对场景的语言、视频模型,但是该能力针对不同场景时都不太能够完全吻合,因为之后是靠的推理训练能力做生成,或其他相关视觉任务,而视觉任务很广泛,如果单一做一个模态,空间会小一些。如果专门针对企业做定制化文生图,文生视频功能,小型企业会很累,且做定制化的性价比不高。类似经理像国内创业公司一样,一边拿投资人的钱,一边做tob项目,没有积累核心技术,逐步形成恶性循环。国内真正做核心的通用模型需要的能力更高,小模型做定制化场景有限,而模型作为一种工具则需要更多应用场景。其次,如果想要在各个领域进行时间差领先,通用模型还是更快。最后,生产力的提升很重要,娱乐领域可能是昙花一现,后续必须往生产力上走,无论是物理识别、理解世界,都是通用模型更好。通用模型进行整个现实世界理解,模拟能力更强,无论是数字人、现实生活的文生数字技术,这个领域效果都更好,国内创业公司都是因为类似原因被干掉了,单一领域根本干不掉通用大模型。

Q:华为芯片、英伟达芯片对比,华为可用性接近英伟达,性价比高,这是从市场化采购角度,还是采购国产芯片会给与一定的补贴?以及寒武纪芯片的表现?

A:早期是有补贴形式,性价比非常高,现在大部分都没有补贴了,如果本身需要使用算力的公司,无论在华为上游、下游,都会使用华为的芯片,因为华为的软硬件方案、技术服务都不错。但如果没有和华为合作过,单纯用华为的算力,考虑到技术方面生态上的问题,对比价格后,性价比也不是很高。寒武纪我们用370进行推理,效果还不错,训练这边单看测试,算力端基础能力能到前3,其技术服务、产能上都有一定的缺陷,但和百度合作后可能会好一些,生态上和华为还有距离,这也是市场的普遍观点。

上一篇: 下一篇:

相关推荐

您好!请登录

点击取消回复
    展开更多
    1
    您有新消息,点击联系!