【今日要闻】智能科技前沿：视觉-语言-动作协同驱动下的机器人与自动驾驶革新

469

2025-03-19 00:02:56

RobotSense: 智体(tǐ)科(kē)技(jì)开(kāi)创(chuàng)视(shì)觉(jué)-语(yǔ)言(yán)-动(dòng)作(zuò)协(xié)同(tóng)的(de)Robotaxi决(jué)策(cè)新(xīn)范(fàn)式(shì)

该(gāi)部(bù)分(fēn)由(yóu)三(sān)个(gè)子(zi)模(mó)块(kuài)组(zǔ)成(chéng)： 1、高(gāo)效(xiào)的(de)视(shì)觉(jué)编(biān)码(mǎ)器(qì)：用(yòng)于(yú)从(cóng)图(tú)像(xiàng)中(zhōng)提(tí)取(qǔ)特(tè)征(zhēng)信(xìn)息(xi)。可(kě)以(yǐ)使(shǐ)用(yòng) ViT、Swin Transformer 等(děng)🍬·中国 Transformer 模(mó)型(xíng)提(tí)取(qǔ)图(tú)像(xiàng)特(tè)征(zhēng)，以(yǐ)提(tí)高(gāo)图(tú)像(xiàng)处(chù)理(lǐ)的(de)效(xiào)率(lǜ)和(hé)准(zhǔn)确(què)性(xìng)。2、Robotaxi视(shì)觉(jué)适(shì)配(pèi)器(qì)：该(gāi)视(shì)觉(jué)适(shì)配(pèi)器(qì)将(jiāng)图(tú)像(xiàng)特(tè)征(zhēng)映(yìng)射(shè)到(dào) LLM 的(de)特(tè)征(zhēng)空(kōng)间(jiān)，使(shǐ)其(qí)更(gèng)适(shì)合(hé)被(bèi) LLM 理(lǐ)解(jiě)和(hé)使(shǐ)用(yòng)。具(jù)体(tǐ)方(fāng)法(fǎ)是(shì)通(tōng)过(guò)图(tú)像(xiàng)查(chá)询(xún)对(duì)图(tú)像(xiàng)特(tè)征(zhēng)进(jìn)行(xíng)编(biān)码(mǎ)，并(bìng)结(jié)合(hé)多(duō)头(tóu)自(zì)注(zhù)意(yì)力(lì)机(jī)制(zhì)，捕(bǔ)捉(zhuō)不(bù)同(tóng)视(shì)角(jiǎo)图(tú)像(xiàng)特(tè)征(zhēng)之(zhī)间(jiān)的(de)关联(lián)性(xìng)，输(shū)出(chū)精(jīng)简(jiǎn)后(hòu)的(de)图(tú)像(xiàng)标(biāo)记(jì)。3、LLM（大(dà)型(xíng)语(yǔ)言(yán)模(mó)型(xíng)）：通(tōng)过(guò) LLM。

**智(zhì)能(néng)科(kē)技(jì)前(qián)沿(yán)：视(shì)觉(jué)-语(yǔ)言(yán)-动(dòng)作(zuò)协(xié)同(tóng)驱(qū)动(dòng)下(xià)的(de)机(jī)器(qì)人(rén)与(yǔ)自(zì)动(dòng)驾(jià)驶(shǐ)革(gé)新(xīn)**

人(rén)形(xíng)机(jī)器(qì)人(rén)热(rè)潮(cháo)席(xí)卷(juǎn)全球(qiú)，最(zuì)强(qiáng)投(tóu)资(zī)主线(xiàn)将(jiāng)是(shì)“视(shì)觉(jué)感(gǎn)知(zhī)系(xì)统(tǒng)”?

高(gāo)盛(shèng)表(biǎo)示(shì)，人(rén)形(xíng)机(jī)器(qì)人(rén)的(de)视(shì)觉(jué)感(gǎn)知(zhī)系(xì)统(tǒng)需(xū)要(yào)立(lì)体(tǐ)级(jí)别(bié)摄(shè)像(xiàng)头(tóu)、ToF摄(shè)像(xiàng)头(tóu)和(hé)激(jī)光(guāng)雷(léi)达(dá)等(děng)3D深(shēn)度(dù)技(jì)术(shù)，该(gāi)行(xíng)业(yè)发(fā)展(zhǎn)有(yǒu)助(zhù)于(yú)摄(shè)像(xiàng)头(tóu)供(gōng)应(yīng)商(shāng)摆(bǎi)脱(tuō)竞(jìng)争(zhēng)激(jī)烈(liè)的(de)消(xiāo)费(fèi)电(diàn)子(zi)竞(jìng)争(zhēng)市(shì)场(chǎng)，同(tóng)时(shí)夜(yè)视(shì)、防(fáng)碰(pèng)撞(zhuàng)与(yǔ)外(wài)力(lì)等(děng)新(xīn)功(gōng)能(néng)可(kě)提(tí)升(shēng)产(chǎn)品(pǐn)均(jūn)价(jià)。高(gāo)盛(shèng)在(zài)这(zhè)份(fèn)研(yán)报(bào)中(zhōng)予(yǔ)以(yǐ) $📀地(de)平(píng)线(xiàn)机(jī)器(qì)人(rén)-W (09660.HK)$ 与(yǔ) $韦(wéi)尔(ěr)股(gǔ)份(fèn) (603501.SH)$ “买(mǎi)入(rù)”评(píng)级(jí)，同(tóng)时(shí)予(yǔ)以(yǐ)在(zài)中(zhōng)国(guó)台(tái)湾(wān)股(gǔ)市(shì)上(shàng)市(shì)的(de)大(dà)立(lì)光(guāng)电(diàn)以(yǐ)及(jí)鸿(hóng)海(hǎi)精(jīng)密(mì)“买(mǎi)入(rù)”评(píng)级(jí)。高(gāo)盛(shèng)表(biǎo)示(shì)，地(de)平(píng)线(xiàn)机(jī)器(qì)人(rén)2025年(nián)成(chéng)立(lì)机(jī)器(qì)人(rén)子(zi)公(gōng)司(sī)“地(de)瓜(guā)机(jī)器(qì)人(rén)”，推(tuī)出(chū) Sunrise 5 SoC芯(xīn)。

奥(ào)比(bǐ)中(zhōng)光(guāng)：2月(yuè)17日(rì)组(zǔ)织(zhī)现(xiàn)场(chǎng)参(cān)观(guān)活(huó)动(dòng)，包(bāo)括(kuò)知(zhī)名机(jī)构(gòu)聚(jù)鸣(míng)投(tóu)资(zī)，明(míng)达(dá)资(zī)产(chǎn)的(de)多(duō)家(jiā)机(jī)构(gòu)参(cān)与(yǔ) 证(zhèng)券(quàn)之(zhī)星(xīng)消(xiāo)息(xi)，2025年(nián)2月(yuè)18日(rì) 奥(ào)比(bǐ)中(zhōng)光(guāng) （688322）发(fā)布(bù)公(gōng)告(gào)称(chēng)公(gōng)司(sī)于(yú)2025年(nián)2月(yuè)17日(rì)组(zǔ)织(zhī)现(xiàn)场(chǎng)参(cān)观(guān)活(huó)动(dòng)，嘉(jiā)实(shí) - 雪(xuě)球(qiú)

2025年(nián)10月(yuè)，公(gōng)司(sī)在(zài)丹(dān)麦(mài)举(jǔ)办(bàn)的(de)ROSCon大(dà)会(huì)正(zhèng)式(shì)推(tuī)出(chū)OrbbecPerceptorDeveloperKit（OPDK）开(kāi)发(fā)套(tào)件(jiàn)，其(qí)预(yù)装(zhuāng)英(yīng)伟(wěi)达(dá)IsaacPerceptor+四(sì)台(tái)奥(ào)比(bǐ)中(zhōng)光(guāng)Gemini335L相(xiāng)机(jī)，可(kě)提(tí)供(gōng)360度(dù)全景(jǐng)视(shì)野(yě)和(hé)功(gōng)能(néng)丰(fēng)富(fù)的(de)即(jí)开(kāi)即(jí)用(yòng)系(xì)统(tǒng)，助(zhù)力(lì)下(xià)游(yóu)I应(yīng)用(yòng)开(kāi)发(fā)。上(shàng)述(shù)开(kāi)发(fā)套(tào)件(jiàn)的(de)每(měi)台(tái)相(xiāng)机(jī)内(nèi)置(zhì)奥(ào)比(bǐ)中(zhōng)光(guāng)自(zì)研(yán)的(de)MX6800芯(xīn)片(piàn)，支(zhī)持(chí)深(shēn)度(dù)处(chù)理(lǐ)功(gōng)能(néng)，确保终端在各类环境中得以高效运行；此外，该开发套件与英伟达JetsonGXOrin系统模块无缝集成，具备高达275TOPS。

RobotSense: 智体科技开创视觉-语言-动作协同的Robotaxi决策新范式|无人驾驶|端到端|图像_新浪科技_新浪网

该部分由三个子模块组成： 1.高效的视觉编码器：用于从图像中提取特征信息。可以使用 ViT、Swin Transformer 等 Transformer 模型提取图像特征，以提高图像处理的效率和准确性。2.Robotaxi视觉适配器：该视觉适配器将图像特征映射到 LLM 的特征空间，使其更适合被 LLM 理解和使用。具体方法是通过图像查询对图像特征进行编码，并结合多头自注意力机制，捕捉不同视角图像特征之间的关联性，输出精简后的图像标记。3.🔺LLM（大型语言模型）：通过 LLM。

中邮·机械|人形机器人系列专题（十）：视觉传感器——人形机器人视觉感知交互硬件

可以看到，不少人形机器人选用3D视觉方案以保证人形机器人的环境感知及交互能力。Boston Dynamics的Atlas采用RGB摄像🈯·中国头+ToF深度相机，优必选采用RGBD+双目相机，傅利叶的GR-1采用深度相机，开普勒的先行者系类采用3D视觉+鱼眼环视相机，小米的CyberOne配备了自研空间视觉模组+AI交互相机。大部分案例均使用3D视觉传感器，各类型的深度相机被广泛使用，部分厂商的方案同时搭配了激光雷达，如Agility Robotics的Digit、宇树的H1、智元的。

推荐新闻