【今日要闻】机器人视觉技术革新：从2D到3D，AI大模型赋能智能导航与深度感知

347

2025-07-15 16:02:55

奥比中光获53家机构调研：截至2025年6月30日，公司专利申请总量约1,682项，取得授权专利747项，其中发明专利296项（附调研问答）

问：近两年以ChatGPT为代表的各类人工智能大模型快速推动机器人智能性提升，将有望大幅推动机器人产业商业化落地，公司为众多机器人客户供应3D视觉解决方案，有自己开发机器人相关大模型吗？答：机器人业务方向是公司近年及未来重点布局和发展的重要战略方向之一。公司正在搭建机器人视觉产业技术中台，其中，“AI视觉感知和多模态交互大模型”旨在为机器人赋予智能化的“机器人之眼”，让机器人在“看到世界”的基础上进一步“看懂世界”。一方面，针对当🈵前机器人视觉复杂场景应用痛点问题，公司研发抗强。

**机器人视觉技术革新：从2D到3D，AI大模型赋能智能导航与深度感知**

基于图像识别的机器人混拆码技术与应用

机器视觉的核心技术是图像识别，传统的图🍌·中国像识别主要通过图像预处理、特征提取以及图像识别三个步骤来实现。虽然三个步骤都会影响识别效果，但其中最关键的要素是特征提取，主要通过基于色彩、纹理、形状、空间等底层视觉特征技术实现特征提取。人工智能、深度学习技术越来越多地应用于机器视觉，也为图像识别带来全新的思路[2]。工业机器人联合机器视觉进行目标定位引导这一方案已经在诸多领域被广泛应用，但对于多SKU或场景设施导致的高光问题、自然光线不稳定造成的图片光照不均等问题关注度不足，且就双阶段。

视觉传感器作为人形机器人的“眼睛”，根据图像信息获取维度、处理数据类型的不同，可分为2D视觉与3D视觉。2D视觉通过工业 - 雪球

视觉传感器作为人形机器人的“眼睛”，根据图像信息获取维度、处理数据类型的不同，可分为2D视觉与3D视觉。2D视觉通过工业... - 雪球视觉传感器作为人形机器人的“眼睛”，根据图像信息获取维度、处理数据类型的不同，可分为2D视觉与3D视觉。 2D视觉通过工业相机来获取平面图片，基于物体的平面特征进行分析，但无法获取空间坐标信息。 3D视觉能够采集视野内空间每个点位的三维坐标信息，通过算法获取三维立体成像，并分析出目标在空间中的位置、🌽·中国形状、体积、平面度等信息。国内3D视觉感知。

视觉-语言大模型助力机器人导航升级更加智能高效！

通过在🧩机器人室内外导航数据上进行视觉数据抽取和语言指令标注，并对模型进行拟合，机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。打开网易新闻查看更多图片在数据基础方面，团队还通过仿真数据合成的方式解决了现有导航训练数据存在的问题。他们设计了新颖的生成式扩散模型，可以合成大量、多样化、高质量的视觉数据和相关的语言描述，从而有效增加训练数据的多样性，提高模型在处理复杂、未见场景时的鲁棒性。打开网易新闻，阅读体验更佳视觉导航机器人大模型目前还没有跟贴，欢迎发表。

一周解一惑系列：机器人大脑算法迭代对视觉方案的影响

单目视觉深度感知线索通常有：透视、焦距差异、多视觉成像、覆盖、阴影、运动视差等。在机器人视觉里还可以用镜像1，以及其他shapefromX10等方法实现。双目视觉深度感知视觉线索有：眼睛的收敛位置和双目视差。在机器视觉里利用两个相机从两个视点对同一个目标场景获取两个视点图像再计算两个视点图像中同名点的视差获得目标场景的3D深度信息。典型的双目立体视觉计算过程包含下面四个步骤：图像畸变矫正、立体图像对校正、图像配准和三角法重投影视差图计算，如下图。多目视觉成像即多视(shì)点(diǎn)立(lì)体(tǐ)成(chéng)像(xiàng)，。

推荐新闻