最新最快汽车新闻
太阳能光伏网

MIT科学家创建出STEGO算法 可无需人工监督为像素分配标签

据外媒报道,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)、微软和康奈尔大学(Cornell University)的科学家们创建出算法“STEGO”,可在完全没有任何人类标签的情况下共同发现和分割对象,乃至像素。

图片来源:MIT CSAIL

STEGO学习了“语义分割”——想象一下为图像中的每个像素分配标签的过程。语义分割是当今计算机视觉系统的一项重要技能,因为图像可能会被物体弄得杂乱无章。更具挑战性的是这些对象并不总是适合文字框。相对于植被、天空和土豆泥等,算法往往更适用于人和汽车等离散的“事物”。以前的系统可能只是将狗在公园里玩耍的细微场景视为狗,但通过为图像的每个像素分配一个标签,STEGO可以将图像分解为其主要成分:狗、天空、草和它的主人。

为了降低耗时,在没有人类帮助的情况下发现对象,STEGO会寻找出现在整个数据集中的相似对象。然后,它会将这些相似的对象关联在一起,以在它学习的所有图像中构建一致的世界视图。

看世界

可以“看到”的机器对于自动驾驶汽车和医疗诊断预测模型等各种新兴技术至关重要。由于STEGO可以在没有标签的情况下学习,它可以检测不同领域的对象,甚至是人类尚未完全理解的对象。

麻省理工学院电气工程和计算机科学博士生、麻省理工CSAIL的研究附属机构、微软的软件工程师,以及STEGO相关论文的主要作者Mark Hamilton表示:“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像,若没有专业知识,很难知道要寻找什么物体。在新兴领域,有时甚至人类专家也不知道什么是正确的对象。在这些情况下,我们想要设计一种在科学边界上运行的方法,而不是指望人类在机器之前搞清楚状况。”

视频来源:MIT CSAIL

STEGO在一系列视觉领域进行了测试,包括一般图像、驾驶图像和高空航拍照片。在每个领域,STEGO都能够识别和分割与人类判断密切相关的对象。 STEGO最多样化的基准是COCO-Stuff数据集,由世界各地的不同图像组成,从室内场景到运动的人,再到树木和奶牛。在大多数情况下,以前最先进的系统可以捕捉场景的低分辨率要点,但在精细细节上却差强人意:人是一团的、摩托车被识别为人,甚至还无法辨别所有鹅类。在相同的场景中,STEGO将先前系统的性能提高了一倍,并可发现动物、建筑物、人、家具等许多概念。

STEGO不仅在COCO-Stuff基准测试中将先前系统的性能提高了一倍,而且在其他视觉领域也取得了类似的飞跃。当应用于无人驾驶汽车数据集时,STEGO比以前的系统具有更高的分辨率和粒度,可成功分割出道路、人和路牌。在来自太空的图像上,该系统将地球表面的每一平方英尺分解为道路、植被和建筑物。

连接像素

STEGO,代表“基于能量的图优化的自我监督变压器(Self-supervised Transformer with Energy-based Graph Optimization)”,是建立在DINO算法之上,该算法通过ImageNet数据库中的1400万张图像了解世界。STEGO通过一个学习过程来完善DINO骨干,该过程模仿我们自己将世界的各个部分拼接在一起以产生意义的方式。

例如,人可能会想象两张狗在公园里散步的图像。尽管它们是不同的狗,拥有不同的主人,在不同的公园,STEGO依然可以(不依靠人类)分辨出每个场景的对象是如何相互关联的。研究院甚至探究了STEGO的大脑,想知道图像中每个棕色毛茸茸的小东西有何相似之处,以及与草和人等其他共享对象的相似之处。通过跨图像连接对象,STEGO构建了一致的单词视图。

Hamilton表示:“这些类型的算法可以在很大程度上以自动化的方式找到一致的分组,因此我们人类不必自己这样做。理解复杂的视觉数据集(如生物图像)可能需要数年时间,但如果我们能够避免花费1,000小时梳理数据并对其进行标记,我们就可以找到并发现我们可能错过的新信息。我们希望这将有助于我们以更经验为基础的方式理解视觉词。”

图片来源:MIT CSAIL

展望未来

尽管进行了改进,STEGO仍然面临着一定的挑战。一是标签可以是任意的。例如,COCO-Stuff数据集的标签区分了像香蕉和鸡翅这样的“食物”和像玉米片和意大利面这样的“食物”,STEGO并没有看到太大的区别。在其他情况下,STEGO也会对奇怪的图像困惑,比如一个香蕉坐在电话接收器上,而接收器被标记为“食品”而不是“原材料”。

未来,研究人员计划探索为STEGO提供更多的灵活性,而不仅仅是将像素标记为固定数量的类别,因为现实世界中的事物有时可能同时是多个事物(例如“食物”、“植物”和“水果”)。研究人员希望这将为算法提供不确定性、权衡和更抽象思维的空间。

Hamilton表示:“在制作用于理解潜在复杂数据集的通用工具时,我们希望这种类型的算法可以自动化从图像中发现对象的科学过程。在不同的领域中,人工标记的成本过高,或者人类根本不知道具体的结构,例如某些生物和天体物理学领域。我们希望未来能够应用于较为广泛的数据集。由于不需要任何人工标签,我们现在可以开始更广泛地应用ML工具。”

最新相关
特斯拉智驾,镰刀终落下

特斯拉智驾,镰刀终落下

迈入2026年,特斯拉可谓各种操作不断。以中国市场为例,通过类似七年超低息、限时保险补贴的促销政策,试图撬动那些尚处观望中的终端消费者,打一场"开门红"。与此同时,随着"廉价版"Model 3本周位...

特斯拉Robotaxi事故率为人类9倍

近日,特斯拉在2025年第四季度财报电话会议上描绘了自动驾驶未来的宏大蓝图,其CEO马斯克甚至要停产特斯拉Model S和X,以腾出产能为Optimus机器人与Robotaxi让路,并计划在2026年将服务扩展至数十...

优秀不止于好用料 林肯MKZ底盘解析

优秀不止于好用料 林肯MKZ底盘解析

林肯在用料方面一直都是出了名的“豪气”,当然一道色香味俱全的佳肴除了好的食材之外,还需要厨子精心炮制;之前也接触过林肯在国内投放的全系车型,在底盘调教确实是有自己的一套心...

称得上一丰旗舰?丰田亚洲龙双擎底盘解析

称得上一丰旗舰?丰田亚洲龙双擎底盘解析

一汽丰田亚洲龙自上市以来,一直冠以一丰旗舰的身份,在之前一丰旗舰车型一直属于皇冠,皇冠的品质得到了大家的公认,说是旗舰是名副其实的,而亚洲龙在一汽丰田属于一个全新的车型,在国人消费者中...

舒适从何而来? 东风日产轩逸底盘解析

舒适从何而来? 东风日产轩逸底盘解析

轩逸,在东风日产产品阵列中,属于销量最高的单一车型,销量比例占到了所有车辆销量总和的四成。在这样销量成绩的背后,少不了产品力以及精准市场定位给这台车的背书。在设计以及驾驶各个方面,我...

挑战极致舒适 荣威RX5 PLUS底盘解析

挑战极致舒适 荣威RX5 PLUS底盘解析

2020年绝对是荣威品牌的大年,随着荣威新狮标与全新R标的发布,原先狮标下的所有车型将迎来全新产品,荣威RX5 PLUS成为上汽荣威品牌全新战略之下的排头兵。之前发布了荣威RX5 PLUS的外观内饰,全...

比肩豪华水准 别克昂科旗静音与音响体验

比肩豪华水准 别克昂科旗静音与音响体验

别克品牌在汽车静音方面有口皆碑,别克昂科旗作为别克品牌全新中大型旗舰SUV,昂科旗与昂科旗艾维亚的静谧性也需要由标杆级别的表现,今天我们将面对每一片隔音垫,了解别克昂科旗在隔音方面所作...

迭代升级之作 江淮嘉悦X7底盘解析

迭代升级之作 江淮嘉悦X7底盘解析

作为江淮乘用车布局3.0时代的首款SUV产品,定位中型SUV的嘉悦X7在刚过去的4月已经上市,定价8.98-11.98万元。此前我们已对嘉悦X7进行了体验,驾驶后编辑觉得嘉悦X7可以说是诚意满满的。不过车好...