ICLR 2023杰出论文奖得【dé】主分享:适配任意密集【jí】预测任务【wù】的通用小样本学【xué】习【xí】器【qì】

2024-9-20 11:28:23来源:新智元

国际【jì】学习表征会议【yì】 ICLR(International Conference on Learning Representations),被公认为当前最具影响力【lì】的机器学习国【guó】际【jì】学【xué】术会【huì】议之一。

在今年的 ICLR 2023 大会上,微软亚洲研究【jiū】院发表了在【zài】机器学习【xí】鲁棒性、负【fù】责【zé】任的人工智能【néng】等领【lǐng】域【yù】的最新研究成果。

其中,微软亚【yà】洲【zhōu】研究院与【yǔ】韩国【guó】科学技术【shù】院【yuàn】(KAIST)在双方学术合作框架下的科研合作【zuò】成果【guǒ】,因出色的【de】清晰性、洞察力、创【chuàng】造力【lì】和潜在的持久影响获评【píng】 ICLR 2023 杰【jié】出论文奖。


(相关资料图)

论【lùn】文地址:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密集预测任务是计【jì】算机视觉领域的【de】一类重要任务,如语义【yì】分割、深度估计、边缘检测【cè】和关【guān】键点检测等。对于这类任务【wù】,手动【dòng】标注像素级标签面临着【zhe】难【nán】以承受的巨额【é】成本。因【yīn】此,如何从少量【liàng】的【de】标注【zhù】数据中学习并作出准确预测,即小样【yàng】本学【xué】习【xí】,是该领域备受关注的课题。近年【nián】来,关于小样本学习的研究不断【duàn】取【qǔ】得突【tū】破,尤【yóu】其是一【yī】些【xiē】基于元学习和对抗学习的方【fāng】法,深受【shòu】学术界的关注和欢迎【yíng】。

然而,现有的计算机【jī】视【shì】觉小样本学习方法一般针对【duì】特定【dìng】的某类任务,如【rú】分类【lèi】任务【wù】或语义分割任务。它们通常在设计模【mó】型架构【gòu】和训练过【guò】程中利用特定于这些任务【wù】的先验【yàn】知识和假设,因此【cǐ】不适合推广【guǎng】到任意【yì】的【de】密【mì】集预测任务【wù】。微软亚洲研【yán】究院【yuàn】的研究员们希望探究一个核心问题:是【shì】否存在一种通用的【de】小样本【běn】学习器【qì】,可以从少量标记图【tú】像中学习任意段未【wèi】见【jiàn】过的密集预测任务。

一个密集预【yù】测任【rèn】务的【de】目标是学习从【cóng】输入图像到【dào】以像素为单位注释的标签【qiān】的映射【shè】,它可以被定义为【wéi】:

其【qí】中 H 和 W 分别是图像【xiàng】的高与宽【kuān】,输【shū】入图像一般包含 RGB 三个通道,C_Τ 表示输出通【tōng】道的数目。不同【tóng】的密集预测任务【wù】可能涉及不同的输出通道数目和通道属性,如语义分【fèn】割任【rèn】务的输出是多通道二值的,而【ér】深度【dù】估计任务的【de】输【shū】出是单【dān】通道【dào】连续值的。一个通用的小【xiǎo】样本【běn】学习器 F,对于任【rèn】何这样的任务 Τ,在给定【dìng】少量标记样本支持集 S_Τ(包含【hán】了 N 组【zǔ】样本 X^i 和标注 Y^i)的【de】情况下,可以为【wéi】未见过【guò】的查【chá】询图像 X^q 产生预测【cè】,即【jí】:

如【rú】果存【cún】在适配【pèi】任意密集预测任务的通用小样【yàng】本学【xué】习器【qì】,那么必须满足【zú】以下期望:

首先【xiān】,它必【bì】须具备 e 统一【yī】的体系结【jié】构。该结构能够处理【lǐ】任意密集预测任务,并共享大多数【shù】任务所需的参数,以便【biàn】获取可泛化的知识,从而能以【yǐ】小量样【yàng】本学习任【rèn】意未见【jiàn】过的【de】任【rèn】务。其次,学【xué】习器应【yīng】该灵【líng】活地调整其预测机制,以【yǐ】解决具有各【gè】种语义的【de】未见过的任务,同时【shí】足够高效,以防【fáng】止【zhǐ】过度拟合。

因此,微软亚洲研究【jiū】院的【de】研【yán】究【jiū】员们设计并实【shí】现【xiàn】了小样本学习器视觉token匹配【pèi】 VTM(Visual Token Matching),其可用于任意的密集预【yù】测任务。这是首个适配所有密集预测任务的小样本学习器,VTM为计算机视【shì】觉中密集预【yù】测任务【wù】的处理以及【jí】小样本学【xué】习【xí】方法打开了全新的思路。该工作获得了ICLR 2023 杰出论文奖

VTM 的设计灵感【gǎn】源于【yú】类比人类的【de】思维过【guò】程:给定【dìng】一【yī】个新任务的【de】少【shǎo】量示【shì】例,人类可以根【gēn】据示【shì】例之间的相似性快速将【jiāng】类似的输【shū】出分配【pèi】给类似的输【shū】入,同时也【yě】可以【yǐ】根据给定的上下文灵活变【biàn】通输入和输出之间在哪些层【céng】面相似。研究员们使用基于【yú】图像【xiàng】块(patch)级别的非参数匹配【pèi】实现了密【mì】集预【yù】测的类比过程。通过训练,模型被启发出了捕【bǔ】捉图【tú】像【xiàng】块中相似性的能力。

给定【dìng】一【yī】个新任务的少【shǎo】量标【biāo】记【jì】示例,VTM 首先会【huì】根据给定的【de】示例以及示例的【de】标签调【diào】整其对【duì】相似性的理解,从示例图像块中锁【suǒ】定与待预测【cè】图像块相似的图像块,通过组合它们的标签来预测【cè】未见过的图像块的【de】标【biāo】签【qiān】。

图1:VTM 的整体架构

VTM 采用分层的【de】编码器-解码器【qì】架构,在多个【gè】层【céng】次上实现了基于【yú】图【tú】像块的非参数匹配。它主要由四个【gè】模块组成,分别【bié】为图像编码器【qì】 f_Τ、标签编【biān】码器 g、匹配【pèi】模【mó】块和标签解【jiě】码器 h。给定查询图像和支持集【jí】,图像编码器首先【xiān】会【huì】独立地【dì】提取每个查【chá】询和支持图像的图像块【kuài】级表达。标签编码器也会类似地提取每个支【zhī】持【chí】标签的标记。在每【měi】个层次的标记给定【dìng】后,匹配模块会执行非参数【shù】匹配,最【zuì】终【zhōng】由标签解【jiě】码器【qì】推断出查询图像的标签【qiān】。

VTM 的本质是一个【gè】元学习方法。其训练由【yóu】多个【gè】 episode 组成【chéng】,每个【gè】 episode 模拟【nǐ】一个小样本学习问题。VTM 训练【liàn】运用到【dào】了元训【xùn】练【liàn】数据集【jí】 D_train,其中包含多种【zhǒng】有标签的密集预测任务【wù】示例。每个训练 episode 都会模拟数据集中特定任务 T_train 的【de】小样本学习场景【jǐng】,目【mù】标【biāo】是在给定支【zhī】持集的条件下,为查【chá】询图像产生正确【què】的标签。通过【guò】多个小样本【běn】学【xué】习的经验,模型能够学习到通【tōng】用【yòng】的知识,以【yǐ】便快速、灵活地适应新【xīn】的【de】任务。在测试时,模型需要在训练数据集 D_train 中未包【bāo】含的任意任【rèn】务 T_test 上【shàng】进行小样本学习。

在处理任意任务【wù】时【shí】,由【yóu】于元训练和【hé】测试中的每个任务的输【shū】出维【wéi】度 C_Τ 不同【tóng】,因此使得为所有任务设计统一的通用模型参【cān】数【shù】成【chéng】为了【le】巨大挑战。为【wéi】了【le】提供一个简单而普适的解【jiě】决方案,研究员们将任务转换为 C_Τ 个单通道子任务,分别【bié】学习每个通道【dào】,并使【shǐ】用共享的模【mó】型 F 独立地对【duì】每【měi】个子【zǐ】任务【wù】进行建模。

为了【le】测试【shì】 VTM ,研究员们还特别【bié】构建了 Taskonomy 数据集的一个变种,从而【ér】模【mó】拟未见过的密集预测任务的小样本【běn】学习【xí】。Taskonomy 包含各【gè】种标注过【guò】的室内图像【xiàng】,研究员们【men】从【cóng】中选择了十个具有【yǒu】不同语义和输出维度的密【mì】集【jí】预【yù】测任务,将其分为五部分用于交叉验证。在每个【gè】拆分方式【shì】中,两【liǎng】个任务用【yòng】于小样本评估(T_test),其余【yú】八个任务用于【yú】训练(T_train)。研【yán】究员【yuán】们仔细构造了【le】分区,使得训练【liàn】和测试任务彼此有足够的【de】差异,例【lì】如将边缘任【rèn】务(TE,OE)分组为测试任务,以便对新【xīn】语义的任【rèn】务【wù】进行评估。

表1:在 Taskonomy 数据集上的定量比【bǐ】较( Few-shot 基【jī】线在训练了【le】来自其他分区的任务后,在【zài】需【xū】测试的【de】分区任务上【shàng】进行【háng】了 10-shot 学习,其中完全监督的【de】基线【xiàn】在每个 fold(DPT)或所有 fold(InvPT)上训练和评估了【le】任务)

表1和图2分别定量与定性地【dì】展示了 VTM 和两类基线模型在十个密集【jí】预【yù】测任【rèn】务上【shàng】的小样本学习性能。其中,DPT 和 InvPT 是【shì】两【liǎng】种【zhǒng】最先进的【de】监督学习方【fāng】法【fǎ】,DPT 可独立【lì】地【dì】针【zhēn】对每个单一【yī】任务进行训练,而 InvPT 则【zé】可以联【lián】合训练所有【yǒu】任务。由于【yú】在 VTM 之前【qián】还没有针对通用密集预测【cè】任务开发的【de】专用小样本【běn】方法【fǎ】,因此研究员们将【jiāng】 VTM 与三种【zhǒng】最先进的小样本分【fèn】割方法,即 DGPNet、HSNet 和【hé】 VAT,进【jìn】行对【duì】比,并把它们拓展到处理【lǐ】密集预测任务的一般标签空间【jiān】。VTM 在训练期间没有访问测试任务 T_test,并且【qiě】仅在测试时【shí】使用了少量【liàng】(10张)的标记图像,但【dàn】它却【què】在所有小样本基线模型中表现得最好,并且在许多任【rèn】务中的【de】表现都【dōu】具备与【yǔ】全监督基线模型比较的竞争力【lì】。

图2:在 Taskonomy 的十个密集预测任务中【zhōng】,在新任务【wù】上仅提【tí】供【gòng】十张标记图像【xiàng】的小样本学习【xí】方法的【de】定性比较【jiào】。在其他【tā】方法失败的情况下, VTM 成功地【dì】学习了所有具有不同语义和【hé】不同【tóng】标签表示的新任务。

在图2中【zhōng】,虚线上【shàng】方的分【fèn】别是真实标签和两种监督学【xué】习方法【fǎ】 DPT 和【hé】 InvPT。虚线下方的是小样本学习【xí】方【fāng】法。值得注意【yì】的是,其【qí】他小样本基线在新任务上出现【xiàn】了灾难性的【de】欠拟合,而【ér】 VTM 成功地学习了所有任务。实验【yàn】说明,VTM 可以在极少量【liàng】的标记示【shì】例(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用于任意密集预测任务,因为匹配算法本质上包含所有任【rèn】务【wù】和标签结【jié】构【gòu】(例【lì】如,连续【xù】或离散)。此外,VTM 仅【jǐn】引【yǐn】入了少量的任【rèn】务特定参数,就能具备抗【kàng】过拟合【hé】性与灵活性。未来研究员们希望进一步探【tàn】究预训练【liàn】过程中的任务【wù】类型【xíng】、数据量、以及数据分布对模型【xíng】泛化性能的【de】影【yǐng】响【xiǎng】,从而【ér】帮【bāng】助我【wǒ】们构【gòu】建一个真正普适的【de】小【xiǎo】样本学习器。

为你推荐

最新资讯

股票软件