Neural Lineage

Neural Lineage

Notes

摘要

提出了两种方法:

  1. 一种 learning-free 方法,将“fine tune过程的近似”集成进基于相似度的谱系检测
  2. 学习方法,表征好后丢给Transformer

引言

背景

  • Pretrain-and-finetune范式已经取代了Train from scratch,Deep learning models are no longer isolated
  • 多种Model Zoo/Repo的应用织出了一张庞大而多样的模型网络

任务定义

从一堆condidate parent models ${f_p^{(m)}}^M_{m=1}$中找出child model $f_c$ 是从哪个$f_p^{(m)}$微调出来的

可能的应用

  • model reuse
    • 了解知识的继承,揭示泛化性、鲁棒性、偏见和公平性
  • IP protection
  • model regulation
    • 追迹、问责、监管

相关工作

  1. IP保护
    1. 和IP保护有一些显著的区别:IP保护是2分类任务,即一个模型是不是侵犯了某个模型的IP;谱系检测时多分类,要识别哪个是母亲
    2. 目前IP检测解决方案中多使用external media,需要extra training,optimization or search。谱系检测不希望对模型有额外编码、修改或嵌入水印
    3. IP保护语境中,“将finetune视为一种攻击方法”,往往采用小学习率和小轮数,只在同一个数据集上重新训 (?)
  2. 神经网络表示相似性
  3. 神经网络线性化

实验章节

分类任务(Cifar10、MNIST)

Setup

模型结构 采用两种:

  • 三层全连接(FC)加一个ReLU
  • ResNet18

选用这两种网络的主要原因:

  • 为了得到足够多的模型,构建代系数据集。因为要微调很多很多模型,所以模型小一点方便构建
  • 全连接网络更符合他们learning-free方法的设定,可以在相对理想的条件下测试他

注意:用全连接层训练的网络,可以泛化并推断ViT的谱系

数据集

  • Parent (train from scratch):
    • FC网络:20个来自MNIST 12个来自Cifar100
    • ResNet18:7个来自timm (ImageNet Pretrained)
  • Child
    • FMNIST, EMNIST-Letters, Cifar10, Pet, DTD

区别不同模型的方式(模型之间的区别)

  • 随机种子
  • 超参数

Q:为什么调超参数?网络的灵魂不是数据集和训练策略吗?

A:用调超参数来构造 如果认为不同数据集/不同训练策略的微调才能区别子模型,那么任务将会过于简单,各种数据集上都是100%不太好看,也不太能和baseline区分

  • 子母模型训练细则

    对于20个MNIST上的FC网络,采用了3种batch size,3种学习率和4个随机数种子,训练了50轮,得到了334=36个模型,选取了Acc top 20. 这是20个FC母网络

    在这20个母网络上,以3种学习率,2种batch size,4个随机种子,两个数据集F/E-MNIST上,训练36轮,每种数据集上得到480个子模型,选取acc高于80%的模型,每个数据集得到了228个子模型

其他

train : validation : test = 7 : 1 : 2

5 fold 取平均

主要实验观察

  1. learning-based 方法显著好于 learning-free,平均高36个百分点
  2. learning free中,总体上大家表现参差不齐
  3. few-shot时谱系检测比完整微调要简单
  4. 提高学习率和微调epoch数会提高learning free方法的检测难度,但对learning based方法影响不大

Detection & Segmentation

采用了DETR_ResNet50模型,Segmentation的谱系检测率普遍偏低

ViT-Base HyBird Model

采用了FC网络上训练的网络,去检测混合的ViT模型

母模型:We concatenate the sub-network of the hybrid model before the i-th transformer layer with the i-th transformer layer of each of the nine parent models

子模型: the sub-network of the hybrid model up to the i-th transformer layer is regarded as the child model

只采用了该层的中层特征去检测