[CVPR2021]Model-Contrastive Federated Learning

Author： Kuludu
发布时间：July 12, 2022
2307 views
One comment
2428 words
Categories：技术文章智能科学

~~省流：改进了loss。~~

创新点

借鉴NT-Xent loss（下图），改进了损失函数，实现了模型级的contrastive federated learning。

具体如下：

$\tau$为温度参数（实际上就是一个避免数值计算困难的trick），$z$表示本地当前轮次模型，$z_{glob}$表示全局模型，$z_{prev}$表示本地前次轮次模型，$sim(·,·)$即两模型参数的余弦相似度。

模型优化的总体目标即最小化这个loss。

其中$l_{sup}$代表传统的损失函数（如cross-entropy），$\mu$即一个用于模型组合的超参数。

对比SimCLR，MOON的改进是将损失函数拓展到了模型级。

算法过程

算法输入分别为：通信轮次$T$、客户端数$N$、本地训练次数$E$、温度参数$\tau$、学习率$\eta$与超参数$\mu$。

算法输出即$T$轮通信后的模型，用$w^{T}$表示。

服务器训练部分

这部分很符合直觉，将全局模型下发到各客户端，并按照本地样本占全局样本的比例（即$\frac{|D^i|}{|D|}$）参与模型的更新。

本地训练部分

由服务器下发的模型训练$E$轮次，计算前面提到的loss，最后进行梯度更新并回传给服务器。

实验

验证核心观点

原文作者首先用一个小实验论证模型在全量数据集上的训练效果一定优于其子集这一观点。

a. 全量数据集上训练的效果。

b. 将数据集分为10份（不均衡），随机选取一个的效果。

c. 使用FedAvg进行联邦学习，全局模型的效果。

d. 使用FedAvg进行联邦学习，随机选取一个本地模型的效果。

准确率

这个指标描述随机三次的准确率指标。

通信效率

这个指标用于描述与中心服务器的通信次数，类似于收敛速度。

本地轮次数量

这个指标用于描述模型下发后在客户端的训练轮次。

可伸缩性

这个指标用于描述模型在大数据集上的效果。

异质性

改变样本分布的情况下探究模型准确性。

损失函数

对于本地训练更换不同损失函数后的效果对比。

总结

本文所提出了一种模型级联邦对比学习方法，要求模型为有参模型，且为有监督学习。

Ref

Li Q, He B, Song D. Model-contrastive federated learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10713-10722.

Last modification：July 24, 2022

© Allow specification reprint

博客维护不易，如果你觉得我的文章有用，请随意赞赏

One comment

反emo达人
January 16, 2023

该评论仅登录用户及评论双方可见

Reply

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Comment *

Private comment

Name *

🎲

Email *

Site

葫芦侠
呜呜呜，大哥发论文带带我
反emo达人
该评论仅登录用户及评论双方可见
不知名的男孩
大哥讲的通俗易懂，我一个小学二年级的学生都能看懂一点点点.....
反emo达人
天天看一下，知识涨不少
反emo达人
一天不访问，浑身不舒服

求位数
浏览次数: 2035
MacOS下卸载System Extensions
浏览次数: 6719
在Vue框架下使用ECharts
浏览次数: 1112
瞎胡闹的头像
浏览次数: 1996
[Codeforces div.2 C]Basketball Exercise
浏览次数: 2094

[CVPR2021]Model-Contrastive Federated Learning

Kuludu • 2022 年 07 月 12 日

<p><del>省流：改进了loss。</del></p><h2>创新点</h2><p>借鉴NT-Xent loss（下图），改进了损失函数，实现了模型级的contrastive federated learning。</p><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/55447945.png" alt="1" title="1" style=""></p><p>具体如下：</p><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/697463727.png" alt="2" title="2" style=""></p><p>$\tau$为温度参数（实际上就是一个避免数值计算困难的trick），$z$表示本地当前轮次模型，$z_{glob}$表示全局模型，$z_{prev}$表示本地前次轮次模型，$sim(·,·)$即两模型参数的余弦相似度。</p><p>模型优化的总体目标即最小化这个loss。</p><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/531681365.png" alt="3" title="3" style=""></p><p>其中$l_{sup}$代表传统的损失函数（如cross-entropy），$\mu$即一个用于模型组合的超参数。</p><p>对比SimCLR，MOON的改进是将损失函数拓展到了模型级。</p><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/4268046434.png" alt="4" title="4" style=""></p><h2>算法过程</h2><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/3973624414.png" alt="5" title="5" style=""></p><p>算法输入分别为：通信轮次$T$、客户端数$N$、本地训练次数$E$、温度参数$\tau$、学习率$\eta$与超参数$\mu$。</p><p>算法输出即$T$轮通信后的模型，用$w^{T}$表示。</p><h3>服务器训练部分</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/3211737913.png" alt="6" title="6" style=""></p><p>这部分很符合直觉，将全局模型下发到各客户端，并按照本地样本占全局样本的比例（即$\frac{|D^i|}{|D|}$）参与模型的更新。</p><h3>本地训练部分</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/1842953004.png" alt="7" title="7" style=""></p><p>由服务器下发的模型训练$E$轮次，计算前面提到的loss，最后进行梯度更新并回传给服务器。</p><h2>实验</h2><h3>验证核心观点</h3><p>原文作者首先用一个小实验论证<strong>模型在全量数据集上的训练效果一定优于其子集</strong>这一观点。</p><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/2254188184.png" alt="8" title="8" style=""></p><p>a. 全量数据集上训练的效果。</p><p>b. 将数据集分为10份（不均衡），随机选取一个的效果。</p><p>c. 使用FedAvg进行联邦学习，全局模型的效果。</p><p>d. 使用FedAvg进行联邦学习，随机选取一个本地模型的效果。</p><h3>准确率</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/3490107448.png" alt="9" title="9" style=""></p><p>这个指标描述随机三次的准确率指标。</p><h3>通信效率</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/96866152.png" alt="10" title="10" style=""></p><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/2234865062.png" alt="11" title="11" style=""></p><p>这个指标用于描述与中心服务器的通信次数，类似于收敛速度。</p><h3>本地轮次数量</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/48858773.png" alt="12" title="12" style=""></p><p>这个指标用于描述模型下发后在客户端的训练轮次。</p><h3>可伸缩性</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/1413908930.png" alt="13" title="13" style=""></p><p>这个指标用于描述模型在大数据集上的效果。</p><h3>异质性</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/234884234.png" alt="14" title="14" style=""></p><p>改变样本分布的情况下探究模型准确性。</p><h3>损失函数</h3><p><img src="https://blog.kuludu.net/usr/uploads/2022/07/2197886817.png" alt="15" title="15" style=""></p><p>对于本地训练更换不同损失函数后的效果对比。</p><h2>总结</h2><p>本文所提出了一种模型级联邦对比学习方法，要求模型为<strong>有参模型</strong>，且为<strong>有监督学习</strong>。</p><hr><h2>Ref</h2><ul><li>Li Q, He B, Song D. Model-contrastive federated learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10713-10722.</li></ul>