聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

CFL:面向医疗物联网的多集群联邦学习与跨链共识方法

2021-08-26 14:41 浏览: 3538995 次 我要评论(0 条) 字号:

通过在节点本地进行模型的训练更新,联邦学习技术有效保护了医疗物联网场景中用户数据的隐私性。与此同时,为解决联邦学习中的单点故障等问题,一些研究尝试将区块链技术和联邦技术相结合,提出基于区块链的联邦学习框架(Blockchain-based Federated Learning, BFL)。然而,在医疗物联网场景中,部署在特定地理区域(如某个医院院区)的BFL集群往往面临着数据稀缺性的问题。对此,我们提出一种多集群联邦学习方法(Cross-cluster Federated Learning, CFL)。CFL方法将多个物理分散的BFL集群通过区块链跨链共识技术进行融合,从而增大了训练中的样本量。实验结果表明,CFL方法在提升了模型训练效果的同时,有效保证了系统运行的高效性。
该成果“Cross-Cluster Federated Learning and Blockchain for Internet of Medical Things”发表在中科院一区期刊IEEE Internet of Things Journal(影响因子:9.394),是实验室分布式系统组在区块链领域的研究成果。
论文链接:https://ieeexplore.ieee.org/document/9434416

摘要
作为一种能有效保护隐私的机器学习模型,联邦学习 (Federated Learning, FL)技术受到了医疗物联网 (Internet of Machine Things, IoMT) 研究领域的广泛关注。与此同时,为避免联邦学习模型中的单点故障等问题,一些研究尝试将区块链技术和联邦技术相结合,提出基于区块链的联邦学习框架(Blockchain-based Federated Learning, BFL)。一个BFL系统包含的若干个节点组建为一个BFL集群。然而,在医疗物联网领域中,部署在特定地理区域(如某个医院院区)的BFL集群往往面临着数据稀缺性的问题。简单地扩大集群规模虽然能有效增大样本数据量,但却会导致高额的节点间通信开销,从而降低BFL系统的运行效率。
对此,我们提出一种多集群联邦学习方法(Cross-cluster Federated Learning, CFL)。CFL方法在多个分散的地理区域分别部署BFL集群,并通过区块链跨链技术将多个BFL集群进行融合。通过在多个BFL集群之间交换模型更新的数据,CFL方法在提升了模型训练效果的同时,保证了系统运行的高效性。我们进行了广泛的实验对 CFL 方案的可行性和高效性进行评估。实验结果表明,CFL方法在达到和BFL方案相近的训练效率的同时,可以将模型的精确性提升92.9%。

背景与动机
随着各种可穿戴设备、医疗监视器和环境传感器的出现,一种面向医疗领域的物联网网络 (Internet of Machine Things, IoMT) 应运而生。通过将IoMT中的数据进行学习训练,这将为健康监测、辅助诊断和病理预测等应用场景带来新的可能性。然而,传统的机器学习技术需要收集来自不同设备的数据,这在 IoMT 场景中可能会导致严重的隐私泄漏。为了保护 IoMT 中用户的数据隐私,研究人员考虑引入联邦学习 (Federated Learning,FL) 技术。联邦学习旨在以分布式方式进行机器学习,其无需将各个设备的数据收集在一起,从而避免了隐私泄漏。然而,传统的联邦学习框架需要指定一个中央服务器来编排训练任务并聚合模型更新,这将导致单点故障和恶意操纵等中心化问题。
为了解决中央服务器的问题,许多研究致力于将区块链技术引入到联邦学习系统中,并提出基于区块链的联邦学习框架(Blockchain-based Federated Learning, BFL)。利用共识算法,区块链技术能够以一种分布式的方式对训练任务进行编排。此外,由于区块链可以被视为一个防篡改的账本,记录在其上的模型更新是可审计和可追溯的,这阻止了节点的恶意行为。
在传统的IoMT的场景中,BFL通常被部署在一个较小地理空间的若干节点中,这些节点构成一个BFL集群。一个常见的例子是在一个医院的医疗设备中部署 BFL集群,这些设备往往彼此相近并通过高速局域网连接。然而,为较小空间设计的BFL系统在实际运行时可能会遇到数据样本量不足的问题,尤其是当IoMT网络刚投入使用时。
针对该问题的一个简单解决方案是构建一个大型的BFL集群,其将分散在不同区域(医院)的海量IoMT设备进行连结,如图1所示。设备之间的通信可以分为两种类型:高速的局域网通信和低速的广域网通信。在BFL系统中,区块链共识需要由集群中的所有设备间通信协商完成。然而,由于区域间的广域网通信具有较高的延迟,跨区域的区块链共识效率较低,这又会进一步降低BFL系统的训练效率。
图1  跨区域的BFL系统示意图

设计与实现
针对以上问题,我们在本文中提出了一种多集群联邦学习方法(Cross-cluster Federated Learning, CFL),该方法在尽可能多地融合节点模型更新数据的同时,保证了联邦学习的高效性。具体而言,CFL方法为相距较远的多个区域(如医院)分别构建小型的BFL集群,每个节点的模型更新数据只在该BFL集群内部广播。另一方面,CFL方法要求每个BFL集群进行集群内的模型聚合,并将聚合后的模型数据进行跨集群交换,从而解决了每个集群的样本稀疏性问题。与跨区域BFL系统的大量高延迟通信相比,CFL方法中只需对少量的聚合数据进行长距离传输,从而大大提升了区块链系统的共识效率和模型训练的效率。此外,由于聚合后的模型数据有效隐藏了每个节点的具体更新数据,CFL方法能够更好地保护用户的隐私。部署在两个区域间的CFL方法示意图如图2所示。
图2  多集群协作的CFL方法示意图

为了实现安全的跨集群模型交换,我们设计了一种区块链共识协议,即Deferred Consensus(DefCon)。该共识协议涉及两个子协议,包括一个单链共识和一个跨链共识,如图3所示。通过定期选举一个集群代表进行模型聚合,DefCon协议减少了高延迟跨链通信的频次,从而提升了区块链系统的跨链共识效率。为避免集群代表进行恶意操作,DefCon协议基于集群代表周期内的模型训练效果设计了奖惩机制。

图3  CFL方案中共识协议示意图

为了评估我们设计的可行性和效果,我们分别实现了CFL方法和BFL方法的原型系统,并开展多组实验对两者进行了比较。实验结果表明,在保证相近训练效率的前提下,CFL方法由于引入了更多的模型更新数据,其可以将模型准确率从 39.3% 提高到 75.8%,如图4所示。此外,如果将相同数量的样本数据输入模型中,CFL方法能够有效加快模型训练的收敛速度,其原因是CFL方法在每一轮训练中聚合了更多集群的计算能力。
图4  不同框架下模型训练精确率对比


网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复