フェデレーテッドラーニング
プライバシーを保護するマシンラーニングのパラダイムで、データを中央集約せずに共同モデルトレーニングを可能にします。
定義
フェデレーテッドラーニングは、さまざまなクライアント(デバイス、サーバー、または組織)が自前のデータをローカルに保持したまま、共有モデルを共同でトレーニングする非中央集権的なマシンラーニング技術です。各参加者が自前のデータでモデルをトレーニングし、アグリゲーションに送信するのはモデルの更新(勾配やパラメータなど)のみです。このプロセスにより、機密情報が暴露されることなく多様なデータソースから恩恵を受けるグローバルモデルが生成されます。データプライバシー、規制遵守、または分散データ所有が重要なシナリオで広く使用されています。
優点
- ローカル環境からデータが一切出ないことを保証することで、データプライバシーを強化します
- データ漏洩のリスクを軽減し、規制への適合をサポートします
- 多様で現実的なデータセットを活用して、より強固で汎化されたモデルを構築します
- 分散システムにおけるデータ転送コストや帯域幅の使用を最小限に抑えます
- エッジコンピューティングやデバイス内AIの展開に適しています
劣点
- 複数の分散ノード間での調整を必要とする複雑なシステム設計が必要です
- 異質または非IIDのデータ分布によりパフォーマンスが影響を受ける可能性があります
- 頻繁なモデル更新の交換中に通信オーバーヘッドが発生します
- モデル汚染などの敵対的攻撃に対して脆弱です
- 中央集権的なトレーニングシステムと比べてデバッグやモニタリングが難しいです
使用事例
- ユーザー行動データを暴露せずに分散データを使用してCAPTCHAを解くまたはボット検出モデルのトレーニング
- ユーザー入力から学習しながらプライバシーを保持するモバイルキーボード予測システム
- 患者記録を共有することなく、病院間でトレーニングされる医療AIモデル
- 敏感なデータを交換することなく、金融機関が協力して不正検出システムを構築
- 侵入防止メカニズムに適応するための分散信号を使用してウェブスクレイピングやオートメーションシステムを構築