合成データ生成のための8つのベストプラクティス

小型製品の工場生産ライン

共同執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

「合成」という言葉を聞くと、人工的なものや加工されたものを連想するかもしれません。例えば、ポリエステルやナイロンなどの合成繊維は、化学プロセスによって人工的に作られています。

合成繊維はより手頃な価格で大量生産も容易ですが、その品質は天然繊維に匹敵します。合成繊維は多くの場合、天然繊維を模倣して設計されており、伸縮性のあるエラスタン、保温性のあるアクリル、耐久性のあるポリエステルなど、特定の用途向けに作られています。

同じことが、合成データにも当てはまります。この人工的に生成された情報は、人工知能(AI)モデルのトレーニングやテスト時に、現実世界のデータを補足したり、置き換えたりすることができます。実際のデータ・セットは入手にコストがかかり、アクセスが難しく、ラベル付けに時間がかかり、供給量が限られている場合がありますが、合成のデータ・セットは、コンピューター・シミュレーションや生成モデルを通じて合成できます。これにより、オンデマンドでほぼ無制限の量を安価に生産し、組織のニーズに合わせてカスタマイズできるようになります。

そのようなメリットにもかかわらず、合成データには課題もあります。生成プロセスは複雑になる可能性があり、データサイエンティストは品質とプライバシーを維持しながら現実的なデータを作成する必要があります。

しかし、合成データは今後も存在し続けるでしょう。調査会社のGartner社は、2026年までに企業の75%が生成AIを使用して顧客に関する合成データを作成すると予測しています。1

企業が人工データを最大限に活用できるよう、合成データ生成に関する8つのベスト・プラクティスを紹介します。

1. 目的を知る

ビジネスに合成データが必要な理由と、実際のデータよりも合成データが役立つ可能性があるユースケースを理解します。例えば、ヘルスケアでは、患者の記録や医療画像を、機密データや個人を特定できる情報(PII)を含めずに人工的に生成できます。これにより、研究者とデータサイエンス・チーム間で安全にデータを共有することもできます。

合成データは、ソフトウェア開発中にテストデータとして使用でき、機密性の高い本番データの代わりに使用しながらも、その特性をエミュレートできます。また、Webクローラーを使用してユーザーの知らないうちに、または同意なしにWebサイトから情報を収集する代わりに、データを生成して、著作権や知的財産の問題を回避することもできます。

また、人工データは、データ拡張の形式として機能することができます。特に、AIモデルのトレーニングで過小評価されているグループのデータの多様性を高めるために使用できます。また、情報が不足している場合は、合成データでギャップを埋めることができます。

例えば、金融大手のJ.P. Morgan社は、不正なケースが不正でないケースに比べて少ないため、不正検知のためのAI搭載モデルを効果的にトレーニングすることが難しいと感じていました。そこで、合成データ生成を使用して不正な取引の例をさらに作成し、(ibm.com外部へのリンク)、モデルのトレーニングを強化しました。

2. 準備が成功の鍵を握る

合成データの品質は、それを支える実世界のデータの品質に左右されます。機械学習(ML)アルゴリズムによる合成データ生成用に元のデータセットを準備する際は、必ずエラー、不正確さ、矛盾がないか確認して修正してください。重複を削除し、欠落している値を入力してください。

元のデータにエッジ・ケースまたは外れ値を追加することを検討してください。これらのデータ・ポイントは、現実世界の予測不可能性や変動性を反映する、まれなイベント、まれなシナリオ、または極端なケースを表すことができます。

「結局のところ、シードとなるサンプルが重要になります」と、IBMとRed Hat社のオープンソース共同プロジェクトであるInstructLabのチーフ・アーキテクトであるAkash Srivastavaは言います。InstructLabは、IBMの新しい合成データ生成方法と段階的トレーニング・プロトコルを活用し、モデルに新しい知識とスキルを追加するための共同アプローチを採用しています。「生成のシードとなるサンプルは、実際のユースケースを模倣する必要があります」。

3. データソースを多様化する

合成データは、依然として、その元データに存在する可能性のあるバイアスを継承し、反映する傾向があります。異なる人口統計グループや地域を含む複数のソースからの情報をブレンドすると、生成されたデータのバイアスを軽減するのに役立ちます。

多様なデータ・ソースは、合成データセットの品質を高めることもできます。多様なソースは、単一のソースや少数のソースでは得られない重要な詳細や重要なコンテキストを提供できます。また、合成データ生成プロセスに検索拡張生成を組み込むと、最新のドメイン固有のデータにアクセスでき、精度を高めて品質をさらに向上させることができます。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

4. 適切な合成技術を選択する

適切な合成データ生成手法の選択は、データの種類や複雑さなど、いくつかの要因によって決まります。比較的単純なデータには、統計的手法が役立つ場合があります。より複雑なデータセット(表形式データなどの構造化データや画像や動画などの非構造化データなど)には、ディープラーニング・モデルが必要になる場合があります。企業は、要件に応じて合成手法を組み合わせることもできます。

合成データ生成の一般的なメカニズムは次のとおりです。

統計分布

データサイエンティストは、実際のデータの統計分布を分析し、その分布を反映する合成サンプルを生成できます。ただし、これにはかなりの知識と専門知識が必要で、すべてのデータが既知の分布に当てはまるわけではありません。

敵対的生成ネットワーク

敵対的生成ネットワーク(GAN)は、合成データを作成するジェネレーターと、敵対者として機能し人工データと実際のデータを区別する識別器という2つのニューラル・ネットワークで構成されています。両方のネットワークは反復的にトレーニングされ、識別器のフィードバックによってジェネレーターの出力が向上し、最終的には識別器が人工データと実際のデータを区別できなくなります。

GANは、コンピューター・ビジョンや画像分類タスク用の合成画像を生成するために使用できます。

変分オートエンコーダー

変分オートエンコーダー(VAE)は、トレーニング対象のデータのバリエーションを生成するディープラーニング・モデルです。エンコーダーは入力データを低次元空間に圧縮し、入力に含まれる意味のある情報を取得します。次に、デコーダーがこの圧縮表現から新しいデータを再構築します。GANと同様に、VAEは画像生成に使用できます。

6. トランスフォーマーモデル

Transformerモデル、例えば生成的事前トレーニング済みTransformer(GPT)は、言語の構造とパターンの理解に優れています。これらは、自然言語処理アプリケーション用の合成テキスト・データを生成したり、分類または回帰タスク用の人工的な表形式データを作成したりするために使用できます。

5. モデルの崩壊を考慮する

AI生成データでモデルを繰り返しトレーニングすると、モデルのパフォーマンスが低下するというモデル崩壊を考慮することが重要です。そのため、合成データ生成プロセスを実際のデータに基づいて行うことが不可欠です。

例えば、InstructLabでは、合成データの生成は分類法によって行われ、分類法では元のデータの元となるドメインまたはトピックが定義されます。これにより、モデルがトレーニングに使用するデータを決定できなくなります。

「モデルにループを続けさせて崩壊させるように要求しているわけではありません。モデルをサンプリング・プロセスから切り離すことで、崩壊を完全に回避します」とSrivastava氏は言います。

6. 検証方法を採用する

モデルのパフォーマンスには、高品質のデータが不可欠です。忠実度と実用性に基づくメトリックを使用して、合成データの品質を検証します。忠実度とは、合成データセットが実際のデータセットにどれだけ似ているかを指します。実用性は、合成データをディープラーニングまたはMLモデルのトレーニングにどれだけうまく使用できるかを評価します。

迫真性

忠実度の測定には、多くの場合、統計的手法やヒストグラムなどの視覚化を使用して、合成データと元のデータを比較することが含まれます。これにより、生成されたデータセットが、分布、平均、中央値、範囲、分散などの実際のデータセットの統計特性を保持しているかどうかを判断できます。

例えば、相関係数や偶発係数を通じて相関類似性を評価することも、データ・ポイント間の依存関係と関係が維持され、現実世界のパターンを正確に表すために不可欠です。ニューラル・ネットワーク、生成モデル、言語モデルは、通常、表形式データと時系列データの関係を捉えるのに適しています。

ユーティリティー

有用性を測定するには、合成データを機械学習モデルのトレーニング用データとして使用し、実際のデータを使用したトレーニングとモデルのパフォーマンスを比較する必要があります。ベンチマークの一般的な指標は次のとおりです。

  • 正確度または精度は、正しい予測の割合を計算します。

  • 再現率は、実際の正しい予測を定量化します。

  • F1スコアは、精度と再現率を1つのメトリックに組み合わせます。

  • インセプション・スコアとフレシェ・インセプション距離(FID)はどちらも、生成された画像の品質を評価します。

合成データ生成ツールまたはプロバイダーにはすでにこれらのメトリックが用意されている可能性がありますが、表形式の合成データを評価するためのオープンソースのPythonライブラリーであるSDMetrics(ibm.com外部へのリンク)などの他の分析パッケージを使用することもできます。

人工データの検証には、やはり人間の手が不可欠です。合成データセットからランダムに5~10個のサンプルを取り出し、自分で評価するだけで十分です。「検証には人間が関与する必要があります」とSrivastava氏は言います。「これらは非常に複雑なシステムであり、他の複雑なシステムと同様に、問題が発生する可能性のある微妙なポイントが多数あります。指標やベンチマークに頼り、パイプラインを厳密にテストしますが、常にランダムにいくつかのサンプルを取り、必要な種類のデータが提供されていることを手動で確認することが不可欠です」。

7. データ・プライバシーを最優先に考える

合成データを使用するメリットの1つは、機密データやPIIが含まれないことです。ただし、企業は、生成した新しいデータがプライバシー規制に準拠していることを確認する必要があります。例えば、欧州連合の一般データ保護規則(GDPR)や米国の医療保険の相互運用性と説明責任に関する法律(HIPAA)などです。ただし、企業は、生成した新しいデータがプライバシー規制に準拠していることを確認する必要があります。例えば、欧州連合の一般データ保護規則(GDPR)や米国の医療保険の相互運用性と説明責任に関する法律(HIPAA)などです。

合成データを独自のデータのように扱い、組み込みのセキュリティー対策とアクセス制御を適用して、データのハッキングや漏洩を防止します。また、合成データがリバースエンジニアリングされて現実世界のデータに遡って追跡され、データ分析中に機密情報が漏洩するリスクを防ぐために、生成プロセス中に保護策を適用する必要があります。これらの保護策には、機密データを非表示またはマスクするマスキング、PIIをスクラブまたは削除する匿名化、データセットに「ノイズ」を追加したりランダム性を導入したりする差分プライバシーなどの手法が含まれます。

Srivastava氏は次のように述べています。「少なくとも、PIIのマスキングやスクラビングは必要です。さらに一歩進んで、プライバシーの差別化方法を使用することもできます。「ローカルモデルを使用していない場合はさらに重要になります。外部のプロバイダーに [データ] を送信する場合は、これらの点に特に注意することがさらに重要です」。

合成データは通常、忠実度、有用性、プライバシーを同時に最適化することはできないことに注意してください。多くの場合、トレードオフが発生します。マスキングや匿名化によって有用性が名目上低下する可能性があり、差分プライバシーによって精度がわずかに低下する可能性があります。ただし、プライバシー対策をまったく実装しないと、PIIが漏洩する可能性があります。組織は、特定のユースケースにとって何が重要かのバランスを取り、優先順位を付ける必要があります。

8. 文書化、監視、改良

合成データ生成のワークフロー(元のデータセットのクリーニングと準備の戦略、データ生成とプライバシー維持のメカニズム、検証結果など)を記録します。説明責任と透明性のために、選択と決定の根拠を含めます。

合成データ生成プロセスの定期的なレビューを実施する場合、ドキュメントは特に役立ちます。これらの記録は、ワークフローの有効性と再現性を評価するのに役立つ監査証跡として機能します。

合成データの使用方法とそのパフォーマンスを定期的に監視して、発生する可能性のある予期しない動作や改善の機会を特定します。必要に応じて生成プロセスを調整および改良します。

繊維が生地の基礎であるのと同じように、データはAIモデルの構成要素です。合成データの生成はまだ初期段階ですが、生成プロセスの進歩により、将来的には合成データが実際のデータの品質、信頼性、有用性に匹敵するレベルまで強化される可能性があります。これは、合成繊維が天然繊維とほぼ同等であるのと同様です。

 

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

脚注

1 3 Bold and Actionable Predictions for the Future of GenAI (ibm.com外部へのリンク)、Gartner社、2024年4月12日

関連ソリューション
分析ツールとソリューション

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
IBM Cognos Analytics

より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。

Cognos Analyticsの詳細はこちら
次のステップ

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら 分析サービスを発見する