ブラックボックスAIとは、ユーザーにとって内部の仕組みが謎に満ちているAIシステムのことです。ユーザーはシステムのインプットとアウトプットを見ることができますが、それらのアウトプットを生成するためにAIツール内で何が起こっているかを確認することはできません。
求職者の履歴書を評価するブラックボックス・モデルについて考えてみましょう。ユーザーはAIモデルに入力した履歴書などのインプットを確認できます。また、アウトプット(モデルが返す履歴書に対する評価)を見ることもできます。ただし、ユーザーは、モデルがどのようにして結論に達するのか、つまり考慮する要素や、それらの要素をどのように重み付けするのかなど、正確には知りません。
OpenAIのChatGPTやMetaのLlamaなどの大規模言語モデルを含む、現在利用可能な最も高度な機械学習モデルの多くは、ブラックボックスAIです。これらの人工知能モデルは、複雑なディープラーニング・プロセスを通じて膨大なデータセットでトレーニングされており、その作成者自身でさえその仕組みを完全には理解していません。
これらの複雑なブラックボックスは素晴らしい結果をもたらす可能性がありますが、透明性が欠如しているため、アウトプットを信頼することが難しい場合があります。内部で何が起こっているかを知らなければ、モデルのアウトプットを簡単に検証することはできません。さらに、ブラックボックス・モデルの不透明性により、サイバーセキュリティーの脆弱性、偏見、プライバシー侵害などの問題が隠される可能性があります。
これらの課題に対処するため、AI研究者は、高度なモデルの性能とAIの結果の透明性へのニーズとの間でバランスが取れた説明可能なAIツールの開発に取り組んでいます。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
ブラックボックスAIモデルは、2つの理由のいずれかで発生します。開発者が意図的にブラックボックスにするか、トレーニングの副産物としてブラックボックスになるかのいずれかです。
一部のAI開発者やプログラマーは、AIツールを一般に公開する前に内部の仕組みを不明瞭にしています。この戦術は多くの場合、知的財産を保護することを目的としています。システムの作成者はシステムの仕組みを正確に知っていますが、ソース・コードと意思決定プロセスについては秘密にしています。このため、従来のルールベースのAIアルゴリズムの多くはブラックボックスになっています。
ただし、生成AIツールを含む最先端のAIテクノロジーの多くは、いわゆる「有機的ブラックボックス」です。これらのツールの作成者は、意図的にその動作を曖昧にしていません。むしろ、これらのモデルを強化するディープラーニングは非常に複雑であるため、作成者自身もその中で何が起こっているかを正確に理解できていません。
ディープラーニング・アルゴリズムは、多層ニューラル・ネットワークを使用する機械学習アルゴリズムの一種です。従来の機械学習モデルでは1層または2層のネットワークを使用しますが、ディープラーニング・モデルでは数百、さらには数千の層を持つことができます。各層には、人間の脳の機能を模倣するように設計されたコードの束である複数のニューロンが含まれています。
ディープニューラル・ネットワークは、人間の介入をほとんど必要とせずに、生の非構造化ビッグデータを消費して分析できます。大量のデータを取り込み、パターンを識別し、そのパターンから学習し、学習したものを使用して画像、ビデオ、テキストなどの新しいアウトプットを生成できます。
監督なしで大規模学習が可能なこの能力により、AIシステムは高度な言語処理、オリジナル・コンテンツの作成、その他人間の知能に近いと思われる偉業を実行できます。
ただし、これらのニューラル・ネットワークは本質的に不透明です。AI開発者などのユーザーは、「可視層」とも呼ばれるインプット層とアウトプット層で何が起こっているかを確認できます。入力されるデータと、出てくる予測、分類、その他のコンテンツを確認できます。ただし、その間にあるすべてのネットワーク層、つまり、いわゆる「隠れ層」で何が起こっているかはわかりません。
AI開発者は、データがネットワークの各層を通過する仕組みを幅広く把握しており、取り込むデータをモデルがどのように使用するかについても大まかな感覚を持っています。ただし、すべての詳細を知っているわけではありません。たとえば、特定のニューロンの組み合わせが有効になることが何を意味するのか、またはモデルがプロンプトに応答するためにベクトル埋め込みをどのように見つけて組み合わせるのかを正確には知らない可能性があります。
基礎となるコードを共有するオープンソースのAIモデルでさえ、ユーザーはモデルが有効なときにモデルの各層で何が起こっているかを解釈できないため、最終的にはブラックボックスとなります。
現在利用可能な最先端のAIとMLモデルは非常に強力ですが、この力には解釈可能性の低下という代償が伴います。
生成AIモデルはニューラル・ネットワークを利用して自然言語コマンドに応答し、新たな問題を解決し、オリジナル・コンテンツを作成しますが、これらのニューラル・ネットワーク内で何が起こっているかを解釈するのは困難です。シンプルなルールベースのAIモデルは説明しやすいですが、一般的に生成AIほど強力ではなく、柔軟ではありません。
そのため、組織は、より説明可能な従来のAIツールを使用するだけでは、ブラックボックス問題を解決することはできません。従来のAIモデルは多くの機能を実行できますが、高度なAIモデルにしかできないことがあります。
ブラックボックス機械学習モデルを使用する現実的な理由があるかもしれませんが、透明性の欠如は、これらの高度なモデルから最大限の価値を引き出すことの障害となる可能性があります。
具体的には、ブラックボックスAIは、次のような課題をもたらします。
ユーザーは、ブラックボックス・モデルがどのように決定を行うのか、つまりそのモデルが重みを付けている要素や、導き出される相関関係を知りません。モデルがアウトプットが正確に見えても、そのアウトプットにつながるプロセスが明確に理解できなければ、検証が困難な場合があります。
ユーザーには知られていませんが、ブラックボックス・モデルは、誤った理由から正しい結論に達する可能性があります。この現象は、蹄を踏み鳴らして数を数えたり簡単な計算ができるとされる馬にちなんで、「賢いハンス効果」と呼ばれることもあります。実のところ、ハンスは飼い主のボディランゲージから微妙なサインを読み取り、足踏みをやめるタイミングを察知していたのです。
賢いハンス効果は、モデルを医療などの分野に適用すると、深刻な結果をもたらす可能性がaあります。たとえば、肺のX線に基づいて新型コロナウイルス感染症を診断するようにトレーニングされたAIモデルは、トレーニング・データを使用すると高い精度レベルに達することが知られていますが、現実世界ではそれほど能力を発揮できないことが知られています。
この性能のギャップは、モデルが無関係な要素に基づいて新型コロナウイルスを識別することを学習しているために発生することがよくあります。ある実験モデルは、X線自体ではなく、X線に描かれた注釈に基づいて新型コロナウイルスを「診断」しました。これは、医師が他の医師のために関連する特徴を強調するため、モデルのトレーニング・データで新型コロナウイルス陽性のX線画像がより頻繁に注釈付けされていたためです。1
ブラックボックス・モデルが誤った決定を下したり、不正確なアウトプットや有害なアウトプットを一貫して生成したりすると、この動作を修正するためにモデルを調整することが困難になる場合があります。モデル内で何が起こっているかを正確に知らなければ、ユーザーはどこで問題が発生しているかを正確に特定することはできません。
この問題は、開発者が高度なAIシステムをトレーニングしてリアルタイムで運転の判断を下す自動走行車の分野で重大な課題をもたらします。自動走行車が誤った決定を下した場合、命に関わる結果になりかねません。ただし、これらの自動車の背後にあるモデルは非常に複雑であるため、誤った決定を下す理由や修正方法を理解することが困難な場合があります。
この問題を回避するために、多くの自動走行車開発者は、レーダーやレーダー・センサーなどの、より説明可能なシステムでAIを補完しています。これらのシステムはAIそのものを解明するものではありませんが、AIモデルが誤った判断をする原因と思われる環境や状況についての知見を開発者に与えてくれます。2
組織は、ブラックボックス・モデルで起こっていることをすべて把握できないため、内部に潜む脆弱性を見逃してしまう可能性があります。生成AIモデルは、プロンプト・インジェクション攻撃やデータ・ポイズニング攻撃の影響を受けやすく、ユーザーが知らないうちにモデルの動作が密かに変更される可能性があります。ユーザーがモデルのプロセスを見られない場合、そのプロセスがいつ変更されたかはわかりません。
ブラックボックス・モデルはバイアスの影響を受けやすい可能性があります。トレーニング・データや設計に人間の先入観が存在する場合、どのAIツールでもそれを再現できます。ブラックボックス・モデルでは、先入観の存在やその原因を特定することが非常に難しい場合があります。
先入観は、最適とは言えない、明らかに有害で違法な結果につながる可能性があります。たとえば、求職者の審査をトレーニングされたAIモデルは、トレーニング・データが男性に偏ったものである場合、優秀な女性の応募者を除外することを学習しかねません。
一部の刑事司法システムでは、高度なAIモデルを使用して、人物の再犯のリスクを評価しています。こうしたモデルは、少なくとも一般の人々にとってはブラックボックスであることが多く、モデルが考慮している要素を正確に把握していない可能性があります。アルゴリズムが透明でなければ、その予測を信頼することも、間違っていたときに訴えることも難しくなります。3
特定の規制、欧州連合AI法やカリフォルニア消費者プライバシー法(CCPA)などは、組織がAI搭載意思決定ツールで機密性の高い個人データを使用する方法についてルールを定めています。ブラックボックス・モデルでは、組織が(規則に)準拠しているかどうかを把握したり、監査の際にコンプライアンスを証明したりすることが困難な場合があります。
ホワイトボックスAIは、説明可能なAI(XAI)またはガラスボックスAIとも呼ばれ、ブラックボックスAIの反対です。内部の仕組みが透明なAIシステムです。ユーザーは、AIがどのようにデータを取り込み、処理し、結論を導き出すかを理解しています。
ホワイトボックスAIモデルを使用すると、結果の信頼性と検証が容易になり、モデルに微調整を加えてエラーを修正し、性能を調整することも容易になります。ただし、すべてのAIをホワイトボックスに変えるのは簡単ではありません。
従来のAIモデルは、ソースコードを共有することで透明性を確保できます。ただし、高度な機械学習モデルは、ディープラーニング・アルゴリズムを通じて独自のパラメーターを開発します。これらのモデルのアーキテクチャーにアクセスできるだけでは、そのモデルが何をしているのかを常に完全に説明できるとは限りません。
とはいえ、高度なAIモデルをより説明可能なものにする取り組みが進行中です。たとえば、Anthropicの研究者は、ニューロンの組み合わせがどの概念に対応するかを理解するために、同社のClaude 3 SonnetLLMにオートエンコーダー(ニューラル・ネットワークの一種)を適用しています。これまでに、研究者らはゴールデンゲートブリッジや神経科学の分野などを示す組み合わせを特定しています。4
OpenAIの最近のo1モデルは、アウトプットに達するために必要なステップに関する情報を共有しており、これは回答までの過程の説明に役立ちます。ただし、これはモデル内を直接見ているのではなく、モデルが生成したモデル自体のアクティビティーの説明です。生の思考連鎖を含むモデルの操作の多くは不明なままです。 5
他の研究者は、モデルが特定の結論に到達する仕組みを説明するのに役立つ手法を開発しました。たとえば、局所的解釈可能モデル非依存説明(LIME:local interpretable model-agnostic explanation)は、モデルのアウトプットに影響を与える可能性のある特徴を特定することを目的として、別の機械学習モデルを使用してブラックボックスのインプットとアウトプット間の関係を分析するプロセスです。
これらの結論に重点を置いた手法は多くの場合、明確に構造化されたインプットとアウトプットを持つモデルで機能するように設計されています。たとえば、LIME は予測や分類を説明するのに役立ちますが、深層ニューラル・ネットワークを備えたオープンエンド AI システムにはあまり光を当てません。
組織は可能な限り透過的なモデルを選択できますが、一部のワークフローでは高度なブラックボックスAIツールが必要になります。とはいえ、ブラックボックス・モデルの信頼性を高め、リスクの一部を軽減する方法はあります。
オープンソース・モデルは、モデル・アーキテクチャーを非公開とするクローズドソースのAIツールよりも、開発や運用に関する透明性をユーザーに提供できます。
オープンソースの生成AIモデルは、その複雑なニューラル・ネットワークのせいで最終的にはブラックボックスになる可能性がありますが、クローズドソースのモデルよりも多くの知見をユーザーに提供できます。
AIセキュリティーのプロセスとツールは、ITチームやセキュリティー・チームが独力では発見できないAIモデル、アプリケーション、関連データセットの脆弱性を特定して修正できるよう支援します。
AIセキュリティー・ツールは、各AI導入のデータ、モデル、アプリケーションの使用状況、さらにAIにアクセスするアプリケーションに関する知見も提供します。
責任あるAIのフレームワークは、AIの信頼性を高めるための一連の原則と実践を組織に提供します。
たとえば、IBMのAIに関する信頼の柱には、説明可能性、公平性、堅牢性、透明性、プライバシーが含まれます。ブラックボックス・モデルが必要な場合は、フレームワークに従うことで、組織はより透明性の高い方法で、これらのモデルを使用できるようになります。
1 「AI for radiographic COVID-19 detection selects shortcuts over signal」Nature。2021年5月31日
2 「Tesla's robotaxi push hinges on 'black box' AI gamble」Reuters、2024年10月10日
3 「Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet」Anthropic、2024年5月21日
4「Learning to Reason with LLMs」OpenAI、2024年9月12日