機械学習におけるモデル選択

執筆者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

機械学習におけるモデル選択とは、選択されたタスクに最も適した機械学習モデル（MLモデル）を選ぶプロセスのことです。選択されるモデルは通常、関連する性能メトリクスを満たしつつ、未知のデータにも最も適切に対応できます。

MLモデルの選択プロセスとは、候補となる複数のモデルを比較することです。機械学習の専門家は、それぞれのMLモデルの性能を評価し、評価指標のセットに基づいて最適なモデルを選択します。

多くの機械学習タスクの中心となるのは、データの中からパターンを認識し、そのパターンに基づいて新しいデータを予測するという課題です。最も性能の高い予測モデルを選択することで、より正確な予測と、より信頼性の高いMLアプリケーションにつながります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

モデルの選択が重要な理由

AIモデルの選択は、その機械学習システムがどの程度うまく機能するかを決定するため、重要です。モデルにはそれぞれ長所と短所があり、適切なモデルを選択することがプロジェクトの成功に直結します。モデル選択は、MLモデルを作成およびデプロイするためのより大きな機械学習パイプラインにおける初期段階です。

タスクによっては、大規模なデータセットの詳細を捉えられる複雑なモデルが必要になる場合がありますが、そのようなモデルは新しいデータへの汎化に苦労することがあります。それらのモデルは、より多くの計算能力やリソースを必要とする場合もあります。別のタスクでは、特定の目的に合わせて設計された小規模でシンプルなモデルの方が適しています。

適切なモデルを選択することで、次のような効果が得られます。

効率の最適化：候補となるモデルの中で最も優れたものは、性能と汎化能力、複雑さ、リソース使用量とのトレードオフをうまくバランスします。
モデル性能の最大化：ツールの有用性は、それが適用されるタスクによって決まります。候補モデルをテストおよび評価することで、そのタスクに最も適した高性能なモデルを見極め、AIアプリケーションが現実の環境で有効に機能する可能性を最大化できます。
プロジェクト成功の推進：モデルの複雑さは、トレーニング時間やリソース要件、さらには成果に直接影響します。予測モデルには、シンプルなものから複雑なものまでさまざまな種類があります。シンプルなモデルはトレーニングが速くコストも低い一方で、複雑なモデルはより多くのデータ、資金、時間を必要とします。

AI Academy

AIの専門家になる

ビジネスの成長を促進するAIへの投資を優先できるように知識を習得します。今すぐ無料のAI Academyを試して、貴社のAIの未来をリードしましょう。

シリーズを見る

モデル選択プロセス

モデル選択プロセスは、対象となるユースケースに最適化されたモデルを作り出すことを目的としています。機械学習の専門家は、まず問題を定義し、高い性能が期待できるモデルの種類を選択し、最後に候補モデルを学習・テストして最適なモデルを特定します。

モデル選択プロセスの段階には、一般的に次のようなものが含まれます。

MLにおける課題の設定
候補モデルの選択
モデル評価指標の決定
モデルの学習と評価

MLにおける課題の設定

タスクの性質によっては、ある機械学習アルゴリズムの方が他より適している場合があります。MLの課題は通常、次の3つのカテゴリーのいずれかに分類されます。

回帰問題は、入力特徴量と価格などの連続的な出力変数との関係を特定することをモデルに課します。回帰問題の例としては、給与水準の予測や、気象条件に基づく自然災害発生の可能性の予測などがあります。モデルの予測は、季節や人口統計情報などの関連する入力特徴量に基づいて行われます。時系列予測は、時間の経過に伴う変数の値を予測する回帰課題の一種です。時系列モデルは、この課題に特化した計算効率の高いモデル群です。
分類問題は、一連の入力変数に基づいてデータ・ポイントをカテゴリーに分類します。分類問題の例には、物体認識やメールのスパム・フィルターなどがあります。トレーニング・セットには、入力と出力の関連性を学習できるように、ラベル付きの出力を持つデータ・ポイントが含まれる場合があります。この手法は教師あり学習として知られています。
クラスタリング問題は、データ・ポイントを類似性に基づいてグループ化します。クラスタリングは分類とは少し異なり、既知のカテゴリーにデータ・ポイントを分類するのではなく、データ・ポイントの中からグループを発見することを目的としています。モデルは、教師なし学習の環境において、自ら類似性を見分ける必要があります。市場セグメンテーションは、クラスタリング課題の一例です。

モデル評価指標の決定

テストプロセスでは、候補モデルを比較し、あらかじめ選定されたメトリクスに基づいて性能を評価します。多くのメトリクスが存在しますが、MLの課題の種類によって、適しているメトリクスとそうでないメトリクスがあります。

分類のモデル評価メトリクスには、次のようなものがあります。

正解率：予測全体の中で正しく予測できた割合。
適合率：正と予測したもののうち、実際に正であった割合。正と予測した精度を示します。
再現率：実際に正であるもののうち、正と予測できた割合。正の事例を見つけ出す能力を示します。
F1スコア：適合率と再現率を組み合わせ、正の事例を認識して正しく分類するモデルの能力を総合的に示します。
混同行列：真陽性、偽陽性、真陰性、偽陰性を表形式で示すことで、分類モデルの性能を要約します。
AUC-ROC：真陽性率と偽陽性率を受信者動作特性（ROC）曲線としてプロットしたグラフ。曲線下面積（AUC）は、モデルの性能を示します。

回帰評価のメトリクスには、次のようなものがあります。

平均二乗誤差（MSE）：予測値と実際の値の差を二乗し、その平均を算出します。MSEは外れ値に非常に敏感で、大きな誤差を厳しく評価します。
平方平均二乗誤差（RMSE）：MSEの平方根であり、変数と同じ単位で誤差率を示すため、メトリクスの解釈しやすさを高めます。MSEは誤差を変数の単位の二乗で表示します。
平均絶対誤差（MAE）：目的変数について、実際の値と予測値の差の絶対値の平均を表します。MAEはMSEよりも外れ値に対して影響を受けにくいです。
平均絶対百分率誤差（MAPE）：平均絶対誤差を予測変数の単位ではなく百分率で表すことで、モデル間の比較を容易にします。
決定係数（R²）：モデルの性能を0から1の範囲で示す基準となるメトリクスです。ただし、決定係数（R²）の値は特徴量を増やすことで人工的に高くなる可能性があります。
自由度調整済み決定係数（Adjusted R²）：モデルの性能向上に寄与する特徴量を反映し、無関係な特徴量は無視します。

モデルの学習と評価

データサイエンティストは、利用可能なデータを複数のセットに分割し、モデルのトレーニングと評価に備えます。トレーニング・データセットはモデルのトレーニングに使用され、候補モデルがデータ・ポイントの中のパターンや関係性を認識できるようになります。次に、データセットの別の部分を使ってモデルの性能を確認します。

最もシンプルで迅速なテスト手法は、トレイン・テスト分割です。データサイエンティストは、データセットをトレーニング用とテスト用の2つに分割します。モデルはトレーニングが終わるまでテスト用データには触れず、テストセットは現実環境でモデルが処理する新しい未知のデータの代替として機能します。

モデル選択手法

モデルの作成者は、幅広いモデル選択手法を利用できます。中には、モデルの初期設定やアーキテクチャーに関わり、その挙動に影響を与えるものもあります。また、より詳細で厳密なモデル評価を行ったり、特定のデータセットにおけるモデルの性能を予測したりする手法もあります。

モデル選択手法には、次のようなものがあります。

ハイパーパラメータ・チューニング
交差検証
Bootstrapping
情報量基準

ハイパーパラメーター・チューニング

ハイパーパラメーター・チューニングとは、モデルの構造や挙動を決定する外部設定であるハイパーパラメーターを最適化するプロセスです。モデルには、トレーニング中にリアルタイムで更新される内部パラメーターもあります。内部パラメーターは、モデルがデータを処理する方法を制御します。生成AIで使用されるような複雑なモデルでは、1兆を超えるパラメーターを持つ場合もあります。

ハイパーパラメーター・チューニングは、モデルを初期トレーニング段階（事前学習）後に追加でトレーニングしたり調整したりするファイン・チューニングとは異なります。

いくつか代表的なハイパーパラメーター・チューニング手法は次のとおりです。

グリッド・サーチ：考えられるすべてのハイパーパラメーターの組み合わせをトレーニング、テスト、評価します。総当たり方式の手法であるグリッド・サーチは、最適なハイパーパラメーターの組み合わせを見つけ出す可能性は高い一方で、この手法は時間がかかり、リソースの消費も大きくなります。
ランダム・サーチ：ハイパーパラメーターの組み合わせをランダムに抽出し、そのサブセットの各サンプルを使ってモデルをトレーニング、テストします。ランダム・サーチは、グリッド・サーチの実行が現実的でない場合の代替手法です。
ベイズ最適化：確率モデルを用いて、最高のモデル性能につながる可能性が最も高いハイパーパラメーターの組み合わせを予測します。ベイズ最適化は反復的な手法であり、トレーニングとテストを繰り返すごとに精度が向上し、大規模なハイパーパラメーター空間でも有効に機能します。

交差検証

k分割交差検証のリサンプリング方式では、データをk個のセット（フォールド）に分割します。トレーニング・データはk-1個のサブセットで構成され、残りの1つのセットでモデルを検証します。このプロセスを繰り返すことで、各サブセットが検証用データとして利用されます。データ・ポイントは非復元抽出でサンプリングされ、各データ・ポイントが1回の反復につき一度だけ使用されます。

k分割交差検証は、単一のトレイン・テスト分割よりも、モデルの性能をより包括的に把握できます。

ブートストラッピング

ブートストラッピングは交差検証に似たリサンプリング手法ですが、データ・ポイントを復元抽出でサンプリングする点が異なります。つまり、サンプリングされたデータ・ポイントは複数のフォールドに現れる可能性があります。

情報量基準

情報量基準は、モデルの複雑さの程度を、データセットに対する過剰適合や過小適合の可能性と比較します。過剰適合とは、モデルがトレーニング・データセットに過度に適合し、新しいデータに汎化できなくなることを指します。過少適合とはその逆で、モデルが十分に複雑でなく、データ・ポイント間の関係を捉えられない状態を指します。

赤池情報量基準（AIC）とベイズ情報量基準（BIC）はどちらも、データセットを適切に処理できる範囲で、可能な限り複雑さの低いモデルを採用することを推奨します。

モデル選択で考慮すべき要素

モデル性能だけが「最適な」モデルを決定する要因ではありません。その他の要因も、場合によっては同等かそれ以上に重要となることがあります。

データの複雑さ：データセットが複雑であればあるほど、それを処理するために必要なモデルも複雑になります。しかし、過度に複雑なモデルを適用すると、過剰適合につながる可能性があります。また、単純すぎるモデルはデータ内のパターンを十分に捉えられない可能性があります。適切なモデルは、過剰適合を回避しつつ、データを的確かつ効率的に処理します。
データ品質：データ前処理と特徴量選択は、データを機械学習アプリケーション向けに準備するデータサイエンスのプロセスです。外れ値や欠損データ、その他の障害はモデルによって影響度が異なりますが、合成データ、正則化、その他の対策によって克服できます。
解釈可能性：解釈可能性、または説明可能性とは、人間の観察者がモデルの仕組みをどの程度理解できるかを示す度合いです。「ブラックボックス」モデルは解釈可能性がほとんどなく、その意思決定の仕組みは大部分が不明なままです。インテリジェント・オートメーションやAIによる意思決定といった重要なビジネスアプリケーションでは、責任あるAI活用のガイドラインを遵守する組織にとって、解釈可能性が優先事項となります。ヘルスケアや金融などの一部の業界では、データ・プライバシーを含む幅広い規制が存在し、明確な解釈可能性の必要性がさらに強調されます。
効率性とリソース利用：計算資源の利用可能性やコストといった現実的な制約により、一部のモデルは最初から選択肢から外れる場合があります。ディープ・ニューラル・ネットワークは、トレーニングや運用のために膨大なデータと資金を必要とします。このようなモデルは魅力的ではありますが、すべてのタスクに適しているわけではありません。AICやBICは、MLプロジェクトのリーダーが十分な情報に基づいた意思決定を行い、モデルの複雑さを抑えるのに役立ちます。

LLMの選択

LLMは、AIエージェント、RAGを活用した質問応答、自動テキスト生成を備えたカスタマー・サービス用チャットボットなど、多くのビジネス・アプリケーションにおける中核的な人工知能モデルです。自然言語処理（NLP）とは、人間の言語を理解・生成するために機械学習アルゴリズムを利用する技術であり、LLMはその中の特定の種類のNLPモデルです。

代表的なLLMには、OpenAIのGPTファミリー（GPT-4oやGPT-3.5など、ChatGPTの基盤となるモデルの一部）や、AnthropicのClaude、GoogleのGemini、MetaのLlama 3があります。すべてのLLMは複雑なタスクを処理できますが、機械学習プロジェクトの具体的な要件によって、適切なLLMの選択が左右されます。

適切なLLMを選択する際には、次のような要因が関係します。

具体的なユースケース：機械学習の課題は、LLMの選択プロセスに直接影響します。あるLLMは長文ドキュメントの理解や要約に優れている一方で、別のLLMはドメイン固有の用途に合わせたファイン・チューニングが容易である場合があります。
性能：他のモデルと同様に、LLMも性能を評価するためにベンチマークで比較できます。LLMのベンチマークには、推論、コーディング、数学、レイテンシー、読解力、一般知識といったメトリクスが含まれます。プロジェクトの要件とベンチマーク性能を比較検討することで、高品質な出力を得るために最適なLLMを選択できます。
オープンソースかクローズドソースか：オープンソースモデルでは、モデルがどのように意思決定に至るかを観察できます。LLMによっては、バイアスやハルシネーションがさまざまな形で生じる可能性があります。つまり、現実の結果を反映しない予測を生成してしまう場合があります。コンテンツ・モデレーションやバイアス防止が最優先となる場合、選択肢をオープンソースのプロバイダーに限定することで、LLMの選択プロセスを適切に導くことができます。
リソース利用とコスト：LLMは大量のリソースを必要とするモデルです。多くのLLMは、数十万台以上のGPUを搭載したハイパースケール・データセンターによって稼働しています。LLMプロバイダーは、自社モデルへのAPI接続についても異なる料金体系を設定しています。モデルの拡張性とその料金体系は、プロジェクトの範囲に直接影響します。