機械学習におけるモデル選択とは、選択されたタスクに最も適した機械学習モデル(MLモデル)を選ぶプロセスのことです。選択されるモデルは通常、関連する性能メトリクスを満たしつつ、未知のデータにも最も適切に対応できます。
MLモデルの選択プロセスとは、候補となる複数のモデルを比較することです。機械学習の専門家は、それぞれのMLモデルの性能を評価し、評価指標のセットに基づいて最適なモデルを選択します。
多くの機械学習タスクの中心となるのは、データの中からパターンを認識し、そのパターンに基づいて新しいデータを予測するという課題です。最も性能の高い予測モデルを選択することで、より正確な予測と、より信頼性の高いMLアプリケーションにつながります。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
AIモデルの選択は、その機械学習システムがどの程度うまく機能するかを決定するため、重要です。モデルにはそれぞれ長所と短所があり、適切なモデルを選択することがプロジェクトの成功に直結します。モデル選択は、MLモデルを作成およびデプロイするためのより大きな機械学習パイプラインにおける初期段階です。
タスクによっては、大規模なデータセットの詳細を捉えられる複雑なモデルが必要になる場合がありますが、そのようなモデルは新しいデータへの汎化に苦労することがあります。それらのモデルは、より多くの計算能力やリソースを必要とする場合もあります。別のタスクでは、特定の目的に合わせて設計された小規模でシンプルなモデルの方が適しています。
適切なモデルを選択することで、次のような効果が得られます。
効率の最適化:候補となるモデルの中で最も優れたものは、性能と汎化能力、複雑さ、リソース使用量とのトレードオフをうまくバランスします。
モデル性能の最大化:ツールの有用性は、それが適用されるタスクによって決まります。候補モデルをテストおよび評価することで、そのタスクに最も適した高性能なモデルを見極め、AIアプリケーションが現実の環境で有効に機能する可能性を最大化できます。
プロジェクト成功の推進:モデルの複雑さは、トレーニング時間やリソース要件、さらには成果に直接影響します。予測モデルには、シンプルなものから複雑なものまでさまざまな種類があります。シンプルなモデルはトレーニングが速くコストも低い一方で、複雑なモデルはより多くのデータ、資金、時間を必要とします。
モデル選択プロセスは、対象となるユースケースに最適化されたモデルを作り出すことを目的としています。機械学習の専門家は、まず問題を定義し、高い性能が期待できるモデルの種類を選択し、最後に候補モデルを学習・テストして最適なモデルを特定します。
モデル選択プロセスの段階には、一般的に次のようなものが含まれます。
MLにおける課題の設定
候補モデルの選択
モデル評価指標の決定
モデルの学習と評価
タスクの性質によっては、ある機械学習アルゴリズムの方が他より適している場合があります。MLの課題は通常、次の3つのカテゴリーのいずれかに分類されます。
回帰問題は、入力特徴量と価格などの連続的な出力変数との関係を特定することをモデルに課します。回帰問題の例としては、給与水準の予測や、気象条件に基づく自然災害発生の可能性の予測などがあります。モデルの予測は、季節や人口統計情報などの関連する入力特徴量に基づいて行われます。時系列予測は、時間の経過に伴う変数の値を予測する回帰課題の一種です。時系列モデルは、この課題に特化した計算効率の高いモデル群です。
分類問題は、一連の入力変数に基づいてデータ・ポイントをカテゴリーに分類します。分類問題の例には、物体認識やメールのスパム・フィルターなどがあります。トレーニング・セットには、入力と出力の関連性を学習できるように、ラベル付きの出力を持つデータ・ポイントが含まれる場合があります。この手法は教師あり学習として知られています。
クラスタリング問題は、データ・ポイントを類似性に基づいてグループ化します。クラスタリングは分類とは少し異なり、既知のカテゴリーにデータ・ポイントを分類するのではなく、データ・ポイントの中からグループを発見することを目的としています。モデルは、教師なし学習の環境において、自ら類似性を見分ける必要があります。市場セグメンテーションは、クラスタリング課題の一例です。
テストプロセスでは、候補モデルを比較し、あらかじめ選定されたメトリクスに基づいて性能を評価します。多くのメトリクスが存在しますが、MLの課題の種類によって、適しているメトリクスとそうでないメトリクスがあります。
分類のモデル評価メトリクスには、次のようなものがあります。
正解率:予測全体の中で正しく予測できた割合。
適合率:正と予測したもののうち、実際に正であった割合。正と予測した精度を示します。
再現率:実際に正であるもののうち、正と予測できた割合。正の事例を見つけ出す能力を示します。
F1スコア:適合率と再現率を組み合わせ、正の事例を認識して正しく分類するモデルの能力を総合的に示します。
混同行列:真陽性、偽陽性、真陰性、偽陰性を表形式で示すことで、分類モデルの性能を要約します。
AUC-ROC:真陽性率と偽陽性率を受信者動作特性(ROC)曲線としてプロットしたグラフ。曲線下面積(AUC)は、モデルの性能を示します。
回帰評価のメトリクスには、次のようなものがあります。
平均二乗誤差(MSE):予測値と実際の値の差を二乗し、その平均を算出します。MSEは外れ値に非常に敏感で、大きな誤差を厳しく評価します。
平方平均二乗誤差(RMSE):MSEの平方根であり、変数と同じ単位で誤差率を示すため、メトリクスの解釈しやすさを高めます。MSEは誤差を変数の単位の二乗で表示します。
平均絶対誤差(MAE):目的変数について、実際の値と予測値の差の絶対値の平均を表します。MAEはMSEよりも外れ値に対して影響を受けにくいです。
平均絶対百分率誤差(MAPE):平均絶対誤差を予測変数の単位ではなく百分率で表すことで、モデル間の比較を容易にします。
決定係数(R²):モデルの性能を0から1の範囲で示す基準となるメトリクスです。ただし、決定係数(R²)の値は特徴量を増やすことで人工的に高くなる可能性があります。
自由度調整済み決定係数(Adjusted R²):モデルの性能向上に寄与する特徴量を反映し、無関係な特徴量は無視します。
データサイエンティストは、利用可能なデータを複数のセットに分割し、モデルのトレーニングと評価に備えます。トレーニング・データセットはモデルのトレーニングに使用され、候補モデルがデータ・ポイントの中のパターンや関係性を認識できるようになります。次に、データセットの別の部分を使ってモデルの性能を確認します。
最もシンプルで迅速なテスト手法は、トレイン・テスト分割です。データサイエンティストは、データセットをトレーニング用とテスト用の2つに分割します。モデルはトレーニングが終わるまでテスト用データには触れず、テストセットは現実環境でモデルが処理する新しい未知のデータの代替として機能します。
モデルの作成者は、幅広いモデル選択手法を利用できます。中には、モデルの初期設定やアーキテクチャーに関わり、その挙動に影響を与えるものもあります。また、より詳細で厳密なモデル評価を行ったり、特定のデータセットにおけるモデルの性能を予測したりする手法もあります。
モデル選択手法には、次のようなものがあります。
ハイパーパラメータ・チューニング
交差検証
Bootstrapping
情報量基準
ハイパーパラメーター・チューニングとは、モデルの構造や挙動を決定する外部設定であるハイパーパラメーターを最適化するプロセスです。モデルには、トレーニング中にリアルタイムで更新される内部パラメーターもあります。内部パラメーターは、モデルがデータを処理する方法を制御します。生成AIで使用されるような複雑なモデルでは、1兆を超えるパラメーターを持つ場合もあります。
ハイパーパラメーター・チューニングは、モデルを初期トレーニング段階(事前学習)後に追加でトレーニングしたり調整したりするファイン・チューニングとは異なります。
いくつか代表的なハイパーパラメーター・チューニング手法は次のとおりです。
グリッド・サーチ:考えられるすべてのハイパーパラメーターの組み合わせをトレーニング、テスト、評価します。総当たり方式の手法であるグリッド・サーチは、最適なハイパーパラメーターの組み合わせを見つけ出す可能性は高い一方で、この手法は時間がかかり、リソースの消費も大きくなります。
ランダム・サーチ:ハイパーパラメーターの組み合わせをランダムに抽出し、そのサブセットの各サンプルを使ってモデルをトレーニング、テストします。ランダム・サーチは、グリッド・サーチの実行が現実的でない場合の代替手法です。
ベイズ最適化:確率モデルを用いて、最高のモデル性能につながる可能性が最も高いハイパーパラメーターの組み合わせを予測します。ベイズ最適化は反復的な手法であり、トレーニングとテストを繰り返すごとに精度が向上し、大規模なハイパーパラメーター空間でも有効に機能します。
k分割交差検証のリサンプリング方式では、データをk個のセット(フォールド)に分割します。トレーニング・データはk-1個のサブセットで構成され、残りの1つのセットでモデルを検証します。このプロセスを繰り返すことで、各サブセットが検証用データとして利用されます。データ・ポイントは非復元抽出でサンプリングされ、各データ・ポイントが1回の反復につき一度だけ使用されます。
k分割交差検証は、単一のトレイン・テスト分割よりも、モデルの性能をより包括的に把握できます。
ブートストラッピングは交差検証に似たリサンプリング手法ですが、データ・ポイントを復元抽出でサンプリングする点が異なります。つまり、サンプリングされたデータ・ポイントは複数のフォールドに現れる可能性があります。
モデル性能だけが「最適な」モデルを決定する要因ではありません。その他の要因も、場合によっては同等かそれ以上に重要となることがあります。
LLMは、AIエージェント、RAGを活用した質問応答、自動テキスト生成を備えたカスタマー・サービス用チャットボットなど、多くのビジネス・アプリケーションにおける中核的な人工知能モデルです。自然言語処理(NLP)とは、人間の言語を理解・生成するために機械学習アルゴリズムを利用する技術であり、LLMはその中の特定の種類のNLPモデルです。
代表的なLLMには、OpenAIのGPTファミリー(GPT-4oやGPT-3.5など、ChatGPTの基盤となるモデルの一部)や、AnthropicのClaude、GoogleのGemini、MetaのLlama 3があります。すべてのLLMは複雑なタスクを処理できますが、機械学習プロジェクトの具体的な要件によって、適切なLLMの選択が左右されます。
適切なLLMを選択する際には、次のような要因が関係します。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。