GPT-4oとは

青いデジタルユーザーインターフェイス、背景にビジネスマンの手

共同執筆者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

GPT-4oとは

GPT-4oとは、人工知能(AI)開発元のOpenAIが2024年5月にリリースした大規模言語モデル(LLM)で、テキスト、音声、画像を統合的に扱えるマルチモーダルかつ多言語対応の生成事前学習済みTransformerモデルです。GPT-4o mini、GPT-4 Turbo、オリジナルのGPT-4を含むGPT-4 AIモデル・ファミリーのうち、主力となるLLMです。

「o」はオムニを表し、GPT-4oが視聴覚機能を備えたマルチモーダルAIモデルであることを強調しています。つまり、文書、音声、画像、動画インプットが入り交じったプロンプト・データ・セットを受け入れることができます。GPT-4oでは画像生成も可能です。GPT-4oは、同じTransformerを活用したGPT-4インテリジェンスにマルチメディアのインプット・アウトプット機能を導入し、同ライン内の他のモデルを強化しています

2024年5月、OpenAIの春のアップデートの一環として発表されたChatGPTの新モデルは、話し言葉をリアルタイムで翻訳し、感情的な内容を含む音声応答を適応させ、生き生きとした会話をするように見えました。

GPT-4oとGPT-4o miniはどちらもファイン・チューニングをサポートしているため、開発者はこれらのモデルを具体的なユースケースに適用することができます。

GPT-4o miniとは

GPT-4o miniは、小型でコスト効率の高いGPT-4oモデルであり、OpenAI製品ファミリーの中で最も高速な生成AIモデルです。数十億または数千億のパラメーターを持つより大型の大規模言語モデル(LLM)とは異なり、GPT-4o miniは小規模で無駄のないモデルです。コンパクトなサイズにもかかわらず、GPT-3.5 Turboと比較すると約60%のコストで同様の速度を発揮します。

より大規模な兄弟分のモデルと同様に、GPT-4o miniもマルチモーダル機能を備え、英語以外の言語をサポートし、推論、数学、コーディングなどの一般的なAIタスクを処理できます。公開時点では、GPT-4o mini はテキストと画像のインプットを処理できます。OpenAIは音声・動画コンテンツのサポートは保留中であると主張しています。

開発者はアプリケーション・プログラミング・インターフェース(API)を通じてGPT-4o miniにアクセスでき、そのコストはインプット・トークン100万個あたり0.15米ドル、トークン100万個あたり0.60セントです。

GPT-4oとGPT-4の違い

GPT-4oは、「オールインワン」のフラッグシップ・モデルで、マルチモーダルなインプットとアウトプットを単一のニューラル・ネットワーク上で処理できます。GPT-4 TurboやGPT-3.5などの以前のモデルでは、さまざまな異なるコンテンツ・タイプのインプットと生成には、OpenAI APIやその他のサポート・モデルが必要でした。GPT-4 Turboは画像プロンプトを処理できますが、APIのサポートなしでは音声を処理することはできません。

GPT-4oのマルチモーダルな性質は、GPT-4 Turboと比較して唯一最大のブレークスルーであり、多くの進歩を支えています。

  • リアルタイムの音声会話

  • 音声の抑揚を把握する機能

  • 動画処理機能を内蔵

  • 画像生成

  • トークンの効率性の向上

リアルタイムの音声会話

GPT-4oの高速化とマルチモーダル機能により、GPT-4 Turboよりも人間的なペースで会話を進め、言語を翻訳することができます。リリース発表1の一環としての動画デモでは、ChatGPT-4oが英語とスペイン語の話者の間をリアルタイムで翻訳している様子が映し出されました。GPT-4oは、50以上の言語でチャットボットの音声をサポートします。

GPT-4oは音声入力を単独で処理できるため、以前のモデルよりも遅延(インプットを受信した瞬間からアウトプットを生成するまでにかかる時間)が短くなりました。音声によるインプットには320ミリ秒で応答し、人間の一般的な応答時間の210ミリ秒と変わりません。

GPT-4の前のイテレーションでは、同様のサービスを提供するためにパイプラインに複数のモデルを組み立てる必要があり、遅延が5.4秒にまで増加していました。GPT-4oが登場する前は、OpenAIのWhisper APIは音声プロンプトをテキストに変換し、GPT-4に送り、その後、Text to SpeechサービスでGPTの応答を音声に戻していました。

GPT-4 Turboも全体的に低速なモデルでした。AIの評価を実施する組織、Artificial Analysis2によるベンチマーク・テストでは、GPT-4oは1秒あたり110トークンの速度を示し、GPT-4 Turboの約3倍の速度を実現しました。同じテストで、GPT-4oは、Claude 3 OpusやGemini 1.5 Proなど、多くの競合他社を上回るパフォーマンスを発揮しました。

音声の抑揚を把握する機能

以前のWhisper—GPT—TTSパイプラインでは、音声インプットの処理時、GPT-4 Turboは話されている内容の文字による書き起こしのみを受信していました。書き起こしではバックグラウンドノイズ、話者のアイデンティティー、声のトーンを除外し、ユーザーが話した内容のみが分離されるため、GPTからかなりのコンテキストデータを奪ってしまいます。

マルチモーダル・モデルであるGPT-4oは、音声インプット全体を処理し、追加のコンテキストに適切に応答できます。自然言語処理(NLP)の改良により、音声モードで使用するときに、情緒や抑揚、感情内容をアウトプット生成に含めることができます。

動画処理機能を内蔵

GPT-4oは、文書と音声に加え、画像と動画のインプットも処理します。GPT-4oはライブカメラの映像に接続したり、ユーザーの画面を録画したりすることができ、見たものを説明したり質問に答えたりできます。ユーザーはスマートフォンのカメラをオンにし、友人や同僚と話すのと同じようにChatGPT-4oと話すことができます。

以前は、GPT-4 Turboが視覚コンテンツを分析するにはGPT-4 Vision APIが必要でした。

画像生成

OpenAIのリリース声明によると、GPT-4oは自己完結型の画像生成機能を提供します。GPT-4 Turboでは、画像生成にはOpenAIのDALL-E 3モデルへの接続が必要でした。GPT-4 Turboがテキストベースのユーザー・プロンプトを入力し、DALL-Eが画像を作成していたのです。

トークンの効率性の向上

OpenAIは、GPT-4oを使用してGPT-4のトークン化能力を向上させました。トークン化はLLMが単語をデータに変換するプロセスを指します。各トークンは単語全体、または1つの単語の一部と句読点を表します。AIモデルは単語をトークンに変換し、複雑な数学を適用してそのデータを分析します。

GPT-4oは、中国語、ヒンディー語、アラビア語などの非ローマ字言語を、以前よりもはるかに効率的にトークンに変換します。OpenAIはインプットまたはアウトプットトークンごとにAPIユーザーに料金を請求するため、非ローマ字言語への対応により、GPT-4oはこれらの言語でのユースケースのコスト効率を高めます。

GPT-4oで他にできること

GPT-4oは、新しいマルチモーダル機能に加えて、過去のイテレーションと同じ機能の多くを備えています。

  • 質問応答

  • 文書の分析と要約

  • センチメント分析

  • データ分析

  • コーディング

    質問応答

    ナレッジ・カットオフが2023年10月であるGPT-4oは、ナレッジベースの観点でもOpenAIの最新のモデルです。ナレッジ・カットオフとは、モデルのトレーニング・データが終了する時点です。ユーザーはGPT-4oに質問し、ハルシネーションのリスクをはあるものの、回答を受け取ることができます。

    文書の分析と要約

    ユーザーはファイルをアップロードし、ChatGPTで分析して要約できます。GPT-4oの128,000トークンのコンテキスト・ウィンドウは、大規模なインプット・データ・セットを処理できますが、Claude 3よりは小規模なものです。

    LLMのコンテキスト・ウィンドウは、入力シーケンス全体にわたって文脈理解を維持しながらフィールド化できるトークンの最大数を表します。コンテキスト・ウィンドウが大きいほど、AIモデルはより複雑なプロンプトを取り込み、応答を生成する際にユーザーからのより多くの情報を取り込むことができます。

    GPT-4はすでに、GPT-4 Vision APIを使用することで、光学式文字認識(OCR)による文書の読み取り能力を実世界で実証しています。

    センチメント分析

    センチメント分析は、発言や行動からその人がどのように感じているかを識別するプロセスです。研究者は、例えばユーザーのレビューを分析する際などに、AIモデルを使用してセンチメント分析を大規模に実行します。マルチモーダル・モデルであるGPT-4oは、音声インプットから感情を識別できます。

    データ分析

    GPT-4oは、セルフサービス分析プラットフォームに見られるように、複雑なデータ・セットを処理し、実行可能な洞察を抽出することができます。また、データをチャートやグラフとして表現することもできます。

    コーディング

    GPT-4oはコーディング機能を備えた最初のLLMではありませんが、そのマルチモーダルな性質によってプログラマーのワークフローを簡素化できます。ユーザー・インターフェイスにコードをペーストするのではなく、画面を共有して、GPT-4oにコード分析、フィードバックの提供、コード・スニペットの生成を任せることができます。

    GPT-4oはどのように動作するか

    GPT-4oの発表時、OpenAIは新モデルと競合モデルを比較したLLMベンチマークテスト成果をリリースしました。GPT-4 Turbo、初回リリース時のGPT-4、AnthropicのClaude 3 Opus、MetaのLlama 3 400B、GoogleのGemini 1.5 Pro、Gemini 1.0 Ultraが、GPT-4oと並んでいくつかの主要なベンチマークテストを受けました。

    テストには、知識ベースと問題解決スキルを評価する大規模マルチタスク言語理解(MMLU)と、コードチェックテストであるHumanEvalが含まれていました。OpenAIでは、広範囲にわたる推論を必要とする科学試験である大学院レベルのGoogle-Proof Q&A(GPQA)を使った、GPT-4oとGoogleモデルとの対照テストは実施していません。また、Llama 3 400Bは10か国語で行われる数学の試験であるMultilingual Grade School Math(MGSM)も含んでいません。

    GPT-4oは6つのテストのうち4つで1位を獲得し、MGSMではクロード3オーパスに次いで2位、複数の段落にまたがって推論する能力をテストするDROP(Discrete Reasoning Over Paragraphs)ではGPT-4ターボに次いで2位でした。

    全体として、GPT-4oはGPT-4 Turboと比較して性能の大幅な向上を見せているわけではありません。このモデルの主な進歩は、マルチモーダル機能と速度の向上です。

    GPT-4oへのアクセス方法

    OpenAIは、GPT-4oをさまざまな場所や製品で、無料ユーザーとプレミアムユーザーの両方が利用できるようにしています。

    • ChatGPT Plus、Teams、Enterprise

    • ChatGPT Free

    • デスクトップおよびモバイル・アプリケーション

    • AI アプリケーション

    • Microsoft Azure OpenAI Studio

    ChatGPT Plus、Teams、Enterprise

    OpenAIのプレミアムChatGPTサービス加入者は、GPT-4oへのアクセスレベルが異なります。ChatGPTプラスユーザーはGPT-4oで3時間ごとに80メッセージまで送信でき、チームユーザーはより多くのアクセスが可能です。EnterpriseユーザーはGPT-4oに無制限にアクセスできます。

    ChatGPT Free

    ChatGPT Freeティアのユーザーは、需要が許す限り、チャットボットを支えるデフォルト・モデルとしてGPT-4oを使用できます。無料ユーザーが制限に達すると、GPT-4o mini 3にロールバックされます。

    デスクトップおよびモバイル・アプリケーション

    OpenAIはGPT-4oと共に、新モデルとユーザーのMacBookを統合するmacOSデスクトップアプリをリリースしています。OpenAIのChatGPTモバイル・アプリケーションも、ユーザーのサブスクリプション層に基づいてGPT-4oへのアクセスを許可しています。

    AI アプリケーション

    ChatGPT Plus、Teams、EnterpriseユーザーはカスタムGPTを構築することができ、そのGPTを通じて特定のユースケースに特化したGPT-4oを使用することができます。開発者はAPIを通じてGPT-4oに接続し、他のAIツールを作成することもできます。

    Microsoft Azure OpenAI Studio

    GPT-4oとGPT-4o Miniはどちらも、Microsoft AzureEnterprise AIプラットフォームの一部であるMicrosoftのAzure OpenAI Studioで利用できます。公開時点で、CopilotはGPT-4 Turboの提供を継続していますが、Microsoftは2024年5月4に、自社のAIサービスがまもなくGPT-4oのサポートを受けると発表しました。

    GPT-4oを使用するリスク

    ヴィッシング詐欺、ディープフェイク、その他の種類のオーディオ詐欺に使用される可能性を減らすため、OpenAIは発売時にGPT-4oを事前に設定された4つの音声に制限しました。しかし、生成AIの他のリリースと同様、GPT-4Oは不完全なモデルであり、その使用によるリスクには以下が含まれます。

    • ハルシネーション:すべての生成AIモデルと同様、GPT-4oは、存在しないデータ内のパターンを検知すると、ハルシネーションを起こす、つまり事実とは異なる誤った情報を提示することがあります。AIで生成されたコンテンツは、先に精査したり事実を確認したりせずに使用するべきではありません。
    • データ侵害: OpenAIは、ユーザーが提供したインプットを保管し、それを使用してモデルをトレーニングし続けます。機密データをChatGPTに入力すると、そのデータが他のユーザーへの応答に表示されてしまうことがあります。
    • 知的財産侵害:OpenAIは、ニュース記事などの著作権で保護された資料を含む、オンラインで入手可能なデータでモデルをトレーニングします。モデルは応答の中で、著作権で保護されたコンテンツを誤って生成する可能性があります。

    OpenAI は、GPT-4o を社内基準で中リスクのモデルに分類しています。モデルは、サイバー・セキュリティー、CBRN(化学、生物、放射線、核の脅威)、説得力、モデルの自律性という 4 つの脅威メトリクスに基づいて評価されます。OpenAI は、各脅威分野での開発を前進させるためにモデルがどの程度使用できるかに基づいてモデルを評価します。

    評価を受けると、モデルには各フィールドで「低」から「クリティカル」までのスコアが付けられ、その後、緩和策を考慮した後、その1つの最も高い脅威ランキングに対応する全体的なスコアが割り当てられます。

    GPT-4oは、4つのカテゴリのうち3つのカテゴリで「」スコアを獲得しており、「説得力」では「中」のスコアを獲得しています。これは、「人間が書いた典型的なコンテンツに匹敵する説得力を持つ(場合によってはインタラクティブな)コンテンツを作成できる」ということです5。例えば理論的には、悪意のあるユーザーが偽情報記事やソーシャルメディアコンテンツを作成するためにGPT-4oを使用する可能性があります。

    脚注

    1. Hello GPT-4o、OpenAI社、2024年5月13日

    2. GPT-4o: Quality、Performance & Price Analysis、Artificial Analysis社、2024年

    3. Using ChatGPT's Free Tier - FAQ、OpenAI社、2024年

    4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o、CNET社、2024年5月24日

    5. Preparedness 
Framework 
(Beta)、OpenAI社、2023年12月18日