AI 推論ソリューション

AI パフォーマンスの向上、複利収益

スマートに考える。 NVIDIA 推論を考えてください。

概要

AI 推論をスケールする賢い方法とは?

1 つのプロンプト。回答に対する 1 つのトークンのセット。これは AI 推論と呼ばれます。モデルのサイズと複雑さが増すにつれ、組織には、この AI スケーリング法則の新しい時代を成功させるために、フルスタックのアプローチとエンドツーエンドのツールが必要となります。

推論モデルが指数関数的に多くの AI トークンを生成するにつれ、コンピューティングの需要が急増しています。これを実現するには、NVIDIA Blackwell を活用して大規模な推論向けに最適化された専用インフラストラクチャである AI ファクトリーが必要です。これは、業界を問わずパフォーマンス、効率、ROI を提供するために設計されています。

フルスタック推論の最適化は、AI ファクトリー規模での AI スケーリングについて賢く判断するための鍵となります。

AWS、Google、Microsoft、OCI が、NVIDIA Dynamo でクラウド顧客向け AI 推論パフォーマンスを向上

NVIDIA Dynamo は、Kubernetes と連携して、シングルノードとマルチノードの AI 推論の両方の管理を合理化します。 NVIDIA Dynamo の新しい API である NVIDIA Grove は、単一の高レベルの仕様からシステム推論をオーケストレーションします。 Dynamo は、すべての主要なクラウドプロバイダーのマネージド Kubernetes サービスに統合され、ユーザーが NVIDIA Blackwell を介して拡張できるようにします。

ブログを読む

NVIDIA Blackwell が推論 ROI の基礎を形作る

NVIDIA Blackwell は、新しい SemiAnalysis InferenceMAX v1 ベンチマークを席巻し、最高の AI 推論パフォーマンスと全体的な効率を達成しました。 NVIDIA Blackwell は、最高の AI ファクトリー収益を実現します。GB200 NVL72 への 500 万ドルの投資は 7,500 万ドルのトークン収益、すなわち 15 倍の投資収益を生み出します。

主な成果を見る

NVIDIA Blackwell、AI 推論の ROI を最大化

NVIDIA Blackwell は、最大 15 倍の ROI を含む最高の AI ファクトリー収益を可能にします。これは、NVIDIA Blackwell、NVLink™、NVLink Switch のスケールアウトを目指した高度な共同設計、NVFP4 による低精度精度の実現、NVIDIA Dynamo と TensorRT™ LLM、およびコミュニティフレームワークSGLang、vLLMなどによる開発の結果です。

500 万ドルの GB200 NVL72 投資で 7,500 万ドルのトークン収益を創出

DeepSeek-R1 8K/1K の結果は、NVIDIA Blackwell GB200 NVL72 のパフォーマンス上の利点と収益機会が Hopper H200 と比較して 15 倍であることを示しています。

利点

推論を高速化するための NVIDIA AI の利点について知る

最適化されたフルスタックデプロイ

アプリケーション、AI フレームワーク、さまざまなオープンモデルと独自のモデルアーキテクチャとサイズ、プラットフォームを対象に、AI モデルのデプロイを標準化します。

統合と拡張を簡単に

パブリッククラウド、オンプレミスデータセンター、エッジで、ツールやプラットフォームと簡単に統合できます。

コストを削減し、収益を最大化

AI インフラストラクチャのスループットと使用率を高めることで、コストを削減できます。これが、推論の経済性が、AI の価値を最大化する方法です。

高性能

AI の主要な業界ベンチマークである MLPerf で複数の記録を絶えず打ち立てているプラットフォームで、業界をリードする推論パフォーマンスを体験できます。

ソフトウェア

AI 推論ソフトウェアの詳細を見る

NVIDIA AI 推論には、NVIDIA Dynamo Platform、TensorRT™-LLM、NVIDIA NIM™、その他のツールが含まれており、AI アプリケーションの構築、共有、デプロイを簡素化します。NVIDIA の推論プラットフォームは、主要なオープンソースツールを統合し、パフォーマンスを高速化し、エンタープライズグレードのインフラストラクチャ、ソフトウェア、エコシステム全体でスケーラブルで信頼できるデプロイを可能にします。

分散推論を使用して動的に拡張し、AI を提供します。

NVIDIA Dynamo は、AI ファクトリー規模で AI モデルのデプロイを高速化するためのオープンソースの推論ソフトウェアです。分散サービングを使用することで、Dynamo は推論タスクを小さなコンポーネントに分割し、ワークロードをその時点で利用可能な最も最適なコンピューティングリソースに動的にルーティングおよび再ルーティングします。

NVIDIA Dynamo の詳細はこちら

NIM で AI のデプロイを高速化

NVIDIA NIM™ は、クラウド、データセンター、ワークステーション、あるいはエッジなど、あらゆる NVIDIA アクセラレーテッドインフラストラクチャに最新の AI モデルを迅速にデプロイできるように、最適化された事前構築済みの推論マイクロサービスを提供します。

NVIDIA NIM の詳細を見る

業界をリードする推論パフォーマンス向け SDK

TensorRT-LLM は、NVIDIA GPU 上で高性能なリアルタイム LLM 推論のためのオープンソースライブラリです。モジュール型 Python ランタイム、PyTorch ネイティブのオーサリング、安定した本番環境 API を活用することで、スループットを最大化し、コストを最小化し、高速なユーザー体験を提供できるように最適化されています。

TensorRT-LLM の詳細を見る

NVIDIA DGX Cloud サーバーレス推論

自動スケーリング、コスト効率の GPU 使用率、マルチクラウドの柔軟性、シームレスな拡張性により AI イノベーションを加速する高性能なサーバーレス AI 推論ソリューションです。

DGX クラウドサーバーレス推論の詳細を見る

ハードウェア

AI 推論インフラストラクチャの詳細を見る

NVIDIA で高速化したインフラストラクチャ向けに最適化された NVIDIA AI 推論ソフトウェアを使用すれば、比類のない AI パフォーマンスが手に入ります。 NVIDIA Blackwell Ultra、H200 GPU、NVIDIA RTX PRO™ 6000 Blackwell Server Edition、NVIDIA RTX™ テクノロジは、データセンター、クラウド、ワークステーション全体の AI 推論ワークロードに優れたスピードと効率を提供します。

NVIDIA GB300 NVL72

AI 推論の需要が急増しており、NVIDIA Blackwell Ultra は、その需要を満たすように構築されています。 1 つのラックで 1.4 exaFLOPS を達成する NVIDIA GB300 NVL72 は、72 基の NVIDIA Blackwell Ultra GPU を、NVIDIA NVLink™ と NVFP4 で統合します。大規模なモデルを最大限の効率で強化し、50 倍の AI ファクトリーの出力を実現すると同時に、トークンのコストを削減し、リアルタイム推論を大規模に高速化します。

GB300 NVL72 の詳細を見る

NVIDIA H200 GPU

NVIDIA Hopper プラットフォームの一部である NVIDIA H200 GPU は、画期的なパフォーマンスとメモリ機能で、生成 AI とハイパフォーマンスコンピューティング (HPC) ワークロードを強化します。 H200 は HBM3e を搭載した初の GPU であり、この大容量かつ高速なメモリが、HPC ワークロードで科学計算処理を進化させる一方で、生成 AI と大規模言語モデル (LLM) を高速化します。

H200 の詳細を見る

NVIDIA RTX PRO 6000 Blackwell Server Edition

RTX PRO 6000 Blackwell Server Edition GPU は、幅広い AI モデルで強化された推論パフォーマンスを提供し、エンタープライズ規模のエージェント型および生成 AI アプリケーションで最大 5 倍のパフォーマンスを達成します。グローバルシステムパートナーから入手可能な NVIDIA RTX PRO™ サーバーは、Blackwell アーキテクチャのパフォーマンスと効率をあらゆる企業のデータセンターにもたらします。

RTX PRO 6000 Blackwell Server Edition の詳細を見る

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

RTX PRO 6000 Blackwell Workstation Edition は、96 GB の GPU メモリを提供する初のデスクトップ GPUです。 Blackwell GPU アーキテクチャのパワーと、大容量の GPU メモリと NVIDIA AI ソフトウェアスタックを組み合わせることで、RTX PRO を搭載したワークステーションは、デスクトップで直接生成 AI と LLM 推論の驚異的な高速化を提供できます。

RTX PRO 6000 Blackwell Workstation Edition の詳細を見る

大規模な AI の背後にある物語を探る

複雑な AI のトレードオフが、現実世界の成果にどのようにつながるかを疑問に思ったことはありませんか? 以下のパフォーマンス曲線のさまざまなポイントを調べ、ハードウェアとデプロイ構成のイノベーションがデータセンターの効率とユーザー体験に与える影響を直接ご覧ください。

TPS / ユーザー

–

TPS / MW

–

シミュレーションされたチャット体験

DeepSeek R1 ISL = 32K、OSL = 8K、GB300 NVL72 (FP4 Dynamo 分散) H100 は FP8 インフライトバッチ処理を適用。予測されるパフォーマンスは変更される場合があります。

各構成がどのようにして実際のユーザー体験に変換されるのか疑問に思っていますか? 一人で曲線を探索するか、[Explore with TJ (TJ と探索)] をクリックして TJ のガイダンスを受けながら探索してください。そして、右側のシミュレーションされたチャットでそれが実現される様子を確認してください。

NVIDIA Dynamo AI コンフィギュレーターでさらに探求

導入事例

業界のリーダーが AI 推論でイノベーションを推進している方法

導入事例をさらに見る

Amdocs

生成 AI の性能を高速化し、コストを削減

Amdocs が amAIz を構築するまでの過程をご覧ください、amAIz は通信業者向けのドメイン固有の生成 AI プラットフォームであり、NVIDIA DGX™ Cloud と NVIDIA NIM 推論マイクロサービスを使用することで、遅延を改善し、正確性を大きく向上させ、コストを削減します。

ケーススタディを読む

Snapchat

衣料品購買を AI で強化

Snapchat が、Triton Inference Server を使用して、衣服のショッピング体験を向上させ、絵文字を認識する光学文字認識を実現し、規模の拡大、コスト削減、開発期間の短縮を実現した方法をご覧ください。

ケーススタディを読む

Amazon

顧客満足度の向上

Amazon が TensorRT を使用して、どのように推論を 5 倍に高速化し顧客満足度を改善したのかをご覧ください。

ケーススタディを読む

AI 推論リソースの最新情報

ブログ
セッション
トレーニング
動画

すべての技術ブログを見る

他のセッションを見る

NVIDIA LaunchPad で推論を始める

現在進行中の AI プロジェクトはありますか?皆さんの AI ソリューションをテストし、プロトタイピングすることができる実践的な経験にぜひお申し込みください。

今すぐ申し込む

生成 AI と LLM ラーニングパスを見る

当社の包括的なラーニングパスを使用して、生成 AI や大規模言語モデルの技術スキルを向上させましょう。

詳細を見る

NVIDIA LaunchPad での生成 AI 推論を始める

NVIDIA NIM 推論マイクロサービスと AI モデルに今すぐ無料で短期間アクセスし、生成 AI への取り組みを迅速化しませんか。

今すぐ始める

トレーニングをもっと見る

生成 AI を NVIDIA NIM で本番環境にデプロイ

NVIDIA NIM は生成 AI の可能性を引き出します。この動画では、NVIDIA NIM マイクロサービスが、AI のデプロイを本番環境に対応したパワフルなソリューションに変貌させる方法を説明します。

動画を見る (01:55)

Triton が推論をシンプルにする 5 つの理由

Triton Inference Server は、本番環境への大規模な AI モデルの展開を簡素化します。オープンソースの推論サービスソフトウェアにより、チームはローカルストレージまたはクラウドプラットフォームなど、あらゆるフレームワークからトレーニング済みの AI モデルをあらゆる GPU または CPU ベースのインフラストラクチャにデプロイできます。

動画を見る (01:59)

UneeQ

NVIDIA が NIM を発表

NVIDIA の NIM 技術で何ができるのか疑問に思ったことはありませんか? 驚くべきデジタルヒューマンやロボットの世界について深く掘り下げながら、NIM が実現する可能性について確認しましょう。

動画を見る (13:42)

他も動画を見る

次のステップ

さっそく始めませんか?

最新のドキュメント、チュートリアル、技術ブログなど、AI アプリケーション開発を始めるために必要な情報をすべてご覧ください。

開発を始める開発を始める

推論ワークロードに最適なハードウェアを見つける

NVIDIA データセンターソリューションは、一部の NVIDIA パートナーネットワーク (NPN) を通じてご利用いただけます。最新の NVIDIA データセンターソリューションを利用するための柔軟でお手頃なオプションを、NVIDIA パートナーネットワークを通じてご検討ください。

NVIDIA Marketplace を見る

NVIDIA AI 推論に関する最新情報を受け取る

NVIDIA から最新ニュース、アップデートなどの情報を受け取るには登録してください。

情報を受け取る

AI パフォーマンスの向上、複利収益

概要

AI 推論をスケールする賢い方法とは?

AWS、Google、Microsoft、OCI が、NVIDIA Dynamo でクラウド顧客向け AI 推論パフォーマンスを向上

NVIDIA Blackwell が推論 ROI の基礎を形作る

NVIDIA Blackwell、AI 推論の ROI を最大化

500 万ドルの GB200 NVL72 投資で 7,500 万ドルのトークン収益を創出

利点

推論を高速化するための NVIDIA AI の利点について知る

最適化されたフルスタック デプロイ

統合と拡張を簡単に

コストを削減し、収益を最大化

高性能

ソフトウェア

AI 推論ソフトウェアの詳細を見る

分散推論を使用して動的に拡張し、AI を提供します。

NIM で AI のデプロイを高速化

業界をリードする推論パフォーマンス向け SDK

NVIDIA DGX Cloud サーバーレス推論

ハードウェア

AI 推論インフラストラクチャの詳細を見る

NVIDIA GB300 NVL72

NVIDIA H200 GPU

NVIDIA RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

大規模な AI の背後にある物語を探る

導入事例

業界のリーダーが AI 推論でイノベーションを推進している方法

生成 AI の性能を高速化し、コストを削減

衣料品購買を AI で強化

顧客満足度の向上

関連情報

AI 推論リソースの最新情報

NVIDIA LaunchPad で推論を始める

生成 AI と LLM ラーニング パスを見る

NVIDIA LaunchPad での生成 AI 推論を始める

生成 AI を NVIDIA NIM で本番環境にデプロイ

Triton が推論をシンプルにする 5 つの理由

NVIDIA が NIM を発表

次のステップ

さっそく始めませんか?

推論ワークロードに最適なハードウェアを見つける

NVIDIA AI 推論に関する最新情報を受け取る

AI 推論関連の最新情報を NVIDIA から受け取る

最適化されたフルスタックデプロイ

生成 AI と LLM ラーニングパスを見る