モデルの能力に基づいてAIモデルを選択する

検討すべき主なモデル能力

モデル能力の詳細

検討すべき主なモデル能力

モダリティ(入力・出力)

モダリティとは、AIモデルが入力として処理できるデータの種類や形式、また出力として生成できるデータのことを指します。

最大コンテキスト長(コンテキストウィンドウ)

最大コンテキスト長(コンテキストウィンドウ)

コンテキスト長とは、モデルが一度に「考慮」できる情報量(例:単語やトークン数)を意味します。

  • 短いコンテキスト(約1,000トークンまで): 簡単な質問への回答、メール分類、小さな画像の物体認識など、シンプルなタスクに最適です。

  • 中程度のコンテキスト(約2,000〜4,000トークン): 長めのドキュメントや複数ターンの会話対応に有効です。レポート要約やチャットボットのサポートなどに適しています。

  • 長いコンテキスト(10,000トークン以上): 長文ドキュメントや複雑な会話、大規模データセットの深い理解が可能です。法務文書レビューや書籍、広範なカスタマーサポート対話などに最適です。

ヒント: ワークロードに合わせて適切なコンテキスト長を選びましょう。長いコンテキストは理解力を高めますが、計算コストや応答遅延も増加します。

インテリジェンス

インテリジェンスとは、AIモデルがタスク要件に応じて情報を理解・処理・生成する能力のことです。正確性、文脈理解、推論力、適応力などが含まれます。

一般的な指標として MMLU(Massive Multitask Language Understanding) スコアがあります。これは学術・専門分野にわたる幅広いタスクでのモデル性能を評価します。MMLUスコアが高いほど、言語理解や問題解決能力が高いと判断できます。用途に合ったモデル選定の参考になります。

スピードとレイテンシ

スピードは、AIモデルがタスクを完了するまでの速さを指します。

レイテンシは、リクエスト送信から応答を受け取るまでの遅延時間です。

これらの性能はユースケースによって重要度が異なります。たとえば、チャットボットなどリアルタイム用途では低レイテンシが求められますが、バッチ処理では多少の遅延が許容されます。

ヒント: スピードとレイテンシを理解することで、リソースを無駄にせず、タイムリーな応答が得られるモデルを選択できます。

コスト

コストは、AIモデルが処理するデータ量(トークン数)によって決まります。入力トークンコストは送信データの処理費用、出力トークンコストはモデルが生成した応答の費用です。通常、1,000トークン単位で課金されます。

ヒント: トークン使用量を把握することで、コスト管理や費用対効果の最適化が可能です。

主な特徴

AIモデルには、特定のタスク性能を高めるための独自機能やスキルが搭載されている場合があります。これらの特徴を理解することで、ニーズに最適なモデルを選択できます。

最適なユースケース

AIモデルは、それぞれ得意分野や用途があります。モデルの強みとビジネスニーズを適切にマッチさせることが重要です。

モデル能力の詳

以下のリストからモデル名をクリックすると、それぞれの強みやユースケースの詳細にジャンプできます。

GPT

Claude

Gemini


GPT-4.0

OpenAIのGPT-4oは、テキストと画像の両方に対応したマルチモーダルモデルです。リアルタイム応答が可能で、軽量な開発タスクや会話型プロンプトに適しています。

マルチモーダル対応

  • 入力:テキスト、画像

  • 出力:テキスト

コンテキストウィンドウ: 128,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:—

スピード:中程度

  • トークン/秒

レイテンシ:低い

価格($/100万トークン)

  • 入力 $2.50 / 出力 $10.00

最適な用途:

  • 複雑なタスク、深い理解、多段階指示に適しています。


GPT-4.1

OpenAIの最新モデルで、GPT-4oよりも全体的に優れた性能を発揮します。コーディング、指示の遵守、長文理解などで大きく向上しています。より大きなコンテキストウィンドウと、2024年6月時点の知識カットオフを備えています。

開発者からのフィードバックをもとに、フロントエンドコーディング、余計な編集の削減、フォーマット遵守、応答構造の一貫性、ツール利用の安定性など、実運用向けに最適化されています。スピードと応答性、汎用的な推論力が求められる開発タスクに最適なデフォルトモデルです。

マルチモーダル対応

  • 入力:テキスト、画像

  • 出力:テキスト

コンテキストウィンドウ: 1,047,576トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.806

スピード:中程度

  • 120.9トークン/秒

レイテンシ:低い

  • 0.57秒

価格($/100万トークン)

  • 入力 $2.00 / 出力 $8.00

最適な用途:

  • 複雑なタスクや分野横断的な問題解決

  • フロントエンド開発、差分編集、ツール連携、厳密な指示遵守が求められるエージェント型コーディングタスクに強み


GPT-4.1-mini

GPT-4.1 miniは、インテリジェンス・スピード・コストのバランスが良く、多様なユースケースに適しています。

マルチモーダル対応

  • 入力:テキスト、画像

  • 出力:テキスト

コンテキストウィンドウ: 1,047,576トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.781

スピード:やや遅い

  • 74.2トークン/秒

レイテンシ:やや高い

  • 79.2秒

価格($/100万トークン)

  • 入力 $0.40 / 出力 $1.60

最適な用途:

  • 複雑なタスク、深い理解、多段階指示に適しています。


o4-mini (Thinking)

マルチモーダル対応

  • 入力:テキスト、画像

  • 出力:テキスト

コンテキストウィンドウ: 200,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.832

スピード:速い

  • 139.9トークン/秒

レイテンシ:やや高い

  • 51.15秒

価格($/100万トークン)

  • 入力 $1.10 / 出力 $4.40

最適な用途:

  • コーディングや画像タスクで効率的なパフォーマンスを発揮


o3-mini (Thinking)

マルチモーダル対応

  • 入力:テキスト

  • 出力:テキスト

コンテキストウィンドウ: 200,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.791

スピード:速い

  • 189.2トークン/秒

レイテンシ:やや高い

  • 13.01秒

価格($/100万トークン)

  • 入力 $1.10 / 出力 $4.40


Llama 4 Maverick

マルチモーダル対応

  • 入力:テキスト、画像

  • 出力:テキスト、コード

コンテキストウィンドウ: 1,048,576トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.809

スピード:速い

  • 129.0トークン/秒

レイテンシ:低い

  • 0.36秒

価格($/100万トークン)

  • 入力 $0.16 / 出力 $0.60

主な特徴

  • Mixture-of-experts(MoE)アーキテクチャ

  • ビジョンと言語タスクに最適化

  • アシスタント的な動作にチューニング済み

  • 画像推論対応

  • 長文・多言語対応

  • コーディング・記憶能力が高い

最適な用途:

  • 高度なマルチモーダル理解と高スループットが求められる研究・商用アプリケーションに最適


Llama 4 Scout

マルチモーダル対応

  • 入力:テキスト、画像

  • 出力:テキスト、コード

コンテキストウィンドウ: 10,000,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.752

スピード:速い

  • 121.8トークン/秒

レイテンシ:低い

  • 0.43秒

価格($/100万トークン)

  • 入力 $0.08 / 出力 $0.30

主な特徴

  • 優れたテキスト・画像理解

  • アシスタント型の対話・画像推論

  • 長文・多言語対応

  • コーディング・記憶能力が高い

最適な用途:

  • 多言語チャット、キャプション生成、画像理解タスクに最適


Gemini 2.5 Flash

マルチモーダル対応

  • 入力:テキスト、画像、音声、動画

  • 出力:テキスト

コンテキストウィンドウ: 1,000,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.832

スピード:非常に速い

  • 339.5トークン/秒

レイテンシ:やや高い

  • 7.46秒

価格($/100万トークン)

  • 入力 $0.15 / 出力 $0.60

最適な用途:

  • ライブチャットやAIアシスタントでの即時応答

  • メール・ドキュメント・Webコンテンツの要約

  • 軽量なコードやテキスト生成

  • モバイルやブラウザ向けの高速AI組み込み

  • 多数ユーザーへのスケーラブルな提供


Gemini 2.5 Pro

マルチモーダル対応

  • 入力:テキスト、画像、音声、動画

  • 出力:テキスト

コンテキストウィンドウ: 1,000,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.858

スピード:速い

  • 154.3トークン/秒

レイテンシ:やや高い

  • 34.26秒

価格($/100万トークン)

  • 入力 $1.25 / 出力 $10.00

最適な用途:

  • 複数ステップの技術的・論理的課題や高度な数理・科学推論

  • 大規模ドキュメントやデータセットの文脈解析

  • コード生成・デバッグ・リファクタリング

  • 科学論文・リサーチ・分析支援

  • 長期記憶や構造が必要なビジュアルWebアプリの作成


Claude 3.5 Hailku

マルチモーダル対応

  • 入力:テキスト

  • 出力:テキスト

コンテキストウィンドウ: 200,000トークン

インテリジェンス:やや低い

  • MMLU(Massive Multitask Language Understanding)スコア:0.634

スピード:やや遅い

  • 64.0トークン/秒

レイテンシ:低い

  • 0.93秒

価格($/100万トークン)

  • 入力 $0.80 / 出力 $4.00

主な特徴

  • 高速かつ効果的な応答に最適化

  • 理解力と指示遵守の精度が向上

  • 高性能な自律型コーディングソリューションを提供

  • スピード・精度・コスト効率のバランスが良い

最適な用途:

  • 開発者の生産性を高める高速・高精度なコード補完

  • カスタマーサービス、EC、教育向けのインタラクティブチャットボット

  • 金融・医療・リサーチ分野での非構造データの効率的な抽出・ラベリング

  • 高度な推論によるリアルタイムコンテンツモデレーション(安全で適切なオンラインコミュニティ・メディア運用)


Claude 3.7 Sonnet

マルチモーダル対応

  • 入力:テキスト

  • 出力:テキスト

コンテキストウィンドウ: 200,000トークン

インテリジェンス:高い

  • MMLU(Massive Multitask Language Understanding)スコア:0.837

スピード:やや遅い

  • 88.2トークン/秒

レイテンシ:低い

  • 1.64秒

価格($/100万トークン)

  • 入力 $3.00 / 出力 $15.00

主な特徴

  • ハイブリッド推論:

    • 標準モード:シンプルなタスクに迅速対応

    • 拡張思考モード:複雑な課題に対し段階的な詳細推論を実施

  • スピードと精度のバランスを調整できる「思考予算」設定

  • フルスタック開発:複数言語・環境でのコーディング対応

  • 強化されたNLP:指示遵守・関連性の高い応答

  • 構造化データや長文テキストにも強み

最適な用途:

  • 指示に従うタスク

  • 一般的な推論・マルチモーダル対応

  • 拡張思考によるエージェント型コーディング(数学・科学分野での高いパフォーマンス)

Last updated