OpenAIがGPT-5.4をリリース──プロフェッショナルワークに最適化された新世代の推論モデル

2026年3月5日、OpenAIは新たなフロンティアモデル「GPT-5.4」を正式にリリースしました。このモデルは、ChatGPT、API、そしてCodexの各プラットフォームで順次展開されており、プロフェッショナルな業務に特化した設計が施されている点が特徴です。同時に、より高度なタスクを求めるユーザー向けに「GPT-5.4 Pro」も提供開始されています。

GPT-5.4は、これまでのGPT-5.2やGPT-5.3-Codexで培われた推論能力、コーディング性能、エージェントワークフローの進化を統合したモデルとして位置づけられます。スプレッドシート、プレゼンテーション、ドキュメントといった実務的な成果物の作成能力が大幅に向上しており、ChatGPTでは応答の途中で方向を調整できる機能も追加されました。また、APIとCodexでは最大100万トークンのコンテキストをサポートし、ツール検索機能によって大規模なツールエコシステム全体での効率的な動作を実現しています。

ベンチマーク評価に見る実務性能の向上

OpenAIが公開した各種ベンチマークでは、GPT-5.4が前世代モデルを上回る結果を示しています。特に注目されるのが、44職種にわたる知識労働タスクを評価する「GDPval」において83.0%の成功率を記録した点です。これはGPT-5.2の70.9%から大きく進歩しており、業界の専門家と同等以上のパフォーマンスを発揮していることを示唆しています。

スプレッドシートのモデリングタスクでは平均87.3%、プレゼンテーション評価では人間評価者の68.0%がGPT-5.4の出力を高く評価するなど、文書作成領域での改善が顕著です。また、コンピューター操作能力を測る「OSWorld-Verified」では75.0%の成功率を達成し、人間のパフォーマンス(72.4%)を上回りました。これは、Playwrightなどのライブラリを介してソフトウェアやウェブサイトを実際に操作するエージェントの構築において、実用レベルに達したことを意味します。

法人向けAI活用の文脈で考える位置づけ

今回のリリースは、生成AIが「対話支援ツール」から「業務実行基盤」へと進化する過程を象徴する出来事と捉えられます。GPT-5.4の特徴は、単に応答の質が向上したことではなく、実務プロセス全体を通じた一貫性と効率性が重視されている点にあります。

例えば、ツール検索機能の導入により、モデルは必要に応じて適切なツール定義を動的に取得できるようになりました。これにより、従来は数万トークンに及んでいたツール定義の事前読み込みが不要となり、トークン使用量を47%削減しながらも精度を維持できています。この設計思想は、エージェントが複数のシステムやAPIと連携しながら長期的なタスクを遂行する場面を想定したものと考えられます。

また、幻覚や誤りの削減にも継続的な取り組みが見られます。GPT-5.4では、個々の主張が虚偽である可能性がGPT-5.2と比較して33%低下し、完全な回答に誤りが含まれる可能性も18%減少したとされています。これは、実務で生成AIを活用する際に最も懸念される「信頼性」の問題に対する技術的な応答と見ることができます。

法人向けのAI活用においては、AI活用の鍵は「活用目的の明確化」と「ユースケース創出」──生成AI時代における法人向けSaaS/AIエージェントサービスの選び方を徹底解説で触れられているように、技術そのものの進化だけでなく、組織内でどのような目的とプロセスでAIを組み込むかが重要です。GPT-5.4のような高性能モデルが登場する中で、導入側にはより明確なユースケース設計と、運用体制の整備が求められる局面に入ったと言えるでしょう。

ツール導入・選定における考慮点

企業がGPT-5.4のような最新モデルを活用する際には、いくつかの視点が考えられます。

一つは、API価格とトークン効率のバランスです。GPT-5.4はGPT-5.2よりも入力単価が高く設定されていますが(1Mトークンあたり2.50ドル)、トークン効率の向上により総コストが抑えられる可能性があります。特に長期的なエージェントタスクや大規模なツール連携を前提とする場合、実際の運用コストは単価だけでは判断できません。

また、コンピューター利用機能やツール検索といった新機能は、エージェント設計の自由度を広げる一方で、安全性の管理や確認ポリシーの設定といった運用上の配慮も必要とします。OpenAIは「高いサイバー能力」としてセーフガードを強化していますが、企業側でも利用範囲やアクセス制御の設計が求められます。

さらに、ChatGPTのEnterpriseプラン向けには「ChatGPT for Excel」アドインがリリースされており、既存の業務フローに統合しやすい形での提供が進んでいます。こうした周辺ツールの充実度も、導入判断の材料となるでしょう。

まとめ:実務性能の進化と、導入側に求められる視点

GPT-5.4のリリースは、生成AIが実務レベルでの信頼性と効率性を備え始めたことを示す一つのマイルストーンと受け取れます。知識労働の成果物作成、コンピューター操作、複数ツールの連携といった領域での性能向上は、法人での活用可能性を大きく広げるものです。

一方で、技術の進化が速いからこそ、導入側には「どの業務にどのように適用するか」「どのような運用体制で管理するか」といった戦略的な視点が一層重要になってきます。モデルの性能指標だけでなく、自社の業務プロセスやリスク許容度との整合性を見極めながら、適切な活用方法を模索していく姿勢が求められる時期に入ったと言えるでしょう。

今後、GPT-5.4がどのように実務現場で受け入れられ、どのようなユースケースが創出されていくのか、引き続き注視していく必要がありそうです。

OpenAIがGPT-5.4をリリース──プロフェッショナルワークに最適化された新世代の推論モデル

ベンチマーク評価に見る実務性能の向上

法人向けAI活用の文脈で考える位置づけ

ツール導入・選定における考慮点

まとめ:実務性能の進化と、導入側に求められる視点

ITトレンドが「地方創生SDGs官民連携プラットフォーム」公式ソリューションに登録されました

第9回「ITトレンド Good Productバッジ」発表！ユーザーから高い評価集めたITシステム196製品が受賞しました

「2026年3月期第1四半期 IT製品トレンド」を発表！

第8回「ITトレンド Good Productバッジ」発表！ユーザーから高い評価集めたITシステム218製品が受賞しました

品川区主催「バックオフィス業務のデジタル化改革セミナー」に弊社の大塚が登壇しました

【調査レポート】ワークフローの活用度に関する実態調査

属人化解消の第一歩を応援！UIを刷新した「ジョブステ（Create!JobStation）」がスタートキャンペーンを開始

【調査レポート】ワークフロー運用における「隠れコスト」調査

【調査レポート】ワークフローと従業員満足度の相関調査

【調査レポート】ワークフロー導入企業における運用課題の調査