国立研究開発法人情報通信研究機構(NICT)とSB Intuitionsは、高性能LLM(大規模言語モデル)の安全性技術に関する共同研究を2026年2月18日に開始したと発表しました。NICTが蓄積してきた高品質な言語資源や不適切出力の検出・抑制技術と、SB Intuitionsが国産LLM「Sarashina(さらしな)」の開発で培ってきたモデル構築ノウハウを組み合わせ、安全性と日本語性能の両立を目指すとしています。
生成AIの社会実装が一気に進む中で、モデル性能の競争だけでなく「どこまで安全に運用できるか」が導入可否を左右する局面に入っています。今回の共同研究は、LLMを“安心して使える状態にするための技術”を、研究機関の資産と言語資源、そして実装側の開発力で具体化していく動きとして整理できます。
背景:普及の裏で増えるリスク(ハルシネーション、不適切出力、著作権)
NICTは、生成AIの急速な普及に伴い、利便性が注目される一方で、次のリスクへの対策が喫緊の課題になっていると説明しています。
- 事実と異なる情報を生成する「ハルシネーション(幻覚)」
- 不適切な表現の出力
- 著作権侵害のリスク
特に国内の企業活動や公的機関での活用では、優れた日本語能力に加えて、日本の法制度や倫理観に基づいた「信頼できるAI」への期待が高まっている、という問題意識が示されています。
研究の狙い:安全性と日本語性能を同時に引き上げる
共同研究では、NICT側の言語資源や安全性確保技術と、SB Intuitionsのモデル構築ノウハウを組み合わせ、より高い安全性を備えた高性能LLMの開発を目指すとしています。
開発にあたっては、ソフトバンクのAI計算基盤を活用するとも述べられています。
研究概要(1):アライメントと評価指標の開発
発表では、LLMが人の価値観や倫理観に沿って適切に動作するように調整する「アライメント」や、その安全性を測るための評価指標の開発に取り組むとしています。
ここが重要なのは、安全性を“気合い”や“レビュー”に頼るのではなく、継続的に測れる指標として設計しようとしている点です。評価指標が整えば、モデル更新のたびに品質とリスクを定点観測しやすくなります。
研究概要(2):不適切表現を検知・制御するガードレール技術
LLMへの入力文と、生成される出力文に含まれる不適切表現を検知し、フィルタリングやブロックなどの制御を行う「ガードレール」技術の研究にも取り組むとしています。
実務上は「どの程度を不適切と見なすか」「誤検知で業務が止まると困る」「抜け道があると事故が起きる」というトレードオフが出やすく、運用設計とセットで考える必要があります。
各者の役割:研究資産と開発・学習の分担
発表では役割分担として、SB Intuitionsがアライメントやガードレール技術などの研究開発、ベースモデル開発と学習を担い、NICTが安全性確保・評価の基盤技術開発や言語資源提供を担うと整理されています。
導入側(企業・官公庁)で意識しておきたい論点
LLM安全性は、モデル単体では完結しません。導入時には次の論点も効いてきます。
- ユースケースごとのリスク分類(誤情報が許容されない業務はどこか)
- 監査性(ログ、根拠、再現性)
- ガードレールの運用(誰が例外を判断し、どこまで許容するか)
- モデル更新時の評価(指標に基づく再検証)
まとめ
NICTとSB Intuitionsの共同研究は、LLMの安全性を「アライメント」「評価指標」「ガードレール」といった要素に分解し、研究資産と実装力を組み合わせて前に進める取り組みです。生成AI活用が広がるほど、性能競争だけでなく“安全に運用し続けられる仕組み”が導入の前提条件になりやすく、こうした基盤技術の整備は重要性が増していくと考えられます。

