お使いのWebブラウザでは、当サイトの内容の一部が表示されない、リンクが機能しないなどの問題が発生することがあります。
お使いのWebブラウザではJavaScriptが無効になっています。当サイトの内容の一部が表示されない、リンクが機能しないなどの問題が発生することがあります。
情報通信研究機構
データ駆動知能システム研究センター
データ駆動知能システム研究センターでは、Web等に存在する大量のテキストを深く意味的に分析し、情報の価値ある組み合わせや、価値ある仮説を柔軟な入力を元に提示できる技術を開発しています。ますます複雑化していく現代社会において、一見かけ離れた情報間の予想もしなかった繋がりが非常に重大な帰結をもたらす事例がますます頻繁におきています。我々の目指す技術はそうした情報間の組み合わせをユーザに分かりやすい形で入手可能にするものです。より具体的には、文の同義性やテキストに書かれた因果関係などの事象間の意味的関係を元に、ユーザの多様なニーズに応えられる情報やその組み合わせ、あるいは仮説を、Web等に存在する膨大な情報源をもとに生成する技術です。こうした技術の開発には先進的な言語処理技術、膨大な言語資源が必要となりますが、これまでに開発してきた最先端技術や、関連分野を研究する公的機関としては日本最大級の計算リソースを用いてこれらの研究開発に挑んでいます。
代表的な成果は以下の3点です。1. 大規模言語モデルNICT LLM、2. 高齢者介護支援マルチモーダル音声対話システムMICSUS、3. 大規模Web情報分析システムWISDOM X 深層学習版
林総務大臣の閣議後記者会見でNICTで構想中の生成AIの信頼性・安全性を評価する能動的評価基盤が取り上げられ、NICTが保有するAI学習用の大量の日本語データの整備・拡充、AIの信頼性を評価する基盤技術の研究開発などについて紹介されました。この記者会見を受けて、AIの評価基盤開発に関する記事が、読売新聞や産経新聞など、様々なメディアに掲載されました。
NICTで構想中の生成AIの信頼性・安全性を評価する能動的評価基盤が、読売新聞朝刊一面の記事「生成AIの信頼性、AIで評価し結果公表…総務省が基盤システム開発方針」や、日経新聞の記事「AIの安全性測るAI 総務省、来年度に試作」にて紹介されました。検索システムを含む多様なAIが連携し、AIを評価する様々な観点からの質問を自動的に生成して評価対象となるAIに回答を求め、その内容を検証するものです。
国産生成AIの必要性に関する読売新聞朝刊一面の特集記事「[AI近未来]第4部 覇権とルール<5>「国産」日本の命運左右」にて、生成AIの開発に関するPFNとNICTの連携が紹介されました。国産生成AIを開発している企業としてPFNが取り上げられ、NICTが20年近くかけて収集した膨大な日本語データの活用など、信頼性の高い国産生成AI開発をめざすPFNとNICTの連携に関して紹介されています。
クマに関するフェイク動画やデマ投稿が拡散されているという産経新聞の記事で、虚偽情報に対する心構えについて語った大竹センター長のコメントが紹介されました。
この度NICTは、農業・食品産業技術総合研究機構(農研機構)と、農業特化型生成AIモデルの構築に向けた連携を開始しました。NICTの強みである言語資源および情報処理技術を、農研機構が農業分野で培った知識と実証基盤と組み合わせて、信頼性の高い農業特化型生成AIモデルを共同で構築します。本取り組みで、農業特化型生成AIの精度と実用性の高度化が期待されます。詳細は、お知らせ「NICTは農研機構と連携し、農業特化型生成AIモデルの構築へ」をご覧ください。
NICTが開発した、LLMが生成したテキストに対して、根拠となりうる支持情報や、矛盾する情報・反論などをWebから探索して表示することで、ハルシネーションの可能性などを提示するシステムに関する記事が、日刊工業新聞に掲載されました。CEATEC2025にて、展示を行なったWISDOM-CE(Credible Evidence):LLM生成テキスト検証サービスに関して、大竹センター長が記者の取材に回答した内容が紹介されています。
国産生成AI開発の最新動向に関する記事で、NICTとPFN、さくらインターネットが国産生成AIのエコシステム構築を目指して基本合意を締結した件が紹介されました。毎日新聞の他、河北新報、東京新聞、中日新聞、京都新聞、山陽新聞、佐賀新聞など、様々な地方紙に掲載されています。毎日新聞の記事では、鳥澤フェローが、共同通信によるインタビューで国産生成AI開発の必要性に関して語ったコメントも取り上げられています。
この度NICTは、株式会社Preferred Networks、さくらインターネット株式会社と、安心安全で日本社会と調和する国産生成AIのエコシステム構築を目指すことで基本合意を締結しました。この活動においてNICTは、これまでに独自に収集している700億ページを超える日本語Webページを活用するとともに、PFNと共同開発するLLMやNICTが独自に開発したLLM、さらにはこれまでに開発した動作原理の異なるAI等を組み合わせ、信頼性・創造性・多様性に富んだAI複合体を開発します。加えて、そのAI複合体を用いて、どの程度日本文化に沿った回答がなされるか、ハルシネーションが発生するか等を動的に評価し、弱点を改善するための学習データを自動生成できる能動的評価基盤を開発していきます。これにより、日本におけるより安心安全で日本社会と調和した生成AIの開発、普及、さらには日本全体の生産性向上に向けた活動を推進していきます。詳細は、プレスリリース「Preferred Networks、さくらインターネット、情報通信研究機構、安心安全で日本社会と調和する国産生成AIのエコシステム構築に向け、基本合意を締結」をご覧ください。
日経新聞朝刊一面の記事「高品質データで国産AI 政府が計画案 国内外から開発人材」にて、NICTによる日本語特化型の独自大規模言語モデルの開発が取り上げられました。 KDDIとの共同研究についても紹介されています。
防災の日の9月1日、日刊工業新聞のコラム「産業春秋」にて、能登半島地震で地震発生後24時間以内にX(旧ツイッター)に投稿された案件の約1割が偽情報だったという、NICTによる災害状況要約システムD-SUMMを用いた分析が紹介されました。
テレビ朝日ANNストレートニュースでの【フェイクの波紋】特集にて、2024年の能登半島地震の際にSNSに投稿された救助要請の1割がニセ情報だったという、NICTによる災害状況要約システムD-SUMMを用いた分析が紹介されました。2016年の熊本地震の際と比べてニセ情報が大幅に増加した要因について語った鳥澤フェローのインタビューも放映されました。またABEMAnewsでも、取材を担当されたテレビ朝日社会部屋比久記者による解説で詳しく紹介されました。
大規模言語モデルNICT LLMの開発に向けたNICTによる良質な学習データ構築の取り組みに関する記事が、特集「超知能 迫る大転換」の第4回として、「良質データだけで育つ精鋭AI 『専属シェフ」』200人が選別」と題して、日経新聞の1面に掲載されました。アノテータによる学習データ作成作業の紹介とともに、日本文化に精通したAIの重要性を訴える鳥澤フェローのコメントも掲載されています。
NICT LLMは、WISDOM XやMICSUSなどの開発で培った高精度な言語処理・深層学習技術と、構築済みの350GBもしくは888GBの高品質な独自の日本語Webテキストを用いて開発した、NICT独自の生成系大規模言語モデルです。 これまでに、130億パラメータから1,790億パラメータ(OpenAI社のGPT-3と同等規模)、さらには日本語特化型では世界最大規模の大規模言語モデルとなる3,110億パラメータまで、パラメータ数を変えたさまざまなモデルの事前学習を完了し、特にファインチューニング等を行わなくても、事前学習のみで一定の精度で質問応答、創作、議論等が可能なことを確認し、また、モデルの大規模化と学習用テキストの大規模化に伴う性能向上を確認しています。
このNICT LLMの開発に関して2023年7月にプレスリリース「日本語に特化した大規模言語モデル(生成AI)を試作」を実施、多くの新聞やネットメディアで報道されています。 NHKニュース7でも当研究センターの活動が紹介されました。
現在、偽情報を生成するハルシネーション等の生成系大規模言語モデルの副作用の抑制を目指して、WISDOM Xを活用した情報を確認する機構や、複数のLLM同志が議論を行って最終的な情報を生成するシステムの検討にも着手しています。また、NICT LLMおよび関連技術の社会実装に向け、MICSUSなどの対話システムへの導入を計画するとともに、NICTで収集・開発した言語資源や言語モデル、研究知見などを共同研究等を通して民間等に提供する準備も進めています。2024年7月1日にKDDIとの共同研究を開始しました。
MICSUSは、異次元の高齢化が進み介護人材の逼迫が喫緊の課題となる中、現在は人間の介護者(ケアマネジャー)が月一回程度面談で行なっている、 介護モニタリングと言われる高齢者の健康状態や生活習慣のチェックの一部を音声対話を通じて代替し、介護者の作業負担を軽減するための対話システムです。 また、Web情報を用いた雑談も行い、高齢者のコミュニケーション不足の抑制も狙っています。 内閣府戦略的イノベーション創造プログラム(SIP)第2期の支援により、KDDI株式会社、 NECソリューションイノベータ株式会社、株式会社日本総合研究所と共同で開発しました。
音声認識誤りに頑健な独自開発のHBERTを300万件のオリジナル学習データでファインチューニングしたモデルを活用し、遠まわしな言い回しなどを含む様々な発話に対して高精度な意味解釈を実現し、 高齢者との対話から健康状態や生活習慣の情報を適切に抽出します。 2022年度に全国各地の高齢者179名を対象に実証実験(総対話時間95.3時間、26,704ターン)を実施して評価を行いました。 実施後のアンケートで5段階中4.2と高評価をいただくとともに、言語処理の部分ではYES/NO疑問文への回答を93.5%の高精度で正しく意味解釈できています。 雑談的応答に関しても、91.8%が雑談として適切、25.4%に対して高齢者が笑顔を見せるなど、51.9%に対して高齢者が好意的反応を示し、雑談のクオリティは良好と言えます。
また、CEATEC2022、HANAZONO EXPO、けいはんなR&Dフェア2023など、 様々なイベントに出展して多くの家族づれや介護関係者にMICSUSとの対話を体験していただいています。
今後も、多数の民間企業と連携して本技術の社会実装に向けた強化を進めるとともに、さまざまな社会課題の解決、回避に向け、言語、音声の高度かつ高精度な意味的処理の実現を目指して研究開発を行います。 研究開発成果を、要素技術単位でKDDIをはじめとするさまざまな企業、組織にライセンス等を通して提供し、技術の社会実装に取り組んでいきます。 また、大規模言語モデルなどの最新の言語処理技術の応用も図っていきます。
高知県日高村での実証実験の様子(KDDI提供)
MICSUSの詳しい紹介は、以下のサイトや動画をご覧ください。
研究紹介ムービー『NICTステーション ~MICSUS~』(NA上白石萌音)
マルチモーダル音声対話システムMICSUS紹介動画
2021年3月31日より、Web60億ページの情報を基に様々な質問に回答することができる大規模Web情報分析システムWISDOM X(ウィズダムエックス)「深層学習版」の試験公開を開始しました。 2015年3月31日より試験公開しておりましたバージョンでは、Web40億ページの情報を基に「なに」「なぜ」「どうなる」といったタイプの様々な質問に回答することが出来ましたが、「深層学習版」では、新たに「どうやって」(How-to)型の質問にも対応しました。 これらの様々な質問応答を通して関連情報の全体像を迅速かつ容易に把握できるようにし、価値ある想定外の発見も容易にします。 WISDOM Xは、近年、重要性を増しているイノベーションやリスク管理といった不確実性に対処する作業において価値ある考えるヒントを提供できると考えています。
2023年6月12日にニアリアルタイム解析を導入し、収集したWebページを即時に解析し、WISDOM Xの分析対象とするようにしました。 これにより一部の最新の情報に対しても質問の回答が行えるようになっています。 (ただし、収集した時点で最新情報かどうかはわかりませんので、最新情報がすべて検索可能になっているわけではありません。)
2023年12月18日に深層学習モデルを更新しました(分析対象はWeb176億ページ以上)。「なぜ?」、「どうやって?」タイプの質問において実験では精度が5%以上向上しています。
深層学習版の詳細につきましては以下のリンクをご覧ください。