研究課題/領域番号 |
21H03491
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 北海道大学 (2022-2023) 群馬大学 (2021) |
研究代表者 |
林 克彦 北海道大学, 情報科学研究院, 准教授 (50725794)
|
研究分担者 |
能地 宏 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (00782541)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
9,360千円 (直接経費: 7,200千円、間接経費: 2,160千円)
2023年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2021年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
キーワード | 知識グラフ / 表現学習 / マルチメディアデータ / 情報検索 / 情報推薦 / 画像データベース / 生成AI / 確率計算 / メディアデータ / データベース / マルチメディアデータベース / テンソル分解 / 意味解析 / 質問応答 |
研究開始時の研究の概要 |
本研究では、巨大知識グラフに対する確率の導入方法を捉えなおし、メモリの効率性に優れ、高度なクエリ検索を可能にする確率関係データベースの構成方法について考える。根幹となるアイデアは、多項関係の事実を単項関係へと近似的に分解することにある。特に、テンソルに対する新たな分解計算モデルの開発、 確率関係データベースに対するクエリ検索エンジンの開発、を行う。さらに、その実用化に向けて、質問文をクエリ化するパーザの開発、を並行し、最終年度には、自然言語による知識グラフ検索システムの試験的な運用にも着手する。
|
研究成果の概要 |
電子情報へのアクセスは現代社会において不可欠である。ここでは知識として集積されたデータへのアクセスを高速かつ柔軟に行うための方法論を確立するための研究に取り組んだ。初年度では、知識データベースから登録事例を高速に検索するため、事例をバイナリベクトル空間で表現し、ビット演算に基づくハミング距離によって高速検索する手法を確立した。一方、2年目以降は、ChatGPTの登場により、分野の状況が一変したため、データベースや検索そのものを見直すこととなったが、画像や音楽などのマルチメディアデータを含めた知識源の検索をGPTの根幹となる大規模言語モデルによってどのように扱うかを検討した。
|
研究成果の学術的意義や社会的意義 |
知識データベースは法令、娯楽、化学など世の中の多様な知識を集積しており、その情報へのアクセスは現代社会において必要不可欠な要素となっている。また、ChatGPTのようなツールの基盤となっている大規模言語モデルは情報へのアクセスのあり方を大きく変えるほどの影響力を持っている。そのような言語知識源を活用して、画像、マンガ、音楽などのさまざまな知識源への効果的で新しいアクセス方法を実現しようという試みは社会的意義も大きいと考えている。学術的な意義としては、このような研究の過程において、構築したデータを公開情報として残しており、本研究プロジェクトの後にも引き継いで利用することができることにある。
|