研究課題/領域番号 |
21K12038
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 早稲田大学 |
研究代表者 |
LEPAGE YVES 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (70573608)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 認知能力 / 類推関係 / 類推関係の徹底的抽出 / 単語埋め込み空間 / 文間類推関係のための神経回路モデル / 実数値間類推関係 / ブール値間類推関係 / 整数値間類推関係 / 自然言語処理 / 単語埋め込み表現 / 推論 / 埋め込み表現 / 類推関係データセット / アルゴリズム / 深層学習 |
研究開始時の研究の概要 |
The most important breakthrough in recent Natural Language Processing (NLP) is vector representations of words or parts of sentences. To assess the quality of vector representations of words, analogy test sets are used (France : Paris :: Japan : x => x = Tokyo). Up to now, the production of such data sets is not automatic. This research will study, explore and release theoretically well-founded methods to automatically extract analogy test sets not only between words but also between parts of sentences, and expectedly, for any language.
|
研究成果の概要 |
近年の人工知能で、単語や文の意味を数字で表現する。意味が正しく表現されるかを評価するため、類推データセットを用いる。しかし、類推データセットの構築は、今まで自動化されず、人手で英語で構築されたものは日本語に翻訳されても、英語へ偏り、さらに主に特別な種類の類推関係に偏っている。 多言語の類推データセットを自動的に構築することで、規則・不規則の単語分解や生成に役に立つを示し、単語間の意味的な新しい類推関係の発見できた。文間類推データセットの構築より、どの文のパターンが類推関係をより多く含まれるかと理解した。言い換えに基づく文間類推データセット構築を提案し、類推関係を理解する神経回路モデルも提案した。
|
研究成果の学術的意義や社会的意義 |
人間の性質な認知行動の一つは、類推関係を認識することである。例えば、「男」:「女」::「王」:何?との質問には「妃」の答えは可能だ。また、「この曲は好き。」:「歌ういたい気分だ。」::「このゲームは好き。」:「プレーする気がする。」は文間の例になる。 最先端人工知能の単語や文の表現では、どの程度その認知能力を持っているか、それを測るために、類推関係データセットが必要とのなる。本研究では単語間と文間類推データセットの構築を検討した。英語だけでなく、多言語可能な手法、さらにある古典的な類推関係だけでなく(性別、国・首都)、より幅広い手法を提案と検討した。
|