本研究の目標は、自然言語で書かれた文書中に記されている、名詞間の意味的関係を認識・獲得することである。例えば、「タバコ」と「癌」について書かれた、「タバコが癌を引き起こす」、「タバコは癌のリスクを高める」、「タバコが癌の発生する危険性を増加させる」の3つの文が全て似たような意味であると認識し、これらの文から、「タバコ」と「癌」の間に因果関係があるという知識を獲得する。これを達成するために、報告者は名詞間の関係を表す表現(上記における、「XがYを引き起こす」や「XはYのリスクを高める」(X、Yは名詞の挿入されるスロット)など。以下、関係表現と呼ぶ)の意味計算に取り組んできた。特に、学習用のコーパスで低頻度な表現や全く出現しない表現の意味計算を可能にするため、単語の意味から構成性に基づき、関係表現の意味を計算する手法の探求に取り組んできた。 28年度は27年度の成果を発展させ、関係表現の意味計算手法を用いた、ウェブ文書からの関係知識の獲得、統語的/意味的情報を利用した、意味計算の精緻化、多様な言語表現に適用可能な手法の探求という、3つの取り組みを行った。 上記の成果のうち、分野への貢献が最も大きいものは3番目の成果であると考えられる。 句や文の意味を単語のような構成要素から計算する手法は、報告者が提案した手法以外にも、加法構成やLong Short-Term Memory、Gated Recurrent Unitなど、様々なものがあり、どのモデルがどのような言語現象を扱えるのかは判然としない。これを明らかにするため、学習手法、意味計算モデル、およびデータセットを横断的に実験し、各手法やデータセットでの特徴を調査し、報告者の提案した手法が頑健であることを示した。
|