研究課題/領域番号 |
14J05820
|
研究機関 | 東北大学 |
研究代表者 |
高瀬 翔 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2014-04-25 – 2017-03-31
|
キーワード | 自然言語処理 / 情報抽出 / 知識獲得 / 関係抽出 / 表現学習 |
研究実績の概要 |
本研究の目的は「タバコが癌を引き起こす」と「タバコは癌のリスクを高める」、「タバコが癌の発生する危険性を増加させる」などの文が全て「タバコ」と「癌」の間の因果関係を示すというように、名詞間の関係を表す表現(以下、関係表現と呼ぶ)の意味を計算することである。この目標に向けて、昨年度は主に2つの取組みを行った。 1つ目は大規模なWebデータから関係表現を大量に抽出し、データが大規模でも現実的な時間でかつ精度よく意味の計算が達成可能な意味表現の獲得手法を調査した。「タバコは癌の生じるリスクを高める」という文が「タバコ」と「癌」の間の因果関係を示すという計算は、「リスクを高める」という表現が因果関係を示す「誘発する」という表現と類似しているという計算を行えれば達成できる。このため、類似度を精度良く計算できる意味表現が獲得できる事が望ましい。また、関係表現が大量にある、つまり計算対象が膨大なため、高速に類似度計算可能な意味表現が望ましい。これら望ましい性質を満たすために、近似頻度計算や次元圧縮が有効である事を示した。 2つ目はロングテールの関係表現の意味計算を行うため、関係表現の構成性に基づいて意味を計算可能な意味表現の獲得に取り組んだ。具体的には、関係表現を構成する単語の意味表現を組み合わせた際、関係表現の意味表現になるような単語の意味表現を構築した。例えば「リスクを高める」という表現について、「リスク」の意味表現と「高める」の意味表現を組み合わせた際に「リスクを高める」の意味表現となるように、「リスク」と「高める」の意味表現をコーパスから学習する。これにより「高める」は前の語の意味を継承するというような、関係表現の意味表現を計算可能な意味表現が得られる。この手法で得た単語の意味表現を利用することで、未知の関係表現の意味を計算可能であることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究課題における根幹の問題である、構成性にもとづいて関係表現の意味計算を行う手法を考案し、成果を出すことができたため。報告者は考案した手法により未知の関係表現の意味を計算可能であることを示した。初年度からこの問題に取り組み、成果を上げたために「当初の計画以上」の進展ではあるが、意味計算の精度としては向上の余地があり、次年度以降に取り組みたいと思っている。
|
今後の研究の推進方策 |
今後は関係表現の認識、関係知識の構築と質問応答への応用に取り組む予定である。 「タバコが癌のリスクを高める」という文に対しては「リスクを高める」が関係表現であることを認識することで「タバコ」と「癌」の間に因果関係があることを計算できる。一方で「金融緩和がインフレ率を高める」というように「高める」だけでも因果関係を示す事がある。現在は既存の研究を参考に、関係表現の認識をヒューリスティックに行っているが、認識と意味計算は同時に行うべきという直観がある。例えば「高める」の場合、単体で因果関係を示すか、「リスクを高める」のように他の単語と結びつくかは、周辺の単語と組み合わせた時の意味を計算しながら行うべきであろう。 また、考案した関係表現の意味計算手法を用いて、大規模Webデータから名詞間の関係を収集し、名詞間の関係データベースを構築すること、さらに、このデータベースと関係表現の意味計算手法を用いて質問応答システムを構築することを考えている。
|