2005 Fiscal Year Annual Research Report
大規模電子化文書からの因果関係知識の自動獲得-接続標識に依存しない手法の検討-
Project/Area Number |
05J72904
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
乾 孝司 東京工業大学, 精密工学研究所, 特別研究員(PD)
|
Keywords | テキスト / 因果関係 / 知識獲得 / 推論 / 共起 / 確率モデル / 半教師あり学習 / EM |
Research Abstract |
本研究では,大規模な電子化文書集合から因果関係知識を自動的に獲得する方法論を開発した.因果関係知識獲得の従来研究では,接続標識(「ため」や「ので」)などの手掛かり語句の存在を仮定していた.そのため,大量に存在する電子化文書データを部分的にしか利用できず,獲得できる知識の被覆率が低いという問題があった.本研究では,大量に存在する電子化文書を効果的に利用できるような,接続標識の存在を仮定しない因果関係知識の自動獲得の方法論を開発,およびそのための基礎的なデータ分析を行うことを目的とした. まず,一定量の日本語文書集合を対象として,人手で因果関係情報を注釈付け,因果関係タグ付きコーパスを作成した.そして,コーパスに付与された情報を元に,文書内での因果関係の出現特性を定量的に調査した.その結果,実世界において因果関係をもつ2つの出来事対は,文書内で共起して出現しやすいことを確認した. 上記の調査結果を踏まえ,既存の確率的共起モデルに基づいて,任意の出来事対が因果関係にあるか否かを判定する確率的因果モデルを提案,構築した.提案モデルでは,大量の素の共起データ(因果関係をもつか否かが未知の共起出来事対)に加え,少量の教師信号(因果関係をもつか否かが既知の共起出来事対)の情報を混合することで,出来事対の因果性が学習される.これにより,手がかり語句をもたない共起データも有効に利用できる. 新聞記事を実験データに用いた評価実験を実施した結果,提案モデルは,既存モデルより優れた性能を示すことを確認した.評価尺度の一つであるF-尺度(0から1の範囲の値をとる,値が大きいほど性能がよい)を用いて性能を評価したところ,簡単なベースラインモデルでは0.623,提案モデルでは0.678であった.具体的には,クラス変数,隠れ変数を取り込んだモデルが最もよい性能を示すことを確認した.
|
Research Products
(1 results)