2011 Fiscal Year Annual Research Report
大規模テキストから自動獲得した知識に基づく言語解析の精度向上
Project/Area Number |
21700163
|
Research Institution | Kyoto University |
Principal Investigator |
柴田 知秀 京都大学, 情報学研究科, 助教 (70452315)
|
Keywords | 自然言語処理 / 大規模テキスト / 知識獲得 / 同義語 / 分布類似度 |
Research Abstract |
1.述語項構造の共起関係と格フレームを用いた事態間関係の自動獲得 「X{人}がY{財布}を拾う=>X{人}がY{財布}をZ{警察}に届ける」のようなよく共起する2つの事態(イベント)を大規模テキストから自動獲得した。まず、大規模テキストから係り受け関係にある述語項構造ペアを抽出し、Aprioriアルゴリズムにより述語項構造の共起度を効率よく計算した。次に、共起度が高い述語項構造に対して、格フレームを用いることにより、項の対応付けをとった。大規模テキストから約2万個の事態ペアを獲得することができた。 2.Wikipediaからの大規模語彙の自動獲得 Wikipediaの記事から語を獲得し、また、語の上位語、同義語などの情報も合わせて獲得した。獲得した語彙は形態素解析器JUMANと構文解析器KNPの辞書として利用し、実テキストを頑健に解析できるようにした。 B.述語項構造に基づくテキスト含意認識 テキストと仮説を述語項構造単位で扱い、テキストと仮説間のマッチングをとる含意関係認識システムを構築し、MTCIR-9のRITEタスクに参加した。テキスト・仮説の構文構造を解析し、述語項構造の集合として表現し、また、テキスト・仮説問のマッチングには国語辞典やWikipedia、Webコーパスから得られた語句の同義や上位下位関係を利用した。BC(二値分類)、MC(多値分類)、EXAM(大学入試タスク)、RITE4QA(質問応答タスク)に参加し、それぞ0.55,0.48,0.66,0.89の精度を達成した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
語句や事態間関係などの大規模知識の獲得については順調に進展している。解析器の精度向上に関しては今年度の課題となる。
|
Strategy for Future Research Activity |
大規模知識の獲得を進めるとともに、言語解析器の精度向上を重点的に今年度進める予定である。
|
Research Products
(5 results)