2010 Fiscal Year Annual Research Report
大規模テキストから自動獲得した知識に基づく言語解析の精度向上
Project/Area Number |
21700163
|
Research Institution | Kyoto University |
Principal Investigator |
柴田 知秀 京都大学, 情報学研究科, 助教 (70452315)
|
Keywords | 自然言語処理 / 大規模テキスト / 知識獲得 / 同義語 / 分布類似度 |
Research Abstract |
1.文脈に依存した述語の同義関係獲得 「(景気が)冷え込む」と「(景気が)悪化する」のように、述語単体では同義でないが文脈に依存して同義関係となる述語ペアを自動獲得する手法を提案した。格要素と述語を組とした単位に対して、係り受け関係にある述語を要素とした素性ベクトルを構築し、分布類似度を計算することによって類似度の高いペアを同義表現として獲得する。自動生成した評価セットによる実験と人手による評価実験を行なったところ提案手法の有効性を示すことができた。また、コーパスから獲得した述語の同義関係を検索エンジンTSUBAKIに導入することにより、クエリと文書の柔軟マッチングを実現した。 2.述語項構造の共起情報と節間関係の分布を用いた事態間関係知識の獲得 因果関係「蚊に刺される=>腫れる」のような事態間関係知識の獲得する手法を提案した。まずコーパスから係り受け関係にある述語項構造を抽出する。次に、高頻度で出現する「順接」の節間関係にある述語項構造ペアに対して、述語項構造が行為か出来事かによって4つにあらく分類する。そして、それぞれの分類において、Aprioriアルゴリズムを用いて述語項構造の共起度を計算する。最後に、「順接」以外の「条件」や「理由」といった節間関係の分布を用いて時間経過、手段、因果関係などといった事態間関係に分類する。69億文のコーパスから精度約70%で約11万もの事態間関係知識を獲得することができた。
|
Research Products
(2 results)