2007 Fiscal Year Annual Research Report
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
19024040
|
Research Institution | Kyoto University |
Principal Investigator |
黒橋 禎夫 Kyoto University, 情報学研究科, 教授 (50263108)
|
Keywords | 自然言語処理 / 情報検索 / クラスタリング / 述語項構造 / 柔軟マッチング |
Research Abstract |
1)格フレームに基づく省略照応解析 日本語文章の省略照応解析において,文章中の要素を活性度付きで管理するとともに,5億文の大規模日本語コーパスから自動学習した格フレームを利用して確率的枠組みに統一してランキングを行うことにより,省略照応解析の精度を向上させる手法を考案した. 2)同義異表記の知識獲得と利用 一般用語については辞書の語釈文の中で示されている同義語および短い語釈文自体から,専門用語についてはウェブコーパスの対称括弧表現およびWikipediaから同義表現の自動獲得を行った.さらに,これらの同義表現が,検索のランキング精度の向上,検索結果クラスタリングのキーワード集約において有効であることを確認した. 3)検索エンジン基盤上でのクラスタリングシステムの構築 任意のクエリに対して,その検索結果数千件からクエリの重要関連語を抽出し,それを通して検索結果の俯瞰が可能となるシステムを構築した.その際,同義関係,包含関係にある関連語を徐々に集約するキーワード蒸留という手法を考案し,これによってクエリに対する30前後の関連語を高精度に抽出することに成功した.また,検索エンジン基盤TSUBAKIにおける言語処理結果の利用,および並列分散処理を行うことにより,1千件のクラスタリングを40秒程度で可能とし,従来のリスト型検索エンジンと比較してその有効性を検証した.
|