2008 Fiscal Year Annual Research Report
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
19024040
|
Research Institution | Kyoto University |
Principal Investigator |
黒橋 禎夫 Kyoto University, 情報学研究科, 教授 (50263108)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 知秀 京都大学, 情報学研究科, 助教 (70452315)
|
Keywords | 自然言語処理 / 情報検索 / クラスタリング / 述語項構造 / 柔軟マッチング |
Research Abstract |
1.格フレームに基づく省略照応解析 述語項構造のパターン(格フレーム)を16億文の大規模コーパスから自動学習し, 格フレームとの対応付けの整合性を文書全体で最適化することによって省略照応解析の精度を20%から41%に向上させた. さらに, 格フレームの学習コーパス量と格フレームのカバレージ, 省略照応解析の精度の関係を明らかにし, 学習コーパスの増加によって一層の解析精度向上がみこめることを示した. 2.同義異表記の知識獲得と利用 同義異表記を構文木の各語/句に付与したSyngraphとよぶデータ構造で表現し, これによって「最寄り=いちばん近い=もっとも近い」などの同義異表記の組み合わせを扱うことを可能とした. また, この結果を検索のインデックスとして利用し,1億ウェブページを対象として網羅的に同義異表記を処理する検索を可能とした. 3.検索エンジン基盤上でのクラスタリングシステムの構築 申請者らが本領域支援班で構築している日本語1億ページの検索エンジンTSUBAKIを基盤として, クエリに対する重要関連表現を検索結果文章中から自動抽出し, 各表現を含む文書を一つのクラスタと考えるラベルベースのクラスタリングシステムを構築した. さらに, 重要関連表現を固有名詞のタイプ, 複合語の語構成などによって整理することにより, クエリの関連項目を鳥瞰図的に眺めることを可能とした.
|