研究概要 |
(1)述語項構造による深い文理解の実現と検索の高度化 検索の高度化を実現するためには,テキスト中の述語とその項の関係をはじめとした語と語の関係を正しく認識することが必要となる.16億文コーパスから自動獲得した述語と項の関係に関する知識(格フレーム)を基に,省略された項および格助詞の補完,使役・受身形から原形への変換を実現し,述語項構造レベルでの正確なマッチングに基づく検索を実現した.この中で,省略解析について全体精度はF値0.40程度であるが,検索において重要となる動作主の省略についてはF値0.55,これを同一文内の出現に限定する場合にはF値0.70を達成した. (2)ウェブからの未知語自動獲得と形態素解析の強化 ウェブテキスト処理においては未知語に起因する解析誤りが問題となる.この問題を解決するために,表記ゆれ知識を利用した未知語検出により,過分割されたひらがな未知語の検出率を34.5%から72.0%に大幅に向上させた.また,未知語同定について,従来研究が頻度10未満の候補を獲得対象から外していたのに対して、比較的少数(4~7例)の出現から高精度(97.3-98.5%)の未知語獲得を実現した.さらに,未知語獲得にともなう辞書拡張により形態素解析の精度が向上することを示した. (3)意味的一致をとらえる検索エンジン基盤TSUBAKIの整備・展開 TSUBAKIについて,同義関係,上位下位関係,述語項構造関係などのインデクシングを強化し,内容の意味的一致をより柔軟・正確にとらえることを可能とした.また,TSUBAKIの展開として,京都大学附属病院の診断画像所見検索,英文構文解析器Enjuとの統合によるMEDLINE検索などへの適用を進めた.
|