研究概要 |
昨年度までに開発した英語並列句解析技術を日本語に対して適用した.対象文書は, 医療文献ではなく, 一般の新聞記事や百科事典である. 日本語については, 英語の並列句と異なり, 並列句が文中に含まれているかいないかの判別自体が問題となり, これが精度向上の妨げとなることがわかった.英語の場合には少数の接続詞"and""or"などの手がかり表現が文内に含まれていれば, ほぼ間違いなく並列句がその周辺にある.これに対し, 日本語では, 「と」「も」といった助詞が, 下の例のように並列句を導くとは限らない. 高台寺と清水寺に行った(「高台寺」と「清水寺]の並列) 友達と清水寺に行った.(「友達」と「清水寺」は非並列) このため, 並列解析モデルを改良し, (並列句範囲の同定に加えて)並列句の存在判定も同時に行う手法を提案した.この改良はアラインメント計算に用いるグラフに一本の辺を追加するだけの簡単な変更である。しかしながら, EDRコーパスの平凡社百科事典セクションを用いて評価したところ, 改良前と比べて大きな性能の向上が見られ, 既存の規則ベースの並列解析器を上回る性能が得られた. また, 並列句間の距離に応じて素性を分解する(ことなる素性として扱う)ことで, さらに性能が向上することがわかった. さらに, 機械学習分野で注目されているカーネル法をリンク解析に適用する際の問題点について調査を行い, 複数のトピック(コミュニティ)が存在するグラフにおける, ある種のカーネルの問題点を指摘し、そのための解決法を提案した.成果は, PKDD, KDD, IJCNLPといった国際学会にて公表した.
|