研究概要 |
本年度の成果は以下のとおり. 1.系列アラインメントに基づく並列句同定の基礎技術を開発した.類似の方法で並列句同定を行う手法はすでに存在するが,既存の手法がパラメターを人手で調整する必要があったのに対し,われわれが開発した手法は,学習機能を有しており,パラメータ調整が自動で行える,という大きな違いがある.このため既存法では不可能であった,多数のパラメターを導入することが可能になる.学習にはパーセプトロンを系列アラインメント学習用に拡張し用いた.この手法は条件付確率場の近似とみなせ,実装が比較的容易という特徴がある. 2.開発した手法を実装し,この実装を用いて予備実験を行った.既存の英語医学生物学コーパスを対象にその精度を測定した.結果として,必要最低限の素性のみを用いたにもかかわらず,句構造文法パーザおよび系列チャンキングによる手法を上回る精度を得た. 3.並列句コーパスを作成するための2種類のタグ付けシステムを作成した.これらを用いて訓練データを作成することで,学習に用いるデータ量を効率的に増やすことが可能となる. 4.また,次年度以降,コーパス中の単語共起頻度を素性として用いることを計画しているが,そのための基礎技術としてリンク解析の研究を行った.特に,機械学習分野で注目されているカーネル法をリンク解析に適用する際の問題点について調査を行った.特に,複数のトピック(コミュニティ)が存在するグラフにおける,ノイマンカーネルの問題点を指摘し,そのための解決法を提案した.次年度にはこの知見を生かして,医学生物学コーパス中の単語のネットワークを作成し,開発したリンク解析技術を適用して得られた情報を並列句同定の際の素性として用いる予定である.
|