研究概要 |
本年度の主要な成果は以下の通り (1)前年度開発した系列アラインメントの重み学習法に文法制約を組み合わせる並列構造の推定法を発展させ,その有効性を検証するとともに誤り傾向の分析を行った.文法的な制約(並列句どうしはオーバーラップしない,等)を文法規則によって強制したうえで,並列句の範囲同定には並列句間の単語列の編集距離を素性として用い,パーセプトロン学習によって素性重みを最適化する (2)リンク解析手法を非グラフデータに適用する際には,一旦データをグラフに変換しなければならない.そのための手法としては一般に,k-近傍グラフ(データ点各々について,最も類似するk個のデータ点を辺で結ぶ)が用いられる.我々はこのグラフ変換法を自然言語データ(語義曖昧性解消用のベンチマークデータ)に適用し,評価・分析を行った.その結果、少数のハブと呼ばれる数多くの節点と接続された節点が生成され,後続のリンク解析に基づく半教師あり学習の精度に悪影響を与えることがわかった.その原因はk-近傍関係が非対称であることにより,これを解消するための簡単な手法を考案した.(3)自然言語処理でリソース拡張のためにしばしば用いられる,ブートストラップ(自己トーレニング)法において,初期シード選択およびストップリスト構築にリンク解析を用いる手法を考案し,予備調査によって有効性を確認した (2),(3)については,平成23年度に,より詳細な評価を多くの自然言語データを用いて分析し,公表することを予定している
|