研究概要 |
本年度の成果は以下の通り. ● 昨年度考案した機械学習に基づく並列句解析手法をさらに発展させるとともに,C++によるコードと用いているデータ構造を改良し,当初のプロトタイプ実装比3倍の速度向上を得た. ● 学習用訓練データに対するタグ付け作業負担を軽減するため,並列句両端のみのタグ付けデータを用いても十分な解析精度が得られる手法を目指しているが,このような不確定なデータに対処する手法を新たに考案し,英語医学論文アブストラクト集に適用し新手法の有効性を確認した. ● 各種の素性(解析に用いる手がかり)の有効性について調査し,コーパスから収集した単語共起頻度や,類語辞書を取り扱う枠組をコードに組み込んだ.これらについては次年度実験を行い有効性を証明する予定である. ● 医療アブストラクト要約システムの実現に向け,重要文抽出とトピック分割を組み合わせてアブストラクト全体の要約を行う手法を考案した.Document Understanding Conferenceが公開している標準的な文書自動要約ベンチマーク問題に適用したところ,考案手法が既存法を凌駕する性能を持つことがわかった. 〓 日本語への適用にむけ,京都テキストコーパスに対して名詞並列句範囲のタグ付けを行った.
|