本計画の項目(C)の話し言葉的な文に関する係り受け解析の高度化の検討を行った. 以前の検討により,話し言葉は一つの文(発話)あたりの文節数が少なく,係り先も右隣というケースが圧倒的に多いため,係り先決定自体の難易度は低く,文節境界が正しく決まれば係り受け解析はほぼ成功することが分かった.一方,文節境界の認定は助詞の脱落は新語,非標準的な表記法のため,文節境界の認定が通常の書き言葉に比べて難しいことも分かった. そこで,本年は文節境界の推定における問題点について再度コーパスを精査して検討した.その結果,ハッシュダグやリツイート等の特殊形式の挿入による,文節単位の乱れ,助詞の脱落,助詞を内部に含む長い固有表現(作品タイトル,組織名等)の存在,書き言葉では漢字,カタカナで表記される表現がひらがなで表記・略記されることによるこれらひらがなの助詞への誤認定,などが主要な問題であること分かった.左記の問題を解決するため3つの検討を行った.1つ目として比較的規則性が高いと思われる,特殊形式の乱れについてルールベースで表現の正規化を図った.2つ目としてひらがな表記を含む略語の自動獲得を行った.3つめは助詞の脱落の補完であり,脱落の可能性のある箇所を推定する所まで来ており,今後補完候補生成の検討を行う予定である.以上を合わせて学会への投稿を予定している.
|