• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2000 年度 実績報告書

MSLR法における未知語処理に関する研究

研究課題

研究課題/領域番号 11780254
研究機関東京工業大学

研究代表者

白井 清昭  東京工業大学, 大学院・情報理工学研究科, 助手 (30302970)

キーワードMSLR法 / 形態素解析 / 構文解析 / 未知語処理
研究概要

本研究課題では,MSLR法において今までほとんど考慮されていなかった未知語処理を行うことを目的とする.MSLR法とは,形態素解析と構文解析を同時に行うために構文解析手法のひとつである一般化LR法を拡張した手法である.
MSLR法における未知語処理で一番問題となるのは,未知語の境界を認定することである.ひらがな,カタカナなどの文字種が異なるところに未知語の境界がある場合は,未知語の境界を認定することは容易である.しかし,「カヤぶきの屋根」において,「カヤぶき」が未知語であるように,未知語の境界の前後の文字種が同じ場合は,その認定は難しい.本年度は,EDRコーパス中に含まれるEDR日本語単語辞書に登録されていない単語を未知語とみなし,その境界の前後の文字種が同じであるものを調査し,その特徴を分析した.
まず,未知語の境界の前後の文字種がともにカタカナ,記号,数字となる未知語はほとんど見られなかった.また,未知語の境界の前後の文字種がともにひらがなの場合,未知語の前には助詞,助動詞「た」,活用語の終止形が,未知語の後には助詞,助動詞「だ」が現われることがほとんどであることがわかった.したがって,入力文中にひらがなが連続している場合,全ての位置を未知語の境界の候補として解析する代わりに,上記の条件を満たず位置のみを未知語の境界の候補とすれば,解析効率を大幅に向上させることができる.MSLR法においては,未知語の前の単語の品詞情報はスタックトップから,未知語の後の単語の品詞情報は先読み記号から読み取れるので,提案手法は容易に実装することができる.

URL: 

公開日: 2002-04-03   更新日: 2013-12-05  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi