研究概要 |
自然言語処理で未知語の問題は避けて通れない問題である.本研究では,特にアクセント情報を用いて,形態素解析レベルでこの問題を解決する.すなわち,日本語音声対話文において,アクセントを中心とした音声情報を用いて,未知語を抽出し,その品詞名や活用などの語彙情報を獲得する.書かれた文からの未知語情報獲得においては,漢字・仮名などの文字種が重要な役割を果たした.音声対話文においてはそれが全くない.逆にアクセント情報及び休止(発生のとぎれ)情報が加わる.これらの情報を基にした未知語情報獲得メカニズムを設計した. 本研究で開発したシステムは,1.アクセント付きの文の形態素解析,2.未知語の品詞及び活用形の推定の順に未知語の推定を行う.本研究は,音声対話の領域での未知語の獲得を目指す点で,今までにない新しい分野である.個々の音素・アクセント素列を入力すれば,それが名詞なのか(更に漢字熟語なのか),動詞なのか(そして活用が何か)等の情報を推論することができる. また,これは人間の言語獲得の認知的研究としても意義がある.具体的には,第一に,アクセント情報を規則として実現し,これを用いて仮名文字文の形態素解析を行うシステムを作成した.更に,知識獲得の手法として,GMDHネットワークの形態素解析への応用を研究した.また,べ一スとなる研究として,隠れマルコフ・モデルによるものを含め,タグなしコーパスからの確率情報獲得とそれを用いた形態素解析,及び語や品詞の共起強度の抽出を実現した.また,関連研究として,長音,促音,撥音というモ-ラ形式の研究を行った.
|