研究概要 |
1.派生語・複合語用例の収集 EDR日本語コーパスから,「名詞+接尾語」型の派生語や,「名詞+名詞+・・・」型の複合名詞部分などを抽出し,概念番号を含んだ構文木集合の形で収集した.次に,その構文木を様々な条件で一般化した学習サンプルを作成した.一般化の際のオプションには,一般化の段数,子孫数の下限,複数の一般化段数の用例の累積,等があり,様々なバリエーションが考えられる. また,適合率を求める実験の試験入力とするために,EDR日本語コーパス中のべた書きの文章を文節数最小法で形態素解析し,派生語あるいは複合語として解釈されうる単語候補を収集した. 2.汎用確率文脈自由文法パ-ザの作成 派生語,複合語に限らず,ほぼ任意の確率文脈自由文法を取り扱うことのできるボトムアップパ-ザを開発した.文法規則数は,計算機のメモリ容量とディスク容量が許す限り無制限であり,巨大なサイズの文法について構文解析を行うことが可能である. 3.派生語の形態素解析実験 コーパスから収集した派生語用例と,EDR概念辞書 概念体系を学習サンプルとして確率文脈自由文法の最尤推定法を用いて学習し,様々な条件下における文法データベースを構築した.比較のため,粗い意味分類に基づく文法や,名詞と接尾の任意の連接を受理する文法等,シソ-ラスを使用しない従来手法をシミュレートするような文法も用意した. 派生語の形態素解析(表記を与えて単語列を得る),及び仮名漢字変換(読み仮名を与えて漢字表記列を得る)の実験を行い,適合率と再現率を計測し,良好な結果を得ている.
|