研究概要 |
本年度は、次の2項目に分けて研究を行った。 1. 日本語単語の難易度推定:日本語を母語としない学習者からみて、日本語の単語がどのように難易度にあるか推定することを行った。日本語単語の難易度の指標には、旧日本語能力試験の4段階のレベルを利用し、単語難易度として指標が作られている「徳弘, 日本語学習のためのよく使う順漢字2100」の6809個単語をシードデータとして、日本語辞書の見出し語すべての単語難易度を推定した。単語難易度の推定には、単語の辞書記述や検索エンジンから取得したWebページやブログをもとに、単語難易度レベルの頻度分布から学習パラメータ―を生成し、ブートストラップ手法と機械学習を組み合わせて利用することで難易度推定を行った。機械学習については、(1)サポートベクタマシンによる多クラス分類をレベルごとに当てはめる手法、(2)難易度レベルごとに学習パラメータが生起する確率密度関数を混合正規分布で近似する手法、(3)(1)と(2)で推定された難易度がそれぞれの手法でどの程度の比率を表す確信度が高いほうを採用する手法の3種類を用いた。3種類の手法では、(3)>(1)>(2)の順で精度が良く、(1)で取りこぼしたデータが(2)で修正され(3)が最も良くなったと考えられる。また、極端に短い文で構成されるWebページやブログデータが含まれているため、それらの取り除くフィルタリング処理を施したあとの精度は5%程度の向上が見られた。 2. VOD講義の難易度指標の提示システム:講義の発話を字幕に起こしたものと、講義資料(パワーポイント)のデータから、(1)講義で利用されているスライドなどの資料や発話の日本語単語の難易度の使用率、(2)講義の発話の字幕に対する係り受けの段数による複雑度、(3)講義の発話の字幕に対する助詞の頻度を測定した複雑度の3項目について可視化システムを作成した。
|