2017 Fiscal Year Annual Research Report
Developing Statistical Methods for Measures of Word Difficulty for Diverse Readers
Project/Area Number |
15K16059
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
江原 遥 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60738029)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 単語難易度 / 単語親密度 / 回帰 / 項目反応理論 / 確率モデル / 機械学習 / 人工知能 |
Outline of Annual Research Achievements |
本研究の目的は,「理系学生が学ぶべき英単語の列挙」や「難しい日本語の簡単な英語への翻訳」などの第二言語学習者支援のための単語難易度指標の統計的構築方法を開発することである.具体的には,専門分野の考慮や,言語間での単語難易度の比較を可能とする単語難易度モデルを構築する. 残る課題は「読み手集合を特徴に分解する分解モデル(例えば,日本語を母語とする英語学習者を,英語学習者+日本語母語話者といった特徴に分解する)」と,全モデルの統合であった. 本年度は,この分解モデルに関する研究成果が,本年度12月に台湾で行われた自然言語処理分野トップの国際会議(査読付き)であるIJCNLPに採択され発表した.母語話者を対象にした調査ではあるものの,言語心理学分野では,読み手の単語に対する親密度や,単語が意味するものをどの程度の度合いで想像できるか,といった言語心理学的指標の大規模調査が行われており,言語資源なども整備されている.そこで,この研究では,これらの指標を専門分野ごとの特徴に分解し,各専門分野が指標の値の予測にどの程度貢献しているかを計測する手法を提案した.この手法は,用いるデータを母語話者を対象にしたデータから第二言語学習者を対象にしたデータに変更すれば,そのまま本研究課題に適用可能である. 全モデルの統合についても,「読み手が知っている単語を推定するモデル(単語推定モデル)」は,これまでの研究成果で得られているので,困難なく実現できるめどがついた.このめどについて,翌年度5月に宮崎で開催される査読付き国際会議LRECに採択されており、発表予定である.
|
Remarks |
Vocabulary Predictionのページにて、本研究に関連してこれまでに作成したデータセットや論文を公開している。
|