2017 年度実績報告書

多様な読み手のための単語難易度指標指標の統計的構築手法の開発

研究課題

研究課題/領域番号	15K16059
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	江原遥国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60738029)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	単語難易度 / 単語親密度 / 回帰 / 項目反応理論 / 確率モデル / 機械学習 / 人工知能
研究実績の概要	本研究の目的は，「理系学生が学ぶべき英単語の列挙」や「難しい日本語の簡単な英語への翻訳」などの第二言語学習者支援のための単語難易度指標の統計的構築方法を開発することである．具体的には，専門分野の考慮や，言語間での単語難易度の比較を可能とする単語難易度モデルを構築する．残る課題は「読み手集合を特徴に分解する分解モデル（例えば，日本語を母語とする英語学習者を，英語学習者+日本語母語話者といった特徴に分解する）」と，全モデルの統合であった．本年度は，この分解モデルに関する研究成果が，本年度12月に台湾で行われた自然言語処理分野トップの国際会議（査読付き）であるIJCNLPに採択され発表した．母語話者を対象にした調査ではあるものの，言語心理学分野では，読み手の単語に対する親密度や，単語が意味するものをどの程度の度合いで想像できるか，といった言語心理学的指標の大規模調査が行われており，言語資源なども整備されている．そこで，この研究では，これらの指標を専門分野ごとの特徴に分解し，各専門分野が指標の値の予測にどの程度貢献しているかを計測する手法を提案した．この手法は，用いるデータを母語話者を対象にしたデータから第二言語学習者を対象にしたデータに変更すれば，そのまま本研究課題に適用可能である．全モデルの統合についても，「読み手が知っている単語を推定するモデル（単語推定モデル）」は，これまでの研究成果で得られているので，困難なく実現できるめどがついた．このめどについて，翌年度5月に宮崎で開催される査読付き国際会議LRECに採択されており、発表予定である．
備考	Vocabulary Predictionのページにて、本研究に関連してこれまでに作成したデータセットや論文を公開している。

研究成果
(9件)

すべて 2018 2017 その他

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 3件) 学会発表 (4件) (うち国際学会 2件) 備考 (2件)

[雑誌論文] Building an English Vocabulary Knowledge Dataset of Japanese English-as-a-Second-Language Learners Using Crowdsourcing2018
- 著者名/発表者名
  Yo Ehara
- 雑誌名
  
  Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC 2018)
  
  巻: なしページ: 484--488
- 査読あり / オープンアクセス
[雑誌論文] Language-Independent Prediction of Psycholinguistic Properties of Word2017
- 著者名/発表者名
  Yo Ehara
- 雑誌名
  
  Proceedings of the 8th International Joint Conference on Natural Language Processing
  
  巻: なしページ: 330--336
- 査読あり / オープンアクセス
[雑誌論文] Mining words in the minds of second language learners for learner-specific word difficulty.2017
- 著者名/発表者名
  Yo Ehara, Issei Sato, Hidekazu Oiwa, Hiroshi Nakagawa.
- 雑誌名
  
  Journal of Information Processing
  
  巻: 26 ページ: 267--275
- DOI
  10.2197/ipsjjip.26.267
- 査読あり / オープンアクセス
[学会発表] Building an English Vocabulary Knowledge Dataset of Japanese English-as-a-Second-Language Learners Using Crowdsourcing2018
- 著者名/発表者名
  Yo Ehara
- 学会等名
  Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC 2018)
- 国際学会
[学会発表] クラウドソーシングを用いた語彙テスト結果データセット作成2018
- 著者名/発表者名
  江原　遥
- 学会等名
  言語処理学会第24回年次大会
[学会発表] Language-Independent Prediction of Psycholinguistic Properties of Word2017
- 著者名/発表者名
  Yo Ehara
- 学会等名
  the 8th International Joint Conference on Natural Language Processing
- 国際学会
[学会発表] 論述上重要な英語表現を専門分野に合わせて自動抽出する手法の試案2017
- 著者名/発表者名
  江原　遥
- 学会等名
  第231回自然言語処理研究会・第116回音声言語情報処理研究会
[備考] Vocabulary Prediction
- URL
  http://vocabularyprediction.com/
[備考] 個人ページ
- URL
  http://yoehara.com/

2017 年度 実績報告書

多様な読み手のための単語難易度指標指標の統計的構築手法の開発

研究代表者

江原 遥 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60738029)

研究成果

[雑誌論文] Building an English Vocabulary Knowledge Dataset of Japanese English-as-a-Second-Language Learners Using Crowdsourcing2018

著者名/発表者名

雑誌名

[雑誌論文] Language-Independent Prediction of Psycholinguistic Properties of Word2017

著者名/発表者名

雑誌名

[雑誌論文] Mining words in the minds of second language learners for learner-specific word difficulty.2017

著者名/発表者名

雑誌名

DOI

[学会発表] Building an English Vocabulary Knowledge Dataset of Japanese English-as-a-Second-Language Learners Using Crowdsourcing2018

著者名/発表者名

学会等名

[学会発表] クラウドソーシングを用いた語彙テスト結果データセット作成2018

著者名/発表者名

学会等名

[学会発表] Language-Independent Prediction of Psycholinguistic Properties of Word2017

著者名/発表者名

学会等名

[学会発表] 論述上重要な英語表現を専門分野に合わせて自動抽出する手法の試案2017

著者名/発表者名

学会等名

[備考] Vocabulary Prediction

URL

[備考] 個人ページ

URL

2017 年度実績報告書

江原遥国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60738029)