2016 Fiscal Year Annual Research Report
Development and Utilization of Reading Time Annotation on Text Corpora
Project/Area Number |
25284083
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 准教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
MIYAMOTO EDSON・T 筑波大学, 人文社会科学研究科(系), 准教授 (60335479)
小野 創 津田塾大学, 学芸学部, 准教授 (90510561)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 読み時間 / 人間の文処理 |
Outline of Annual Research Achievements |
研究作業者を雇用し、読み時間データに対して各種アノテーションを重ね合わせる作業を進めた。具体的には、統語情報としての係り受け・節境界情報、意味情報としての分類語彙表番号、談話情報としての情報構造アノテーションを重ね合わせた。 一般化線形混合モデルによる統計分析を行うことにより、次のような結果が得られた。たくさん係り受け関係を持つ文節の読み時間が短くなる現象が確認された。同様に節境界についても読み時間が短くなる傾向があり、節ラベルで分析すると 並列節>>名詞修飾節>>補足節, 副詞節の順に短くなることが確認された。分類語彙表番号においては、統語的な性質を表す「類」に関して「体」>>「その他」 >> 「相」 >> 「用」と読み時間が短くなる傾向が確認された。意味的な分類を表す「部門」に関しては、「生産物」>「自然」 >「関係」 ≒「主体」>「活動」という傾向がみられた。情報構造においては、特定性・有情性で読み時間が長くなる傾向がみられた。また、新情報と想定可能(Bridging)・旧情報が判別可能なレベルで読み時間に差があることが確認された。 得られた知見について、係り受けについては COLING-2016で発表を行った。情報構造については2016年度内に言語処理学会年次大会で発表を行った。ほかのものについても2017年度中に対外発表を行う。 また、統計処理手法として、一般化線形混合モデルではなく、Bayesian 線形混合モデルに基づく分析を進めた。
|
Research Progress Status |
28年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
28年度が最終年度であるため、記入しない。
|
Causes of Carryover |
28年度が最終年度であるため、記入しない。
|
Expenditure Plan for Carryover Budget |
28年度が最終年度であるため、記入しない。
|