研究課題/領域番号 |
16H02865
|
研究機関 | 東京工業大学 |
研究代表者 |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
研究分担者 |
西川 仁 東京工業大学, 情報理工学院, 助教 (00765026)
相澤 彰子 国立情報学研究所, 大学共同利用機関等の部局等, 教授 (90222447)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 自然言語処理 / コーパスアノテーション / 視線情報 |
研究実績の概要 |
H29年度は,H28年度に収集した固有表現認識課題における視線データをさらに分析し,その成果を国際会議Recent Advances in Natural Language Processing (RANLP 2017)で発表した.従来の機械学習に基づく固有表現認識では,対象固有表現の周辺文脈を素性として用い学習をおこなう.我々はこの課題をおこなう人間の視線がどのように分布しているかを調査した.まず,各視線停留とテキストとの対応を明らかにするために,テキストを文節に区切り,文節と視線停留との対応付けをした.対象固有表現の両側1文節あるいは2文節上にある停留数/停留時間の割合の平均と標準偏差を分析した結果,異りで8割以上の停留は対象固有表現の前後1文節以外の文節にあることがわかった.範囲を2文節に拡げても局所文脈内の停留は3割程度である.つまり,人間は広範な文脈を参照して固有表現の種別を決めているということが示唆される. 次に各課題の正解者と不正解者の視線が停留した文節にどのような差があるかを分析した.正解者と不正解者の数が拮抗した課題について,両グループの停留傾向の差を見るために,各グループについて各文節に対する停留回数と総停留時間をグループ内人数で正規化した値を計算し,正解者の値から不正解者の値を引いた差が0より大きな文節に注目し,分析をおこなった.その結果,正解者の視線が対象固有表現が項となっている述語やその述語の他の項に停留している傾向が観察できた.対象固有表現に近接する単語だけではなく,対象固有表現との統語関係が重要な手掛りになることがわかった.また,局所的な文脈が特定の意味カテゴリを強く示唆するために不正解の原因になる例もあった.以上のことから固有表現認識の精度を向上させるには,より広範な文脈情報を利用する必要があるという結論を得た.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では,広範な自然言語処理の課題に対応する枠組を考えるために,コーパスへのアノテーション課題を (1)セグメント課題,(2) リンク課題,(3) 変換課題に抽象化し,それぞれの課題についてデータ収集をおこなってきた.セグメント課題とリンク課題についてはH28年度にデータを収集し,今年度でその分析,活用法の提案をおこなっている.これら三種類の課題のうちもっとも複雑な変換課題については,テキスト要約の課題を対象とし,H29年度に10名に各3編のテキストを要約してもらい,その要約過程の視線データを収集した.最終年度 (H30年度)はこのデータの分析とその知見の利用について研究を実施する予定であり,研究の進捗状況は順調である.
|
今後の研究の推進方策 |
【現在までの進捗状況】で述べたとおり計画どおりに順調に研究を実施しているので,当初の予定どおり計画を進める.特に変換課題の具体例としてとりあげたテキスト要約における視線データを収集したので,その分析をおこない,その知見を自動テキスト要約に反映させることを予定している.また,必要に応じてデータの追加収集も検討する.
|