研究課題/領域番号 |
26540113
|
研究機関 | 東京工業大学 |
研究代表者 |
高村 大也 東京工業大学, 精密工学研究所, 准教授 (80361773)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 自然言語処理 |
研究実績の概要 |
まずは、必要となるコンピュータ・プログラムの作成を行った。 ・文字列間の類似度を算出するプログラム:編集距離、文字n-gramベクトルの余弦距離、文字列カーネルなど、計算言語学で用いられている類似度(あるいは距離)を考えている。また、計算言語学では類似度計算において、文字の形を考慮に入れることは稀であるが、ここでは重要な要因となりうるため、文字の形の類似度も、文字列間の類似度計算において考慮する。 ・文脈から次の単語がどの程度予測できるかを与える指標を算出するプログラム:具体的には、文のある位置における言語モデルの条件付エントロピーを用いる。言語モデルは、コーパスから前もって構築しておく。 ・被験者実験で使う読み時間測定プログラム(これについては以前の研究で利用したものがほぼそのまま利用可能である) ・漸次的構文解析器 また、人間は文を読む際に漸次的にその構造を解析していると考えられるので、漸次的構文解析器も用いる。以前構築したもの利用する予定であったが、性能が不十分であることがわかったので、これを構築中である
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究で利用するためのコンピュータプログラムについては、文字列間の類似度を算出するプログラム、文脈から次の単語がどの程度予測できるかを与える指標を算出するプログラム、被験者実験で使う読み時間測定プログラム、などの構築は行った。予定していなかった、漸次的構文解析器 の構築については進行中である。予定外のプログラムの構築により、26年度に予定していた被験者実験については、27年度にずれこむ予定である。このようなことから、やや遅れていると判断した。
|
今後の研究の推進方策 |
「漸次的構文解析器の構築」を引き続き行う。 上で開発した読み時間測定プログラムを用いて、被験者が文を読む際にかかる時間を測定する。読み時間が人間の処理負荷と高い相関を持つことは知られており、アイトラッキングと比較して実験のコストが低いことからここでは読み時間を測る。続いて測定データの分析を行う。特に、これまでに構築したプログラムを用いて類似度や予測度を算出し、これらの読み時間との相関を調べる予定である。
|
次年度使用額が生じた理由 |
解析プログラムの作成が必要になり、そちらに時間を費やし、予算を割り当てて予定していた実験が次年度に繰越になったため、次年度使用額が生じた。
|
次年度使用額の使用計画 |
実験を行うための費用として使用する予定である。また、研究プロジェクトに関連する旅費などにも用いる予定である。
|