研究課題
挑戦的萌芽研究
編集距離、文字n-gramベクトルの余弦距離、文字列カーネルなど、単語間の表層的類似度を算出するプログラムを作成した。また、新聞記事データで学習した言語モデルを用いて、ある文脈において次の単語が持つ情報量を算出するプログラムを作成した。さらに実験で使う読み時間測定プログラムを作成した。学内の倫理審査を経て、実際に人間の読み時間の測定を行った。その際に、文内の一部の単語の綴りを意図的に変更した。20人程度の実験データから、読み時間と、単語の綴りの特徴、文脈から単語が予測できる度合いの間の統計的傾向が得られらた。