研究課題/領域番号 |
23650128
|
研究機関 | 山口大学 |
研究代表者 |
中田 充 山口大学, 教育学部, 准教授 (60304466)
|
研究分担者 |
吉村 誠 山口大学, 教育学部, 教授 (70141116)
葛 崎偉 山口大学, 教育学部, 教授 (30263750)
|
キーワード | 和歌検索 / 連想語 / 共起行列 / 内容に基づく検索 |
研究概要 |
本年度は,これまで検討されていなかった連想語を用いた和歌検索の機能を提案すると共に,万葉集写本の画像を検索するために必要な手書き文字認識技術の改良を行った. これまでに検索語の同義語,類義語による和歌検索機能について提案を行ったが,これまでの類似語を求める手法では適切な類似語が得られないこと多かった.そのため,単語の共起性に基づく類似語を求める手法について考察し,さらに,検索語と何らかのつながりを持つような連想語を求める手法を提案した.その手法は,(1)葉集の和歌の単語から構成される共起行列を作成する.(2)共起ベクトルを比較して類似語を探す.(3)共起頻度を比較して連想語を探す.というものである.ある本文語とある単語が本文中で共起している回数が多いとき,それらの単語は連想できる可能性が高い. (2)における共起ベクトルの比較においての基準として,共起ベクトルのコサイン類似度を採用した.万葉集の巻頭から20首の和歌から抜き出した233の単語を対象として,類似度の近い共起ベクトルを持つ単語を求める評価実験を行った.実験の結果,共起ベクトルの類似度が高い単語同士はよく似た意味をもつ傾向が高いことが分かったが,これまでに提案してきたEDR電子化辞書を用いた類義語を求める手法と比べて特に優位に結果が得られたとまでは言えない. 次に,同じ意味を持つ単語同士をまとめる形で共起行列の改良を行い,共起行列を用いて連想語を求める手法を提案した.この手法に対して,万葉集巻一(84首)の和歌の訓読文を対象に単語(509語)を対象とした実験を行い,どのような単語同士が連想語の関係があるかを調べた.その際に,連想語を求める指標として,ダイス係数,T-Score,MI-Scoreの3つの値について調査し,万葉集和歌検索においては,MI-Scoreが妥当な連想語を求める指標であるといえるとの結論に至った.
|