研究課題/領域番号 |
23650128
|
研究機関 | 山口大学 |
研究代表者 |
中田 充 山口大学, 教育学部, 准教授 (60304466)
|
研究分担者 |
吉村 誠 山口大学, 教育学部, 教授 (70141116)
葛 崎偉 山口大学, 教育学部, 教授 (30263750)
|
キーワード | 和歌検索システム / 内容検索 / 万葉集データベース / 古典データベース |
研究概要 |
本年度は,万葉集に収録されている和歌を内容に基づいて検索する機能の基本設計を行い,それを採用した検索システムの試作版を作成した.また,複数の写本により伝えられる万葉集では,その和歌を検索した際に写本の画像も結果に含めた形で提示してほしいという要求が寄せられたため,写本画像を含む万葉集データベースを構築することを検討した.その際,写本ごとに微妙に異なる表記を含めてデータベース化するために必要な手書き文字認識技術の精度改善を図った. まず,独立行政法人情報通信研究機構が提供しているEDR電子化辞書を用いて,単語の意味を表す概念のつながりを表すDAG(Directed Acyclic Graph)である「概念体系」と各概念に属する単語の一覧である「単語表」を,データベース管理システムを用いて実現した.これらには,現在,約40万の概念と約60万の単語が格納されている. 次に,同じ概念に属する単語同士を同じ意味を持つ「同義語」,同じ概念ではないが似た意味を持つ(概念体系にて近い距離にある)概念に属する単語同士を「類似語」と定義し,概念体系と単語表から,和歌検索時のキーワード(検索語)の同義語と類似語を求める仕組みを設計し実現した.検索時にかかる時間の短縮のために,全ての単語の類似語を予め求め,概念体系における概念間の距離に基づいて,類似語同士の“意味がどれくらいにているか”を表す「概念距離」を定めた.さらに,「概念体系」,「単語表」,「概念距離」に基づいて,検索語のみらならず,その同義語と類似語も用いて和歌を検索するシステムを,プログラミング言語Javaを用いて実装した. また,万葉集の和歌は漢字のみで表記されているため,筆者らがこれまでに提案してきた手書き文字認識技術が古典文学作品中の漢字にどれくらい有効であるかを認識実験により評価し,その問題点を解決する手法を提案した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
検索語の同義語と類似語を求め,それに基づいて和歌を検索することで,検索語そのものを含まない和歌でも,似た意味を持つ単語を検索できるようになった.
|
今後の研究の推進方策 |
概念体系と単語表を用いて,意味は似ていないが所謂「ある単語から連想される単語」(連想語)を求める仕組みを提案し,和歌検索に用いることを考える.そのために,データベースに含まれる和歌の本文や訓読文を解析し,名詞,動詞,形容詞などを抽出した上で,それらの相互関係を単語表や概念体系を用いて調べることで連想語を求める仕組みを提案する.
|
次年度の研究費の使用計画 |
24年度の次年度使用額は約20,000円である.25年度での成果発表等に使用する予定である.
|