研究課題/領域番号 |
15H06833
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
堤 智昭 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論構造研究系, プロジェクト非常勤研究員 (80759035)
|
研究期間 (年度) |
2015-08-28 – 2017-03-31
|
キーワード | 訓点資料 / 電子化 / デジタルアーカイブ / ヲコト点 |
研究実績の概要 |
本研究の目的は、古典籍資料の中でも文章中に訓点が記されている訓点資料を対象として、訓点情報を損なうことなくコンピュータに電子テキストとして取り込むための、電子的な記述手法と電子化プロセスを確立することである。訓点資料は日本語史の研究資料として利用されている。しかし、これらの資料を計算機において統計的に処理できる状態で電子化する手法は十分に確立されていない。 本年度はヲコト点図を電子化するためのデータ構造の検討を行った。またヲコト点図を、検討したデータ構造に従って電子化するための入力支援ツールを作成し、主要ヲコト点26種の電子化を行った。そのうえで、主要ヲコト点26種がそれぞれ互いにどの程度類似しているかについて、計算機を用いて類似度解析が行えることを示した。 本研究では、ヲコト点はその「形状」が文字のどの位置に記されるかによって「意味」が変わるという点に着目した。中心を(0,0)とする7×7マスのグリッド座標を定義し、文字のどの位置にヲコト点が付与されているかを記録できるデータ構造とした。ヲコト点図間の比較では、二つのヲコト点図間で「形状」と「意味」が同じヲコト点が存在すれば類似度が高いと判定する計算を行った。具体的には、ヲコト点の「形状」・「意味」が同じで、点が付与される位置も同じであれば一番類似度が高く、「形状」・「意味」が同じで加点される位置が異なる場合、2つのヲコト点図で加点される位置間の距離が遠くなるほど類似度が低くなる計算方式を用いた。 上記の計算を26種類ある主要ヲコト点それぞれの組み合わせに対して行い、ヲコト点図間の類似度を求めた。本年度の成果により、これまでとは異なる角度から、ヲコト点図間の関係を分析することが可能となった。これらの成果については、人文科学とコンピュータシンポジウム「じんもんこん2015」において研究発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の研究計画では、27年度は下記3点を行う予定であった。 ① 文字研究の専門家を交えて、研究活動に有用な構造化記述方式の検討を行う。 ② 検討結果を受けて、訓点資料を電子化するためのツールの改良を行う。 ③ 訓点資料の電子化を行う。 上記3点について、全て実施することができ、得られた成果について、人文科学とコンピュータシンポジウム「じんもんこん2015」において研究発表を行い、多くの研究者から意見をいただくことができた。 また、③では現存する訓点資料の1、2種の電子化を試みる予定であったが、研究発表やその他、文字研究の専門家との議論を踏まえて、主要ヲコト点図以外のヲコト点図情報を電子化することとした。その電子化作業についても、第1回目の電子化は27年度内に終了しており、ほぼ計画通りに研究を進めることができた。
|
今後の研究の推進方策 |
平成27年度の研究成果について、学会発表や関連する研究者との勉強会において議論を行ったところ、ヲコト点図の解析を進め定量的にヲコト点の分析を行うことが、本研究の成果を活用するのに有用であるという意見をいただいた。そこで28年度は、文字研究者と協議しながら、ヲコト点図の解析を中心に研究を進めることとする。具体的には下記の3点を行う。 ① ヲコト点図間の類似度計算手法の妥当性の検証・及び計算手法の改良 ② 改良した手法によるヲコト点図の解析・及び従来の分類との比較 ③ 研究成果物(電子化ツール等)の公開 ①②については、27年度の研究成果について文字研究者と検討を行いながら進めていく。特に、27年度に実施したヲコト点図間の類似度計算については、情報工学の研究者である研究代表者が中心となって決定したものであるため、文字研究者も交えたさらなる検討が必要であると考えている。その過程において、27年度に検討を行った構造化記述方式を改良する必要が出てくることも想定される。③については、本研究において開発した電子化ツールや電子化データを、著作権等の問題が発生しない可能な範囲内でインターネット等を通して広く公開することを予定している。
|