2012 Fiscal Year Research-status Report
表意文字曖昧検索のための文字表現および検索手法の研究
Project/Area Number |
24500116
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Hiroshima University |
Principal Investigator |
鈴木 俊哉 広島大学, 情報メディア教育研究センター, 助教 (70311545)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 敦 茨城大学, 人文学部, 教授 (00272104)
三上 喜貴 長岡技術科学大学, 原子力安全系, 教授 (70293264)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 情報検索 / 表意文字 |
Research Abstract |
初年度は、曖昧検索のための基礎として甲骨文字の同定基準となる文字域の調査を進めた。 具体的には、網羅的な甲骨拓本資料である「甲骨文合集」の直前に出された島邦男の自然分類によるデータベースと、「甲骨文合集」以降の姚孝遂のデータベースの見出し字をつきあわせ、安定した文字域の抽出手法を検討した。調査方法は、「殷墟甲骨卜辞綜類」(島邦男、1969年初版)の検字索引7860字の切り出し、「殷墟甲骨刻辞類纂」(姚孝遂、1989年)の字形總表3416字の切り出しを行い、対応関係調査の第一段階としてもっとも部首内字数の多い人部(綜類150字/類纂195字)、女部(綜類162字/157字)の対応調査を行った。この調査のために、文字切り出しプログラムと、対応作業プラットフォームとしてJavaScriptによる画像リスト操作プログラムを作成した。対応調査の結果、字形に直接的な対応関係が見られるものは約6割(人部131字、女部129字)であり、対応できない見出し字の全ては出土例が5例未満であることがわかった。また、対応不能であった文字は必ずしも新出資料で新たに発見されたものではなく、不鮮明な拓本などからそれぞれのデータベースで異なる字形を認識している場合などであることがわかった。このことからも、出現頻度が低い文字について文字域を議論することが困難であると言える。 本年度の成果は2012年12月22日に京都大学品川オフィスで開催された第8回文字研究会、および、2013年3月15日に京都大学人文科学研究所附属東アジア人文情報学研究センタで開催された「東洋学へのコンピュータ利用」第24回セミナーにて報告された。 また、次年度以降に予定している説文分類による甲骨文字の文字域概念との比較のため、甲骨文字字釈綜覧(松丸道雄・高嶋謙一、1998)の甲骨文編-綜類見出し対応数表のデータ入力を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画では、初年度に殷墟甲骨刻辞類纂から出土資料数に基づいて文字域が安定している見出し字を全て抽出する予定であった。しかし、甲骨文字専門家との議論において、近年出版されている字形表の多くが「類纂出版以降に出土した資料を加えて改善した」と主張していることを勘案すれば、単に出土資料数に基づいて見出し字を選定しても文字域が安定していると判断して良いかは自明でないとの意見が寄せられた。そこで、類纂の文字域は出土資料数の増加に対して安定しているか、あるいは、もし安定していないとすればどのような基準で抽出すれば安定しているのかの検討が必要と考えられた。また、日本の甲骨文字専門家からは類纂よりも殷墟卜辞綜類の見出し字の評価を期待するコメントも寄せられたため、出土資料数の増加に対してどの程度安定しているか、両データベースの比較検討を行った。この予備調査のためのプログラム開発およびデータ整理に時間を要したが、単なる出土例カウントよりも効率的な整理作業の可能性が見込める状態となった。
|
Strategy for Future Research Activity |
当初計画では出土資料数による整理で安定した文字域を定義する予定であったが、予備調査の結果、安定した文字域の定義を殷墟卜辞綜類・殷墟甲骨刻辞類纂の両データベースの積集合として定義してもほぼ問題がないことが示された。当初計画で予定していた出土資料数のカウントを自動化するためのプログラムも試作するが、両データベースの対応表の作成も平行して行い、安定した文字域の抽出を2013年度内に完了したい。
|
Expenditure Plans for the Next FY Research Funding |
初年度の研究実施中に、殷墟卜辞綜類の索引見出し字は初版と増訂版では部分的に異なることが発見された。同書の甲骨本文内容は同一で注釈情報のみ異なると一般には理解されているが、安定したデータベースの構築のためにはこの違いについても調査対照が必要である。この調査に関して当初計画よりも作業量が若干増えるが、初年度からの謝金を繰り越しており、対応可能である。
|