平成16年度は前年度に作成したイラン口承文芸資料の文単位でのXMLデータをさらに細かく整形した。さらにこれを利用してより精度の高い検索システムを作成し、試行的分析を行った。 具体的には、下記の1から4に示した方法で行った。なお、データ入力や単純な作業についてはペルシア語の専門知識を持つ研究補助者を活用した。 1.翻字化資料の整形:平成15年度において作成した文単位でのXMLデータを単語単位に品詞分解した。この過程では、自動タグ付けマクロを作成し、効果的に作業を進めた。この結果、見直しの工程を残しているが、9ジャンルの資料(202例)の90%以上を自動的に品詞分解することに成功した。さらに、全ての単語について次項2で述べる外部辞書の該当箇所を参照するように整形した。 2.外部辞書の作成:データ中の各単語から参照させる外部辞書(DTDファイル)の作成を開始した。外部辞書に納められる項目は、品詞情報、語源情報、語義(日本語)である。民俗学的情報等の意味属性の格納方法を概ね策定した。外部辞書データは、検索するテキストの種類に依存しないため、この形式で整形されたテキストであれば共通して使えるという利点がある。 3.検索システムの作成:1のXMLファイルのうち「笑い話と小話」の部分を抽出し、2のDTDファイルを利用して、Per1を用いた検索システムを実験的に開発した。これにより、単語が時制、人称あるいは方言により、いかに変化していても、ペルシア語および日本語でヒットさせることができる。このシステムにより、単なるの文字列検索に比べて圧倒的に正確な検索が可能となった。 4.民話の特性の分析:1998-1999年にフィールドワークで採集した「笑い話と小話」についての語源分析を実験的に行った。総単語数8940語、語彙数957のうち、60.0%がペルシア語起源、33.2%がアラビア語起源、1.8%がトルコ語起源、0.4%がフランス語起源、4.6%が複合語という結果を得た。この数値は1918年採集の同種資料のデータとほぼ同じであり、興味深い結果である。
|