2015 Fiscal Year Annual Research Report
ロンゴロンゴ記号列からのノンパラメトリックな情報抽出
Project/Area Number |
24500313
|
Research Institution | University of Nagasaki |
Principal Investigator |
山口 文彦 長崎県立大学, 教育開発センター, 教授 (60339124)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 未解読文字 / 分類 |
Outline of Annual Research Achievements |
本課題では、イースター島で木製品に刻まれた記号列であるロンゴロンゴを対象に、自然言語処理分野などの技術を用いて、解読に資する情報を獲得しようとしている。未解読文字の解読にあたっては、似た記号の出現を同じ文字であると同定し、文字クラスに分類する作業が必要である。従来、この作業は経験に基づいて人の手で行われてきた。 本課題においても、昨年度までの研究ではロンゴロンゴ記号の分類については、バルテルによる既存研究に従っていた。しかしバルテルの分類は詳細に過ぎるなど疑問点も指摘されている。そこで記号画像の集合を、形状の類似度などを用いて、文字のクラスに自動的に分類する手法について研究した。昨年度、ロンゴロンゴ記号の形状特徴による類似度について研究したが、記号形状の類似度だけでは文字クラスの個数が判明しないため、文字クラスへの分類すなわち非階層的クラスタリングは難しい。そこで統計的自然言語処理などの分野で知られた経験則である Zipf則を指標として、文字クラスを見つける手法を提案した。 提案手法は未解読文字のみに適用しても、正解が分からないために評価できない。そこで既知言語である日本語の手書き文字を提案手法で分類し、正しく文字クラスに分類されるかどうかを確認する実験を行った。これによって手法そのものを評価しようとしたのである。手法の評価においては、分類の正解の度合いを、記号の個数や言語の性質・手法の性質にできるだけ依存しないように評価する必要がある。この問題において、分類とは有限集合の同値類を定義することであり、正解となる同値類が設定されているとき、ある同値類の正しさは、正解との類似度であると考えることができる。そこで、有限集合の同値類の類似度を測る指標について提案する研究を行った。 これらの研究は、第35・36回日本情報考古学会ならびに情報処理学会第78回全国大会にて発表された。
|
Research Products
(6 results)