2014 Fiscal Year Research-status Report
ロンゴロンゴ記号列からのノンパラメトリックな情報抽出
Project/Area Number |
24500313
|
Research Institution | Keio University |
Principal Investigator |
山口 文彦 慶應義塾大学, 理工学部, 研究員 (60339124)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | ロンゴロンゴ / 未解読文字 / 統計的自然言語処理 |
Outline of Annual Research Achievements |
ロンゴロンゴと呼ばれる記号の列を刻んだイースター島の木製品が遺されている。ロンゴロンゴが文字である可能性も指摘されているが、未解読である。未解読言語であるロンゴロンゴから何らかの言語情報を得ようとするとき、統計的自然言語処理などで用いられるような特定の言語に依存しない手法が有効であると考えられる。本研究課題では、ロンゴロンゴそのもの、もしくはロンゴロンゴと明らかに関連すると思われる現地の言語情報を用いて、できるだけ発見的な知識を用いずに解読につながる情報を得ようとするものである。 25年度までに本課題の研究として、現地の歌の歌詞をシラブルに分割し、ロンゴロンゴ記号との出現順序の対応付けの有無について調べた。また、この内容を国際会議で発表した際に、出現順序の比較だけでなく、記号や語の出現頻度を比較すべきであるとの指摘を受け、この比較についても調べて発表した。これらの研究においては、ロンゴロンゴを記号の列として扱う必要があるが、もともとは木片に彫られた図形であり、文字の単位への切り分け、および、切り分けた図形の同じ文字を表す記号への分類は、自明ではない。既存の研究として、Barthel によるロンゴロンゴ記号の符号化があるが、これまでの研究では、図形を符号化するのは人が分類する方法しかなかった。しかし人の手で行うと、複数の作業者がいる場合には作業者や作業時期の違いによって判断が揺れる危険がある。そこで、26年度の本課題の研究として、こうした危険を避けるために、手書き文字認識で用いられる適用して図形間の類似度を計算し、ロンゴロンゴの図形を形状の類似度に従ってクラスタリングする研究を行い、第33回情報考古学会大会にて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
未解読文字の解読にあたっては、記号の音価の推定が部分的な目標となる。本研究課題においても、現地の古謡におけるシラブルとロンゴロンゴの記号を対応づけることによる音価の推定は、目標の一つである。 25年度までの研究成果として、いくつかの歌とロンゴロンゴのあいだに、記号の出現順序の一致が見られた。このことは、一致が見られるロンゴロンゴと歌のペアがパラレルコーパスとなっている可能性を示唆するものである。しかし、比較的もっともらしいと思われるペアに限定しても、排他的なものではないという結果が得られている。すなわち、同じロンゴロンゴが複数の歌との間に対応が見られたり、同じ歌が複数のロンゴロンゴとの間に対応が見られており、直接的な解読に結びつく成果であるとは言い難い。既存研究にはロンゴロンゴはシラブルを表すという説があり、また Barthel の符号化はシラブルを表すには細かすぎるという指摘もある。本課題で行った現地の古謡の歌詞に含まれるシラブルとロンゴロンゴに含まれる Barthel 符号の出現頻度の比較からは、Barthel の符号化が細かすぎるという説を肯定する結果が得られた。 一方、26年度の研究結果として、文字を形状の類似度に従って自動的に分類することに、ある程度成功した。ここで得られた分類が恣意的なものでないことを主張しようとする立場から言えば、分類に用いた手法そのものがメタパラメータとなっている点が無視できないが、未解読文字における記号の分類を半自動化することで、人の手による分類作業の揺れを防ぐ方法を提示したものと言える。
|
Strategy for Future Research Activity |
25年度の研究成果として古謡に含まれるシラブルの出現頻度のデータが得られており、26年度の研究成果としてロンゴロンゴ記号の図形特徴の類似度から階層的なクラスタリングを得ている。これらのデータを基に、図形特徴が類似しているという制約の下でシラブルの出現頻度と似た分布になる記号のクラスタリングを、計算機を用いて探すことを考えている。ロンゴロンゴがシラブルを表すとの仮定の下では、このクラスタリングによって記号とシラブルの対応付けが得られるものと考えられる。また、このような計算は、出現する記号全体からなる集合の分割を探索空間とするので単純には非現実的な計算量を必要とするが、前掲の階層的クラスタリングの結果を用いることと、並列性の高い計算であることが予想されるため高並列な計算資源を用いることで、現実的な時間内に計算しようとしている。 また、これまでの成果を論文誌や Web ページなどで公表することも研究の一環であり、発表および公表の場の整備も行っていく予定である。
|
Causes of Carryover |
主に次の3つの理由による。1.当初2015年3月に開催予定であった国際会議CICLING2015に参加を予定していたところ、同会議は開催地であるエジプトの政情不安の影響で4月の開催となった。2.応募時には初年度に計算機を購入する計画であったが、科研費の交付決定の前に計算機を自費で購入した。3.情報考古学会誌に論文が掲載されたが、その別刷代が論文誌別刷代の当初予定額よりも大幅に安価だった。そのため、平成26年度に約190万円の未使用額が生じた。
|
Expenditure Plan for Carryover Budget |
未使用額は平成27年度における次の経費に充てることとしたい。国際会議での発表や国内の研究会・打ち合わせのための出張旅費。高並列な計算を行うための計算機の購入。成果を開示するためのデータ整理にかかる費用。
|