2013 Fiscal Year Research-status Report
ロンゴロンゴ記号列からのノンパラメトリックな情報抽出
Project/Area Number |
24500313
|
Research Institution | Keio University |
Principal Investigator |
山口 文彦 慶應義塾大学, 理工学部, 訪問研究員 (60339124)
|
Keywords | 国際情報交換(チリ) / ロンゴロンゴ / 未解読文字 / 統計的自然言語処理 |
Research Abstract |
ロンゴロンゴと呼ばれる記号の列を刻んだイースター島の木製品が遺されている。ロンゴロンゴが文字である可能性も指摘されているが、未解読である。未解読であることの理由の一つに、同じ内容を別の記法や別の言語で表したパラレルコーパスが存在しないという問題が挙げられる。 ロンゴロンゴが歌を歌うように読まれたという記録があることから、これまでに、ロンゴロンゴの記号列と現地の古い歌が対応するか否かを、全探索を基とする手法によって統語的に調べる研究を行った。 もしロンゴロンゴが歌を表記したものであるとすれば、あるロンゴロンゴと、それが表す 歌の歌詞との間には、記号の出現順序に一致が見られると仮定できる。逆に、記号と歌詞の間にどのような対応づけも見つけられないとしたら、そのロンゴロンゴと歌は対応しないと結論できる。注目した対応関係は、ロンゴロンゴにおける記号の出現順序と、古謡の歌詞におけるシラブルの出現順序が一致するか否かである。結果として、いくつかのロンゴロンゴの行と古謡の歌詞の間で、記号とシラブルの出現順序に対応が見られる一方、ほとんどの組合せで対応がないことが示された。 ここまでの研究結果は、情報考古学会論文誌に掲載され2013年度の情報考古学会論文賞を授与された。また国際会議 CICLING2013 にてポスター発表を行った。また、CICLING2013 での発表において、出現順序の比較だけでなく、記号や語の出現頻度を比較すべきであるとの指摘を受け、ロンゴロンゴ記号と古謡のシラブルとの間の出現頻度を比較し、PACLING2013 でポスター発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前項の研究結果では、いくつかの歌とロンゴロンゴのあいだに、記号の出現順序の一致が見られた。このことは、一致が見られるロンゴロンゴと歌のペアがパラレルコーパスとなっている可能性を示唆するものである。しかし、比較的もっともらしいと思われるペアに限定しても、排他的なものではないという結果が得られている。すなわち、同じロンゴロンゴが複数の歌との間に対応が見られたり、同じ歌が複数のロンゴロンゴとの間に対応が見られており、直接的な解読に結びつく成果であるとは言い難い。 もしロンゴロンゴと古謡が、同じ言語・同じ内容の別の表現であると仮定すると、ロンゴロンゴ記号と古謡のシラブルや単語のそれぞれで出現頻度上位のものは対応する可能性がある。そこで、ロンゴロンゴの先行研究にある Barthel のコーディングによる記号および古謡のシラブルについて、出現頻度、bi-gram, tri-gram をそれぞれ計算し比較する研究を行った。結果として、Barthelコードとシラブルでは頻度の分布が大きく異なることが分かった。このことは、Barthelコードの番号づけの単位がが文字という単位にあまりよく対応していないことを示すものである。実際、Barthel のコーディングは記号の種類が多く、文節文字に対応するとは考えがたい。そこで、シラブルよりも種類が多い単語に対応するか否かについて調べるために、古謡の単語についても同様に頻度を計算して比較したが、やはり頻度の分布が異なることが分かった。すなわち、Barthel のコーディングは、記号の形で分類はしているが、文字としての分類にも単語としての分類にも、あまり対応していないと考えられる。
|
Strategy for Future Research Activity |
ロンゴロンゴが文節文字を表すとの仮定を置く。 前項で説明したように、ロンゴロンゴの記号を形で分類する Barthel のコーディングは、文節文字との対応が悪いと考えられる。Barthel コードの種類が文節文字の個数としては多いことから、同じ文字に複数のコードが付されていると考えることができる。 そこで、Barthel コードが分類としては細かすぎると考え、これをクラスタリングすることが方針の一つと考える。すなわち、コードのクラスタのそれぞれが文節文字の一つに対応するようなクラスタリングを発見しようとするものである。 このようなクラスタリングを直接見つけることは難しいが、知的情報処理の分野では近年、ノンパラメトリックベイズ手法や Deep Learning などの、表面的な関係性から背後にある構造までを自動的に獲得する機械学習手法が盛んに研究されている。 そこで、Barthel コードのクラスタリングが背後にあって、ロンゴロンゴと古謡が同じ言語の記号列であるという関係が表面にあるというモデルを立て、コードのクラスタリングとしてもっともらしいものが獲得できるかどうかについて研究しようと考えている。
|
Expenditure Plans for the Next FY Research Funding |
CICLING2014に投稿したが reject されたため、不参加とした。この国際会議の開催地はネパールであり、旅費などを拠出する予定だった。 学術雑誌 Journal of Polynesian Society に投稿を予定しており、英文校閲・投稿料ならびに別刷り代を拠出する予定である。また、日本情報考古学会大会をはじめとする研究会や会議の参加費ならびに旅費に充てる予定である。
|