2012 Fiscal Year Research-status Report
ロンゴロンゴ記号列からのノンパラメトリックな情報抽出
Project/Area Number |
24500313
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Keio University |
Principal Investigator |
山口 文彦 慶應義塾大学, 理工学部, 研究員 (60339124)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 国際情報交換(チリ) |
Research Abstract |
ロンゴロンゴと呼ばれる記号の列を刻んだイースター島の木製品が遺されている。ロンゴロンゴが文字である可能性も指摘されているが、未解読である。未解読であることの理由の一つに、同じ内容を別の記法で表したパラレルコーパスが存在しないという問題が挙げられる。本研究では、ロンゴロンゴが歌を歌うように読まれたという記録があることから、ロンゴロンゴの記号列と現地の古い歌が対応するか否かを、全探索を基とする手法によって統語的に調べる研究を行っている。 もしロンゴロンゴが歌を表したものであるとすれば、あるロンゴロンゴと、それが表す歌の歌詞とは、記号の出現順序に一致が見られると仮定できる。逆に、記号と歌詞の間にどのような対応づけも見つけられないとしたら、そのロンゴロンゴと歌は対応しないと結論できる。注目した対応関係は、ロンゴロンゴにおける記号の出現順序と、古謡の歌詞におけるシラブルの出現順序が一致するか否かである。二つの記号列の間に、記号の出現順序の一致による対応付けを求める問題はアライメントと呼ばれ、遺伝子情報処理などの分野で用いられることがある。しかし既存の手法では、ある種の好ましい対応づけを効率的に求める工夫をするのに対し、本研究では対応付けの有無を調べることに重点を置くため、対応づけが無い場合にそれと分かることが重要である。そこで、全探索を基本とする手法を用いながら、計算にかかる時間を省くために、探索の枝刈りをする工夫を行った。 結果として、いくつかのロンゴロンゴの行と古謡の歌詞の間で、記号とシラブルの出現順序に対応が見られる一方、ほとんどの組合せで対応がないことが示された。 この結果は、情報考古学会論文誌に掲載され、また国際会議 CICLING2013 にて ポスター発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前項の研究結果では、いくつかの歌とロンゴロンゴのあいだに、記号の出現順序の一致が見られた。このことは、一致が見られるロンゴロンゴと歌のペアがパラレルコーパスとなっている可能性を示唆するものである。未知言語であるために実験結果を直接評価することは難しい。そこで、日本語のかな漢字混じり文とカタカナのみで記述された文を用意して同様の実験を行い、アライメントによって対応している文のペアが高い精度で抽出できることを確認した。一方、対応していないにも関わらず対応していると誤判定されるペアも多いことが分かった。このとき、高い頻度で登場する文字の異なり数が多いほど、誤判定が少ないことが分かった。ロンゴロンゴと古謡の対応においても、ロンゴロンゴの一行の中に高い頻度で登場する記号の異なり数が多いほど誤判定の可能性が低いと考えられる。 しかし、このようにして得られた比較的もっともらしいと思われるペアに限定しても、排他的なものではない。すなわち、同じロンゴロンゴが複数の歌との間に対応が見られたり、同じ歌が複数のロンゴロンゴとの間に対応が見られるなどの結果となっており、直接的な解読に結びつく成果であるとは言い難い。 調べたのは、比較的大きな 4つの木製品に刻まれた 83行のロンゴロンゴと、古謡の歌詞 372編である。これらの全組み合わせ 30,876通りのうち、ロンゴロンゴの行全体が歌詞の一部とアライメントできる組み合わせは 618通りであり、さらにロンゴロンゴの行を、頻度 2以上の記号が 8種類以上含まれる 69行に限ると、アライメントできる組み合わせは 39通りであった。このように、ロンゴロンゴと古謡の組み合わせのほとんどにおいて対応する可能性がないと分かったことから、アライメントによる手法が、パラレルコーパスを探すためのフィルタとして有効に働いていると考えられる。
|
Strategy for Future Research Activity |
パラレルコーパスを見つけるために、アライメント以外の方法で、ロンゴロンゴの行とイースター島の古謡との対応付けの有無を調べることを考えている。複数の異なる手法によるチェックから同じ結果が得られるならば、一つの手法だけを用いた場合よりも精度を上げることができると考えるからである。 また、近年は Latent Dirichlet Allocation などの、特定の言語に依存しない自然言語処理手法に関する研究が盛んであり、こうした手法を適用することも検討している。
|
Expenditure Plans for the Next FY Research Funding |
得られた成果について、国際会議論文や学術雑誌などで発表する。 具体的には、Pacific Association for Computational Linguistics(PACLING, 2013年度は日本で開催される)やInternational Conference on Intelligent Text Processing and Computational Linguistics (CICLING)および情報考古学会誌への投稿を検討している。 これらの国際会議への参加費・旅費および学術論文の別刷り代を、本研究費から支出したい。 また、計算機科学的な見地のみからでは評価が難しいため、考古学的な見地からの意見を求めることも必要であると考えており、そのための調査費も本研究費から支出したい。
|