2007 Fiscal Year Annual Research Report
東アジア諸言語の「電子化グロッサリー」構築と親近関係に関するデータマイニング
Project/Area Number |
18652039
|
Research Institution | Osaka University |
Principal Investigator |
緒方 典裕 Osaka University, 大学院・言語文化研究科, 准教授 (10314410)
|
Keywords | 東アジア諸言語 / バイオインフォマティクス / データマイニング / Formal Cultural Ontology / 電子化グロッサリー / 関数プログラミング / 文字列比較アルゴリズム / 台湾原住民 |
Research Abstract |
今年度は、昨年度に引き続き、東アジア諸言語と言語文化のテータ収集を書籍購入やコピーなどにより行い、さらに次の点を行った: (1)バイオインフォマティクスにおいて開発されているゲノムやタンパク質などの文字列のデータマイニングのアルゴリズムとそのプログラミング言語における実装状況、さらに言語比較への応用可能性に関するサーベイを行った。結果として、統計プログラミング言語R、汎用スクリプト言語Perl及びRuby、関数プログラミング言語Ocaml及びHaskellにおいて利用可能であることがわかった。特にRのライブラリは利用性が高い。しかし、一方で、Formal Cultural Ontologyを関数プログラミング言語で実装しているので、将来的には、Rのライブラリ等を関数プログラミング言語に導入もしくは実装すること可能性もある。この結果は、報告書においてまとめた。 (2)Formal Cultural Ontologyを関数プログラミング言語Haskellにて実装した。これは、文化という文脈の中での「語義」の形式仕様であり、電子化グロッサリーを構築する基盤技術である。この成果は、Springer Verlag社から出版された。 (3)XML形式での初歩のな電子化グロッサリーを、オーストロネシア諸語、特に、多様性が高い台湾原住民諸語に関して、3000項目からなるものを構築した。このデータ入力のために、学生アルバイトを雇った。
|