2011 Fiscal Year Research-status Report
言語名ゆれと系統分類ゆれを考慮した世界言語系統分類の類似性判定アルゴリズムの開発
Project/Area Number |
23650129
|
Research Institution | Yamaguchi University |
Principal Investigator |
松野 浩嗣 山口大学, 理工学研究科, 教授 (10181744)
|
Co-Investigator(Kenkyū-buntansha) |
乾 秀行 山口大学, 人文学部, 准教授 (10241754)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 言語系統分類 / アルゴリズム / GIS |
Research Abstract |
平成23年度は、言語系統の木構造に着目した同一言語判定について下の項目(1), (2)に示す研究を行った。(1)は言語名の類似度の導入によって判定精度の向上を図ったものであり、(2)は言語系統の実データをGISを用いて整理し、考案した言語同一性判定アルゴリズムの検証に供するためである。どちらの研究も、平成23年度内の発表には間に合わなかったが、(1)は平成24年7月に発表予定、(2)は4月に発表済みである。(1)これまでに、言語の類似性判定を言語名と言語分類の2つの類似度を尺度として行うことを基本方針とし、今年度の研究では高い判定精度をもつアルゴリズム実現のため、言語分類の類似性尺度について定義した。この尺度では、ファミリー名類似度、親名類似度、兄弟名類似度をに導入して言語の類似性判定を行った。その結果、山本データに関して、92%という、高い精度を達成することができた。この成果は、2012年7月に札幌市で開催されるITC-CSCC2012で発表予定である。(2)本年度ArCGISサーバをレスポンス改善のため更新し、言語属性データの入力作業および検索システムの研究開発を行った。特に図形データに世界言語の言語名及びその系統情報を載せた。系統情報は、語族から最下層の分類まですべてを一つのフィールドで管理している。なぜなら正規表現での検索が可能なので、必要となる系統情報を入力するだけで、目的の系統情報を持った言語群だけを地図に表示することが可能であるからである。本年度はアフリカ(特にエチオピア周辺)の言語に焦点を当て、言語学的観点から系統のゆれについて検証を行った。この結果は、2012年4月に京都市で開催された日本ナイル・エチオピア学会第21回学術大会で研究発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成23年度で計画した3項目について個別に達成状況について述べ、最後に総合評価を行う。1.言語系統の木構造に着目した同一言語判定については、当初の計画通りに言語系統樹の構造について定式化を行い、アルゴリズム開発の準備を整えることができた。この準備のもと、言語系統に基づく言語の類似性判定を、ファミリー名類似度、親名類似度、兄弟名類似度の3尺度に基づいて行うアルゴリズムを開発し、高い分類精度を実現することができた。2.言語名の類似度の導入による同一言語の判定については、1.の言語系統の木構造の定式化と連携して、問題の定式化を行った。さらに新しく設定した「重み付き複合言語類似性」という尺度に基づいて言語の同一性判定を行うアルゴリズムを考案し、1.の木構造に着目した判定を合わせて、分類精度の向上を実現できた。3.言語系統分類データの収集と整理については、作業効率を改善するためにGISサーバを更新し、言語属性データの入力作業及び検索システムの研究開発を行った。特に図形データ(ポリゴン)に世界言語の言語名及びその系統情報を載せた。現在はRoutledgeの言語地図の分類に従っている。しかし言語系統は学者により解釈が大きく異なるため、Ethnologueのサイトとのリンクを張るのが難しく、本年度はアフリカ(特にエチオピア周辺)の言語に焦点を当て、言語学的観点から系統のゆれについてデータ整理を行った。以上述べたように、研究発表を平成23年度中に行うことはできなかったが、当初の計画はほぼ達成できており、発表準備も年度内に行えていることから、「おおむね順調に進展している」と判断した。
|
Strategy for Future Research Activity |
平成24年度は、当初の計画に掲げている「23年度の研究では、言語の同一性判定への木構造の活用、及び言語名の類似度の導入による言語名のゆれへの対応、の2点を行った。この処理では系統分類は完全一致のみを対象としていたが、24年度ではさらに系統分類のゆれにも対応できるアルゴリズムを開発する。」を実践する。具体的には次の2項目である。(1)言語系統樹の最下点は言語名に対応し、最上点から言語名への経路は、言語名の階層的な分類、すなわち語族、語派、語群などを表わしている。異なる言語データに含まれる言語の系統分類の比較方法として、経路上の分類名(基本的に言語名と同じような形式)を比較することが、1つの方法と考えられる。つまり、系統分類の比較を言語名の比較問題に転化させることが可能である。このように、言語名の類似度をベースとした上で、系統分類の比較上の特性を踏まえて、系統分類の類似度の定義を検討していく。(2)上記で定義した類似度を導入して、これまでのアルゴリズムを拡張する。これにより、言語名および系統分類の両方のゆれに対応した同一言語の検出が可能になる。
|
Expenditure Plans for the Next FY Research Funding |
平成23年度に計画していた研究発表が実施できなかったため、旅費と参加費相当分が未使用として残されることになった。この予算は7月に実施する研究発表の旅費(山口-札幌間)と参加費の経費として使用する。以上に加えて、研究発表のため、山口-東京間の旅費、及び山口-福岡間の旅費をそれぞれ2名分計上する。参加費が伴う場合があるので、2回分を計上しておく。この他、言語系統データとGISデータを整理するための要員の人件費も計上する。備品の購入は計画してないが、サプライ品とプリンタートナーの購入経費を計上している。
|
Research Products
(1 results)