2014 Fiscal Year Research-status Report
和歌用語シソーラスの開発と用語空間記述に関する基礎研究
Project/Area Number |
26370530
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | シソーラス / 二十一代集 / 和歌 / 漸近的語彙対応推定システム / データベース / 歌ことば / 計量分析 / 古語辞書 |
Outline of Annual Research Achievements |
本研究の目的は、従来の和歌用語のシソーラス八代集対応版を、二十一代集(905年頃~1439年)対応版に拡張することである。代表者はこれまでに10年以上の歳月をかけて、和歌用の形態素解析辞書とシソーラス(語彙体系用語集)を開発してきた。形態素解析用の辞書は、25年度までの基盤研究Cで二十一代集対応版が完成している。一方、シソーラス(さまざまな単語の表記を同一視するか、あるいは異なる意味を持つものか、他などを判定するための語彙一覧)については、二十一代集に対応できていない。 本研究において、シソーラスの二十一代集対応版を目指すとともに、その開発を通して、和歌を基盤とする534年間におよぶ古代語の用語空間分析(語彙体系変遷)の理論化を試みる。平成26年度では、シソーラスデータ入力と計算処理の検討を行った。計算処理は、2段階からなり、それは形態素解析と分類コードづけの一部を行った。前半の和歌の単語切りだし、KyTea (Neubig他 2010)を用いて、未知語を追加登録しつつ、分割単位の修正作業を行った。シソーラスデータ入力についてはt2c(token to code)というプログラムを用いて、形態素解析されたそれぞれの単語に分類番号(国立国語研究所開発分類語彙表準拠)をつけ、目視による確認と修正を行う作業を行った。意味の検討も行い、任意の2語は互いに意味が近いか、同じと扱ってよいか、表記のみの違いであるか、表記は異なるが、意味は近いか、など、手作業にて行った。現状では、ここには八代集以後に初出する語のデータは含まれていないのでその語彙を重点的に行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
二十一代集以後を処理した時、八代集以前に出現したものと同じ語に加え、本年度のデータの一部は、うまく出力できるようになった。しかし、依然、未知語も出力される。今後も未知語の処理を重点的に進める。 シソーラス作りのための理論的操作を追求するために、漸近的語彙対応推定システムを開発した。それにより、和歌一首に対する現代語訳の対応データを入力し、目視ではなく、計算手続きとしての対応単語組を抽出することができるようになった。しかし、本当は、分割方法は1対1対応ではなく、和歌では1語だが現代語では2語で表現されている場合にも対応する場合もあり、それができるように工夫し、問題点を克服しつつ、単語対応組自動抽出システムによって従来のシソーラスを評価し、修正を加えていく必要がある。
|
Strategy for Future Research Activity |
開発作業の継続と系列比較モデルによる用語空間の分析を行う。八代集に加え、できあがった部分のシソーラスを用い、系列比較モデル(山元ら2012)を枠組みとして、任意の2時代の比較(差分)がシソーラスによって可能であるかどうか、実験する。 系列比較モデルは任意2つのテキストを比較し、用語を大きく3分類する方法である。このような枠組みを作ったのは、ことばの変化と内容の違いとを明確に区別し、2類の言語変化に注目するためである。 今後、シソーラス開発の評価は、前述の漸近的語彙推定システムによる方法と系列比較モデルによる方法の2段階によって行う。シソーラスを用い、テキスト間比較を行う実験を実施し、シソーラス開発上の問題点なのか、研究の枠組み上の問題点なのかを実験を通して、明らかにする。そのためのプログラム開発を行い、出力を確認し、修正を行う。修正作業では、単に辞書の追加や修正だけでなく、分類体系の見直しや新たな意味領域の追加や新規導入も試みる。実際にリストや図を目で追いながら、照合の不具合や漏れがないかどうかをダブルチェックする。この点が本研究における本質的かつ忍耐力が必要な部分である。このように入力とチェックを繰り返したのちに、可視化プログラムを通して内容確認し、精度をあげていく。
|
Causes of Carryover |
海外出張に行く予定で会ったが、国内活動および学内の教育改革関連業務により、できなかった。
|
Expenditure Plan for Carryover Budget |
1.研究成果発表、学会活動を行うための旅費として使用する。 2.データ入力、修正のための謝金として使用する。
|
Research Products
(6 results)