2022 Fiscal Year Research-status Report
A fundamental study of effective visualization and description of longitudinal changes of classical Japanese poetic vocabulary
Project/Area Number |
18K00528
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
Co-Investigator(Kenkyū-buntansha) |
ホドシチェク ボル 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
|
Project Period (FY) |
2018-04-01 – 2024-03-31
|
Keywords | 和歌 / 歌ことば / モデリング / 言語変化 / 八代集 |
Outline of Annual Research Achievements |
可視化を行う上で重要なグラフ理論で用いられるノードとエッジ描画に関わる計算方法の見直しを行った。任意の2単語をノード、その2単語を結ぶ線をエッジと呼ぶが、この2ノード1エッジの選び方にはさまざまな方法がある。何らかの基準で2単語のそれぞれに数値やベクトルを与え、それらの2単語間の距離を計算し、距離の遠近で、その2単語を結ぶエッジを描画するか否かを決定する。単語に与える値として頻度が考えられるが、機能語の頻度は高く、内容語の頻度は低い。idf(invert document frequency)を利用すると、内容語の値が高くなり、機能語の値は低くなり、キーワード性の高い語と低い語の視点から描画できることがわかった。次に、エッジの選び方に関する方法を検討した。①エッジは2単語の値の幾何平均を用いる方法、②2幾何平均とエッジの出現数を掛ける方法、③その2単語がどこにでも出てくるか、特定のところにしか出てこない(あるいは単純に頻度が低い場合)かを計算し、その値を用いる方法、④それらを複合した方法、を検討した。 結果として、これらの値は、分析の領域によって異なることがわかった。現代語の場合には長い文も短い文もあるだけでなく、同じ文に同じ語が複数回出てきた。一方、和歌は、31文字という制約で書かれた文であるためか、出てきて2回、ほとんどが1回出現する単語ばかりであった。和歌の可視化においてどのエッジを描画するかは、単純に①の2単語のidf値の幾何平均で大方表現できることがわかった。ここで得られた値をcw(cooccurrence weight)と呼ぶことにする。cwの特性を調査した。ある単語とその単語を持つ文脈、すなわち和歌のcw値の分布を調べたところ、ほぼ正規分布のような釣鐘状の分布になることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
可視化を自動化するためのプログラム開発も終了した。しかしながら、当初計画していた国内外からのレビューを受け、研究総括を行うことは、コロナ禍のため、十分に果たせていない。
|
Strategy for Future Research Activity |
類似対のデータ収集を行う。また、cwの数理的特徴について比較・分析し、考察を行う。c現状では、cwの値によって描画されるエッジの数は、抽出されたテキスト量に依存するため、グラフの見通しがよくないことがある。テキスト量に依存しないcwもしくはcwに加える方法を検討する。
|
Causes of Carryover |
実際には予算よりも安く目的が達成できたため、残額が生じた。また、コロナ禍のため、国際学会がオンラインに切り替えられたため、旅費が不要になり、残金が生じた。海外への学会参加用の旅費として使用する予定である。
|
Research Products
(3 results)