研究課題/領域番号 |
18K00528
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 東京工業大学 |
研究代表者 |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
研究分担者 |
ホドシチェク ボル 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
|
研究期間 (年度) |
2018-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2018年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / 分析 / 連接規則 / 位 / 二十一代集 / 品詞 / 結束性 / 可視化 / 分析単位 / クレンジング / ガウス分布 / 中間語彙層 / 機能語 / 内容語 / ストップワード / 古代語 |
研究実績の概要 |
可視化を行う上で重要なグラフ理論で用いられるノードとエッジ描画に関わる計算方法の見直しを行った。任意の2単語をノード、その2単語を結ぶ線をエッジと呼ぶが、この2ノード1エッジの選び方にはさまざまな方法がある。何らかの基準で2単語のそれぞれに数値やベクトルを与え、それらの2単語間の距離を計算し、距離の遠近で、その2単語を結ぶエッジを描画するか否かを決定する。単語に与える値として頻度が考えられるが、機能語の頻度は高く、内容語の頻度は低い。idf(invert document frequency)を利用すると、内容語の値が高くなり、機能語の値は低くなり、キーワード性の高い語と低い語の視点から描画できることがわかった。次に、エッジの選び方に関する方法を検討した。①エッジは2単語の値の幾何平均を用いる方法、②2幾何平均とエッジの出現数を掛ける方法、③その2単語がどこにでも出てくるか、特定のところにしか出てこない(あるいは単純に頻度が低い場合)かを計算し、その値を用いる方法、④それらを複合した方法、を検討した。 結果として、これらの値は、分析の領域によって異なることがわかった。現代語の場合には長い文も短い文もあるだけでなく、同じ文に同じ語が複数回出てきた。一方、和歌は、31文字という制約で書かれた文であるためか、出てきて2回、ほとんどが1回出現する単語ばかりであった。和歌の可視化においてどのエッジを描画するかは、単純に①の2単語のidf値の幾何平均で大方表現できることがわかった。ここで得られた値をcw(cooccurrence weight)と呼ぶことにする。cwの特性を調査した。ある単語とその単語を持つ文脈、すなわち和歌のcw値の分布を調べたところ、ほぼ正規分布のような釣鐘状の分布になることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
可視化を自動化するためのプログラム開発も終了した。しかしながら、当初計画していた国内外からのレビューを受け、研究総括を行うことは、コロナ禍のため、十分に果たせていない。
|
今後の研究の推進方策 |
類似対のデータ収集を行う。また、cwの数理的特徴について比較・分析し、考察を行う。c現状では、cwの値によって描画されるエッジの数は、抽出されたテキスト量に依存するため、グラフの見通しがよくないことがある。テキスト量に依存しないcwもしくはcwに加える方法を検討する。
|