研究課題/領域番号 |
18K00528
|
研究機関 | 東京工業大学 |
研究代表者 |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
研究分担者 |
ホドシチェク ボル 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (10748768)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 和歌 / クレンジング / ガウス分布 / 中間語彙層 / 機能語 / 内容語 / ストップワード / 可視化 |
研究実績の概要 |
古典テキストの単語を内容、機能、およびその間の3つのグループに分割するしきい値を明らかにした。内容あるいは意味の分析は通常、前処理として、タグ、句読点、または記号の削除など、データ・クレンジングを行う。ストップワードは、コンテンツ分析の意味が比較的少ないため、しばしば排除されるトークンでもある。最も頻繁に使われる単語は、アイデアを構築するのに役立つが、それ自体は意味を持たない「the」や「and」などの一般的な単語になる。しかし、ストップワードのリストにはいくつか問題がある。 1)事前に編集する必要がある。2)分析の領域によって必然的に異なる。3)古典を分析するときにどの単語を含めるべきかが明確でない。 現代の日本語の単語を、tf-idfによって、その値、低中高の3グループに分割した。値の高い単語はトピックを、値の低い単語は単語間の文法的関係が表現できた。これまで、低域、中域、高域に分類できる自動化された方法はなかった。また、中域の単語の性質をほぼ無視していたことがわかった。さらに、語彙の性質を明瞭に表すグラフ図形を得るためには、毛玉現象を取り除く処理が必要である。そこで、単語で計算せず「香り--花」のようにペア・パターンの出現を計算した。値の分布(共出現ウェイト)はガウス分布となることを発見した。さらに、その値の上位のみを描画することで、毛玉現象を取り除き、グラフ図形の見通しを良くすることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
語彙分類を自動化するためのプログラム開発も終了した。
|
今後の研究の推進方策 |
類似対のデータ収集を行う。また数理的分析、文献調査を行い、類似対・関係対の弁別を合理的に説明できるかどうかを探る。その上で、関係対のデータを古代語から得るツールと類似対・関連対の数理的特徴について比較・分析し、考察を行う。データのチェックが大きな作業となるが、謝金の配分を少々多くし、作業重点化を図る。
|
次年度使用額が生じた理由 |
当初計画よりも順調に進み、2019年度の研究を進めるために、2018年度に次年度前倒し請求を行った。しかし、実際には予算よりも安く目的が達成できたため、残額が生じた。これは2019年度に発生するデータバックアップ装置を追加購入する予定である。またSKYPEミーティングで共同作業ができたため、分担者の旅費の回数が少なくて済んだことで残額が生じた。これは2019年度の旅費とバックアップサーバに当てる予定である。
|