• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

A fundamental study of effective visualization and description of longitudinal changes of classical Japanese poetic vocabulary

Research Project

Project/Area Number 18K00528
Research InstitutionTokyo Institute of Technology

Principal Investigator

山元 啓史  東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)

Co-Investigator(Kenkyū-buntansha) ホドシチェク ボル  大阪大学, 言語文化研究科(言語文化専攻), 准教授 (10748768)
Project Period (FY) 2018-04-01 – 2022-03-31
Keywords和歌 / クレンジング / ガウス分布 / 中間語彙層 / 機能語 / 内容語 / ストップワード / 可視化
Outline of Annual Research Achievements

古典テキストの単語を内容、機能、およびその間の3つのグループに分割するしきい値を明らかにした。内容あるいは意味の分析は通常、前処理として、タグ、句読点、または記号の削除など、データ・クレンジングを行う。ストップワードは、コンテンツ分析の意味が比較的少ないため、しばしば排除されるトークンでもある。最も頻繁に使われる単語は、アイデアを構築するのに役立つが、それ自体は意味を持たない「the」や「and」などの一般的な単語になる。しかし、ストップワードのリストにはいくつか問題がある。
1)事前に編集する必要がある。2)分析の領域によって必然的に異なる。3)古典を分析するときにどの単語を含めるべきかが明確でない。
現代の日本語の単語を、tf-idfによって、その値、低中高の3グループに分割した。値の高い単語はトピックを、値の低い単語は単語間の文法的関係が表現できた。これまで、低域、中域、高域に分類できる自動化された方法はなかった。また、中域の単語の性質をほぼ無視していたことがわかった。さらに、語彙の性質を明瞭に表すグラフ図形を得るためには、毛玉現象を取り除く処理が必要である。そこで、単語で計算せず「香り--花」のようにペア・パターンの出現を計算した。値の分布(共出現ウェイト)はガウス分布となることを発見した。さらに、その値の上位のみを描画することで、毛玉現象を取り除き、グラフ図形の見通しを良くすることができた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

語彙分類を自動化するためのプログラム開発も終了した。

Strategy for Future Research Activity

類似対のデータ収集を行う。また数理的分析、文献調査を行い、類似対・関係対の弁別を合理的に説明できるかどうかを探る。その上で、関係対のデータを古代語から得るツールと類似対・関連対の数理的特徴について比較・分析し、考察を行う。データのチェックが大きな作業となるが、謝金の配分を少々多くし、作業重点化を図る。

Causes of Carryover

当初計画よりも順調に進み、2019年度の研究を進めるために、2018年度に次年度前倒し請求を行った。しかし、実際には予算よりも安く目的が達成できたため、残額が生じた。これは2019年度に発生するデータバックアップ装置を追加購入する予定である。またSKYPEミーティングで共同作業ができたため、分担者の旅費の回数が少なくて済んだことで残額が生じた。これは2019年度の旅費とバックアップサーバに当てる予定である。

  • Research Products

    (3 results)

All 2018 Other

All Journal Article (2 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 2 results,  Open Access: 2 results) Remarks (1 results)

  • [Journal Article] 八代集「桜の花」歌における作者の分類2018

    • Author(s)
      山元 啓史, ホドシチェク ボル
    • Journal Title

      じんもんこん2018論文集

      Volume: 2018 Pages: 175-180

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] A study on the distribution of cooccurrence weight patterns of classical Japanese poetic vocabulary2018

    • Author(s)
      Hilofumi Yamamoto, Bor Hodoscek
    • Journal Title

      JADH2018 Proceedings of the 8th Conference of Japanese Association for Digital Humanities

      Volume: 2018 Pages: 179-182

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Remarks] 歌ことばの効果的可視化技術と通時的言語変化記述に関する基礎研究

    • URL

      https://cuckoo.js.ila.titech.ac.jp/~yamagen/waka/kaken2018.html

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi