研究課題/領域番号 |
18K00528
|
研究機関 | 東京工業大学 |
研究代表者 |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
研究分担者 |
ホドシチェク ボル 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (10748768)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | 和歌 / 分析 / 連接規則 / 位 / 二十一代集 / 品詞 / 結束性 / 可視化 |
研究実績の概要 |
本研究では八代集の解析済みデータを用いて、連接規則をコンピュータ処理によって獲得し、そのデータを利用して二十一代集の解析処理に応用するものである。その結果、一部、多義語に処理が必要であるとわかった。多義語の弁別を進める上で、従来、単語と意味を一対一として処理していたものを改め、単語には複数の意味を許容するモデルとしてトークンベース・ベクトルスペースを用いて研究を進めた。その結果、頻出する単語において、複数の意味を抽出することができた。一方、頻度の低い単語においては複数の意味の弁別を見つけることは難しいことがわかった。たとえば、「桜」は季節のみを述べる場合に使用されていることもあれば、花が散る時の寂しさや儚さを述べる場合にも使われている意味が別途抽出できた。「梅」においても「うぐいすと梅」「雪と梅」「春を待望する梅」など同じ「梅」であっても、それぞれ別の意味として抽出できた。従来の一対一で得られる意味より詳細な意味が抽出できた。 多義語処理の評価として、解析済みデータベースに付与されていた分類番号を利用したが、分類コードそのものは人手による判断が含まれているため、計算結果と一致しない例が数多く見られた。そのため、分類コードの体系的整合性の評価を行う必要が出てきた。他の研究者への便宜を図るために旧版分類語彙表のコード体系を新版に改める作業も行っている。新たに抽出された意味も加え、各単語には該当する限りすべての分類コードをつけてデータベースに格納した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
新型コロナウイルスの蔓延防止発令などにより、大学の運営・授業に大きな変更があり、その準備と実施に時間が費やされ、十分に研究活動はできなかった。海外出張、研究発表を予定していたが、中止せざるをえなかった。オンライン学会がいくつかあったが、参加できたものは数件にとどまった。
|
今後の研究の推進方策 |
旧版と新版の分類コードを見直し、できる限り新版に移行するとともに、コンピュータで抽出できた追加の意味も新版の分類コードのいずれに当たるかを検討し、できるなら当該単語につけるべきコードの探し、データセットに格納する作業を行う。Zenodoに公開して以後、多数のアクセスが得られた。利用者の利便性を考慮し、json形式、TEIの形式での提供を検討する。
|
次年度使用額が生じた理由 |
コロナ禍で活動ができなかった内容を次年度に引き続き行い、今年度のデータチェック作業をさらに重点的に行うため
|