研究課題/領域番号 |
18K00528
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 東京工業大学 |
研究代表者 |
山元 啓史 東京工業大学, リベラルアーツ研究教育院, 教授 (30241756)
|
研究分担者 |
ホドシチェク ボル 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
|
研究期間 (年度) |
2018-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2018年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 和歌 / 歌ことば / モデリング / 言語変化 / 八代集 / データセット / 分析 / 連接規則 / 位 / 二十一代集 / 品詞 / 結束性 / 可視化 / 分析単位 / クレンジング / ガウス分布 / 中間語彙層 / 機能語 / 内容語 / ストップワード / 古代語 |
研究実績の概要 |
コロナ禍において、研究成果発表を行うことができなかったため、最終年度を延長し、データセットの開発、これまでの研究成果をまとめ、学会発表、論文執筆などの成果発表を中心に行った。 古今集から新古今集までのテキストを整理し、2つのデータセットを開発した。1つは、八代集の和歌すべてについての単語のデータである。このデータセットは、八代集の各和歌に含まれる単語を1次結合の場合と結合しない場合の分析が行なわれており、たとえば「竜田川」の場合と、「竜田」と「川」に分けるなどの場合の情報が含まれている。さらに各要素には国立国語研究所の分類語彙表準拠のコードを古語に対して付与されている。これは、Hachidaishu vocabulary datasetというデータ名で、Zenodo(4744170)にアップロードされている。もう1つは、八代集の和歌に加え、単語分割情報と品詞情報を添えたデータセットである。これは、昨年度より継続して行なわれているデータセットの拡張で Hachidaishu part of speech datasetというデータ名で同じく、Zenodo (4835806)にアップロードされている。これらのデータセットを利用し、国際学会で発表し、JCLSに原著論文を発表することができた。 海外の日本研究初心者にも日本語の言語分析に親しめるよう、すべて日英バイリンガルによる表示を目指し、和歌の対訳データの開発の基礎研究として、公刊されている八代集の現代語訳を収集し、データ化を進めていた。これは、現代語訳から解釈を抽出し、準手動で英訳を作成する計画であった。しかし、プログラム開発で使用していたAIが英訳を所々で提案するのに触発され、AIによる英訳支援システムの開発に着手し、最終年度を迎え、次の研究課題に繋ぐこととなった。
|