研究課題/領域番号 |
20K20411
|
補助金の研究課題番号 |
19H05477 (2019)
|
研究種目 |
挑戦的研究(開拓)
|
配分区分 | 基金 (2020) 補助金 (2019) |
審査区分 |
中区分2:文学、言語学およびその関連分野
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
|
研究分担者 |
河内 昭浩 群馬大学, 教育学部, 准教授 (10625172)
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
鴻野 知暁 東京大学, 大学院人文社会系研究科(文学部), 助教 (30751515)
海野 圭介 国文学研究資料館, 研究部, 教授 (80346155)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
|
研究期間 (年度) |
2019-06-28 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
25,740千円 (直接経費: 19,800千円、間接経費: 5,940千円)
2021年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円)
2020年度: 9,750千円 (直接経費: 7,500千円、間接経費: 2,250千円)
2019年度: 8,970千円 (直接経費: 6,900千円、間接経費: 2,070千円)
|
キーワード | コーパス / アノテーション / 形態論情報 / 日本語歴史コーパス / オープンデータ / 言語資源 / 日本語学 / クラウドソーシング / 人文情報 / オープンサイエンス / データ共有 / 人文情報学 |
研究開始時の研究の概要 |
本研究は、国立国語研究所のコーパス検索システム「中納言」に、新たに利用者が新たな情報を任意の場所に付加するアノテーション機能を追加し、付加した情報を他のユーザーと共有することができるシステムを構築することである。本システムを用いることで、「中納言」にログインしたユーザーが、コーパスへのアノテーションという形でこうしたデータを共有・公開し、再利用できる環境を作る。この環境の構築とアノテーションの実践により、コーパスにもとづく研究データの公開とコーパス利用者間での共有を促し、書き言葉テキストを中心としたオープンサイエンスの基盤とすることを目指す。
|
研究成果の概要 |
本研究課題ではコーパス検索システム「中納言」上のコーパスに対する汎用のアノテーションの共有環境を構築した。この共有環境の適用例として『日本語歴史コーパス』の形態論情報の誤り修正報告機能を実装した。機能の愛称を「みんなごん」とし、2022年度より修正報告アノテーションの収集の運用を開始し、クラウドソースによるコーパス修正環境の準備を整えた。その後、2023年2月までに集まった形態論情報誤り修正報告をデータに反映させて『日本語歴史コーパス』の更新を行った。このシステムの運用については国立国語研究所の共同研究プロジェクトに引きつぎ、今後もコーパスの修正を定期的に実施することとした。
|
研究成果の学術的意義や社会的意義 |
日本語研究の分野では研究に欠くことのできないインフラとして機能しつつあるコーパス検索アプリケーション「中納言」に、ユーザーが新たな情報を任意の場所に付加するアノテーション機能を追加し、情報を他のユーザーと共有して活用することができるシステムを構築した。その応用例として形態論情報の誤り修正報告機能(愛称「みんなごん」)を実装し、実際にこれを運用してクラウドソースによる『日本語歴史コーパス』の修正・更新を実現した。構築された共同研究環境は、テキストを中心とするオープンサイエンスを実現する基盤であり、ユーザーによるコーパス修正は今後の学術の方向性を示す先進的な事例として価値を持つものである。
|