2022 Fiscal Year Annual Research Report
日本語コーパスに対する情報付与を核としたオープンサイエンス推進環境の構築
Project/Area Number |
20K20411
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
河内 昭浩 群馬大学, 教育学部, 准教授 (10625172)
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
鴻野 知暁 東京大学, 大学院人文社会系研究科(文学部), 助教 (30751515)
海野 圭介 国文学研究資料館, 研究部, 教授 (80346155)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | コーパス / アノテーション / オープンデータ / 言語資源 / 形態論情報 |
Outline of Annual Research Achievements |
コーパスに対するアノテーションの共有環境の適用例として、『日本語歴史コーパス』の形態論情報の誤り修正報告機能を一般向けのコーパス検索システム「中納言」に実装した。この機能の愛称を「みんなごん」と名付け、2022年度より修正報告アノテーションの収集の運用を開始した。これにより、クラウドソースによるコーパス修正環境の準備が整った。 日本語学会のワークショップで「みんなごん」の使い方の広報を行ったのち、2023年2月までに集まった「平安時代編」の形態論情報誤り修正報告をコーパスに反映させて『日本語歴史コーパス』平安時代編Ⅰ仮名文学ver.1.3として公開した。今後も、同様の方法でコーパスの修正機能を継続的に運用する予定である。 本年度で本科研は終了するため、運用については国立国語研究所の共同研究プロジェクト「開かれた共同構築環境による通時コーパスの拡張」に引きついで、コーパスの修正を定期的に実施することとした。また、2023年度に公開予定の『昭和・平成書き言葉コーパス』用の「中納言」にも同機能を追加して、コーパスの誤り修正を実施することとした。
|
Research Products
(5 results)