2021 Fiscal Year Research-status Report
日本語コーパスに対する情報付与を核としたオープンサイエンス推進環境の構築
Project/Area Number |
20K20411
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
河内 昭浩 群馬大学, 教育学部, 准教授 (10625172)
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
鴻野 知暁 東京大学, 大学院人文社会系研究科(文学部), 助教 (30751515)
海野 圭介 国文学研究資料館, 研究部, 教授 (80346155)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | アノテーション / コーパス / オープンデータ / 言語資源 / 日本語学 / クラウドソーシング |
Outline of Annual Research Achievements |
昨年度に引き続き、コーパスに対するアノテーションの共有環境の適用例として『日本語歴史コーパス』に対する情報付与に重点を置いて、形態論情報のエラー報告機能の実装を行った。コーパスのユーザーがコーパス検索アプリケーション「中納言」から形態論情報の修正アノテーション機能を直接呼び出して登録することができるよう環境の整備を行い、実際に試行して問題なく情報付与が行えることを確認した。また他のユーザーのアノテーションを参照して、評価を加える機能を追加した。 これにより、2022年度から誤り報告を実用化し、クラウドソースによるコーパス修正環境の準備が整う見込みとなった。この科研費によるプロジェクトが終了した後は、このアノテーション機能を国立国語研究所の共同研究プロジェクト「開かれた共同構築環境による通時コーパスの拡張」に引きついで、コーパスの修正を定期的に実施することとした。 本研究で開発を行った形態論情報のエラー報告機能について、情報処理学会シンポジウム「じんもんこん2021」において「『日本語歴史コーパス』の誤り修正プラットフォームの開発」として発表したところ、ベストポスター賞を受賞し高い評価を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度の研究推進方策の見直しにより、コーパスの誤解析の修正報告に焦点をあてて環境整備を行うことにした。これにより、コーパスの形態素解析に使用している辞書UniDicを参照して修正可能にするなどの具体的な機能整備に進むことができた。 当初の計画段階と比較するとアノテーションの応用範囲は狭くなったものの、クラウドソースのコーパス修正プラットフォームという実用的な機能として実現することができた。この機能について報告した情報処理学会シンポジウム「じんもんこん2021」では、ベストポスター賞を受賞するなど高い評価を得た。これらの点を総合して概ね順調に進んでいると判断した。
|
Strategy for Future Research Activity |
2022年度中に『日本語歴史コーパス』の形態論情報誤り機能を一般向けのコーパス検索システム「中納言」に実装し、アノテーション収集の運用を開始する。本科研は終了するため、運用については国立国語研究所の共同研究プロジェクト「開かれた共同構築環境による通時コーパスの拡張」に引きついで、コーパスの修正を定期的に実施することとした。
|
Causes of Carryover |
新型コロナウイルスの影響で機器の購入とアノテーションシステムの実装に遅れが生じたため、翌年度に実施することとしたため。
|