• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

日本語コーパスに対する情報付与を核としたオープンサイエンス推進環境の構築

研究課題

研究課題/領域番号 20K20411
配分区分基金
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (20337489)

研究分担者 河内 昭浩  群馬大学, 教育学部, 准教授 (10625172)
橋本 雄太  国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
永崎 研宣  一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
鴻野 知暁  東京大学, 大学院人文社会系研究科(文学部), 助教 (30751515)
海野 圭介  国文学研究資料館, 研究部, 教授 (80346155)
後藤 真  国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
研究期間 (年度) 2020-04-01 – 2022-03-31
キーワードアノテーション / コーパス / オープンデータ / 言語資源 / 日本語学 / 人文情報
研究実績の概要

コーパスに対するアノテーションの共有環境を実現するため、『日本語歴史コーパス』に対する情報付与を想定して、コーパス検索アプリケーション「中納言」に追加する機能の設計の検討を進めた。コーパスの基本となる単語レベルのアノテーション、とりわけ利用者からの要望が多く、早期の実装が望まれる誤解析語の修正に焦点を当て、この点で利用しやすい環境を整備することとした。
そのために、アノテーションに際してUniDic(コーパスの形態素解析に用いた電子化辞書)の見出し語情報を参照し、辞書データと連携しながら正しい単語情報を付与できるシステムの設計と開発を行った。
コロナ禍による学会の延期等もあり、研究発表活動はやや低調であったが、国立国語研究所の「通時コーパス」プロジェクトや関連プロジェクトとの共同研究の形で、オンライン開催のシンポジウムで口頭発表を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

機能の設計・発注に遅れが生じたことなどにより、当初予定していた単語レベルを超えるグループ化や係り受けを含むアノテーションについては年度中に扱うことができなかった。また、隣接分野の情報を含む高度なアノテーションについても十分な検討を行うことができなかった。
いずれもコロナ禍による影響が大きかったためであるが、当初計画における課題の範囲がきわめて広くやや野心的に過ぎたことも否めない。

今後の研究の推進方策

進捗状況の遅れの原因として、計画において扱おうとしたアノテーションの範囲が広範にすぎたことが否めない。そこで、当面はコーパスの単語レベルのアノテーション、とりわけ誤解析語の修正に焦点を当て、この点で利用しやすい環境を整備することとした。そのために、アノテーションに際して辞書の見出し語情報を参照しながら情報を付与できるシステムの開発に注力することとした。
今後、このシステムの機能強化を図るとともに、実際にコーパスの修正を実践することを試みる。そのうえでクラウドソースによるコーパスの構築・修正を行うことのできる基盤とし、将来的に隣接分野の情報を含む高度なアノテーションへの応用を可能にすることを目指す。

次年度使用額が生じた理由

コロナ禍の影響による発注先業務の渋滞のため、予定していた機能の実装の一部を翌年度に持ち越したため。

備考

国立国語研究所のプロジェクトおよび他の科研費との共同成果を含む。

  • 研究成果

    (5件)

すべて 2021 2020 その他

すべて 学会発表 (4件) 備考 (1件)

  • [学会発表] 『日本語歴史コーパス』ver.2021.3 通時コーパス構築進捗報告2021

    • 著者名/発表者名
      小木曽智信
    • 学会等名
      「通時コーパス」シンポジウム2021
  • [学会発表] 『日本語歴史コーパス』ver.2020.3 通時コーパス構築進捗報告2020

    • 著者名/発表者名
      小木曽智信
    • 学会等名
      「通時コーパスシンポジウム」2020オンライン
  • [学会発表] 『日本語歴史コーパス奈良時代編Ⅰ万葉集』から『オックスフォード・NINJAL 上代日本語コーパス』『万葉集校本データベース』へのリンクについて2020

    • 著者名/発表者名
      小木曽智信
    • 学会等名
      「通時コーパスシンポジウム」2020オンライン
  • [学会発表] 「昭和・平成書き言葉コーパス」の構築と活用に向けて2020

    • 著者名/発表者名
      小木曽智信
    • 学会等名
      研究発表会 「昭和・平成書き言葉コーパスによる近現代日本語の実証的研究」
  • [備考] 『日本語歴史コーパス』

    • URL

      https://ccd.ninjal.ac.jp/chj/

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi