2020 Fiscal Year Research-status Report
日本語コーパスに対する情報付与を核としたオープンサイエンス推進環境の構築
Project/Area Number |
20K20411
|
Allocation Type | Multi-year Fund |
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
河内 昭浩 群馬大学, 教育学部, 准教授 (10625172)
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
鴻野 知暁 東京大学, 大学院人文社会系研究科(文学部), 助教 (30751515)
海野 圭介 国文学研究資料館, 研究部, 教授 (80346155)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Keywords | アノテーション / コーパス / オープンデータ / 言語資源 / 日本語学 / 人文情報 |
Outline of Annual Research Achievements |
コーパスに対するアノテーションの共有環境を実現するため、『日本語歴史コーパス』に対する情報付与を想定して、コーパス検索アプリケーション「中納言」に追加する機能の設計の検討を進めた。コーパスの基本となる単語レベルのアノテーション、とりわけ利用者からの要望が多く、早期の実装が望まれる誤解析語の修正に焦点を当て、この点で利用しやすい環境を整備することとした。 そのために、アノテーションに際してUniDic(コーパスの形態素解析に用いた電子化辞書)の見出し語情報を参照し、辞書データと連携しながら正しい単語情報を付与できるシステムの設計と開発を行った。 コロナ禍による学会の延期等もあり、研究発表活動はやや低調であったが、国立国語研究所の「通時コーパス」プロジェクトや関連プロジェクトとの共同研究の形で、オンライン開催のシンポジウムで口頭発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
機能の設計・発注に遅れが生じたことなどにより、当初予定していた単語レベルを超えるグループ化や係り受けを含むアノテーションについては年度中に扱うことができなかった。また、隣接分野の情報を含む高度なアノテーションについても十分な検討を行うことができなかった。 いずれもコロナ禍による影響が大きかったためであるが、当初計画における課題の範囲がきわめて広くやや野心的に過ぎたことも否めない。
|
Strategy for Future Research Activity |
進捗状況の遅れの原因として、計画において扱おうとしたアノテーションの範囲が広範にすぎたことが否めない。そこで、当面はコーパスの単語レベルのアノテーション、とりわけ誤解析語の修正に焦点を当て、この点で利用しやすい環境を整備することとした。そのために、アノテーションに際して辞書の見出し語情報を参照しながら情報を付与できるシステムの開発に注力することとした。 今後、このシステムの機能強化を図るとともに、実際にコーパスの修正を実践することを試みる。そのうえでクラウドソースによるコーパスの構築・修正を行うことのできる基盤とし、将来的に隣接分野の情報を含む高度なアノテーションへの応用を可能にすることを目指す。
|
Causes of Carryover |
コロナ禍の影響による発注先業務の渋滞のため、予定していた機能の実装の一部を翌年度に持ち越したため。
|
Remarks |
国立国語研究所のプロジェクトおよび他の科研費との共同成果を含む。
|
Research Products
(5 results)