2019 Fiscal Year Annual Research Report
日本語コーパスに対する情報付与を核としたオープンサイエンス推進環境の構築
Project/Area Number |
19H05477
|
Allocation Type | Single-year Grants |
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
河内 昭浩 群馬大学, 教育学部, 准教授 (10625172)
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
鴻野 知暁 東京大学, 大学院人文社会系研究科(文学部), 助教 (30751515)
海野 圭介 国文学研究資料館, 研究部, 教授 (80346155)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
|
Project Period (FY) |
2019-06-28 – 2022-03-31
|
Keywords | アノテーション / コーパス / オープンデータ / 言語資源 / 日本語学 / 人文情報学 |
Outline of Annual Research Achievements |
本年度は、国立国語研究所のコーパス検索システム「中納言」にユーザーによるアノテーション機能を付与する前提となる機能として、ユーザーグループを設定する機能の拡張や、多重の形態論情報に対応したパーマリンク(コーパス上の特定の語を一意に指し示すアドレス)の機能の実装を行った。さらに、コーパスの形態論情報をもとに、個々の語に対するアノテーションを行うためのユーザーインターフェイスの開発を行い、「中納言」の検索結果にアノテーション情報を重ねて表示できるようにした。さらに、これらの機能を実装した新しい「中納言」を新規購入したサーバーにセットアップし、アノテーションの試行環境を整えた。 これにより、今後、複数の語(グループ)や語・グループ間の関連付け等のより複雑なアノテーションを行えるようにしていくための基礎が整った。現時点では試験用の環境として非公開としているが、サーバーの運用を開始した。 このほか、本プロジェクトの構想を含む、言語資源とオープンデータ・オープンサイエンスに関する研究発表を3件行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定通り、コーパス検索システム「中納言」に、個別の語へのアノテーション機能を追加し、サーバー上に試行環境を用意することができた。これにより、複数の語(グループ)や語・グループ間の関連付け等のアノテーションの基礎が整った。 ただし、新型コロナウイルスによる影響で、研究発表を予定していた学会が中止となったため研究成果がやや乏しいものとなったほか、研究ミーティングについては予定通りに行うことができなかった。
|
Strategy for Future Research Activity |
今年度開発した基本機能をもとに、複数の語(グループ)や語・グループ間の関連付け等のより高度なアノテーション機能を開発するとともに、これらの機能を活用して実際にアノテーションを行なって、データを作成するとともに機能について開発にフィードバックする。また、個別の語に対するアノテーション機能を応用し、形態論情報付与の誤りの報告機能の実装を行う。
|