研究課題/領域番号 |
17KK0002
|
研究機関 | 東京農工大学 |
研究代表者 |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
研究期間 (年度) |
2018 – 2022
|
キーワード | コーパス / 語義曖昧性解消 / 問題抽出 / コーパス作成 / アノテーション / BERT |
研究実績の概要 |
『日本語の論文コーパスにおける「問題」の語義アノテーション』を拡張し、「問題」およびその類義語の意味がproblematicなのかtaskなのかについて、2020年度に策定したアノテーションルールに従って、複数の学生により人手による追加のアノテーションを現代日本語書き言葉均衡コーパスについて行った。 また、現代日本語書き言葉均衡コーパスの「問題」の類義語について、クラウドソーシングによる追加のアノテーションを行った。さらに、BERTを利用した語義曖昧性解消の分類器を作成することで、2020年度は6割台だった正解率が9割を超えることを確認した。 次に、「問題」及びその類義語を特徴語として、周辺文から特徴語が示す「問題内容」「問題内容」のアノテーションルールを作成し、人手のアノテーションに取り掛かった。 また、クロスリンガルな処理を行う事前実験として、事前学習モデルを利用したクロスリンガルな評判分析の実験を行った。こちらは2022年度6月に発表予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
サバティカルから帰国後、不在時の埋め合わせの仕事があったことと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れていたが、2020年度には、新型コロナウイルスのためにオンライン授業の準備や入試の準備にかなり時間がとられた。2021年に職場を変ったこともあり、遅れは取り戻しつつあるが、まだ完全ではない状態である。 遅れについては、以下の経緯がある。まず、2019年に英語版の論文を参考にして、コーパスにアノテーションを行ったところ、作業者にかなりのずれがあったため、2019年9月に、英語版のアノテーションのルーブリックを入手し、その定義にさかのぼって日本語版をどうつけるかについて議論を行った。9月の後半には英語版の論文の責任著者であるSimone Teufel教授との議論を行って、英語版ではルールありきの分類となっていることが分かった。しかし、日本語は英語ほど明白なパターンがなかったため、コーパスアノテーションについて、英語版の邦訳では難しいことが分かった。そのため、2020年には、コーパスアノテーションのためのルール策定に一年を費やした。やっとルールを策定し、「問題」の分類の定義もできたため、機械学習によって、用例を拡充す ることができることを確認し、人手およびクラウドソーシング、機械学習によってそのアノテーションを増やしている最中である。
|
今後の研究の推進方策 |
アノテーションが一段落した時点で、論文を執筆する。 また、研究計画書にはケンブリッジ大学との交流も目的としたので、コロナの感染状況によっては、研究者を招くなどの交流を行いたいと考えている。
|