研究課題/領域番号 |
17KK0002
|
研究種目 |
国際共同研究加速基金(国際共同研究強化)
|
配分区分 | 基金 |
研究分野 |
知能情報学
|
研究機関 | 東京農工大学 (2021-2023) 茨城大学 (2017-2020) |
研究代表者 |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
研究期間 (年度) |
2018 – 2023
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
10,140千円 (直接経費: 7,800千円、間接経費: 2,340千円)
|
キーワード | 問題抽出 / アノテーション / 科学技術論文 / 語義曖昧性解消 / BERT / 「問題」 / 抽出 / 分散表現 / コーパス / コーパス作成 / 情報抽出 / 領域適応 / 人工知能 / 言語学 |
研究成果の概要 |
日本語の科学技術論文から「問題」(problem:困ったことという意味の方で、task:お題ではない)の内容を抽出する研究を行った。英語の科学技術論文から同様のことを行った論文を参考に始めたが、日本語において問題を表す表現が複雑であることから、その表現形式についてアノテーションルールを定め、言語学的な定義を行った。また、このルールに沿って、文中の「問題」が指す問題内容がその文に含まれているか否かについてのアノテーションを行い、様々な手法で分類実験を行った。
|
研究成果の学術的意義や社会的意義 |
英語と比較して、日本語の論文における問題内容の書かれ方について分析を行った。英語論文ではThe problem is X.の書かれ方で書かれている問題内容のみを扱っていたが、日本語では、コピュラ的な表現「Xが問題だ」以外にも修飾的な表現「Xという問題」のような表現が多くみられることが分かった。これらを踏まえて、問題内容のアノテーションルールを策定し、コーパスを作成した。この際に、問題内容は入れ子構造になっていることがあること、問題内容を示すのは、文のことも単語やフレーズのこともあること、指し示す問題内容の粒度にばらつきがあることなどを分析し、ルールに反映した。
|