Project/Area Number |
17KK0002
|
Research Category |
Fund for the Promotion of Joint International Research (Fostering Joint International Research)
|
Allocation Type | Multi-year Fund |
Research Field |
Intelligent informatics
|
Research Institution | Tokyo University of Agriculture and Technology (2021-2023) Ibaraki University (2017-2020) |
Principal Investigator |
Komiya Kanako 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
Project Period (FY) |
2018 – 2023
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥10,140,000 (Direct Cost: ¥7,800,000、Indirect Cost: ¥2,340,000)
|
Keywords | 問題抽出 / アノテーション / 科学技術論文 / 語義曖昧性解消 / BERT / 「問題」 / 抽出 / 分散表現 / コーパス / コーパス作成 / 情報抽出 / 領域適応 / 人工知能 / 言語学 |
Outline of Final Research Achievements |
We extracted the statements of "problems" (meaning something problematic, not tasks) from Japanese scientific and technical papers. We started by referring to a paper that did the same thing from English scientific and technical papers. However, because the expressions used to describe problems are complex in Japanese, we established annotation rules for the forms of expression and defined them linguistically. Following these rules, we also annotated whether or not the problem statements referred to by 'problem' in a sentence were included in that sentence, and conducted classification experiments using various methods.
|
Academic Significance and Societal Importance of the Research Achievements |
英語と比較して、日本語の論文における問題内容の書かれ方について分析を行った。英語論文ではThe problem is X.の書かれ方で書かれている問題内容のみを扱っていたが、日本語では、コピュラ的な表現「Xが問題だ」以外にも修飾的な表現「Xという問題」のような表現が多くみられることが分かった。これらを踏まえて、問題内容のアノテーションルールを策定し、コーパスを作成した。この際に、問題内容は入れ子構造になっていることがあること、問題内容を示すのは、文のことも単語やフレーズのこともあること、指し示す問題内容の粒度にばらつきがあることなどを分析し、ルールに反映した。
|