Research and development of information extraction methods using word sense disambiguation and domain adaptation
Project/Area Number |
17KK0002
|
Research Category |
Fund for the Promotion of Joint International Research (Fostering Joint International Research)
|
Allocation Type | Multi-year Fund |
Research Field |
Intelligent informatics
|
Research Institution | Tokyo University of Agriculture and Technology (2021-2023) Ibaraki University (2017-2020) |
Principal Investigator |
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
|
Project Period (FY) |
2018 – 2023
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥10,140,000 (Direct Cost: ¥7,800,000、Indirect Cost: ¥2,340,000)
|
Keywords | 「問題」 / 抽出 / BERT / 語義曖昧性解消 / アノテーション / 分散表現 / コーパス / 問題抽出 / コーパス作成 / 情報抽出 / 領域適応 / 人工知能 / 言語学 |
Outline of Annual Research Achievements |
科学技術論文における「問題」の周辺文からの問題内容の抽出についての研究を行っていたが、学術論文執筆中に、問題が発生したため、再実験に取り組むこととなった。すでに実験用のモデルは作成してあるが、学習データの数が足りないと判断したため、アノテーションを追加で粉うこととした。現在、問題内容についてのアノテーションの採取段階である。そのため、メインの研究の進行は遅れている。2024年度中にメインの研究の学術論文を投稿予定である。言語学的な知見からのアノテーションルールの知見を得たため、こちらについても論文で紹介するつもりである。 一方、関連研究についてはいくつも成果が出ている。語義曖昧性解消の論文として、22年度に研究会で発表した、古文に現代文のBERTを利用したコーパス中の全単語を対象とした語義曖昧性解消の研究について、国際会議の論文を発表した。また、日本語の語義曖昧性解消について、英語のコーパスを使って学習したモデルを翻訳により利用する手法について研究会で発表した。さらに、BCCWJという日本語の現代語のコーパスとして最大のコーパスに対して、語義曖昧性解消の手法で分類語彙表番号を語義としてすべてに付与する研究を行い、研究会において発表を行った。これら二つの研究会の論文については、国際会議または学術論文に投稿予定である。 また、ユニグラムとバイグラムのBERTによる平仮名の形態素解析の論文を執筆した。 さらに、2023年度は二つの文系の研究会で招待講演を行ったが、その両方とも語義曖昧性解消について紹介している。 また、2023年度の4月に、ケンブリッジ大学で知り合った当時の学生さんを招へいし、講演会を行った。
|
Report
(6 results)
Research Products
(44 results)