研究課題/領域番号 |
21K17815
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50890589)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 談話解析 / コーパス / 医療言語処理 / 知識獲得 |
研究実績の概要 |
本研究課題では、談話構造解析による大局的な文脈に基づく医学生物学論文からの知識獲得を行うために、(1) 談話構造スキームの設計とコーパスの構築、(2) 談話構造解析法の開発、(3) 談話構造の情報抽出への応用に取り組む。 2021年度では、これらうちの (1) に集中して取り組んだ。 具体的には、まず、医学生物学論文アブストラクトの談話依存構造のスキームを定義した。そして、この定義に従って新型コロナウイルス感染症 (COVID-19) に関する論文アブストラクト300件に対して人手で談話依存構造の付与を行い、その結果としてのツリーバンクをCOVID-19 Discourse Dependency Treebank (COVID19-DTB) として公開した。また、他の分野で学習された談話構造解析モデルを教師なしドメイン適応するBootstrapping法について、その効果と限界性をCOVID19-DTBを使いながら分析した。その結果、Bootstrapping法は精度上昇にたしかに効果的だが限界があり、その原因は正確かつ多様な疑似ラベル付きデータをモデルが作成することができないことであり、その解決法として能動学習のような人手の介入が重要であることを明らかにした。この成果としての英語論文はTransactions of the Association for Computational Linguistics (TACL) という自然言語処理におけるトップ国際論文誌に採録され、ACL2022というトップ国際学会で口頭発表することが決まっている。 次に、GENIAコーパスに収録されているヒト血球細胞に関する1,999件の論文アブストラクトに対して人手で談話依存構造をアノテーションした(GENIA-DTB)。2千件という数は既存のフルテキストの談話構造ツリーバンクでは最大のものになる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
医学生物学論文アブストラクトのフルテキストレベルの談話構造ツリーバンクは過去に存在せず、2021年度に構築した(一部継続中)COVID19-DTBおよびGENIA-DTBを合わせた収録サイズは他分野の談話構造ツリーバンクの中でも最大のものになる。また、本研究課題では医学生物学論文からの知識獲得に焦点をあてて談話構造スキームの定義を行っており、有用性についても考慮されている。以上の成果であるツリーバンクについてはGitHub上で広く公開しており、論文については自然言語処理分野におけるトップ国際論文誌に採録され、トップ国際学会で口頭発表が決まっている(2022年5月下旬)。GENIA-DTBについての論文も2022年度7月までに投稿予定である。談話依存構造のアノテーションは5名の専門家をワーカーとして雇うことで収集している。ワーカー間のアノテーションの一貫性が高く信頼性の高いツリーバンクを構築するために、談話構造スキームやアノテーション方針について例を用いて詳細に記述したガイドラインを作成し、ワーカーと共有した。また、読解にできるだけ集中できるように独自のアノテーションツールを構築した。また、Google FormsとSpreadsheetを連携させ、ワーカーと質問等についてすぐに議論できるようにした。談話依存構造ツリーバンクの構築に関する上記の取り組みと結果から、当初の計画以上に親展していると判断する。
|
今後の研究の推進方策 |
2022年度からは、初年度に構築したツリーバンクをもとに、談話構造解析法の開発と情報抽出への応用を行っていきたい。 談話構造ツリーバンクの構築過程で、論文アブストラクト中の表現には曖昧性があり、アノテーター間で解釈やアノテーション結果を完全に一致させることは非常に難しいことがわかった。これはアノテーションを行う人間の医学生物学に関する知識量にも依存している。また、談話関係ごとにその出現頻度のばらつきが大きいことがわかった。例えば、順接や逆説、原因・結果の談話関係は頻出するが、それらに比べて条件や時間関係は低頻度であった。これらの知見から、解析モデルは談話構造アノテーションの揺れや不均衡性に対して頑健である必要があることがわかる。2022年度ではこの問題についても取り組みたい。 また、2022年度では談話依存構造を用いた文書レベル関係抽出の改善について取り組む。文書レベル関係抽出では遠隔教師データが有効であることが知られているが、遠隔教師データの質は既存の知識グラフ (KG) に依存し、一般にKGの網羅性は限られている。「副作用」に対しての「原因・結果」や、「処方」に対しての「手段・方法」のように、関係抽出の着目カテゴリー(「副作用」など)の間接的な教示として談話関係(「原因・結果」など)用いることで、既存のKGの低網羅性を補うことができるのではと考えている。
|
次年度使用額が生じた理由 |
談話構造ツリーバンク構築のためのアノテーション付与作業は複数のワーカーを雇うことで行っており、各ワーカーの本業(翻訳など)によって作業スピードの目途が立ちにくく、また作業スピードもワーカー間でばらつきが大きい。また、COVID-19の影響のため、本来は現地参加する予定だった国内学会やアイルランド開催の国際学会への出張がなくなり、旅費の支出がなかった。
|