2013 Fiscal Year Research-status Report
Project/Area Number |
25730129
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | The University of Tokyo |
Principal Investigator |
三輪 誠 東京大学, 工学(系)研究科(研究院), 研究員 (00529646)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 事象抽出 / 複数コーパス / 高被覆 |
Research Abstract |
本研究の目的は,生命医学分野における事象構造抽出において,複数の注釈付きコーパスを利用して高被覆な事象構造の抽出を行い,注釈なしコーパスを利用してその事象候補を増やすことで,生命医学アプリケーションに利用可能な事象の被覆率を向上することである.このような目的を達成するために,初年度は,複数の注釈付きコーパスに焦点を当て,既存の複数のコーパスを用いて検証した.複数の注釈付きコーパスにおいて,事象の注釈付されている範囲を考慮し,注釈付けされていない事象である可能性のある候補を負例に含めないことで,複数のコーパスを利用して,一つの有用なモデルを作成する手法を開発した.この複数の注釈付きコーパスを利用した手法の特長としては,単一のコーパスで学習するよりも高い精度を達成できること,複数のコーパスを用いることで一つのコーパスでは対象としていない事象についても抽出できること,複数のコーパスにおける事象を同時に抽出することができる一つのモデルを作成できること,である.このような特長を持った手法は現在のところ他には提案されておらず,直接全てを評価することはできないため,それぞれについて個別に評価した.この評価により,単一のコーパスでの学習と比較し有意に精度の向上がみられること,コーパスに注釈付されていない抽出された事象が注釈付された事象と同等の精度で抽出できていること,複数のコーパスを利用した別の学習手法と比較しても遜色のない精度で学習できていること,を確認し,本手法の特長が実現できていることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の目標は,複数の注釈付けされたコーパスを利用した高被覆な生命事象の抽出であった.この目標について,コーパスに注釈付けされている情報に関連していながら注釈付けされていない情報を,そのコーパスにおいて信頼できる負例として取り出すことで,複数のコーパスから信頼できる教師情報を得ることで,それぞれのコーパスに特化していない,すべてのコーパスを対象としたモデルを作成する手法を提案した.既存の生命医学分野において代表的な七つの事象を扱っているコーパスを利用し,この手法を用いて一つのモデルを作成し,その精度を評価したところ,すべてのコーパスにおいて有意な精度の向上が見られた.この精度向上はそれぞれのコーパスに特化したモデルを個別に作成する代表的な従来手法であるドメイン適用や転移学習の手法に比べても同等以上であることを確認し,また,この精度向上により,用いたコーパスのうち,一つのコーパスを除いた六つのコーパスにおいて世界最高の精度を達成できることを確認した.さらに,提案手法では既存のコーパスに注釈付されていない事象を高い精度で正しく抽出できることも確認し,一つの対象コーパスに限定されない高被覆の事象抽出が可能になっていることを確認した.最後に,提案システムは研究グループが参加する共通タスクBioNLP 2013 Shared Taskにおいても参加した二つのタスクにおいて,そのシステムを対象データに特化させることなしに,一位・二位をとるなど好成績を上げており,提案システムの有用性を示すことができた.
|
Strategy for Future Research Activity |
今後は,これまでの計画通り,注釈付けされたコーパス・注釈付けされていないコーパスを利用して,事象を発見する手がかりとなる単語を表現するための文脈知識を表現する方法を開発し,さらに,これまでのコーパスに注釈付けされていないものの事象である可能性が高い単語を発見する手法を開発する予定である.事象の手掛かりとなる単語を発見できるような文脈知識の表現は教師なしの学習においてはこれまで研究はほとんどされていない,それに近い動詞のクラスタリングや教師あり学習において構文解析などの深い自然言語処理の結果の利用が事象の手掛かりの発見に有効であることがわかっている.このような知見を前提に,まずは,そのような深い自然言語処理の結果の利用を検討しつつ,可能であれば他の文脈知識の利用も考慮に入れながら,手法の開発を進める予定である.また,注釈付けされていない単語の発見には教師なし・半教師あり学習手法の利用を検討する予定である.このような単語の発見においては,希少な事象の発見と信頼性の高い単語の発見がトレードオフの関係にあると考えらえるため,コーパス中に現れる頻度の低いものに関しては抽出しない,など適切な抽出対象の限定を行う必要があると考えられる.評価については,すでに注釈付けされている事象の手掛かりとなる単語を隠して,それを発見するタスクとして設定することで既存のタスク設定の枠組みで評価することが可能である.
|
Expenditure Plans for the Next FY Research Funding |
提案手法におけるアルゴリズム開発のための計算機を購入する予定であったが,研究代表者の異動前の環境において代替となる計算機を利用できたため,購入を延期し,未使用額が生じた. 当初の予定通り,未使用額は計算機の購入に充てることを計画している.
|