2014 Fiscal Year Research-status Report
Project/Area Number |
25730129
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
三輪 誠 豊田工業大学, 工学(系)研究科(研究院), 准教授 (00529646)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 事象抽出 / 教師なし学習 / 生命医学文献 |
Outline of Annual Research Achievements |
複数の人手で注釈付けされたコーパスに重複して注釈付けされている,文書中に記述されている生命医学的プロセスに現れるタンパク質などの変化を表現する事象について,その注釈付けされた事象を広く被覆できるシステムを拡充した. また,当初の計画である,注釈付けされていない事象の候補を自動的に発見し,ユーザに提案するために,注釈付けされた事象の手掛かりとなる単語と似たような文脈に現れる単語を発見する方法の実現に向けて研究を行った.まず,生命医学文献における単語クラスタリングの有効性を探るため,生命医学文献・新聞での事象抽出の振る舞いの違いを調査した.このような分野をまたがる事象の調査は世界初の試みであったが,これにより単語クラスタリングの結果を利用した事象抽出システムは新聞コーパスでは精度が向上するのに対し,生命医学文献では精度が下がることがわかった.次にこの手掛かりとなる単語を精度よく発見するにはどのような文脈知識を利用するか,が重要であると考えられるため,様々な文脈知識の比較を中心に研究を行った.具体的には周辺の単語や係り受け関係にある単語,周辺にあるタンパク質などのエンティティ,書かれている文書などについて,比較を行ったが,現在のモデルでは十分な精度の結果を得ることは難しいことが分かった. これらの結果から単語の発見が本質的に難しくこのような精度の低い結果を得たことが妥当であるという判断も可能であるが,一方でこのような文脈知識の拡充だけでなく,文脈知識をどう取り入れるか,どのようなモデルを設計するかという点において,現在のモデルでは十分にその知識を利用できておらず,単語の発見の精度向上の可能性はあると考え,より良い精度で手掛かりとなる単語を発見するために,新たな文脈知識を取り入れたモデルについて設計を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
注釈付けされた事象を広く被覆できるシステムについては,ツールとしての汎用性の向上,単語クラスタリングの利用などにより拡充し,新聞コーパスや生命医学文献など複数のコーパスにおいて高い精度を達成しており,当初の計画以上に進展していると言える. また,二年度以降の目標であるコーパスに注釈付けされていないものの事象である可能性の高い単語の発見については,そのタスクの難易度の確認と文脈知識の比較を行った.まず,分野をまたがる事象の比較により,新聞の事象に有効な既存の単語クラスタリングの利用のみでは精度を向上できないことを明らかにし,生命医学文献での事象に関連する単語のモデル化は新聞の事象に比べて難しいことを明らかにした.このような比較は世界初の試みであり,対象とする分野の文献ごとに別々に行われてきた研究をつなぐ重要な成果であると言える.また,この比較研究の中で,提案システムが他の分野においても高い精度で動作することも同時に確認しており,提案システムの有用性を示すこともできている.このような分野をまたがる事象の比較をすることで,既存のモデルの利用だけでは単語のモデル化が難しいことを確認した.また,文脈知識の比較においては,周辺の単語や係り受けの単語などを入れたモデルの基礎的な比較を行っており,目標とする単語の発見を高精度に行うにはモデルの変更・設計の必要があることを明らかにした.このような新たなモデルの設計は当初の計画の範囲内であり,この二つの研究によりその必要性を確認できたことは十分な成果であるといえる.
|
Strategy for Future Research Activity |
今後は,これまでの研究において,このような生命医学文献における事象を表現する単語の発見がこれまでの研究で対象とされてきた他の分野に比べて難しいことが明らかになったため,この単語発見の精度向上を中心に研究を進める予定である.具体的には,これまで設計した事象の手掛かりとなる単語の発見をより高精度に発見するための新たな文脈知識を取り入れたモデルを実装・評価し,その改善を中心に研究を進めていく方針である.このような改善の一つとして,文脈知識のみで事象を表現する単語を発見することが難しい場合には,注釈付けされたコーパスの情報を援用する半教師あり学習の手法をこのモデルに取り入れることで,注釈付けされたコーパスに現れる事象を表す単語に近いものの,注釈付けされていない単語の発見について精度の向上を図る予定である.このような注釈付けされてない情報の発見を,注釈付けされたものを利用した教師あり学習と同等の精度で行うことは本質的に困難であるため,当初の計画にも挙げたとおり,希少な事象の発見と信頼性の高い単語の発見のトレードオフの関係を考慮し,適切な抽出対象を限定することも考慮する必要がある.さらに,このような単語の発見の改善を進め,その精度が十分であると判断できた場合は,当初の計画である事象の候補の発見を行う予定である.この実現には発見した単語に対して初年度開発したシステムを用いて既存の事象の項をつけることで可能である.
|
Causes of Carryover |
研究代表者の異動後の環境において,代替となる計算機を利用できたため,購入を延期し,未使用額が生じた.
|
Expenditure Plan for Carryover Budget |
当初の予定通り,未使用額は計算機の購入に充てることを計画している.
|