2015 Fiscal Year Annual Research Report
Project/Area Number |
25730129
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
三輪 誠 豊田工業大学, 工学(系)研究科(研究院), 准教授 (00529646)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 事象抽出 / 半教師あり学習 / 生命医学文献 |
Outline of Annual Research Achievements |
代謝などの生命医学的プロセスを構成するタンパク質などの反応は,生命医学文献中に事象として記述されており,この事象を自動に大量の文書から高精度・高被覆に抽出するシステムが必要とされている.本研究では,代表者が開発している世界最高精度の生命医学文献からの事象抽出システムを対象に,複数の人手で注釈付けされたコーパスを利用した拡充,注釈付けされていない事象の手掛かり単語の候補を自動的に発見するための半教師あり学習の利用について,研究を行った. 複数の人手で注釈付けされたコーパスを利用した拡充については,複数のコーパスにタグ付けされた情報を,そのコーパス間の差異を考慮しながら,同時に利用することにより,1つのコーパスでは十分な数現れないような事象についても抽出でき,また,同じ事象を繰り返し注釈付けする必要性を減らすことができた.他の事象抽出システムにも応用できる汎用性の高い手法であり,また,モデルはWebサービスとして公開し,適用結果は検索システムのデータとして利用されている. 手掛かり単語の発見については,従来の新聞記事からの事象抽出とは異なり,単語クラスタリング結果を利用した半教師あり学習は教師あり学習から精度が下がることがわかり,また,周辺単語やエンティティの情報,構文情報を入れたモデルでも十分な精度を得るのは難しいことが分かった.今年度は,周辺の文脈を考慮した単語ベクトルのモデルを構築し,評価した,教師あり学習への組み込みにおいては精度は下がり,また,未知の手掛かり単語の発見については,未知の単語を発見するほどの十分な精度は得られなかったものの,前年度のモデルに比べて単語発見自体の精度は向上し,一部,頻度の高い単語については発見が可能であることが分かった.
|