2011 Fiscal Year Research-status Report
語彙データベースと大規模コーパスに基づく意味クラス推定器の開発
Project/Area Number |
23700159
|
Research Institution | Tohoku University |
Principal Investigator |
岡崎 直観 東北大学, 情報科学研究科, 准教授 (50601118)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | 自然言語処理 / 情報抽出 / 知識獲得 / 固有表現抽出 |
Research Abstract |
平成23年度は,2つの研究項目((1)意味クラスが付与された学習データの自動獲得,(2)自動獲得した訓練データから高精度な意味クラス推定器を構築)を進めた.研究項目(1)では,Unified Medical Language System (UMLS) の遺伝子名を概念・実体の表現事例(語彙データベース)と見なし,PubMedの論文抄録を生テキストコーパスとして,学習データの自動獲得を行った.具体的には,PubMedの論文抄録のテキスト中に含まれるトークン列が,UMLSに遺伝子名として収録されている場合,該当部分を遺伝子名の正例とした.Gene or Gene Products (GGP) の意味クラスを人手で付与した評価データを用い,UMLSの辞書マッチングによる意味クラス推定の性能を測定したところ,精度92.1%,適合率39.0%,再現率42.7%,F1スコア40.8が得られた.適合率・再現率ともに低く,概念・実体の表現事例と生テキストコーパスの辞書マッチングを行うだけでは,ノイズ(偽正例と偽負例の両方)が多いことが分かった.研究項目(2)では,研究項目(1)で自動獲得した訓練データを用いて,条件付き確率場(CRF)で意味クラス推定器を構築した.PubMed全体に対して研究項目(1)の方法で教師データを獲得し,意味クラスタガーの性能をGGPコーパスで測定したところ,精度85.8%,適合率10.2%,再現率23.8%,F1スコア14.3であった.意味クラスタガーの性能を改善させるため,研究項目(1)で正例を抽出する際,UMLSレコードの参考文献情報と抄録の文献IDのマッチングを行うように工夫したところ,精度93.7%,適合率69.3%,再現率39.1%,F1スコア50.0まで改善が見られた.この性能は,研究項目(1)の性能を上回っており,本研究のアプローチの意義が示された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は,テキストから特定の意味クラスに属する概念・実体の表現(例えば製品名や病名など)を抽出するプログラム(意味クラス推定器)を,低コストで開発することである.この目的の達成のため,(1)意味クラスが付与された訓練データの自動獲得,(2)自動獲得された訓練データからの意味クラス推定器の構築,(3)意味クラス推定器の性能評価,の3つの研究項目を設定していた.平成23年度は,3つの研究項目のうち,項目(1)と(2)の研究を進めた.研究項目(1)に関してはベースラインとなる手法を実装した.この段階で,研究項目(2)を進め,ベースライン手法で構築された意味クラスタガーの性能評価を行った.その実験過程で得られた知見をもとに,研究項目(1)の手法の改善を行い,意味クラスタガーの性能評価を行ったところ,ベースライン手法の性能を大幅に改善することが示され,本研究のアプローチの意義を示すことができた.このように,平成24年度に研究項目(3)を進めるための準備が整っており,本研究は順調に進行していると考える.
|
Strategy for Future Research Activity |
平成24年度は,研究項目(1)と(2)の成果を既存のタグ付きコーパス以外のドメインに適用するため,評価データの整備・構築を行う.新しいドメインのテキスト・意味クラスに対して,提案手法と従来手法のアプローチを比較する実験を行う.意味クラスとしては,語彙データベースの入手性などを考慮しつつ,従来の訓練データでは採用されていなかった意味クラスを選ぶ.テキストのドメインとしては,多種多様な実体・概念が記述されている生命・医学分野の論文抄録と,本研究の今後の応用が見込まれるWeb文書を予定している.評価データの準備のため,GUIで操作できるアノテーションツールを開発する.そして,補助作業者を短期間雇用し,生テキストに意味クラスを付与する作業を担当していただく.評価データの準備が整ったら,研究項目(1)と(2)の手法の改善を進め,意味クラスタガーのさらなる改善を進める.実験結果は国際会議や雑誌論文などで対外発表を行い,構築した意味クラス推定器をウェブサービスやデモンストレーション・システムなどで公開することで,研究成果を他の研究者がすぐに利用できる形で還元する.
|
Expenditure Plans for the Next FY Research Funding |
評価データを構築するための技術的なハードルを下げるため,GUIで操作できるアノテーションツールを開発する.この開発のため,プログラミングができる補助作業者1名を雇用する.開発されたツールを用い,まとまった量の生テキストにアノテーションを付与してもらうため,補助作業者3名を雇用する.平成24年度の研究費の半分くらいを人件費・謝金のために支出する.また,作業に必要な計算環境の整備のため,物品費を計上する.さらに,平成24年度は本研究課題の最終年度のため,研究成果を国際会議や雑誌論文などで対外発表を行う.このために必要な旅費や論文投稿費用のため,旅費やその他の経費を行使する.
|
Research Products
(11 results)