2011 Fiscal Year Research-status Report

語彙データベースと大規模コーパスに基づく意味クラス推定器の開発

Research Project

Project/Area Number	23700159
Research Institution	Tohoku University
Principal Investigator	岡崎直観東北大学, 情報科学研究科, 准教授 (50601118)
Project Period (FY)	2011-04-28 – 2013-03-31
Keywords	自然言語処理 / 情報抽出 / 知識獲得 / 固有表現抽出
Research Abstract	平成２３年度は，２つの研究項目（(1)意味クラスが付与された学習データの自動獲得，(2)自動獲得した訓練データから高精度な意味クラス推定器を構築）を進めた．研究項目(1)では，Unified Medical Language System (UMLS) の遺伝子名を概念・実体の表現事例（語彙データベース）と見なし，PubMedの論文抄録を生テキストコーパスとして，学習データの自動獲得を行った．具体的には，PubMedの論文抄録のテキスト中に含まれるトークン列が，UMLSに遺伝子名として収録されている場合，該当部分を遺伝子名の正例とした．Gene or Gene Products (GGP) の意味クラスを人手で付与した評価データを用い，UMLSの辞書マッチングによる意味クラス推定の性能を測定したところ，精度92.1%，適合率39.0%，再現率42.7%，F1スコア40.8が得られた．適合率・再現率ともに低く，概念・実体の表現事例と生テキストコーパスの辞書マッチングを行うだけでは，ノイズ（偽正例と偽負例の両方）が多いことが分かった．研究項目(2)では，研究項目(1)で自動獲得した訓練データを用いて，条件付き確率場（CRF）で意味クラス推定器を構築した．PubMed全体に対して研究項目(1)の方法で教師データを獲得し，意味クラスタガーの性能をGGPコーパスで測定したところ，精度85.8%，適合率10.2%，再現率23.8%，F1スコア14.3であった．意味クラスタガーの性能を改善させるため，研究項目(1)で正例を抽出する際，UMLSレコードの参考文献情報と抄録の文献IDのマッチングを行うように工夫したところ，精度93.7%，適合率69.3%，再現率39.1%，F1スコア50.0まで改善が見られた．この性能は，研究項目(1)の性能を上回っており，本研究のアプローチの意義が示された．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の目的は，テキストから特定の意味クラスに属する概念・実体の表現（例えば製品名や病名など）を抽出するプログラム（意味クラス推定器）を，低コストで開発することである．この目的の達成のため，(1)意味クラスが付与された訓練データの自動獲得，(2)自動獲得された訓練データからの意味クラス推定器の構築，(3)意味クラス推定器の性能評価，の３つの研究項目を設定していた．平成２３年度は，３つの研究項目のうち，項目(1)と(2)の研究を進めた．研究項目(1)に関してはベースラインとなる手法を実装した．この段階で，研究項目(2)を進め，ベースライン手法で構築された意味クラスタガーの性能評価を行った．その実験過程で得られた知見をもとに，研究項目(1)の手法の改善を行い，意味クラスタガーの性能評価を行ったところ，ベースライン手法の性能を大幅に改善することが示され，本研究のアプローチの意義を示すことができた．このように，平成２４年度に研究項目(3)を進めるための準備が整っており，本研究は順調に進行していると考える．
Strategy for Future Research Activity	平成２４年度は，研究項目(1)と(2)の成果を既存のタグ付きコーパス以外のドメインに適用するため，評価データの整備・構築を行う．新しいドメインのテキスト・意味クラスに対して，提案手法と従来手法のアプローチを比較する実験を行う．意味クラスとしては，語彙データベースの入手性などを考慮しつつ，従来の訓練データでは採用されていなかった意味クラスを選ぶ．テキストのドメインとしては，多種多様な実体・概念が記述されている生命・医学分野の論文抄録と，本研究の今後の応用が見込まれるWeb文書を予定している．評価データの準備のため，ＧＵＩで操作できるアノテーションツールを開発する．そして，補助作業者を短期間雇用し，生テキストに意味クラスを付与する作業を担当していただく．評価データの準備が整ったら，研究項目(1)と(2)の手法の改善を進め，意味クラスタガーのさらなる改善を進める．実験結果は国際会議や雑誌論文などで対外発表を行い，構築した意味クラス推定器をウェブサービスやデモンストレーション・システムなどで公開することで，研究成果を他の研究者がすぐに利用できる形で還元する．
Expenditure Plans for the Next FY Research Funding	評価データを構築するための技術的なハードルを下げるため，ＧＵＩで操作できるアノテーションツールを開発する．この開発のため，プログラミングができる補助作業者１名を雇用する．開発されたツールを用い，まとまった量の生テキストにアノテーションを付与してもらうため，補助作業者３名を雇用する．平成２４年度の研究費の半分くらいを人件費・謝金のために支出する．また，作業に必要な計算環境の整備のため，物品費を計上する．さらに，平成２４年度は本研究課題の最終年度のため，研究成果を国際会議や雑誌論文などで対外発表を行う．このために必要な旅費や論文投稿費用のため，旅費やその他の経費を行使する．

Research Products
(11 results)

All 2012 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (8 results)

[Journal Article] 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム2011
- Author(s)
  岡崎直観, 辻井潤一
- Journal Title
  
  自然言語処理
  
  Volume: Vol.18, No.2 Pages: 89-118
- DOI
  10.5715/jnlp.18.89
- Peer Reviewed
[Journal Article] The gene normalization task in BioCreative III2011
- Author(s)
  Zhiyong Lu, ..., Naoaki Okazaki, ..., John W. Wilbur
- Journal Title
  
  BMC Bioinformatics
  
  Volume: 12 Pages: S9
- DOI
  10.1186/1471-2105-12-S8-S9
- Peer Reviewed
[Journal Article] BioCreative III interactive task: an overview2011
- Author(s)
  Cecilia N Arighi, ..., Naoaki Okazaki, ..., Cathy H Wu
- Journal Title
  
  BMC Bioinformatics
  
  Volume: 12 Pages: S8
- DOI
  10.1186/1471-2105-12-S8-S8
- Peer Reviewed
[Presentation] 数量表現を伴う文における含意関係認識の課題分析2012
- Author(s)
  成澤克麻, 渡邉陽太郎, 水野淳太, 岡崎直観, 乾健太郎
- Organizer
  言語処理学会第18回年次大会
- Place of Presentation
  広島市立大学
- Year and Date
  2012年3月14日
[Presentation] Web文書からの人の安全・危険に関わる情報の抽出2012
- Author(s)
  岡崎直観, 成澤克麻, 乾健太郎
- Organizer
  言語処理学会第18回年次大会
- Place of Presentation
  広島市立大学
- Year and Date
  2012年3月14日
[Presentation] 英作文支援のための用例検索システムの構築2012
- Author(s)
  高松優, 水野淳太, 岡崎直観, 乾健太郎
- Organizer
  言語処理学会第18回年次大会
- Place of Presentation
  広島市立大学
- Year and Date
  2012年3月14日
[Presentation] 冠詞誤り訂正時における訂正根拠の提示2012
- Author(s)
  梅澤次郎, 水野淳太, 岡崎直観, 乾健太郎
- Organizer
  言語処理学会第18回年次大会
- Place of Presentation
  広島市立大学
- Year and Date
  2012年3月14日
[Presentation] 隠れ変数を持つ識別モデルによる文間意味関係の学習2012
- Author(s)
  渡邉陽太郎, 水野淳太, 岡崎直観, 乾健太郎
- Organizer
  言語処理学会第18回年次大会
- Place of Presentation
  広島市立大学
- Year and Date
  2012年3月14日
[Presentation] 意味カテゴリの階層関係を活用した集合拡張2012
- Author(s)
  高瀬翔, 岡崎直観, 乾健太郎
- Organizer
  言語処理学会第18回年次大会
- Place of Presentation
  広島市立大学
- Year and Date
  2012年3月14日
[Presentation] Fast Newton-CG Method for Batch Learning of Conditional Random Fields2011
- Author(s)
  Yuta Tsuboi, Yuya Unno, Hisashi Kashima, Naoaki Okazaki
- Organizer
  Twenty-Fifth Conference on Artificial Intelligence (AAAI-11)
- Place of Presentation
  San Francisco, California , USA
- Year and Date
  2011年8月7日
[Presentation] Automatic Acquisition of Huge Training Data for Bio-Medical Named Entity Recognition2011
- Author(s)
  Yu Usami, Han-Cheol Cho, Naoaki Okazaki, Jun'ichi Tsujii
- Organizer
  BioNLP 2011 Workshop
- Place of Presentation
  Portland, Oregon, USA
- Year and Date
  2011年6月23日

2011 Fiscal Year Research-status Report

語彙データベースと大規模コーパスに基づく意味クラス推定器の開発

Principal Investigator

岡崎 直観 東北大学, 情報科学研究科, 准教授 (50601118)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム2011

Author(s)

Journal Title

DOI

[Journal Article] The gene normalization task in BioCreative III2011

Author(s)

Journal Title

DOI

[Journal Article] BioCreative III interactive task: an overview2011

Author(s)

Journal Title

DOI

[Presentation] 数量表現を伴う文における含意関係認識の課題分析2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Web文書からの人の安全・危険に関わる情報の抽出2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 英作文支援のための用例検索システムの構築2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 冠詞誤り訂正時における訂正根拠の提示2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 隠れ変数を持つ識別モデルによる文間意味関係の学習2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 意味カテゴリの階層関係を活用した集合拡張2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Fast Newton-CG Method for Batch Learning of Conditional Random Fields2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Automatic Acquisition of Huge Training Data for Bio-Medical Named Entity Recognition2011

Author(s)

Organizer

Place of Presentation

Year and Date

岡崎直観東北大学, 情報科学研究科, 准教授 (50601118)