2012 Fiscal Year Research-status Report
語彙データベースと大規模コーパスに基づく意味クラス推定器の開発
Project/Area Number |
23700159
|
Research Institution | Tohoku University |
Principal Investigator |
岡崎 直観 東北大学, 情報科学研究科, 准教授 (50601118)
|
Keywords | 固有表現抽出 / 情報抽出 / 自然言語処理 / 機械学習 |
Research Abstract |
平成24年度は「意味クラス推定器の性能の評価」のを進めた.評価対象のドメインとして,日本栄養士会が東日本大震災時に支援活動を行った際の報告書(自由記述)を採用し,そのテキストに意味クラスを手作業で付与した.意味クラスとしては,①他団体との連携,②管理栄養士・栄養士の本務としてのサービス(栄養相談など)提供,③栄養指導・支援,④事務処理,⑤支援物資・提供者,⑥活動場所(避難所,自宅,仮設住宅など)を採用した.本研究プロジェクトで開発した手法を用い,意味クラス推定器を構築したところ,推定精度は約7割であった.低コストで意味クラス推定器が構築できたことから,新しいドメインのテキストや新しい実体・概念に対して,本プロジェクトで研究を進めた手法が有効的であることが実証できた. さらに,意味クラス推定器の性能向上に関しても研究を進めた.意味クラス推定器の性能が向上させるには,認識したい意味クラスの表現事例を大量に集めた辞書を構築し,現在解析している表現がその辞書に含まれるかどうかを考慮することが効果的であると知られている.この特徴は,本研究で構築されている意味クラス推定器にも採用されているが,本研究で構築した意味クラス推定器のエラーを解析していたところ,単語の文脈の情報を増強することで提案手法の性能を改善できる可能性が判明した.意味クラス推定器の研究は20年近くの歴史があり,研究コミュニティでは性能の改善が頭打ちになってきている状況であったため,新しいアイディアを発見した意義は大きかった.そこで,研究計画を変更し,平成24年度の後半に新しいアイディアに基づく手法の開発を行い,実験結果の解析を行うことにした.その手法を論文にまとめ,PAKDD 2013というデータマイニングと知識処理に関する国際会議に投稿したところ,受理された.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究の目的は,テキストから特定の意味クラスに属する概念・実体の表現(例えば製品名や病名など)を抽出するプログラム(意味クラス推定器)を,低コストで開発することである.この目的の達成のため,①意味クラスが付与された訓練データの自動獲得,②自動獲得された訓練データからの意味クラス推定器の構築,③意味クラス推定器の性能評価,の3つの研究項目を設定していた. 平成24年度は,3つの研究項目のうち,項目③の研究を進めた.日本栄養士会が東日本大震災時に支援活動を行った際の報告書(自由記述)に対し,本研究プロジェクトで開発した手法を用いたところ,低コストで意味クラス推定器が構築できることを実証できた.また,意味クラス推定器の性能改善に関する研究も進め,新しい手法を開発し,その手法をまとめた論文が国際会議に受理された.国際会議の開催時期の関係で,研究期間を1年間延長することにしたが,昨年度は当初の計画以上に研究が進行したと考えている.
|
Strategy for Future Research Activity |
平成24年度までに本プロジェクトの成果は出揃ったが,論文を投稿した国際会議の開催時期(平成25年4月)を考慮し,研究期間を1年間延長した.平成25年度は,これまでに出た研究成果をジャーナル論文としてまとめる.さらに,構築した意味クラス推定器をオープンソースソフトウェアやデモンストレーション・システムの開発を進め、研究成果を他の研究者がすぐに利用できる形で還元する.
|
Expenditure Plans for the Next FY Research Funding |
平成25年度に繰り越した予算は,研究成果を国際会議で発表するための費用(旅費など),ジャーナル論文としてまとめる際の費用(論文校正費用など),成果物をソフトウェアにまとめるための費用(人件費・物品費)として使用する予定である.
|
Research Products
(15 results)