2013 Fiscal Year Annual Research Report
語彙データベースと大規模コーパスに基づく意味クラス推定器の開発
Project/Area Number |
23700159
|
Research Institution | Tohoku University |
Principal Investigator |
岡崎 直観 東北大学, 情報科学研究科, 准教授 (50601118)
|
Keywords | 固有表現抽出 / 情報抽出 / 自然言語処理 / 機械学習 |
Research Abstract |
本研究の目的は,テキストから特定の意味クラスに属する概念・実体の表現(例えば製品名や病名など)を抽出するプログラム(意味クラス推定器)を,低コストで開発することである.この目的の達成のため,①意味クラスが付与された訓練データの自動獲得,②自動獲得された訓練データからの意味クラス推定器の構築,③意味クラス推定器の性能評価,の3つの研究項目を設定していた.平成24年度までに,項目①②③の研究を進めた. 平成24年度後半に,既存の辞書とラベル付けされていないテキストコーパスから,認識したい意味クラスの表現の周辺文脈を自動的に獲得する研究を進めた.辞書から学習データを自動的に獲得する平成24年度までの研究内容に対し,本手法は,辞書から意味クラスの周辺に頻出するパターンを自動的に獲得するものである.本手法は,意味クラスタガー構築における辞書の活用方法の新しいアイディアであり,実験により意味クラスタガーの性能が向上することを確認できた.その内容を論文にまとめ,データマイニングと知識処理に関する国際会議に投稿し,受理された.この段階(平成24年度末)で本研究をまとめる作業の殆どは完了していたが,この国際会議の開催日は平成25年度頭(平成25年4月15日)であったため,出張旅費を拠出するために研究機関を1年間延長した.平成25年度は,評価データの整備や,その整備のためのソフトウェア開発を進めながら,国際会議やジャーナル論文で研究成果を発表した.
|
Research Products
(4 results)