研究課題/領域番号 |
17K00324
|
研究機関 | 釧路工業高等専門学校 |
研究代表者 |
中島 陽子 釧路工業高等専門学校, 創造工学科, 講師 (20217730)
|
研究分担者 |
プタシンスキ ミハウ 北見工業大学, 工学部, 助教 (60711504)
桝井 文人 北見工業大学, 工学部, 准教授 (80324549)
本間 宏利 釧路工業高等専門学校, 創造工学科, 准教授 (80249721)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 情報抽出 / 意味役割付与 / 将来言及文 |
研究実績の概要 |
本研究は,文を構成する形態パターンから抽出される将来言及文を活用した新たな未来イベント予測手法を実現することを目標としている.本研究の手法の特徴は,対象分野の専門知識を用いることなく,少量の学習データで潜在的な将来言 及文を抽出・分類できる,汎用性を備えた未来動向予測支援システムを開発することである. 本年度は,新聞記事とwebニュース記事から将来言及文とその他の文を各500文を取得し,形態素情報と文脈解析に用いられる意味役割を併用した形態パターン(Morphosemantic Patterns: MoPs)を生成し,教師あり機械学習を用い将来言及文を分類するための分類器を生成した.さらに,精度の向上を目指し,将来言及文の特徴となる語を調査し,それらを未来語として定義し,前述のMoPsに未来語を加え分類器を生成し比較を行なった.また,ニュース記事は国際,科学技術,政治などドメインに分類されていることを利用し,本年度は科学技術の記事に注目し実験を行なった.以上の手法により抽出した将来言及文を用いた未来イベント予測を行う際に,将来言及文が有効であるか否かを検証するためのプロトタイプ予測エンジンを設計し実験を行なった.予測エンジンは,将来言及文を入力とし,機械学習により正解データを分類する正解分類器を生成し,この分類器に問題文を入力とし,2個以上の選択肢の中から正解を選び解答する.将来イベントを予測する設問7問を人間と本手法により実験した結果,人間による予測実験の正解率は30%程度に対し,プロトタイプ実験では,50%以上の結果が得られ,将来イベントを予測するための情報として,将来言及文の有用性を確認できた. 成果はIJCAI国際ワークショップLaCatodaにおいて発表,IJCLR特集号および釧路高専紀要等に掲載された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
申請者全員により,システム実現に向けた問題点の洗い出しとそれらの改善策や予想される障害について検討を行い,システムの機能設計を行った.平成29年度は,潜在的な将来言及を含む文(以下,将来言及文)を抽出するための効果的な将来言及形態パターン(MoPs)の生成を機械学習によるコーパスからの将来言及文抽出を①意味役割付与機構, ②形態パターン導出機構, ③将来言及パターン生成のための学習機構,④将来言及文分類機構の4フェーズにより実現し,将来言及文の分類実験と将来言及文の有用性について検証を行なった. ①意味役割付与機構は,1文ごとに処理を行うこととし,意味役割ラベル付与にはArument Structure Analyzerシステムを採用したが,文節によってはラベルが無い,また複合名詞に正しいラベルがつかないという問題を改善するために,形態素解析による複合語処理を行うことで全ての文節,複合語に最適な意味役割・品詞ラベル付与を実現した.(中島) ②MoPs導出機構の構築は,①の意味役割付与機構で付与されたラベル付与された文を入力とし,MoPsを出力する.(中島) ③ 将来言及MoPsを生成する学習機構は,新聞コーパスとwebニュースから無作為に収集した将来言及文とその他の文各同数を入力とし複数の機械学習を用い精度の比較を行い精度が最も良かったSPECを用い,分類するための効果的なMoPsを生成し,分類器を生成した.(中島,プタシンスキ)④生成した分類器を用いて,webニュースより科学技術分野に限定し記事を集め将来言及文の分類を行った.さらに,将来言及文に出現する特徴的な語を未来語として新たに定義し,MoPsと併用した比較実験を行った.将来言及文の有用性は,プロトタイプ予測エンジンを設計し予測実験を行い,人間の予測実験結果との比較を行い確認した.(中島,桝井,本間)
|
今後の研究の推進方策 |
平成30年は,未来動向予測支援システムの中核部である,将来言及文獲得のための分類器の精度向上と汎用性の強化を実現し最適な分類器の構築,および,汎用性を備えた予測エンジンの開発を行う. 前年度は,科学技術分野の記事を中心に将来言及文分類実験を行い検証を行った.今年度は,多くのニュース記事で分類されているドメイン毎の記事をデータとして実験を進める.同時に,ドメイン毎の未来語の特定を進め,汎用性を備えつつ分類器の精度向上を目指す. 今年度の研究工程は次のように推進する. (1)複数コーパスからのMoPs 抽出実験:更なる効果的なMoPs 獲得を目指して,複数コーパスを利用してのMoPs 生成による精度検証を行う.新聞記事コーパスやWeb ニュースに加えて,白書,政策,企業日報などの専門記事を学習用テキストとしたMoPs 獲得の実験を行い,出力結果の精度比較や検証を行う.(2)将来言及文取得のための分類器の構築:将来言及文は将来予測を行うための最も重要な要素である.大量の評価テキストデータから将来予測支援に必要な精度の高い有効的な将来言及文や潜在的な将来言及文を分類抽出するために,分類器自身にそのための新しい知識(未来語・極性・感情情報)を獲得,更新していく機能を装備させる.(3)予測エンジンの構築:獲得された将来言及文を利用して,ユーザーに将来予測情報を提示する予測エンジンの構築を行う.予測エンジンは,抽出された表層的な将来言及文,潜在的な将来言及文,関連イベント情報の数量化によって定式化し,その最適値を導出することで評価値の大きな順に予測結果を提示する. 申請者全員で今年度の推進方策を確認し,以上に述べた計画を遂行する.
|
次年度使用額が生じた理由 |
(理由)今年度は,データ整理や評価のための謝金・人件費を発生することなく遂行することができたため. (使用計画)研究に必要な消耗品やデータ整理や評価のための謝金・人権費の一部として使用する.
|