• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

訓練事例の最適化による語義曖昧性における領域適応

研究課題

研究課題/領域番号 24700138
研究種目

若手研究(B)

研究機関東京農工大学

研究代表者

古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 特任助教 (10592339)

研究期間 (年度) 2012-04-01 – 2015-03-31
キーワード人工知能 / 自然言語処理 / 語義曖昧性解消 / 領域適応 / 最適化
研究概要

本研究の関連研究を、現在より深く調査し、訓練事例ベクトル集合の最適化に必要な一連の流れを実装した。
(1)語義曖昧性解消のための、コーパス収集本研究に使用するコーパスとしては、現在、申請者が利用している現代日本語書き言葉均衡コーパス(以降、BCCWJ コーパス)、RWC コーパスを使用した。
(2)コーパスからの事例ベクトル集合の作成入手したコーパスから訓練事例、テスト事例に用いる事例ベクトル集合を作成した。申請者は、これまで利用していた、語義曖昧性解消の対象単語の前後2 単語についての、形態素、品詞、品詞の細分類、分類語彙表における意味分類、また、語義曖昧性解消の対象単語の係り受け情報を素性に用いた。
(3) 基本的な類似度を基準に用いた訓練事例ベクトル集合の最適化を、整数線形計画法のツールCPLEX を利用して行うつもりであったが、実験を行ううちに線形計画法はテーマに即していないことが分かったため、以下の二通りの研究を進めた。ひとつめには、コサイン類似度を含む7種類の類似度とそのほかの指標を比較して、それぞれターゲットドメインの訓練事例ベクトル集合に近くなるように、ソースドメインの訓練事例ベクトル集合を最適化し、訓練事例ベクトルの最適化によって、語義曖昧性解消の正解率が上がるかどうかを調べた。これは、分類器としてMEMを使って行ったが、残念ながら一つの類似度ではうまくいかないことが分かり、複数の類似度を用いて機能学習をすることにより予測が可能かを調査中である。ふたつめは、分類器としてSVMを使い、確信度およびLOOという指標を用いてより適切な訓練事例集合を作成する研究である。これはテスト事例ごとに適切な集合を選択する手法と、テスト事例集合ごとに山登り法で適切な集合を選択する実験の予備実験を行ったところ、好感触を得ている。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本研究は、語義曖昧性解消における領域適応の研究である。対象分野のラベルなしコーパスと、多数の入手可能な対象分野以外の分野のラベル付きコーパスを用いて、対象分野のコーパスによる事例ベクトル集合に最も近い訓練用の事例ベクトル集合を自動的に作成し、ラベル付きコーパスが手に入らない際の語義曖昧性解消の正解率をあげることを目指す。
1)多数の入手可能なコーパスから得られる用例を適切に選択することで、対象分野のコーパスによる事例ベクトル集合に最も近くなるように、訓練用の事例ベクトル集合を最適化すること
2)そのために、語義曖昧性解消において事例ベクトル集合の類似性を測るのに最適な類似度を定義すること
2)に関しては、確信度とLOOという指標が使用に向いていると考えているため、おおむね順調である。1)に関しては、線形計画法は利用しないことになったが、代わりに山登り法を用いて予備実験は行われており、やはりおおむね順調であると考えている。

今後の研究の推進方策

H24年度の実験結果を踏まえて、ふたつの道を検討している。
ひとつは、コサイン類似度などの複数の類似度を用いて機能学習をすることにより適切な訓練事例の選択が可能かを確かめることである。こちらに関しては、回帰分析を用いて機能学習することを考えているが、もしかしたらSVRを利用するかもしれない。ただしこの手法だと、unsupervisedの設定なのにもかかわらず、supervisedな手法となることがネックであると考えている。
もうひとつは、確信度とLOOという指標を用いてさらに詳細な実験を行い、山登り法を用いてより適切な訓練事例を作成することである。後者の実験では、確信度とLOOが指標として効く条件として、訓練事例数が関わることが実験により明らかになってきているため、まずはその指標に訓練事例数を組み込むことを考えている。さらに、新しい語義タグ付きコーパスが入手できるという話を聞いているので、これを使って再実験をする予定である。
また、さらに、文書分類を用いて訓練事例集合を選択することも考えており、余裕があれば行う予定である。

次年度の研究費の使用計画

H25年度の実験結果を踏まえて柔軟に進める予定である。
また、余裕があれば、素性や処理速度の面で語義曖昧性解消の性能を上げる。
例えば、素性の中にも、語義曖昧性解消に直接関係のある素性とそうでない素性があることが考えられる。このため、SVD やLDAなどの次元圧縮手法を利用して、素性の圧縮を行うことを考えている。また、類似度の式内において、素性に対する重みづけを行うことにより、最適化の改良を行うことも考えている。必要であれば、当初設定した素性に加えて、文脈の素性を増やすなど、素性そのものを検討することも考えている。
また、より実効速度を速くして、手軽に最適化・領域適応が行えるように工夫する。
未使用の研究費が9995円分発生したが、これは中国の合肥への出張が国際関係の悪化により中止になったことから当初の想定とのずれが生じ、その後いろいろと修正したものの残ってしまったものである。

  • 研究成果

    (11件)

すべて 2013 2012

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (9件)

  • [雑誌論文] 文書分類のためのNegation Naive Bayes2013

    • 著者名/発表者名
      古宮嘉那子, 伊藤裕佑, 佐藤直人, 小谷善行
    • 雑誌名

      自然言語処理 Vol20

      巻: 2 ページ: 印刷中

    • 査読あり
  • [雑誌論文] 語義曖昧性解消のための領域適応手法の決定木学習による自動選択2012

    • 著者名/発表者名
      古宮嘉那子,奥村学
    • 雑誌名

      自然言語処理 Vol19

      巻: 3 ページ: 143-166

    • 査読あり
  • [学会発表] Word-based Social Tagging for Music Recommendation2013

    • 著者名/発表者名
      Takuya Ando, Kanako Komiya, and Yoshiyuki Kotani
    • 学会等名
      The 2013 2nd ICT International Student Project Conference
    • 発表場所
      バンコク、タイ
    • 年月日
      20130329-20130329
  • [学会発表] 語義曖昧性解消の領域適応のための訓練事例集合の選択2013

    • 著者名/発表者名
      古宮嘉那子, 小谷善行, 奥村学
    • 学会等名
      第十九回言語処理学会年次大会
    • 発表場所
      名古屋大学東山キャンパス、名古屋
    • 年月日
      20130315-20130315
  • [学会発表] 分類器の確信度を用いた合議制による語義曖昧性解消のunsupervisedな領域適応2013

    • 著者名/発表者名
      古宮 嘉那子、奥村 学、小谷 善行
    • 学会等名
      第三回コーパス日本語学ワークショップ
    • 発表場所
      国立国語研究所、立川
    • 年月日
      20130228-20130228
  • [学会発表] 語義曖昧性解消の領域適応のための訓練データの選択法 ~複数ドメインからの選択~2013

    • 著者名/発表者名
      堀内 浩史郎、古宮 嘉那子、小谷 善行
    • 学会等名
      第三回コーパス日本語学ワークショップ
    • 発表場所
      国立国語研究所、立川
    • 年月日
      20130228-20130228
  • [学会発表] CRFを用いたアニメ関連用語の固有表現抽出2013

    • 著者名/発表者名
      高瀬 真記、古宮 嘉那子、小谷 善行
    • 学会等名
      第三回コーパス日本語学ワークショップ
    • 発表場所
      国立国語研究所、立川
    • 年月日
      20130228-20130228
  • [学会発表] Automatic Domain Adaptation for Word Sense Disambiguation Based on Comparison of Multiple Classifiers2012

    • 著者名/発表者名
      Kanako Komiya and Manabu Okumura
    • 学会等名
      PACLIC 2012
    • 発表場所
      バリ、インドネシア
    • 年月日
      20121108-20121108
  • [学会発表] Universal-set Naive Bayes and Selective Naive Bayes using Data from All Classes2012

    • 著者名/発表者名
      Yusuke Ito, Kanako Komiya and Yoshiyuki Kotani
    • 学会等名
      NLP-KE 2012
    • 発表場所
      合肥、中国
    • 年月日
      20120922-20120922
  • [学会発表] Chinese Morphological Analysis Using Morpheme and Character Features2012

    • 著者名/発表者名
      Kanako Komiya, Haixia Hou, Kazutomo Shibahara, Koji Fujimoto, and Yoshiyuki Kotani,
    • 学会等名
      The Pacific Rim International Conference on Artificial Intelligence (PRICAI) 2012
    • 発表場所
      クチン、サワラク州、マレーシア
    • 年月日
      20120906-20120906
  • [学会発表] Question Answering System Using Web Relevance Score and Translation Probability2012

    • 著者名/発表者名
      Yuji Abe, Hajime Morita, Kanako Komiya, and Yoshiyuki Kotani
    • 学会等名
      10th International Joint Conference on Knowledge-Based Software Engineering (JCKBSE 2012),
    • 発表場所
      ロードス、ギリシア
    • 年月日
      20120824-20120824

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi