• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

単語の語義別コロケーション抽出とその語義識別、新語義発見への適用に関する研究

研究課題

研究課題/領域番号 24700131
研究機関茨城大学

研究代表者

佐々木 稔  茨城大学, 工学部, 講師 (60344834)

研究期間 (年度) 2012-04-01 – 2014-03-31
キーワード国際情報交換 / イスタンブール / バルセロナ
研究概要

平成24年度は、「訓練データからの語義別コロケーション抽出システム構築に向けた検討」および、「語義別コロケーションを考慮した語義識別モデル構築法の検討」についての研究を計画していた。
語義別コロケーションを抽出するために必要な点のひとつとして、頻度の少ない語義を含む用例を抽出することが挙げられる。このような用例文に対して、規則として表現可能なコロケーションを見つけることで、語義識別などの自然言語処理システムに有効な特徴を捉える事ができる。そのため、用例文集合から対象単語が特異な使用をしている用例を検索する手法の開発を行った。この手法は、国際会議 LREC2012 において発表し、低頻度語義を持つ用例の特徴を分析し、それを含む用例を効率的に抽出することを実証した。
また、訓練データからの語義別コロケーションを抽出するためには、あらかじめ正解の語義が割り振られた用例文集合を教師データとして、用例文間の類似性を測定することが重要な課題となる。そのため、訓練データに対して、用例間類似度を語義ラベルに応じて学習する手法の開発を行った。実験データについては、これまでの研究で利用した「Semeval2010日本語語義曖昧性タスク」で使われた、様々な分野を含んだコーパスを利用することで、低頻度語義を考慮しやすい実験を行うことも可能となった。この手法は、国際会議 SEMAPRO2012 において発表し、開発した用例間類似度を利用することで、従来の類似度尺度よりも高い語義識別精度が得られたことを実証した。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

従来手法では考慮されていなかった、ラベル付きデータからコロケーション集合をどのように特定するのか検討するという課題については、ラベル付きデータからコロケーション集合を抽出するために、頻度の少ない語義から成る用例文を検索する手法を開発し、低頻度語義用例を抽出することができた。そこから、コロケーションを抽出することはこれからの課題となるが、これまで有効であった特徴に加えて、単語間の依存関係なども分析することで、効率良く抽出することが可能となると考えられる。
また、抽出したコロケーションが語義の特定に有効であるか、訓練データ内でどれほど影響力があるかを分析し、語義識別への利用方法を明らかにするという課題については、これまでの研究で利用した「Semeval2010日本語語義曖昧性タスク」で使われた、様々な分野を含んだコーパスを利用することで、訓練データ内での影響分析を行うことが可能である。上述したコロケーション抽出手法を開発した際には、語義の特定、語義識別への有効性が明らかになると考えられる。

今後の研究の推進方策

平成24年度に課題として残った、各対象単語からの語義別コロケーション抽出手法の開発、および、コロケーション集合が語義の特定に有効であるか、訓練データ内でどれほど影響力があるかを分析し、語義識別への利用方法を明らかにする点について、平成25年度前半を目処に開発を進める予定としている。
平成25年度後半では、語義別コロケーション集合を考慮した語義識別モデルの分析と効率化、高速化に向けた検討、および、語義別コロケーション集合を利用した新語義発見法の検討について研究を行う。このとき、「日本語コーパス」において作成が進められている「書き言葉均衡コーパス」を利用して評価用データを構築し、特定単語についての語義識別を行って、大規模なデータでの性能評価も行う予定である。また、上記プロジェクトにおいて、語義識別手法について議論をしている茨城大学工学部の新納浩幸准教授と北陸先端科学技術大学院大学情報科学研究科の白井清昭准教授に語義識別手法の妥当性について議論、支援をお願いしたいと考えている。

次年度の研究費の使用計画

本研究を実施するためには、申請者が使用するパソコン1台が必要となる。現在、パソコンを数台所有しているが、使用する計算プログラムはMATLABでプログラムが記述されているため、実験やデモを行うために能力不足である。そのため、実験用パソコン1台を備品として計上する。
また、使用するデータは、「Semeval2010日本語タスク」で利用された評価用データがあるが、より大規模な抽出を行うための準備として学生に評価用データの作成を依頼する。
さらに、研究成果が出た際には、PACLICなどの国際会議や「自然言語処理」などの論文誌を通して成果を発表を予定している。議論や資料収集を行うために、2回分の外国旅費を研究費の中に計上する。

  • 研究成果

    (5件)

すべて 2013 2012

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (2件)

  • [雑誌論文] 外れ値検出手法を利用した新語義の検出2013

    • 著者名/発表者名
      新納浩幸、佐々木稔
    • 雑誌名

      自然言語処理

      巻: 19巻 ページ: 303-327

    • 査読あり
  • [雑誌論文] Word Sense Disambiguation Based on Distance Metric Learning from Training Documents2012

    • 著者名/発表者名
      Minoru Sasaki and Hiroyuki Shinnou
    • 雑誌名

      The Sixth International Conference on Advances in Semantic Processing

      巻: 6 ページ: 54, 58

    • 査読あり
  • [雑誌論文] Detection of Peculiar Word Sense by Distance Metric Learning with Labeled Examples2012

    • 著者名/発表者名
      Minoru Sasaki and Hiroyuki Shinnou
    • 雑誌名

      Proceedings of the Eight International Conference on Language Resources and Evaluation

      巻: 8 ページ: 601, 604

    • 査読あり
  • [学会発表] ミドルソフトタグのトピック素性を利用した語義曖昧性解消2013

    • 著者名/発表者名
      國井慎也, 新納浩幸, 佐々木稔
    • 学会等名
      言語処理学会第19回年次大会
    • 発表場所
      名古屋大学
    • 年月日
      20130313-20130315
  • [学会発表] サポートベクターマシンに基づくHit Miss Networkを用いたインスタンス選択2013

    • 著者名/発表者名
      小幡智裕, 佐々木稔, 新納浩幸
    • 学会等名
      言語処理学会第19回年次大会
    • 発表場所
      名古屋大学
    • 年月日
      20130313-20130315

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi