• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

単語と文書の意味クラスをベースとするスクリプトの自動学習に関する研究

Research Project

Project/Area Number 15680005
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

鳥澤 健太郎  北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (70282712)

Keywords自然言語処理 / スクリプト / 知識獲得 / 統計的自然言語処理 / プラン認識 / 生成語彙論 / シソーラス / テキストコーパス
Research Abstract

今年度は以下の2点に関して研究を行った。まず第一点は、対象物の用途をあらわす表現と、その準備となる行為を表す表現を大量のテキストコーパスから自動的に獲得する研究である。この結果、たとえば、「ビールを飲む」がビールの用途であり、「ビールを買う」がその準備であるといった知識がコーパスから自動的に獲得できることになった。これは動詞と名詞の間、ならびに動詞間の共起頻度などを考慮にいれたスコア付け、ならびにそれらの情報を用いて候補を絞り込んだ後の教師あり学習によって実現されている。この結果は、本プロジェクトでの最終目標であるスクリプト的知識の核となるものであり、より具体的にのべれば、このような表現をその時間的順序(つまりは、準備に関する行為は用途に関する行為に時間的に先立つということ)に沿って並べればスクリプト的知識が獲得できることになる。
また、第二点目の研究はHTML文書中のHTMLタグを利用しつつ様々な知識を獲得する手法であり、今年度は特に単語の上位下位関係や、単語クラス、あるいは、ある単語が示す対象の持つ重要な性質を示す語である「属性語」などを対象として知識の自動獲得手法について研究した。これらの語は、上で述べた対象の用途あるいは準備を表す表現、単語クラスにしたがって一般化したり、あるいは、それらの獲得精度を高める、あるいはスクリプトに拡張する際の手がかりとして利用されることになる。たとえば、仮に「ビール」の用途表現、あるいは準備表現として、それぞれ「飲む」「買う」が仮定できるとする。このとき、「ビール」と同じ「酒類」であるがコーパス中に現れる頻度がより少ない、たとえば「泡盛」に関して同様の知識がデータスパースネスの影響で獲得できないといった事態がありえるが、このような問題は本年度開発した上位下位関係の自動獲得手法で得られた上位下位関係、この場合であれば、「『泡盛』の上位語は『酒』」であるということ、ならびに「酒」の用途、準備表現がそれぞれ「飲む」「買う」であるということを用いて回避できる。

  • Research Products

    (5 results)

All 2005 2004

All Journal Article (5 results)

  • [Journal Article] HTML文書からの上位下位関係の自動獲得2005

    • Author(s)
      新里圭司, 鳥澤健太郎
    • Journal Title

      自然言語処理 12・1

      Pages: 125-150

  • [Journal Article] Automatic Acquisition of Expressions Representing Preparation and Utilization of an Object2005

    • Author(s)
      Kentaro Torisawa
    • Journal Title

      In Proceedings of The Nineteenth International Joint Conference on Artificial Intelligence (IJCAI-05) (To appear)

  • [Journal Article] Integrating Tables on the World Wide Web2004

    • Author(s)
      Minoru Yoshida, Kentaro Torisawa, Jun'ichi Tsujii
    • Journal Title

      人工知能学会論文誌 19・6

      Pages: 548-560

  • [Journal Article] Extracting Hyponyms of Prespecified Hypernyms from Itemizations and Headings in Web Documents2004

    • Author(s)
      Keiji Shinzato, Kentaro Torisawa
    • Journal Title

      In Proceedings of The 20^<th> International Conference on Computational Linguistics (COLING04)

      Pages: 938-944

  • [Journal Article] Improving the Identification of Non-Anaphoric it using Support Vector Machines2004

    • Author(s)
      Jose Carlos Clemente Litran, Kenji Sato, Kentaro Torisawa
    • Journal Title

      In Proceedings of International Workshop on Natural Language Processing and its Applications (NLPBA/BioNLP 2004)

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi