• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

半構造化文書に対する変換規則の帰納推論

Research Project

Project/Area Number 12780232
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field 計算機科学
Research InstitutionKyushu University

Principal Investigator

石野 明  九州大学, 大学院・システム情報科学研究院, 助手 (10315129)

Project Period (FY) 2000 – 2001
Project Status Completed (Fiscal Year 2001)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2001: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2000: ¥1,200,000 (Direct Cost: ¥1,200,000)
Keywords半構造化文書 / 帰納規則 / 生垣 / 情報抽出 / 変換規則 / 極大共通生垣 / 帰納推論 / XML
Research Abstract

半構造化文書のフォーマットであるXMLの登場によって,計算機間で交換されるデータの大部分がXML文書へと移行しつつある.XMLの登場によって,データの解析処理とデータに対する操作が標準化され,各アプリケーション間でデータをやりとりするために必要であった変換操作がXMLに対する操作という統一的な手法によって行うことが可能となった.しかし,XMLではその構造を規定するタグをも自由に定義できるという柔軟性から,XMLの応用は多岐に及び,必要とされる変換すべてを人手によって記述することは現実的に不可能である.本研究は,そのような計算機間で交換される大量のXML文書間の変換を,入力となる文書と出力となる文書だけを具体例として与え,それらの間に必要な変換規則を自動的に推論する手法の開発と,そのために必要な理論の展開を目的とする.
XML文書の変換とはあるXML文書の一部を取り出し,新たなXML文書を取り出されたXML文書の一部から再構成することである.ここで重要な問題となるのはXML文書の一部がどのように取り出されているかを推論することである.申請者は,半構造化文書を生垣としてとらえ,生垣上の汎化関係を考えることで,与えられた例の間の共通の構造と同時にXML文書ごとに異なる取り出されるべき部分をとらえることができるということを明らかにした.
また,効率よく求めることができる共通の構造として極大共通生垣を提案した.極大共通生垣は文字列上の最長部分文字列を生垣上に自然に拡張したものであり,極大共通生垣を実際のXML文書に対して求めることで高い再現率で情報抽出を行うことが可能であることを示した.

Report

(2 results)
  • 2001 Annual Research Report
  • 2000 Annual Research Report
  • Research Products

    (9 results)

All Other

All Publications (9 results)

  • [Publications] Akihiro Yamamoto: "Modelling Semi-structured Documents with Hedges for Deduction and Induction"Proc. 11th International Conference on Inductive Logic Programming (ILP '2001). LNAI2157. 240-247 (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] 福田 賢治: "生垣上の反単一化を用いた情報抽出手法の提案"人工知能学会研究会資料SIG-KBS-A102-9. 47-52 (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] 山本 章博: "生垣論理プログラミングによる情報の抽出と変換"人工知能学会全国大会(第15回)論文集. (CD-ROM). (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] 福田 賢治: "極大共通生垣による情報抽出手法の提案"情報処理学会情報基盤とデジタル・ドキュメント研究会. (in press). (2002)

    • Related Report
      2001 Annual Research Report
  • [Publications] 岡崎敬士,石野明,竹田正幸,松尾文碩: "科学技術文における共起情報を用いた関連語の抽出"第14回人工知能学会全国大会予稿集. 173-176 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] 村上誠,石野明,竹田正幸,松尾文碩: "単語の頻度情報の偏りを用いた文書の自動分類手法の提案"第14回人工知能学会全国大会予稿集. 177-180 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] 藤原飛鳥,石野明,竹田正幸,松尾文碩: "LCSに着目した英文科学技術二次文献からのキーワード抽出"情報処理学会 第62回全国大会予稿集. (2001)

    • Related Report
      2000 Annual Research Report
  • [Publications] 福田賢治,石野明,竹田正幸,松尾文碩: "XMLを用いたWebアプリケーションの構築手法の提案"情報処理学会 第62回全国大会予稿集. (2001)

    • Related Report
      2000 Annual Research Report
  • [Publications] 村上誠,石野明,竹田正幸,松尾文碩: "単語の頻度情報の偏りを用いた文書の自動分類手法の評価"情報処理学会 第62回全国大会予稿集. (2001)

    • Related Report
      2000 Annual Research Report

URL: 

Published: 2000-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi