2001 Fiscal Year Annual Research Report
Project/Area Number |
12780232
|
Research Institution | Kyushu University |
Principal Investigator |
石野 明 九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
|
Keywords | 半構造化文書 / 帰納規則 / 生垣 / 情報抽出 / 変換規則 / 極大共通生垣 |
Research Abstract |
半構造化文書のフォーマットであるXMLの登場によって,計算機間で交換されるデータの大部分がXML文書へと移行しつつある.XMLの登場によって,データの解析処理とデータに対する操作が標準化され,各アプリケーション間でデータをやりとりするために必要であった変換操作がXMLに対する操作という統一的な手法によって行うことが可能となった.しかし,XMLではその構造を規定するタグをも自由に定義できるという柔軟性から,XMLの応用は多岐に及び,必要とされる変換すべてを人手によって記述することは現実的に不可能である.本研究は,そのような計算機間で交換される大量のXML文書間の変換を,入力となる文書と出力となる文書だけを具体例として与え,それらの間に必要な変換規則を自動的に推論する手法の開発と,そのために必要な理論の展開を目的とする. XML文書の変換とはあるXML文書の一部を取り出し,新たなXML文書を取り出されたXML文書の一部から再構成することである.ここで重要な問題となるのはXML文書の一部がどのように取り出されているかを推論することである.申請者は,半構造化文書を生垣としてとらえ,生垣上の汎化関係を考えることで,与えられた例の間の共通の構造と同時にXML文書ごとに異なる取り出されるべき部分をとらえることができるということを明らかにした. また,効率よく求めることができる共通の構造として極大共通生垣を提案した.極大共通生垣は文字列上の最長部分文字列を生垣上に自然に拡張したものであり,極大共通生垣を実際のXML文書に対して求めることで高い再現率で情報抽出を行うことが可能であることを示した.
|
Research Products
(4 results)
-
[Publications] Akihiro Yamamoto: "Modelling Semi-structured Documents with Hedges for Deduction and Induction"Proc. 11th International Conference on Inductive Logic Programming (ILP '2001). LNAI2157. 240-247 (2001)
-
[Publications] 福田 賢治: "生垣上の反単一化を用いた情報抽出手法の提案"人工知能学会研究会資料SIG-KBS-A102-9. 47-52 (2001)
-
[Publications] 山本 章博: "生垣論理プログラミングによる情報の抽出と変換"人工知能学会全国大会(第15回)論文集. (CD-ROM). (2001)
-
[Publications] 福田 賢治: "極大共通生垣による情報抽出手法の提案"情報処理学会情報基盤とデジタル・ドキュメント研究会. (in press). (2002)