2011 Fiscal Year Research-status Report
Project/Area Number |
23500110
|
Research Institution | University of Tsukuba |
Principal Investigator |
鈴木 伸崇 筑波大学, 図書館情報メディア系, 准教授 (60305779)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | XML |
Research Abstract |
平成23年度,本研究において正規木文法の差分抽出アルゴリズムを開発した.正規木文法は,終端記号(要素名)の集合,非終端記号(要素の型)の集合,開始記号,および生成規則の集合から構成される.このとき,正規木文法の差分抽出は,2つの正規木文法GとG'が与えられた時に,GをG'へ更新するために必要なコスト最小の編集操作列を求めることである.ここで,編集操作列とは,(a)生成規則の追加,(b)生成規則の削除,(c)生成規則の左辺の非終端記号の変更,(d)生成規則の右辺の終端記号の変更,(e)生成規則の右辺の正規表現の修正,という編集操作の系列であり,各編集操作には非負のコストが付与される.特に,(e)における正規表現の修正は,正規表現を木とみなし木に対する編集操作を用いることとした.より具体的には,次の手順でアルゴリズムを開発した.(1) まず,正規木文法に対する編集操作(上記の(a)~(e))を形式的に定義した.(2) 得られた編集操作に基づいて正規木文法の差分抽出問題の時間計算量について考察し,同問題がNP困難であることを証明した.(3) 上記(2)の結果から,同問題を解くための多項式時間アルゴリズムの開発は困難であることが分かった.そこで本研究では,まず正規木文法の差分抽出が多項式時間可解となる十分条件を求めた.これは,編集操作に関する制約条件である.次に,その十分条件の下で多項式時間で動作するアルゴリズムを開発した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
交付申請書に記載した「研究の目的」をまとめると次の(1)~(3)となる.(1)正規木文法の差分抽出が効率よく行えるための十分条件を求める,(2)その十分条件の下で,正規木文法の差分抽出を行う効率の良いアルゴリズムを構成する,(3)そのアルゴリズムに関する評価実験を行う.このうち,現在までに(1)および(2)が達成されており,これは当初の計画通りである.よって,本研究はおおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
正規木文法の差分抽出アルゴリズムは平成23年度において得られたので,平成24年度以降は,得られたアルゴリズムを計算機上に実装し評価実験を行う予定である.アルゴリズムの実装にはJavaまたはRubyを用いる予定である.評価実験では,まず,評価に必要なスキーマ集合を用意する.これは,インターネット上で入手可能なスキーマを収集し,必要に応じて更新操作等を施すことにより作成する.次に,得られたスキーマ集合を実装されたアルゴリズムに適用し,アルゴリズムの動作効率,抽出された差分の適切さ,および,スキーマ更新に伴うXMLデータ変換における差分抽出の有効性を評価する.
|
Expenditure Plans for the Next FY Research Funding |
アルゴリズムの実装および評価実験のため,アルゴリズムの実装や評価実験を行うための計算機(サーバ)の購入,および,サーバにアクセスして作業するための作業用端末(PCを数台)購入する予定である.また,評価実験に関する諸作業(計算機の設定補助,アルゴリズムの動作テスト,実験用データの収集作業等)には学生の協力を得る予定であり,そのために本研究費から謝金を支払う予定である.なお,「次年度使用額」は主にこの謝金として用いる予定である.更に,本研究に関する成果発表や調査を行うため,学会参加用の旅費として使用する.
|