2012 Fiscal Year Research-status Report
Project/Area Number |
23500110
|
Research Institution | University of Tsukuba |
Principal Investigator |
鈴木 伸崇 筑波大学, 図書館情報メディア系, 准教授 (60305779)
|
Keywords | XML |
Research Abstract |
平成24年度において,前年度に開発した正規木文法の差分抽出アルゴリズムの実装を行った.ここで,正規木文法は,終端記号(要素名)の集合,非終端記号(要素の型)の集合,開始記号,および,生成規則の集合から構成される.このとき,正規木文法の差分抽出アルゴリズムは,2つの正規木文法GとG'が与えられた時に,GをG'へ更新するために必要なコスト最小の編集操作列を求めるアルゴリズムである.また,編集操作列とは,(a)生成規則の追加,(b)生成規則の削除,(c)生成規則の左辺の非終端記号の変更,(d)生成規則の右辺の終端記号の変更,(e)生成規則の右辺の正規表現の修正,という編集操作の系列である.実装において用いた言語はRubyである.入力スキーマ形式としてRELAX NGを想定し,RELAX NG形式のスキーマを内部で木文法として解釈し,提案アルゴリズムによる差分抽出を行うよう実装した.また,実装されたアルゴリズムを用いて,予備的な評価実験を行った.この評価実験では,本アルゴリズムと既存のXML差分抽出アルゴリズムを用いて,スキーマ間の差分中抽出を行い,適切な差分抽出が行われているかを調査するものである.スキーマとしては RELAX NGとVoiceXMLの構造定義ファイルを使用し,それらにランダムに生成した編集操作列を適用して更新後のスキーマを作成した.その結果,本アルゴリズムは,XML差分抽出アルゴリズムと比較して得られた差分長が短く,より適切に差分抽出が行われていることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
交付申請書に記載した「研究の目的」をまとめると次の(1)~(3)となる.(1)正規木文法の差分抽出が効率よく行えるための十分条件を求める,(2)その十分条件の下で,正規木文法の差分抽出を行う効率の良いアルゴリズムを構成する,(3)そのアルゴリズムに関する評価実験を行う.このうち,現在までに(1),(2),および(3)の一部が達成されている.当初の計画では(3)は次年度に行う予定であったので,本研究は当初の計画以上に進展しているといえる.
|
Strategy for Future Research Activity |
これまでに正規木文法の差分抽出アルゴリズムを開発および実装を終えており,予備的な評価実験を始めている.予備実験ではXML差分抽出アルゴリズムを2つ使用していたが,今後はより多くのXML差分抽出アルゴリズムを対象として評価を行う予定である.特に,アルゴリズムの動作効率,抽出された差分の適切さ等における差分抽出の有効性を評価する.
|
Expenditure Plans for the Next FY Research Funding |
「次年度使用額」は,主として,本研究に関する学会発表を行うための旅費として使用する(既に学会発表は行っており,支出は確定している).また,評価実験に関する諸作業(実験用データの収集作業や結果の集計等)には学生の協力を得る予定であり,そのための謝金としても用いる予定である.
|