様々なデータおよび文書は半構造データとしてとらえることができ、その書式としてXMLが広く利用されている。半構造データに関して、付加情報を取得、提示することによる理解支援に関する研究を行った。 論文およびプレゼンテーションスライドを半構造データとしてとらえ、会議で発表された論文と発表時に用いられたプレゼンテーションスライドを部分対応付けすることで理解補助につながると考え、これまでに考案した手法を基に対応付け手法を洗練させた。各文書をXMLに変換して扱い、半構造データを扱う際に重要である粒度に関する考察および実験を行った。文書の構造情報を利用し、段階的に対応付けすることで、精度および速度の改善を行うことができた。さらに、プレゼンテーションスライドの理解支援のため、プレゼンテーションスライドを分割し、それぞれのセグメントに対してラベル付与を行う手法を考案した。 また、別の半構造データとして、地球科学データに対するメタデータに着目し、メタデータを解析することで、地球科学データに対して適切なキーワードを付与する研究を行った。キーワード情報はデータの俯瞰・検索に重要である。あらかじめ定まった語彙集合(統制語彙)からの付与を考え、単なる文字列マッチングだけでなく、機械学習を利用し、語彙集合内の語彙の階層構造を利用することで、より適切なキーワード付与を行うことができた。実際に地球環境情報統融合プログラム(DIAS-P)におけるメタデータを利用し、データ担当者による評価を行って有効性を確認した。
|