研究概要 |
現在,入力XML文書から出力XML文書への変換を行う規則の集合を獲得する手法に関する研究を進めている.XML文書はタグによって与えられる構造を持つという特徴がある.しかし,XML文書は完全に構造化されておらず,その取り扱いには自然言語に関する知見が欠くことができない.そのため,今年度はXML文書の自然言語としての側面と,構造化文書としての側面の両面から,XML文書の取り扱いに関する研究を行った. 「科学技術文における共起情報を用いた文書の自動分類手法の提案」では文書中にあらわれる単語の共起情報に基づき関連語を多義性に考慮したうえで抽出が可能であることを明らかにした. 「単語の頻度情報の偏りを用いた文書の自動分類手法の提案」および「単語の頻度情報の偏りを用いた文書の自動分類手法の評価」では文書中の単語の頻度が分類によって偏りがあることに注目し文書の分類が可能であることを明らかにした. 「LCSに着目した英文科学技術二次文献からのキーワード抽出」ではキーワード抽出のために従来用いられているn-gramとは異なりLCSを用いることでより詳細なキーワード抽出が可能であることを明らかにした. また,構造化文書の取り扱いに関する研究も同時に行い「XMLを用いたWebアプリケーションの構築手法の提案」にて発表を行った.これはXML文書の変換に基づくアプリケーションフレームワークであり,今後の研究において推論対象のひとつとなるものである.
|