2000 年度実績報告書

半構造化文書に対する変換規則の帰納推論

研究課題

研究課題/領域番号	12780232
研究機関	九州大学
研究代表者	石野明九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
キーワード	半構造化文書 / 帰納推論 / XML
研究概要	現在,入力XML文書から出力XML文書への変換を行う規則の集合を獲得する手法に関する研究を進めている.XML文書はタグによって与えられる構造を持つという特徴がある.しかし,XML文書は完全に構造化されておらず,その取り扱いには自然言語に関する知見が欠くことができない.そのため,今年度はXML文書の自然言語としての側面と,構造化文書としての側面の両面から,XML文書の取り扱いに関する研究を行った. 「科学技術文における共起情報を用いた文書の自動分類手法の提案」では文書中にあらわれる単語の共起情報に基づき関連語を多義性に考慮したうえで抽出が可能であることを明らかにした. 「単語の頻度情報の偏りを用いた文書の自動分類手法の提案」および「単語の頻度情報の偏りを用いた文書の自動分類手法の評価」では文書中の単語の頻度が分類によって偏りがあることに注目し文書の分類が可能であることを明らかにした. 「LCSに着目した英文科学技術二次文献からのキーワード抽出」ではキーワード抽出のために従来用いられているn-gramとは異なりLCSを用いることでより詳細なキーワード抽出が可能であることを明らかにした. また,構造化文書の取り扱いに関する研究も同時に行い「XMLを用いたWebアプリケーションの構築手法の提案」にて発表を行った.これはXML文書の変換に基づくアプリケーションフレームワークであり,今後の研究において推論対象のひとつとなるものである.

研究成果
(5件)

すべてその他

すべて文献書誌 (5件)

[文献書誌] 岡崎敬士,石野明,竹田正幸,松尾文碩: "科学技術文における共起情報を用いた関連語の抽出"第14回人工知能学会全国大会予稿集. 173-176 (2000)
[文献書誌] 村上誠,石野明,竹田正幸,松尾文碩: "単語の頻度情報の偏りを用いた文書の自動分類手法の提案"第14回人工知能学会全国大会予稿集. 177-180 (2000)
[文献書誌] 藤原飛鳥,石野明,竹田正幸,松尾文碩: "LCSに着目した英文科学技術二次文献からのキーワード抽出"情報処理学会第62回全国大会予稿集. (2001)
[文献書誌] 福田賢治,石野明,竹田正幸,松尾文碩: "XMLを用いたWebアプリケーションの構築手法の提案"情報処理学会第62回全国大会予稿集. (2001)
[文献書誌] 村上誠,石野明,竹田正幸,松尾文碩: "単語の頻度情報の偏りを用いた文書の自動分類手法の評価"情報処理学会第62回全国大会予稿集. (2001)