1995 年度実績報告書

情報圧縮によるテキストデータベースの高速化

研究課題

研究課題/領域番号	07558159
研究種目	試験研究(B)
研究機関	九州工業大学
研究代表者	篠原武九州工業大学, 情報工学部, 教授 (60154225)
研究分担者	深町修一九州工業大学, 情報工学部, 助手 (30274559) 下薗真一九州工業大学, 情報工学部, 助手 (70243988) 有村博紀九州工業大学, 情報工学部, 助教授 (20222763) 石坂裕毅九州工業大学, 情報工学部, 助教授 (70260726)
キーワード	情報検索 / 逐次パターン照合 / 情報圧縮 / テキストデータベース
研究概要	本研究の目的は、情報圧縮による逐次パターン照合処理の高速化技法を確立するとともに,そのテキストデータベースにおける有効性を実証することにある. 逐次処理の遅さの主な原因として,データの転送コストが考えられる.このコストを軽減するためには,情報圧縮の技術を用い,圧縮したデータを復号することなく探索する手法が有効である. 本研究では,テキストデータの標本として, ・遺伝子情報データ・図書館データ・英文テキストデータの3種のものを取り扱うこととしている.平成7年度の研究では,主として日本語テキストを含む図書館データを対象にした. 日本語テキストは,字種が多いため符号の複雑さやパターン照合アルゴリズムに必要なメモリ量を減らす工夫が必要である.符号を単純化すると圧縮効率が下がるので,漢字・かな・英数字などの字種の生起特性を考慮して,単純だが効率のよい符号を設計し,さらにパターン照合機械へ組み込む符号中の冗長さを除去して必要なメモリ量を減らすアルゴリズムを開発した.

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] 宮崎哲司: "圧縮された日本語テキストのためのパターン照合機械の設計" 情報処理学会第51回全国大会講演論文集. 4. 239-240 (1995)
[文献書誌] 深町修一: "文字列パターン照合のための損失のあるデータ圧縮" 電子情報通信学会技術研究報告. 95. 41-48 (1995)
[文献書誌] 篠原武: "複数文字列パターンによる正例からのタンパク質モチーフの発見" 1995年度人工知能学会全国大会(第9回)講演論文集. 93-96 (1995)
[文献書誌] 有村博紀: "木パターン言語の和の質問による学習" 1995年度人工知能学会全国大会(第9回)講演論文集. 73-76 (1995)
[文献書誌] 山口美千代: "複数文字列パターンによるアミノ酸配列からのタンパク質モティーフの発見" 情報処理学会研究報告,情報学基礎. No.38. 33-40 (1995)
[文献書誌] Hiroki Arimura: "Learning Unions of Tree Patterns Using Queries" Proc.the 6th International Workshop on Algorithmic Learning Theory (Lecture Notes in Artificial Intelligence 997,Springer-Verlag). 997. 66-79 (1995)

1995 年度 実績報告書

情報圧縮によるテキストデータベースの高速化

研究代表者

篠原 武 九州工業大学, 情報工学部, 教授 (60154225)

研究成果

[文献書誌] 宮崎哲司: "圧縮された日本語テキストのためのパターン照合機械の設計" 情報処理学会第51回全国大会講演論文集. 4. 239-240 (1995)

[文献書誌] 深町修一: "文字列パターン照合のための損失のあるデータ圧縮" 電子情報通信学会技術研究報告. 95. 41-48 (1995)

[文献書誌] 篠原 武: "複数文字列パターンによる正例からのタンパク質モチーフの発見" 1995年度人工知能学会全国大会(第9回)講演論文集. 93-96 (1995)

[文献書誌] 有村博紀: "木パターン言語の和の質問による学習" 1995年度人工知能学会全国大会(第9回)講演論文集. 73-76 (1995)

[文献書誌] 山口美千代: "複数文字列パターンによるアミノ酸配列からのタンパク質モティーフの発見" 情報処理学会研究報告,情報学基礎. No.38. 33-40 (1995)

[文献書誌] Hiroki Arimura: "Learning Unions of Tree Patterns Using Queries" Proc.the 6th International Workshop on Algorithmic Learning Theory (Lecture Notes in Artificial Intelligence 997,Springer-Verlag). 997. 66-79 (1995)

1995 年度実績報告書

篠原武九州工業大学, 情報工学部, 教授 (60154225)

[文献書誌] 篠原武: "複数文字列パターンによる正例からのタンパク質モチーフの発見" 1995年度人工知能学会全国大会(第9回)講演論文集. 93-96 (1995)