1997 Fiscal Year Annual Research Report
Project/Area Number |
07558159
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
篠原 武 九州工業大学, 情報工学部, 教授 (60154225)
|
Co-Investigator(Kenkyū-buntansha) |
深町 修一 九州工業大学, 情報工学部, 助手 (30274559)
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
石坂 裕毅 九州工業大学, 情報工学部, 助教授 (70260726)
|
Keywords | 情報検索 / 逐次パターン照合 / 情報圧縮 / テキストデータベース |
Research Abstract |
本研究の目的は,情報圧縮による逐次パターン照合処理の高速化技法を確立するとともに,そのテキストデータベースにおける有効性を実証することにある. 逐次処理の遅さの主な原因として,データの転送コストが考えられる.このコストを軽減するためには,情報圧縮の技術を用い,圧縮したデータを復号することなく探索する手法が有効である. 本研究では,テキストデータの標本として, ・遺伝子情報データ ・図書館データ ・英文テキストデータ の3種のものを取り扱うこととしている.平成9年度の研究では,主として英文テキストデータを対象にして,平成7年度および平成9年度に設計したアルゴリズムをさらに改良するための研究を行った.並列化による高速化パターン照合およびBPE符号による圧縮技法に関する研究の結果,つぎのことがわかった. 並列化によるパターン照合の高速化は,テキストを分割し,それぞれを並列に処理することで達成できるが,その際,分割したテキストを個々のプロセッサに配送するコストをできるだけ小さくすることが重要となる.このコストを小さくするために情報圧縮を用いればよいのであるが,ハフマン符号のような可変長符号を用いている場合には,テキストを分割するために,テキストを走査する必要が生じ,この走査は並列化できないという問題がある.BPE符号においては,固定長符号を用いるので、こうした問題を生ずることはなく,また英文テキストであれば,50%程度の高い圧縮率を達成できる.
|
Research Products
(3 results)
-
[Publications] H.Arimura,H.Ishizaka,T.Shinohara: "Learning unions of tree patterns using queries" Theoretical Computer Science(Netherlands). 185. 47-62 (1997)
-
[Publications] 有村博紀,渡木厚,下薗真一: "Maximum agreement problem for word association patterns" 電子情報通信学会コンピュテーション研究会. 92-102 (1997)
-
[Publications] 林,石坂,篠原歩: "局面検索方式将棋棋譜データベースの開発" 平成9年度電気関係学会九州支部連合大会. (1997)