研究課題/領域番号 |
60460228
|
研究種目 |
一般研究(B)
|
配分区分 | 補助金 |
研究分野 |
情報学
|
研究機関 | 九州大学 |
研究代表者 |
牛島 和夫 九大, 工学部, 教授 (40037750)
|
研究分担者 |
高木 利久 九州大学, 工学部, 助手 (30110836)
末吉 敏則 九州大学, 大学院総合理工学研究科, 助教授 (00117136)
荒木 啓二郎 九州大学, 工学部, 助教授 (40117057)
藤村 直美 九州大学, 情報処理教育センター, 助教授 (40117239)
|
研究期間 (年度) |
1985 – 1986
|
研究課題ステータス |
完了 (1986年度)
|
配分額 *注記 |
5,600千円 (直接経費: 5,600千円)
1986年度: 1,900千円 (直接経費: 1,900千円)
1985年度: 3,700千円 (直接経費: 3,700千円)
|
キーワード | 日本後テキスト処理 / 正規日本語テキスト / 文字列照合 / Boyer-Mooreアルゴリズム / ソフトウェア開発環境 / Adaのパッケージ機能 / エラーメッセージの日本語化 |
研究概要 |
1.日本語テキストは従来の英数文字(1バイト)と日本語文字(2バイト)とが混在する。この研究を始めるに当って混在コードの処理を容易に行うために、正規化日本語テキストを設定した。これは英数文字の前に1バイトのパッディングを加え各文字の長さを2バイトに正規化したものである。 2.この日本語テキストに英文テキストの上で有効性の確認されている幾つかの文字列照合アルゴリズムを適用してその効率を比較した。その結果、英文テキスト上で最も効率がよいとして知られているBoyer-Moore法が字種の多い日本語テキストでは反って効率が落ちることが分った。検索に用いる字種の大きさの表を階層的に構成することによって本来の効率を復活出来ることを示した。さらに日本語テキストを1バイトコードの列と見做して文字列照合を行う。Boyer-Moore法を適用するのが最も効率がよい。この際、ずれ読みを検出するためにテキストの正規化が本質的であることを明らかにした。 3.上記の研究成果を包含して、元来日本語文字の扱いが不可能なプログラミング言語Adaに日本語テキスト処理を可能とするパッケージを構築した。正規化日本語テキストの上に開発されたアルゴリズムをAdaのパッケージとして纒める際に2バイト文字を2要素からなるレコードに対応させている。このパッケージの環境のもとで日本語処理プログラミングを自然に行うことができるようになった。 4.上のように整備したプログラミング環境のもとで応用として日本語文章推敲支援ツールのプロトタイプを作成した。これは機械可読の日本語文章を字面だけで解析して推敲に必要な個所を指摘しようというツールである。 5.九州大学情報処理教育センターにおいてプログラミング入門の講議を受けている学生を対象に日本語化したエラーメッセージの効果と利用状況について調査を行った。
|