本研究では、日本語文章校正支援ツール「推敲」の技術を援用してインターネット上の膨大な日本語文章を用例データベースとして保存し、夜間の空いた時間に用例を形態素解析しておき、ワープロを利用した日本語学習時において、用例を必要とする場合に類似文検索を行い、用例データベースから「構文的に似た文」を提示するシステムを作成した。 本研究で作成した要素技術は、①インターネットから日本語文を自動的に取得する。②日本語文を高速に形態素解析し、品詞情報を付ける。③単語ごとに出現した文をハッシュ化された早見表に保存する。④例文と用例を類似比較するアルゴリズムとその実装。⑤ワープロ(MS-Word)から機能を呼ぶためのVSTOプログラム。である。 これらの要素技術のうち①については、当初インターネット上のニュースや新聞サイトを想定していたが、著作権の問題(授業で使う場合は問題ないと考えられるが、それ以外の利用に繋がる可能性もあり、また、実験段階であるため、慎重を期した)を考え、作者死亡後50年が経過して著作権が切れた作品のみを収録している青空文庫を対象とした。 ②、④については小規模な実験では上手く行ったが、大規模なデータベースの場合は計算機の能力の問題もあり、一文検索するために10分程度必要とし、実用に供する段階までは実現できなかった。サーバー自体を飛躍的に能力の高いものにすることは実用化においては困難であるため、データベース自体をテーマごとに分けてデータベースの規模を小さくする、あるいは、類似文検索アルゴリズムを改善するなどが必要である。これらは今後の研究課題である。 これらの結果については査読付きのe-Learn学会(AACE主催)において報告し、予稿論文はEditLibデータベースで検索可能となっている。
|