2002 Fiscal Year Annual Research Report
Project/Area Number |
13780303
|
Research Institution | Tsuda College |
Principal Investigator |
白倉 悟子 津田塾大学, 学芸学部, 助手 (70333052)
|
Keywords | デジタル・ドキュメント / ツールキット / 支援システム / XML / テキスト分析 / テキスト解析 / 文書処理 / 自然言語処理 |
Research Abstract |
今年度は以下の作業を行った。 1.ツールキットの基本設計および実装設計 前年度の調査をもとに、ツールキットの設計を行った。設計にあたって留意した点は以下の通りである。 ・対象とする文書の基本形式はプレーンテキストおよびXML形式とした。 ・プレーンテキストについては形態素解析を行ってXML形式に変換し、分析が行えるようにした。 ・形態解析プログラムとして「茶筅」を採用した。 ・XMLのタグを分析時の操作対象として利用できるようにした。 典型的な分析を行うために適するタグ属性を洗い出し、あらかじめ用意した。本ツールキットを用いて形態素解析を行うとこれらのタグが挿入されたXML形式となる。さらにユーザ側でも操作対象としたいタグ名や属性値を自由に設定追加できるようにした ・分析対象単位(データ単位)の設定を行えるようにした。 タグを利用することで、単語、フレーズ、部分文字列、文、段落等を分析対象単位として自由に設定できる。さらに、ユーザが設定したタグで示される特定範囲も対象にできる。 ・提供される最低限の機能として、多変量解析の各種マクロ関数、平均、ヒストグラム算出、tf、idf値の計算等がある。さらにユーザが定義した関数やプラグインを組み込んで拡張できるようにした。 2、ツールキットのコーディング 設計をもとにコーディング作業を行った。現在プラグインを組み込む部分が未実装である。
|