2001 Fiscal Year Annual Research Report
Project/Area Number |
13780303
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | Tsuda College |
Principal Investigator |
白倉 悟子 津田塾大学, 学芸学部, 助手 (70333052)
|
Keywords | デジタル・ドキュメント / ツールキット / 支援システム / XML / テキスト文析 / テキスト解析 / 文書処理 / 自然言語処理 |
Research Abstract |
今年度は,以下の作業を行った。 1.デジタル・ドキュメントの形式や分析手法の動向についての調査 2.ツールキットを用いて分析をおこなう場合に必要になる機能の検討 前者の調査によって,ツールキットが扱う文書に求められる形式としては, 1.情報の内容や構造,意味が記述できる 2.利用者の使用目的に合せた設定ができる 3.特定のソフトによらず中身を閲覧することができる 4.各種媒体の特性に合わせた情報からの変換が自動的にできる 5.情報加工を自動的に行える などの条件を満たす必要があることを確認した。 このために,ツールキットが扱う文書の基本形式として,テキスト形式であるXMLを採用することとした。XML文書は,DTDを作成することで,利用者が自由に意味づけをしたり,構造化したりすることができるのが特徴である。 また,後者によって,ツールキットの機能を有効に活用するために, 1.文,単語,フレーズ,段落,部分文字列など,分析データの基本単位を利用者が自由に設定できる 2.XMLのタグの意味や属性に基づいた分析ができる などの条件を満たすことの重要性を確認した。 この点を踏まえ,来年度は,データマイニングに採用されている手法,多変量解析,N-gram,tf・idf,利用者が定義した数式などを扱えるようにツールキットを設計し,コーディングを行う予定である。
|