• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2001 Fiscal Year Annual Research Report

テキスト分析のためのツールキットの開発

Research Project

Project/Area Number 13780303
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Research InstitutionTsuda College

Principal Investigator

白倉 悟子  津田塾大学, 学芸学部, 助手 (70333052)

Keywordsデジタル・ドキュメント / ツールキット / 支援システム / XML / テキスト文析 / テキスト解析 / 文書処理 / 自然言語処理
Research Abstract

今年度は,以下の作業を行った。
1.デジタル・ドキュメントの形式や分析手法の動向についての調査
2.ツールキットを用いて分析をおこなう場合に必要になる機能の検討
前者の調査によって,ツールキットが扱う文書に求められる形式としては,
1.情報の内容や構造,意味が記述できる
2.利用者の使用目的に合せた設定ができる
3.特定のソフトによらず中身を閲覧することができる
4.各種媒体の特性に合わせた情報からの変換が自動的にできる
5.情報加工を自動的に行える
などの条件を満たす必要があることを確認した。
このために,ツールキットが扱う文書の基本形式として,テキスト形式であるXMLを採用することとした。XML文書は,DTDを作成することで,利用者が自由に意味づけをしたり,構造化したりすることができるのが特徴である。
また,後者によって,ツールキットの機能を有効に活用するために,
1.文,単語,フレーズ,段落,部分文字列など,分析データの基本単位を利用者が自由に設定できる
2.XMLのタグの意味や属性に基づいた分析ができる
などの条件を満たすことの重要性を確認した。
この点を踏まえ,来年度は,データマイニングに採用されている手法,多変量解析,N-gram,tf・idf,利用者が定義した数式などを扱えるようにツールキットを設計し,コーディングを行う予定である。

URL: 

Published: 2003-04-03   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi