• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

テキスト分析のためのツールキットの開発

Research Project

Project/Area Number 13780303
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionTsuda College

Principal Investigator

白倉 悟子  津田塾大学, 学芸学部, 助手 (70333052)

Project Period (FY) 2001 – 2002
Project Status Completed (Fiscal Year 2002)
Budget Amount *help
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2002: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2001: ¥500,000 (Direct Cost: ¥500,000)
Keywordsデジタル・ドキュメント / ツールキット / 支援システム / XML / テキスト分析 / テキスト解析 / 文書処理 / 自然言語処理 / テキスト文析
Research Abstract

今年度は以下の作業を行った。
1.ツールキットの基本設計および実装設計
前年度の調査をもとに、ツールキットの設計を行った。設計にあたって留意した点は以下の通りである。
・対象とする文書の基本形式はプレーンテキストおよびXML形式とした。
・プレーンテキストについては形態素解析を行ってXML形式に変換し、分析が行えるようにした。
・形態解析プログラムとして「茶筅」を採用した。
・XMLのタグを分析時の操作対象として利用できるようにした。
典型的な分析を行うために適するタグ属性を洗い出し、あらかじめ用意した。本ツールキットを用いて形態素解析を行うとこれらのタグが挿入されたXML形式となる。さらにユーザ側でも操作対象としたいタグ名や属性値を自由に設定追加できるようにした
・分析対象単位(データ単位)の設定を行えるようにした。
タグを利用することで、単語、フレーズ、部分文字列、文、段落等を分析対象単位として自由に設定できる。さらに、ユーザが設定したタグで示される特定範囲も対象にできる。
・提供される最低限の機能として、多変量解析の各種マクロ関数、平均、ヒストグラム算出、tf、idf値の計算等がある。さらにユーザが定義した関数やプラグインを組み込んで拡張できるようにした。
2、ツールキットのコーディング
設計をもとにコーディング作業を行った。現在プラグインを組み込む部分が未実装である。

Report

(2 results)
  • 2002 Annual Research Report
  • 2001 Annual Research Report

URL: 

Published: 2001-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi