• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

テキスト分析のためのツールキットの開発

研究課題

研究課題/領域番号 13780303
研究種目

若手研究(B)

配分区分補助金
研究分野 知能情報学
研究機関津田塾大学

研究代表者

白倉 悟子  津田塾大学, 学芸学部, 助手 (70333052)

研究期間 (年度) 2001 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
1,000千円 (直接経費: 1,000千円)
2002年度: 500千円 (直接経費: 500千円)
2001年度: 500千円 (直接経費: 500千円)
キーワードデジタル・ドキュメント / ツールキット / 支援システム / XML / テキスト分析 / テキスト解析 / 文書処理 / 自然言語処理 / テキスト文析
研究概要

今年度は以下の作業を行った。
1.ツールキットの基本設計および実装設計
前年度の調査をもとに、ツールキットの設計を行った。設計にあたって留意した点は以下の通りである。
・対象とする文書の基本形式はプレーンテキストおよびXML形式とした。
・プレーンテキストについては形態素解析を行ってXML形式に変換し、分析が行えるようにした。
・形態解析プログラムとして「茶筅」を採用した。
・XMLのタグを分析時の操作対象として利用できるようにした。
典型的な分析を行うために適するタグ属性を洗い出し、あらかじめ用意した。本ツールキットを用いて形態素解析を行うとこれらのタグが挿入されたXML形式となる。さらにユーザ側でも操作対象としたいタグ名や属性値を自由に設定追加できるようにした
・分析対象単位(データ単位)の設定を行えるようにした。
タグを利用することで、単語、フレーズ、部分文字列、文、段落等を分析対象単位として自由に設定できる。さらに、ユーザが設定したタグで示される特定範囲も対象にできる。
・提供される最低限の機能として、多変量解析の各種マクロ関数、平均、ヒストグラム算出、tf、idf値の計算等がある。さらにユーザが定義した関数やプラグインを組み込んで拡張できるようにした。
2、ツールキットのコーディング
設計をもとにコーディング作業を行った。現在プラグインを組み込む部分が未実装である。

報告書

(2件)
  • 2002 実績報告書
  • 2001 実績報告書

URL: 

公開日: 2001-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi