研究概要 |
特許マップ自動作成技術の確立を目指し,本年度は,電子化された特許明細書の入手と蓄積,実験環境の構築,前処理技術の確立,文書処理の予備的実験,特許分類技術におけるいくつかの方式考案と評価を行った. 電子化された特許明細書は,国立情報学研究所のNTCIRプロジェクトにおいて研究向けに配布しており,同プロジェクトのワークショップ(NTCIRワークショップ)に参加者として登録することによって,入手可能である.同ワークショップに参加登録を行い,10年分にわたる特許明細書の電子データの利用許諾を得て,本補助金により構築したサーバ計算機のRAIDディスク装置に当該電子データを蓄積した. 次に,蓄積した特許明細書データを処理するためのソフトウェア環境を整備した.具体的には,OSとしてLinuxを利用し,言語プロセッサper1,形態素解析プログラムchasen,ベクトル空間モデルライブラリGETA等のソフトウェアのインストール,「概念ベース構築プログラムmkCB」の開発を行い,特許明細書をベクトル空間にマッピングしてクラスタ化するまでに必要となるソフトウェアツール類を整備した. 当初蓄積したデータは,本研究においては不要となるタグ等が多く含まれており,そのままでは後の処理において扱いにくいため,前述のソフトウェアツール類を利用して形式変換するプログラムの開発を行い,すべての特許明細書データに形式の変換を施し,中間形式として保存した.これと並行して文書処理技術についての予備的実験として,質問応答システムの試作を行った. 上記の試作によって得られた知見を活用し,特許をクラスタ化するためのいくつかの方式を考案して実装し,前述した中間形式のデータを用いて評価した.今年度研究した範囲では,一応のクラスタ化は可能であるが,精度は未だ満足できるものではないため,来年度は精度をより高める研究を行う予定である.
|