2012 Fiscal Year Research-status Report
文書構造レベルの統計モデルを用いた特許公報管理支援システムの構築
Project/Area Number |
24500121
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Iwate Prefectural University |
Principal Investigator |
槫松 理樹 岩手県立大学, ソフトウェア情報学部, 准教授 (00305286)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 類似文書検索 / 重要文抽出 / 特許情報処理 / 自然言語処理 |
Research Abstract |
特許の内容把握において,その特許の内容を特徴づける重要文の抽出は有意義である.重要文を提示するだけでも,特許業務にかかる人の負担を軽減することが期待できる.本研究では,(1)人手による重要部分抽出,(2)重要部分を含む文を抜き出し,N-gramの抽出,(3)抽出したN-gramを用いたフィルタ作成,(4)重要文抽出機能の評価の順番で処理を行った。評価は実務者が行い、抽出した1025文中766文(約75%)が有用と評価された.また,こちらが提案したものと異なるフィルタの提案を受けた.この結果から,本機能は有用である可能性が示された.フィルタにより上記機能の有用性が変わること,および人手で行うのは負荷が高いと考えられることから,今後は,フィルタ構築支援機能の開発を行う必要がある. クラメールの連関係数に基づく文書類似度計算方法を提案した.これに対し,従来手法との比較検証を行った.主な内容としては,利用する語句の切り出し方法として,形態素解析の他,N-gram,辞書にある語句との最長一致,文字種区切りの4つの方法を用い,文書間の類似度計算には,クラメールの連関係数のほか,文書ベクトルによる方法も用いた.また,重要文として抽出した文書のみを用いる場合,重要文以外を用いる場合,両方を用いる場合についても考慮した.これらの組み合わせにより文書類似度を,同一の文書集合に対して算出し,実務者側で行った人の評価と比較した.人による評価は,文書を4段階でランク付けし,各ランクの類似度の平均の変動を調べた.傾向として良い結果となったのは,全文から得た形態素と文書ベクトルとの組合せ,全文から得た2-gramと文書ベクトルとの組み合わせであった.クラメールに対しては,類似度の照合結果が偏りやすいことが示された.そのため,クラメールの連関係数を用いるのは,相違度で利用するなど再度の検証が必要である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成24年度においては,(1)特許文書処理に関する知識の収集,(2)処理アルゴリズムの設計,(3)アルゴリズムの実装,(4)特許公報の収集を軸に研究を進めた. (1)特許文書処理に関する知識の収集については,研究協力者の実務家との議論を通し,特許処理における観点や進め方の知識の収集を行った.また特許処理の事例の提供を受け,それらをN-gramなどを用いて解析することで,特許処理に関する知見を得た.さらに特許処理にかかる文献調査を行った.(2)処理アルゴリズムの設計および(3)アルゴリズムの実装に対しては,(1)で得た知見を用いた重要文抽出手法を構築するほか,クラメールの連関係数に基づく文書類似度計算方法を設計した.これらの内容を基にしたツールのプロトタイプシステムを構築した.このシステムについては,研究者本人の他,研究協力者による評価も受けている.(4)特許公報の収集については,研究協力者からの提供を受け,現時点では600を超える特許を収集することができた. 上記の成果の一部については,学会発表を行った.また,これらの研究成果をとおし,新たな課題を見出すこともできている. 以上のことを鑑み、おおむね順調に進展していると評価する。
|
Strategy for Future Research Activity |
平成24年度までに検討してきた手法およびシステムの評価を継続実施する.平成25年度も,平成24年度同様に特許実務者の研究協力を継続することが決まったことから,研究体制は継続とする. 今後の課題の一つ目としては,平成24年度に提案したクラメールの連関係数に代わる新しい手法の提案があげられる.基本的には文書ベクトルによる類似度を軸に,一定の評価を得た重要文抽出手法と組合せることで,精度,計算量ともに向上を図る. 二つ目としては,特許文書比較において,課題と手段が重要であり,これらをラベル付けすることに意味があることが平成24年度の実務家との討論で知見として得ることができた.この点に着目し,過去の事例を利用することで,この点を支援する手法の検討を行う. 三つ目としては,これらの評価である.実務者との打ち合わせを定期的に行い,手法やシステムの評価を随時行う.この評価を分析し,システム,手法に反映する.このPDCAサイクルを回すことで,手法やシステムの性能の向上を図る. 四つ目としては,引き続き特許公報の収集および特許情報処理にかかる技術の収集も継続する. またこれらの成果については随時学会などで発表を行う.発表を通して,意見交換,情報収集を図る.
|
Expenditure Plans for the Next FY Research Funding |
平成24年度においては,参加できなかった研究会などがあり,次年度使用額が発生している.これについては,元々予定していた予算に組み込み利用する.内容としては,以下の通りである. 初めに,旅費および学会などへの参加費として活用する.旅費としては,学会発表を行うための旅費のほか,特許に関するシンポジウムなどへの参加を行う.それらの参加費やそこで購入することができる資料の購入代に用いる. 二つ目として,平成24年度にはあまり時間が取れなかった特許処理結果の細かい内容の評価や必要な特許公報などの情報収集,さらには実務者から提供される資料の電子化などを行う.これらの作業は定型業務であるため,学生や知人を雇用することとし,その謝金となる人件費として用いる. その他としては,資料としての図書として利用する他,USBメモリやDVD-Rなどのメディアなどの消耗品として利用する.また,研究内容を考慮すれば,産業フェアなどへの出展も有用であると考える.それらの参加費や物品の輸送代金などにも用いる. さらに現在の研究協力者以外にもシステムの評価を依頼することを検討し,そのための費用を研究費からねん出する.
|
Research Products
(2 results)