2013 Fiscal Year Research-status Report
文書構造レベルの統計モデルを用いた特許公報管理支援システムの構築
Project/Area Number |
24500121
|
Research Institution | Iwate Prefectural University |
Principal Investigator |
槫松 理樹 岩手県立大学, ソフトウェア情報学部, 准教授 (00305286)
|
Keywords | 特許情報 / 文書類似度 / 文書分類 |
Research Abstract |
平成25年度の一つ目の成果として、文書類似度計算手法の検討があげられる。本研究では、特許中の語句とブロックタグのペアの出現数を要素とする文書ベクトルを作成し、それらの比較を行う手法を検討した。語句としては、形態素、N-Gram、辞書中の語句、文字種区切り、ベクトル間の類似度計算としては、Cos類似度、クラメールの連関係数を用いるパターンを用意し、その有用性を検討した。結果として、N-GramとCos類似度の組み合せの結果が最良であった。 二つ目の成果として、文書分類の基盤技術となりうる決定木手法の向上を検討した。本研究では、決定木手法における子ノード作成時にクラスタリングを併用することで、決定木による分類精度の向上を図ることを試みた。プログラムを用いて作成したデータに基づく評価の結果、従来手法との有意な差は得られなかったが、有用に働く可能性を示すことはできた。 三つ目の成果として、専門家が特許に付与する課題分類、手段分類の推定支援を行う枠組みを検討した。本研究では、すでに課題分類、手段分類が与えられた特許における、語句とブロックタグのペアの出現傾向と、新たな特許の語句とブロックタグのペアの出現傾向を比較することで、課題分類、手段分類の推定を行う。文書間の比較については、一つ目の成果も活用した。研究協力者と連携した評価において、上位10位以内に正答が含まれる確率が6割を超えた。この結果から本手法の有用性を示すことができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでにいくつかの手法を提案、実装し、実証実験による評価を行っている。その過程で、申請段階の予想とは異なる成果が生じたため、手法の再検討および改訂を進めてきている。 評価や検討に関しては、研究協力者と定期的に打ち合わせを行い、システムの開発・評価を進めている。打ち合わせにおいてはシステムを提示し、協力者側の意見を取り入れるとともに、こちらでの評価を報告し意見交換している。また実装したプログラムについても協力者による評価も受けている。またその中で新たな研究課題も派生してきており、それらにも取り組んでいる。 これらの成果に対し、積極的に学会発表を行っており、他の研究者との意見交換も進めている。 以上のことから、全体として、「おおむね順調に進展している。」と評価する
|
Strategy for Future Research Activity |
現在までに得られた知見を基に研究を進めていく。 具体的には、特許からの課題分類、手段分類の推定手法の改善と評価を中心に研究を進める。現在取り組んでいる手法を改善するとともに、これまでに取り組んできた手法を再度見直し、それらを援用することを考える。これに関しては、引き続き、研究協力者と連携して行う。特に評価実験においては、現在よりも広い範囲を対象とするとともに、より多くの専門家、実務者との議論を行い、その結果をフィードバックすることを行う予定である。この作業をスパイラル状に繰り返すことによって、手法の改善を進める。 また平行する形で、既存研究との比較、オープンデータに対する適応実験も実施することを計画している。 さらに研究成果を積極的に学会などで公表していくことで、外部からの評価を得ることを考えている。
|
Research Products
(3 results)