2021 Fiscal Year Research-status Report
A study on innovative productivity enhancement policies using a distance structure of knowledge
Project/Area Number |
21K01486
|
Research Institution | University of Niigata Prefecture |
Principal Investigator |
田村 龍一 新潟県立大学, 国際経済学部, 准教授 (50546421)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | イノベーション / 集積 / 特許情報 / テキストマイニング |
Outline of Annual Research Achievements |
初年度は2年度以降の統計分析における主要データとなる、日本語・英語による特許文書全文データベースを構築すること、さらには、主に特許発明人の住所情報を地理情報システムによる分析を行うためのジオコーディングの作業を行うことに重点が置かれた。 まず、日本特許文献データからテキスト情報を収集する作業では、当初予定していたPDFによるテキスト抽出はさまざまな技術を試した結果、PDF形式からテキスト情報を高い精度で得ることが困難であることが判明した。そのため方針を変更し、特許庁が公開している構造化フォーマット(XML, SGML)による公報データを収集することとした。本データは「特許庁インターネット利用による公報発行サイト」からダウンロードすることが可能である。本データはコンピュータ処理に最適化された形式となっているので、特許の内容を表すテキストのみを抽出することが可能である。抽出された特許テキストはさらにPython及び日本語テキスト処理ライブラリを用いて品詞ごとに分解され、品詞の活用形を可能な限り標準化した状態で保存された。このようにして2021年に特許庁が公開した特許公報文書の全文データベースを構築した。 USPTO(The United State Patent and Trademark Office)からの英文特許文献の収集はすでに収集済みのデータに新しい特許文書を追加するのみである。しかし、日本語特許文書と同一の全文データベースの中で扱うために、文書を構成する文を品詞ごとに分解した形式に変換している。 作成した全文データベースに含まれる発明人の住所情報のジオコーディング、既存のGIS地図ネットワークの特定のノードに寄せる作業は、過去の研究にて開発済みのPythonライブラリがあるので、それを再利用し、地理距離(経路距離)を容易に計算できるための事前処理を施した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度は特許文献を、後続する数理モデルで分析するために必要なデータベースに変換すること、地理情報システム(GIS)で物理的距離を行うための事前処理などを行なったが、これらは自身の過去の研究において開発してきたPythonライブラリを修正したもので対応することができた。
|
Strategy for Future Research Activity |
発明の内容を表すキーワードと、発明の新規性を際立たせるための特許全文中の表現を同定するための分析手法を開発することが、現在取り組んでいるサブ研究テーマであり、今年度はこの点を解決した「文書間距離測定」モデルを構築し、初年度構築した全文データベースから技術の類似度(距離)と発明の生まれた場所の物理的地理的距離の関係を明らかにする予定である。ただし、一部の化学特許においては、化学式や分子式の構造に発明のクレイムが対応していることがある。これらを含めた化学特許間の内容の類似度の測定は専用の方法を考える必要があるように思われる。
|
Causes of Carryover |
初年度購入するワークステーションが当初予算を下回る金額で購入できたことが理由であり、差引金額について次年度以降の旅費や英文ジャーナル投稿の際のプルーフリーディングに使用する予定である。
|