• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

知識の距離構造を用いたイノベーション生産性促進方策に関する研究

研究課題

研究課題/領域番号 21K01486
研究機関新潟県立大学

研究代表者

田村 龍一  新潟県立大学, 国際経済学部, 准教授 (50546421)

研究期間 (年度) 2021-04-01 – 2024-03-31
キーワードイノベーション / 集積 / 特許情報 / テキストマイニング
研究実績の概要

初年度は2年度以降の統計分析における主要データとなる、日本語・英語による特許文書全文データベースを構築すること、さらには、主に特許発明人の住所情報を地理情報システムによる分析を行うためのジオコーディングの作業を行うことに重点が置かれた。
まず、日本特許文献データからテキスト情報を収集する作業では、当初予定していたPDFによるテキスト抽出はさまざまな技術を試した結果、PDF形式からテキスト情報を高い精度で得ることが困難であることが判明した。そのため方針を変更し、特許庁が公開している構造化フォーマット(XML, SGML)による公報データを収集することとした。本データは「特許庁インターネット利用による公報発行サイト」からダウンロードすることが可能である。本データはコンピュータ処理に最適化された形式となっているので、特許の内容を表すテキストのみを抽出することが可能である。抽出された特許テキストはさらにPython及び日本語テキスト処理ライブラリを用いて品詞ごとに分解され、品詞の活用形を可能な限り標準化した状態で保存された。このようにして2021年に特許庁が公開した特許公報文書の全文データベースを構築した。
USPTO(The United State Patent and Trademark Office)からの英文特許文献の収集はすでに収集済みのデータに新しい特許文書を追加するのみである。しかし、日本語特許文書と同一の全文データベースの中で扱うために、文書を構成する文を品詞ごとに分解した形式に変換している。
作成した全文データベースに含まれる発明人の住所情報のジオコーディング、既存のGIS地図ネットワークの特定のノードに寄せる作業は、過去の研究にて開発済みのPythonライブラリがあるので、それを再利用し、地理距離(経路距離)を容易に計算できるための事前処理を施した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

初年度は特許文献を、後続する数理モデルで分析するために必要なデータベースに変換すること、地理情報システム(GIS)で物理的距離を行うための事前処理などを行なったが、これらは自身の過去の研究において開発してきたPythonライブラリを修正したもので対応することができた。

今後の研究の推進方策

発明の内容を表すキーワードと、発明の新規性を際立たせるための特許全文中の表現を同定するための分析手法を開発することが、現在取り組んでいるサブ研究テーマであり、今年度はこの点を解決した「文書間距離測定」モデルを構築し、初年度構築した全文データベースから技術の類似度(距離)と発明の生まれた場所の物理的地理的距離の関係を明らかにする予定である。ただし、一部の化学特許においては、化学式や分子式の構造に発明のクレイムが対応していることがある。これらを含めた化学特許間の内容の類似度の測定は専用の方法を考える必要があるように思われる。

次年度使用額が生じた理由

初年度購入するワークステーションが当初予算を下回る金額で購入できたことが理由であり、差引金額について次年度以降の旅費や英文ジャーナル投稿の際のプルーフリーディングに使用する予定である。

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi