Project/Area Number |
21K01486
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 07040:Economic policy-related
|
Research Institution | University of Niigata Prefecture |
Principal Investigator |
田村 龍一 新潟県立大学, 国際経済学部, 准教授 (50546421)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2022: ¥130,000 (Direct Cost: ¥100,000、Indirect Cost: ¥30,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | イノベーション / 特許情報 / テキストマイニング / 集積 / 知識の伝播 / 知識間距離 |
Outline of Research at the Start |
イノベーション創造につながる新知識の波及過程を、距離の概念を用いて明らかにする研究である。既存研究の成果と残されている課題のもと、研究者の社会的距離、知識のフローの物理的距離、新知識間の文書間距離という3つの距離からなる「知識空間」を定義し、特に特許申請というイノベーション創出過程における世界的な知識の伝播フロー構造をこの知識空間の中で明らかにする。 そして3つの距離それぞれの観点から不利な状況にある研究者が、イノベーション生産性を向上させるための具体的方策を提案する。
|
Outline of Annual Research Achievements |
令和4年度は、初年度に作成した日本語・英語による特許文書全文データベース、及び特許発明人の住所情報をジオコーディングした発明者立地データベースをもとに、具体的なモデルの構築を試みた。 まず、特許文書全文データベースであるが、ひとつの文書につき、各パラグラフが品詞単位で標準化された状態で保存されている。これらの文書中における文脈を分析可能な形で把握するために係り受け処理を実施し、さらに計算処理におけるメモリ効率性を考慮して、係り受け構造を構成する各単語に整数のIDを振り、このIDをノード、係り受けをエッジとする小さなネットワーク(ネットワーク研究で「edgelist」と呼ばれるフォーマット)を作成する。これによって、文書中の各文がこのネットワーク1つで表現され、新規アイディアが記述される文脈展開の類似性を、まずはひとつの文単位で把握しようと試みたのである。ここに至って困難な点が2点指摘された。ひとつには、文中に代名詞がある場合、この代名詞の指す内容をプログラミング的に同定するためのアルゴリズムを構築する際、代名詞の指す実体が含まれる文を遡って検知するためには複数の「1文ネットワーク」の関係性を考慮する必要があるが、この目的のためのアルゴリズム構築はいまだβテスト段階であり、特許文書をランダムに選びアルゴリズムを適用し、分析に十分な精度をもって代名詞を処理であるかを確認する作業をいまだ継続している。ふたつには、一文を表現する小さなedgelistネットワークに対してこのような処理を行う際に想定以上の検索量があり、初年度購入したワークステーションのメモリを超えてしまうことが頻出したということである。
そこで、文書全体を対象とするのではなく、あらかじめ特許文書のハイライトが高く含まれるような箇所を同定し、その部分のみを検索の対処とする最適化した方法を開発している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
特許文書から、特許の具体的内容のみを取り出すテキストマイニング処理が遅れている。
特許文書は、簡潔な文章で各段落も相当程度構造化されているが、完成したテキストマイニングプログラムを使ってランダムに選んだ特許文書データを処理して人間によってチェックを行うと、必ず取りこぼしがある。処理量が莫大なため、テキストマイニング処理においては上述のように係り受けをエッジ、単語をノードとするネットワークを文単位で作成しているが、この構造の見直しが必要かもしれない。いずれにしても、特許文書を完全にカバーするというよりも分析目的のために妥協できる処理手続きを確定させる必要がある。
|
Strategy for Future Research Activity |
最終年度においては、発明の内容を表すキーワードと、発明の新規性を際立たせるための特許全文中の表現に関する上述の「文ネットワーク」をベースとして、各特許間の距離を測定するためのモデルを継続して構築し、これと地理間距離、共著関係から得られる人的ネットワーク距離という3つの座標から各特許を位置付ける分析を完遂させ、研究成果をまとめる予定である。
|