研究課題/領域番号 |
21K01486
|
研究機関 | 新潟県立大学 |
研究代表者 |
田村 龍一 新潟県立大学, 国際経済学部, 准教授 (50546421)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | イノベーション / 特許情報 / テキストマイニング |
研究実績の概要 |
令和4年度は、初年度に作成した日本語・英語による特許文書全文データベース、及び特許発明人の住所情報をジオコーディングした発明者立地データベースをもとに、具体的なモデルの構築を試みた。 まず、特許文書全文データベースであるが、ひとつの文書につき、各パラグラフが品詞単位で標準化された状態で保存されている。これらの文書中における文脈を分析可能な形で把握するために係り受け処理を実施し、さらに計算処理におけるメモリ効率性を考慮して、係り受け構造を構成する各単語に整数のIDを振り、このIDをノード、係り受けをエッジとする小さなネットワーク(ネットワーク研究で「edgelist」と呼ばれるフォーマット)を作成する。これによって、文書中の各文がこのネットワーク1つで表現され、新規アイディアが記述される文脈展開の類似性を、まずはひとつの文単位で把握しようと試みたのである。ここに至って困難な点が2点指摘された。ひとつには、文中に代名詞がある場合、この代名詞の指す内容をプログラミング的に同定するためのアルゴリズムを構築する際、代名詞の指す実体が含まれる文を遡って検知するためには複数の「1文ネットワーク」の関係性を考慮する必要があるが、この目的のためのアルゴリズム構築はいまだβテスト段階であり、特許文書をランダムに選びアルゴリズムを適用し、分析に十分な精度をもって代名詞を処理であるかを確認する作業をいまだ継続している。ふたつには、一文を表現する小さなedgelistネットワークに対してこのような処理を行う際に想定以上の検索量があり、初年度購入したワークステーションのメモリを超えてしまうことが頻出したということである。
そこで、文書全体を対象とするのではなく、あらかじめ特許文書のハイライトが高く含まれるような箇所を同定し、その部分のみを検索の対処とする最適化した方法を開発している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
特許文書から、特許の具体的内容のみを取り出すテキストマイニング処理が遅れている。
特許文書は、簡潔な文章で各段落も相当程度構造化されているが、完成したテキストマイニングプログラムを使ってランダムに選んだ特許文書データを処理して人間によってチェックを行うと、必ず取りこぼしがある。処理量が莫大なため、テキストマイニング処理においては上述のように係り受けをエッジ、単語をノードとするネットワークを文単位で作成しているが、この構造の見直しが必要かもしれない。いずれにしても、特許文書を完全にカバーするというよりも分析目的のために妥協できる処理手続きを確定させる必要がある。
|
今後の研究の推進方策 |
最終年度においては、発明の内容を表すキーワードと、発明の新規性を際立たせるための特許全文中の表現に関する上述の「文ネットワーク」をベースとして、各特許間の距離を測定するためのモデルを継続して構築し、これと地理間距離、共著関係から得られる人的ネットワーク距離という3つの座標から各特許を位置付ける分析を完遂させ、研究成果をまとめる予定である。
|
次年度使用額が生じた理由 |
今年度は研究成果を暫定的にもとりまとめることができず、よって主要使途としていた国際ジャーナルに投稿することができなかった。そこで、差引金額については最終年度の旅費や英文ジャーナル投稿の際のプ ルーフリーディングに使用する予定である。
|