研究課題/領域番号 |
24700137
|
研究種目 |
若手研究(B)
|
研究機関 | 東京大学 |
研究代表者 |
森 純一郎 東京大学, 総括プロジェクト機構, 講師 (30508924)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
キーワード | 構造的関連性学習 / 学術情報 / テキストマイニング / 計量書誌分析 |
研究概要 |
本研究では、論文、特許、ウェブといった膨大な学術情報を横断的に関連づけることより近年爆発的に増加している大規模学術情報の検索基盤を確立することを目的とする。そのために、構造的関連性学習を用いて、論文と特許といった大規模学術情報の関連づけ(リンケージ)について研究を行う。 上記目的の達成のために、平成24年度は、まず研究項目「大規模な異種学術情報の収集と特徴抽出手法の設計と実装」 について、論文データベースのWeb of Scienceを対象に数百万規模の論文情報の収集を行った。また、特許データベースのThomson Innovationを対象に、数十万規模の特許情報の収集を行った。あわせて、収集を行ったこれらの大規模な学術・技術テキストデータの効率的な蓄積についてデータベースの設計を行った。 研究項目「構造的関連性学習により学術情報の文書を高次概念空間へ写像する手法の設計と実装」について、 収集した大規模な学術・技術テキストデータを分析し、分野・階層横断的に使用される「概念語」の抽出を行うための、重み付け手法の研究開発を行った。また、概念語とその他の語の関連性のモデルを構築するため、テキスト中の語群から概念語の出現を予測するような大規模な線形分類器の学習を行った。さらに、学習により得られた線形分類器の重み行列の次元を削減することで、任意の文書ベクトルを高次の抽象的な「概念」の空間に写像する関数の設計を行った。 研究項目「高次概念空間において文書間の関連性を計算する手法の設計と実装」について、写像関数を用いた概念空間上で、文書間の類似尺度の設計を行った。設計した類似尺度を複数の領域に適用し妥当性を検証するとともに、論文群と特許群の関連性を可視化するツールを作成し、その成果を複数の学会において発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、論文、特許、ウェブといった膨大な学術情報を横断的に関連づけることより近年爆発的に増加している大規模学術情報の検索基盤を確立することを目的とする。そのために、構造的関連性学習を用いて、論文と特許を中心とした大規模学術情報の関連づけ(リンケージ)について研究を行う。これにより、異なる学術情報のテキストを関連づける教師なしの機械学習手法について明らかにする。さらに、異なる学術情報の関連する文書を検索して提示するシステムを構築し、従来の学術情報検索サービスと連携した実証実験を通じて、異種学術情報を横断した文書検索手法について明らかにする。 平成24年度は大規模な論文および特許データを対象に、「大規模な異種学術情報の収集と特徴抽出手法の設計と実装」、「構造的関連性学習により学術情報の文書を高次概念空間へ写像する手法の設計と実装」、「高次概念空間において文書間の関連性を計算する手法の設計と実装」の各研究項目を進めた。 各研究項目については順調に進展しており、平成24年度は構造的関連性学習を用いた大規模な論文と特許のテキストを関連づけるための基本的な手法の設計と実装を終了した。また、異なる学術情報の関連する文書を検索して提示するシステムについてもプロトタイプとなるシステムの構築を行い、研究は当初計画通り全体として順調に進展している。
|
今後の研究の推進方策 |
平成25年度は、平成24年に設計・実装を行った異種の学術情報の文書間の関連性を計算する技術を元に、学術情報検索シス テムの設計と実装を行う。同システムの入力となるのは、任意の学術情報の文書であり、例えば、ある論文をシ ステムを入力するとその論文に関連する特許情報、企業情報およびウェブ情報を出力として提示する。また、同 機能を提供するAPIの設計と実装も行い。システムが容易に他のシステムと連携可能なようにする。 また、同検索システムにおいて、入力文書に関連する異なる学術情報の文書の一覧を提示際、その検索結果において 複数の学術情報を適切に混在させランキングするための手法の設計と実装を行う。ランキングは基本的には文書 間関連度のスコアに基づくが、後述する実証実験によりユーザのフィードバックを得ることで関連度計算手法お よび検索結果の提示手法の改善を行う。特に検索結果提示手法についてはユーザインタフェースの専門家と協力 する。 さらに、上記により設計・実装を行った異種学術情報検索システムについて平成25年度下半期においてシステムを公開し 実証実験を実施する。実験においては、国立情報学研究所のCiNiiや科学技術振興機構のJ-GLOBALといった既存の学術情報検索システムとも連携 することで、さまざまなユーザを対象に異種学術情報の横断検索機能を提供し、大規模な利用統計情報を蓄積す る。実証実験においては、抽出した概念語の妥当性、線形識別器の精度、文書間の関連度計算の精度、検索結果 提示の妥当性について特に評価を行い、その結果をもとに再度手法およびシステムの改善を行う。本研究の成果 となる異種学術情報検索システムは実証実験後も広く一般に利用可能な形で公開する。
|
次年度の研究費の使用計画 |
平成25年度は、研究費を以下の通り使用する。 物品費として公開システム用のサーバ代。 旅費として成果発表用の国外出張旅費。 人件費・謝金としてシステムの実装補補助および評価実験へ謝金。
|