本研究では、ナノ結晶デバイス開発論文からの情報抽出を中心に研究を行っている。本年度は、これまでに行ってきた研究成果をよりブラッシュアップして、論文中の抽出すべき情報をタグ付けしたコーパスNaDev Corpusの作成に関する論文、このコーパスを用いた機械学習の枠組みにより、未知の論文からの情報抽出を行う自動情報抽出作成システムNaDevに関する論文、上記のシステムに関連した化学物質名の抽出に関する論文という3編の論文として発表した。特に、NaDevの論文については、昨年度に参加した米国のNanoiformaticsの研究グループが編纂したNanoiformaticsの特集号の中の1編として採録され、我々の研究がコミュニティに認知されたことを示していると考えている。また、作成したコーパスについては、本プロジェクトのWebページから問い合わせてもらうことにより、公開するという形での公開を行っている。 本年度の新たな研究成果としては、上記のコーパスが、特定の研究室の研究論文の論文全文を利用したものであるためバリエーションが少ないという問題点を解決するために、100編程度のアブストラクトを利用したよりバリエーションを含むデータに対するコーパスの作成を行っている。また、自動抽出システムNaDevの応用事例として、論文中のキャプションを対象として、関連するメタデータを用いた論文中の画像の分析システムを提案し、プロトタイプシステムを作成した。このシステムでは、従来のコーパスが扱っていた課題よりも広い課題を扱うことから、その情報抽出の再現率・精度にやや問題があるものの、単純な図表検索だけではなく、関連する材料名や他のパラメータといったメタデータを利用した絞り込み検索の支援が可能であり、これまでの図表検索システムとは違った分析が可能となっている。 今後は、NaDevの性能向上をはかると共に、システムのブラッシュアップを行っていく予定である。
|