2015 Fiscal Year Research-status Report
会議録を活用した病理学的ファクトデータベースの構築と利用法に関する研究
Project/Area Number |
26540171
|
Research Institution | Nihon University |
Principal Investigator |
中西 陽子 日本大学, 医学部, 助教 (90366592)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | ファクトデータベース / 病理学 / 会議録 / ソーシャルネットワーク |
Outline of Annual Research Achievements |
目的:病理学的検査部門の内容は患者を適切に診断し、治療へと導くための重要度が増している。しかし、専門的情報は内容が多岐にわたる上、更新が早く、多対多の関係を示すため集約困難となっている。そこで、本研究は、学会報告を活用した随時更新可能な病理学的ファクトデータベースを構築し、新しい癌の診断、治療に呼応する病理検査支援のための具体的な二次利用の方法を提案することを目的として、データ源として一過性ではあるが速報性に優れた学会報告の活用を試みるものである。 研究対象は、JSP総会抄録集であるJSP会誌第89巻(2000)から第102巻(2013)に掲載されている抄録計約19,700件より、比較的安定した発表数で推移している乳癌研究とした。 方法:本年度は、これまでに電子化した274件の抄録のテキスト解析を行った。言語解析の精度や効率に関する1年目の検討結果を踏まえて、今年度の解析では、MeCabを基本としたソーシャルメディア解析ツールであるSocial Insghit (ユーザーローカル) を導入し、解析を行った。 結果と考察:今回対象とした、日本病理学会での乳癌に関する発表抄録数は一年平均で34.3件、これらより抽出された単語数は、平均約5,020語、1抄録当たり約146語であった。これらの用語の関係をワードクラウドで解析すると、各年度の学会で注目度の高かった解析方法や解析の目的が浮き出され、傾向の年次変化が視覚的に示された。また、共起ネットワークによる解析では、頻度の高い用語間の関係が視覚的に見出された。しかし、実際の病理学的検査方法は多岐にわたるため、より具体的な用語は、全体における出現頻度が低くなり相互関係の解析が困難となっていることも示された。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究では、データ源として一過性ではあるが速報性に優れた学会報告の活用を試みるため学会抄録のテキスト解析を計画していた。しかし現在、日本病理学会 (JSP) 抄録集はデータベース化されておらず、まず冊子体のテキスト化から検索および解析可能なデータ源とすることが必要であった。JSP会誌は約600頁から成り、1頁に6抄録が掲載され文字も2.5mm送りと細かい上、図書館より裁断許可が得られなかったため、テキスト化方法の検討が必要となった。また、本研究ではファクトデータベースのデータとしての各ワードの重要性が高いため、文字認識率についての検討は不可欠であった。初年度の検討で、現在可能な最も精度の高い電子化方法が示されたが、確認、修正は不可欠であり、効率化が進まなかったのが大きな一因であった。 しかしながら、前年度の検討では、テキスト解析を行う際にも専門用語の抽出精度に問題が見られたが、今年度の検討の結果、本研究でテキスト解析を行う目的で採用したソーシャルネット解析ツールは、本研究の対象としている専門分野の内容であっても高精度に単語を抽出し、関係を適切に解析可能であることが確認された。ただし、最も関係を明らかにしたい具体的な用語については、詳細であることから全体としての出現頻度は低くなり、頻度やスコアの高い単語を中心とした自動解析の対象から外れてしまう問題点も明らかとなった。
|
Strategy for Future Research Activity |
本研究は、学会報告を活用した随時更新可能な病理学的ファクトデータベースを構築し、新しい癌の診断、治療に呼応する病理検査支援のための具体的な二次利用の方法を提案することを目的として、データ源として一過性ではあるが速報性に優れた学会報告の活用を試みるものである。本研究では、学会抄録に出現する単語を、ソーシャルネットワーク解析の原理を用いて解析し、単語の相互関係を視覚的に見出すことを試みてきたが、これまでの検討の結果、その可能性と、視覚化された結果の妥当性が示された。 今後の方策として、まずは、今年度に明らかとなった問題点である、自動解析から漏れてしまうような全体から見た出現頻度は低いが、専門的内容としてはキーとなる具体的な単語をどのように組み込み、表現していくかという問題点を解決することが挙げられる。詳細な内容までを含めての視覚化を目指し、そのうえで、これらの単語の相互関係が含まれる各抄録への回帰方法についての検討を進め、病理学的ファクトデータベース構築のための基本骨格を具体化していく予定である。
|
Causes of Carryover |
今年度、データ解析のための統計解析ソフトウエアを購入したが、実際に必要な機能を使用するためにはオプションの購入が必要であることが購入後にわかった。しかしながら、予算が若干不足であったために、次年度でのオプション購入への追加予算として残した。
|
Expenditure Plan for Carryover Budget |
今年度に購入した統計解析ソフトウエアに、必要な機能を拡充するためのオプション購入に使用する予定である。
|
Research Products
(3 results)