研究課題/領域番号 |
26540171
|
研究機関 | 日本大学 |
研究代表者 |
中西 陽子 日本大学, 医学部, 助教 (90366592)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | ファクトデータベース / 病理学 / 会議録 |
研究実績の概要 |
目的:病理学的検査部門の内容は患者を適切に診断し、治療へと導くための重要度が増している。しかし、専門的情報は内容が多岐にわたる上、更新が早く、多対多の関係を示すため集約困難となっている。そこで本研究は、学会報告を活用した随時更新可能な病理学的ファクトデータベースを構築し、新しい癌の診断、治療に呼応する病理検査支援のための具体的な二次利用の方法を提案することを目的として、データ源として一過性ではあるが速報性に優れた学会報告の活用を試みるものである。 研究対象は、JSP総会抄録集であるJSP会誌第89巻(2000年)から第102巻(2013年)に掲載されている抄録計約19,700件より、比較的安定した発表数で推移している乳癌研究、計649件とした。 方法:初めに、ScanSnap SV600(富士通)を用いたテキスト化についてJSP総会抄録集より1頁6抄録を対象とした予備実験を行った。次に対象研究を抜粋し、ScanSnap SV600(富士通)を用いてテキスト化を行った。本研究でのJSP抄録集のテキスト化と解析はJSP事務局の承諾を得ている。各抄録からの言語解析は、オープンソース形態素解析エンジンとして汎用されているMeCabを用いて検討を行った。 結果と考察:JSP抄録集の非裁断状態でのテキスト化は、方法により文字認識率が59.9%から89.3%まで異なった(P < 0.05)。最も文字認識率の高い方法で、今年度は70%のテキスト化を実施した。MeCabを用いた言語解析については、抄録のデータセットの方法により、解析精度が著しく異なることが確認された。また、本研究において重要度の高い専門的用語が認識されずに漏れが生じる危険性が確認されたため、辞書作成の必要性と方向性が示された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究では、データ源として一過性ではあるが速報性に優れた学会報告の活用を試みるため学会抄録のテキスト解析を計画していた。しかし現在、日本病理学会 (JSP) 抄録集はデータベース化されておらず、まず冊子体のテキスト化から検索および解析可能なデータ源とすることが必要であった。JSP会誌は約600頁から成り、1頁に6抄録が掲載され文字も2.5mm送りと細かい上、図書館より裁断許可が得られなかったため、テキスト化方法の検討が必要となった。また、本研究ではファクトデータベースのデータとしての各ワードの重要性が高いため、文字認識率についての検討は不可欠であった。 本研究では、1頁6抄録を対象とした予備実験を行った。スキャン方法として、①ブックプレッサー使用、②ブックプレッサー不使用、③抄録集をコピーした後にスキャンの3通りの検討を行い、テキスト変換方法としては、ScanSnap SV600ドライバーソフトを用い、(A)検索可能なPDFファイルとして保存後メモ帳にコピーしてテキスト化、(B)クイックメニューの「Word文書に変換」を使用して直接Wordファイル化する各方法について検討した。これらの条件より(A)-①、(A)-②、(A)-③、(B)-④、(B)-⑤、(B)-⑥の6通りのテキスト化の対して文字認識率を比較した結果、各々71.2%、89.3%、86.3%、59.9%、83.2%、89.1%であり(A)-②が最も文字認識率が高かった(P<0.05)。これらの詳細な検討を行ったうえで、JSP抄録集からの対象抄録のテキスト化を実施した。専門用語を多く含む抄録テキストのMeCabによる言語解析も、抄録のエクセルファイルとしてのデータの設定の違いにより、解析精度が著しく異なることが明らかとなったため、本年度は、予備実験と必要な辞書の方向性について検討を行った。
|
今後の研究の推進方策 |
2014年度の検討内容を踏まえて、今年度は、オープンソース形態素解析エンジンとして汎用されているMeCabを用いた言語解析を中心に実施する。これまでの検討で、専門性の高い同分野のテキストファイルに対して高精度に言語解析を行うためには、まず、辞書の作成が必要であることが示された。したがって、本研究の対象とした、乳癌の診断、治療、研究に必要な用語を、シソーラスおよび、病理学、解剖学、分子病理学、分子生物学、乳腺内分泌学などの教科書の索引から抽出して、専門的辞書の作成を試みる。各用語は項目別に分類し、項目IDのタグ付けを行う。同時に、テキストファイル化した抄録の、言語解析用データとしてのエクセルファイル化を、解析精度の高い方法の探索と共に実施する。この結果、各抄録から実際に抽出された用語には抄録IDのタグ付けを行う。当初の計画と比較して、検証の有効性から対象抄録をより具体的な内容に絞って対象年数を増やした形で実施しているが、データ量は1抄録に平均70個の用語、約650抄録として述べ約45,500語と同程度である。今年度の到達目標は、対象抄録のテキスト化ならびにデータ化を完了し、言語解析によって抽出された用語間の関連付けを実行し、次年度に計画している病理学的ファクトデータベース実装の基礎を構築することである。
|
次年度使用額が生じた理由 |
初年度の検討により、研究対象とした抄録のテキスト化、ならびにデータ化は、方法の違いにより文字認識率、言語解析精度が大きく異なることが明らかとなった。特に抄録テキストファイルのエクセルデータ化を行う際に、言語解析精度を向上させるための工夫が必要なことから、データ化作業量の増加が生じた。同作業を補助して頂くための人件費が必要となったため、次年度使用額とした。
|
次年度使用額の使用計画 |
研究対象の約650件の抄録テキストファイルからのエクセルデータ化作業の補助のための交通費を含む人件費として、週1回7時間×8ヶ月間(6月から2016年1月)の約26万円、ならびにデータ保存機器の追加購入用消耗品代として約35,000円を、今年度の使用計画に計上する。
|