Project/Area Number |
23K11315
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | Chiba University |
Principal Investigator |
横川 大樹 千葉大学, 医学部附属病院, 助教 (80779869)
|
Co-Investigator(Kenkyū-buntansha) |
野村 行弘 千葉大学, フロンティア医工学センター, 准教授 (60436491)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
|
Keywords | BERT / 医中誌 / 自然言語処理 / ファインチューニング / 診断 |
Outline of Research at the Start |
自然言語処理技術の発展は目覚ましいですが、疾病の診断を自動で行うシステムの開発は未だ発展途上です。自然言語処理モデルであるBERTは、事前学習モデルのファインチューニングによって、特定の目的に特化した言語モデルを構築できます。 この研究では日本語医学学術文献データベースである医中誌Webの180万件の抄録テキストデータを用いたてBERT事前学習モデル(医中誌BERT)を作成します。次に診療録と診断名のデータセットを用いてファインチューニングし、診断に特化したBERTモデル(診断BERT)を作成します。本研究によって病歴に基づいて駆動する自動診断システムや診断支援システムの開発の助けになります。
|
Outline of Annual Research Achievements |
本研究では以下の2点を明らかにすることを目的とする。1. 日本語医学学術文献テータベースである医中誌Webの全抄録のテキストデータをコーパスとしたBERT事前学習モデル(医中誌BERT)の作成と、既存タスクへの適応・制度評価 2. 医中誌BERTを含む複数の事前学習モデルの診療録と診断名ラベルのデータセットによるファインチューニングによる派生ドメインモデル(診断BERT)の作成と、診断名分類タスクへの適応・制度の比較。 2023年度は医中誌BERTの事前学習をおこなった。医学ドメインに特化した新たな日本語のBERT事前学習モデルとして医中誌BERTを作成した。医中誌Webは日本語の医学学術誌データベースである。医学中央雑誌刊行会より提供を受け、利用可能な全抄録のテキストデータ184万2184件を用いて、BERT事前学習モデルを作成した。モデルの作成のために、抄録テキストデータを前処理した。一件の抄録は改行(\n)区切りとし、抄録同士は二重改行(\n\n)で分けた。本文は句読点ではなくカンマ・ピリオドで文章が区切られており、数値等による区切りと混同しないように、pythonのライブラリであるja_sentence_segmenterを用いて区切ったが、微生物名称や英略語表記において誤った区切りが見られており、来年度の修正予定とした。TokenizerにはSentencePiece(0.2.0)を使用し、語彙数32000でToken化した。MLMモデルを隠れ層数12, 中間層768次元, アテンションヘッド12、バッチサイズ32、エポック数10としてBERT MLM(Masked Language Model)で学習を行った(transformers(4.40.0), torch 2.3.0)。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
今回の計算は千葉大学医学部附属病院に設置している計算機(NVIDIA A100-PCIE-40GB)にさらにGPU2台を増設し行う予定としていた。計算に用いるGPU(NVIDIA-RTX 6000 Ada)2台の購入、納品がやや遅れた。まだCPUとGPUの機械的な問題から並列処理が実装できず、単一GPUによる学習のため時間的なコストがかかるため。
|
Strategy for Future Research Activity |
次年度は、他のTokenizer、語彙数、エポック数などのパラメータを変更したモデルを複数作成し、医中誌BERTの精度評価を行うこととする。また研究分担者の野村との連携のため、量研究室間にVPNトンネルを開通させるためのハードウェアを準備する。また当初の予定通り既存の電子カルテデータ2.6万件のデータ前処理に加え、新たに抽出したデータの処理を行い、2025年度のファインチューニングに向けてデータを収集する。
|