研究課題/領域番号 |
23K11315
|
研究機関 | 千葉大学 |
研究代表者 |
横川 大樹 千葉大学, 医学部附属病院, 助教 (80779869)
|
研究分担者 |
野村 行弘 千葉大学, フロンティア医工学センター, 准教授 (60436491)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | BERT / 医中誌 / 自然言語処理 |
研究実績の概要 |
本研究では以下の2点を明らかにすることを目的とする。1. 日本語医学学術文献テータベースである医中誌Webの全抄録のテキストデータをコーパスとしたBERT事前学習モデル(医中誌BERT)の作成と、既存タスクへの適応・制度評価 2. 医中誌BERTを含む複数の事前学習モデルの診療録と診断名ラベルのデータセットによるファインチューニングによる派生ドメインモデル(診断BERT)の作成と、診断名分類タスクへの適応・制度の比較。 2023年度は医中誌BERTの事前学習をおこなった。医学ドメインに特化した新たな日本語のBERT事前学習モデルとして医中誌BERTを作成した。医中誌Webは日本語の医学学術誌データベースである。医学中央雑誌刊行会より提供を受け、利用可能な全抄録のテキストデータ184万2184件を用いて、BERT事前学習モデルを作成した。モデルの作成のために、抄録テキストデータを前処理した。一件の抄録は改行(\n)区切りとし、抄録同士は二重改行(\n\n)で分けた。本文は句読点ではなくカンマ・ピリオドで文章が区切られており、数値等による区切りと混同しないように、pythonのライブラリであるja_sentence_segmenterを用いて区切ったが、微生物名称や英略語表記において誤った区切りが見られており、来年度の修正予定とした。TokenizerにはSentencePiece(0.2.0)を使用し、語彙数32000でToken化した。MLMモデルを隠れ層数12, 中間層768次元, アテンションヘッド12、バッチサイズ32、エポック数10としてBERT MLM(Masked Language Model)で学習を行った(transformers(4.40.0), torch 2.3.0)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
今回の計算は千葉大学医学部附属病院に設置している計算機(NVIDIA A100-PCIE-40GB)にさらにGPU2台を増設し行う予定としていた。計算に用いるGPU(NVIDIA-RTX 6000 Ada)2台の購入、納品がやや遅れた。まだCPUとGPUの機械的な問題から並列処理が実装できず、単一GPUによる学習のため時間的なコストがかかるため。
|
今後の研究の推進方策 |
次年度は、他のTokenizer、語彙数、エポック数などのパラメータを変更したモデルを複数作成し、医中誌BERTの精度評価を行うこととする。また研究分担者の野村との連携のため、量研究室間にVPNトンネルを開通させるためのハードウェアを準備する。また当初の予定通り既存の電子カルテデータ2.6万件のデータ前処理に加え、新たに抽出したデータの処理を行い、2025年度のファインチューニングに向けてデータを収集する。
|
次年度使用額が生じた理由 |
計画当時は研究分担者が附属病院へ来院し作業するための端末を用意する予定であったが、院内の個人情報保護の観点から実施が困難になったため、既存の端末にGPUを追加する方針となり、計算機の本体価格の分差額が生じている。一方、工学部から遠隔で計算機に接続できるよう、新たなルータを設置する必要があり、それらの経費として使用する予定である。またコロナウイルスのパンデミックが収束しており、国内・国際学会への追加での参加も検討する。
|