Project/Area Number |
23K17520
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 3:History, archaeology, museology, and related fields
|
Research Institution | Niigata University of International and Information Studies |
Principal Investigator |
藤田 晴啓 新潟国際情報大学, 経営情報学部, 教授 (40366513)
|
Co-Investigator(Kenkyū-buntansha) |
河野 一隆 独立行政法人国立文化財機構東京国立博物館, 学芸研究部, 部長 (10416555)
河原 和好 新潟国際情報大学, 経営情報学部, 准教授 (20319023)
山本 亮 独立行政法人国立文化財機構東京国立博物館, 学芸研究部, 研究員 (30770193)
宮尾 亨 新潟県立歴史博物館, その他部局等, 研究員 (90245655)
近山 英輔 新潟国際情報大学, 経営情報学部, 教授 (00525602)
|
Project Period (FY) |
2023-06-30 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
Fiscal Year 2025: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2024: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 縄文中期土器 / 六反田南遺跡 / 発掘調査報告書 / 土器説明文 / 点群データ入力 / 説明文出力モデル / マルチモーダルAI / 型式学 / 自然言語処理 / 3D-RGBA物体認識 / 土器 |
Outline of Research at the Start |
須恵器および縄文土器を光学スキャナーで計測し, 3D点群データ, 3D-RGBAボクセルデータを作成, 日本語対応の事前学習済大規模言語モデル, 型式分類に関わるテキストデータを3Dデータから生成する3D dense captioning(3Dデータに対し複数物体検出を行いそれぞれについてキャプション生成する)タスクを結合して, 3D物体認識モデルおよび土器型式言語モデルが融合した新たなマルチモーダル型式分類AIを開発する.このAI評価モデルが既往の限られた3D計測情報, および土器分類に関わる報告書の書誌情報を学習し, 膨大な分類未知の土器3D計測情報に対し自動で新たな型式分類と報告を行う.
|
Outline of Annual Research Achievements |
新潟県糸魚川市六反田南遺跡から出土した41縄文土器(24深鉢, 14鉢, 2台つき鉢, 1浅鉢)の3Dデータからそれぞれ1024の点群データを作成した。発掘調査報告書からそれぞれの土器の形状の特徴として平均105文字の説明文を抽出し、41個体の説明文全体から合計194トークン(自然言語処理上の意味をもつ単語等の単位)が作成された。2023年度は点群を入力すると説明文を出力するモデルを作成した。 土器1個分の1024点からなる点群はPointNet部で1個の埋込ベクトルに変換され、それは軽量型にカスタム化したTransformerデコーダの全結合層に連結されて入力される。Transformerデコーダはコンテキスト長6の入力トークン列(6トークン)に対し1個の次のトークンの確率を出力する。訓練時は確率と正解トークン間のロスが最小化される。推論時は確率でサンプリングされた1トークンが繰り返し入力に結合され、文末トークンがサンプリングされたとき繰り返しを終了する。PointNetは7個の全結合層-バッチ正規化層-ReLU活性化層ブロックを持ち、5と6の間にglobal max pool層を持つ。Transformerデコーダ部は入力の1-hotベクトル列をQKV自己アテンションで埋込ベクトル列に変換してPointNet部からの埋込ベクトルと連結して1トークンを推論する全結合層に入力する。 深鉢1個体の点群を入力した結果、適切なトークン数で文末になる説明文を得た。3回の推論結果では概ね自然な説明文を出力し、深鉢形クラス分類にも正解していた。鉢型の点群を入力し、クラス分類の誤認識率が高い結果となった。浅鉢型は3Dデータが1個しかなく、テストデータは90度回転したものとした。推論を3回行った結果、1個は完全に同一のトークン列で、他の2個は文法的に自然で意味が同じ1トークンのみが追加された。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2023年度は使用できるデータ数に制限があるため、まず形状(3D点群)データからそれぞれの土器の個体を発掘調査報告書で記載されている説明文の出力および器種(深鉢、鉢、台つき鉢、浅鉢等の分類)が推論できるか、モデルを作成して出力可能なことを確認した。 2023年度作成モデルはプロトタイプであるため研究の不十分な点がある。まず明らかに学習データの数が少なく、特に浅鉢と台付鉢は訓練データが1個しかなく浅鉢に関してはテストデータすらない状況であった。本来このようなデータをAIモデル開発に含めるべきではないことが明らかであるため、今後土器計測データを拡充することが求められる。次にエポック数とデータ拡張について述べる。今回の3D点群ではランダムな3次元回転による動的データ拡張を使用した(テストのときも使用)。従って1エポックだけではある1個の土器について1配置を学習するだけになり、例えば回転角2分単位の場合剛体回転対称性を網羅するには27000配置が必要になる。今回の結果である100000エポックでは、計算上は1土器あたり4回程度しか訓練されていないことになる。この解決策としては、説明文の学習時に拡張されたデータと同じ数だけ、動的にランダム回転をさせることがある。
|
Strategy for Future Research Activity |
2023年度の評価として、今回使用したTransformerデコーダ部はGPTモデルのそれと比較すると極めて単純な構造を持ち、パラメーター数も約80万であるにも関わらず、自然な文章を生成することがわかった。これは学習するコーパスが限定された領域内の説明文であること、および語彙数が少ないことによるものと考えられる。また3D dense captioningのvote2cap-detrでもミニTransformerデコーダは採用されており、我々のTransformerデコーダのような軽量アーキテクチャは、ドメイン特化型の言語系マルチモーダルAIに有用であると考えられる。 2023年度は点群データ入力・説明文出力モデル開発と同時に、長岡市科学博物館所蔵の816点の縄文中期土器のスキャナーによるデジタル化を終了した。現在型式、系統、年代、形状の特色等の書誌情報を整備中である。これらの書誌データ作成が完了するとひとつの大きな縄文中期土器データセットとして、3D点群データを入力して、型式、系統、年代等の分類および説明文の出力が可能となるモデル開発が可能となる。さらに2024年度は新潟県埋蔵文化財センター収蔵の六反田南遺跡出土、縄文中期土器800個体程度のスキャナーによるデジタル化および書誌データの整理を計画している。本研究最終年度となる2025年度は十日町市博物館所蔵の縄文中期土器のデジタル化を計画しており、訓練・テストデータの大幅な拡充が期待できる。
|