• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

建築論壇史研究におけるビッグデータ解析アプリケーションの実装

研究課題

研究課題/領域番号 22K14415
研究機関京都美術工芸大学

研究代表者

江本 弘  京都美術工芸大学, 建築学部, 講師 (10831422)

研究期間 (年度) 2022-04-01 – 2026-03-31
キーワード近現代建築史 / ビッグデータ / 自然言語処理 / グローバル・ヒストリー
研究実績の概要

2022年の研究においては、EQstoraのGUIを改善した。具体的には、登録された語彙の一括検索結果をグラフ表示できるようにし、データ分析の容易性を視覚的に向上させた。このグラフ表示について、特に人名に関して以下の機能を実装した。まず、グラフのソートに地理別、年代別の二種を設けた。これにより、任意の歴史書が「どこを対象に書かれたか」と、「どの時代を対象に書かれたか」のそれぞれの重みづけを、視覚的に確認することが容易になる。これらの重ね合わせで、「どの地域の歴史については、どの年代に重みがある」等が把握可能となる。また、地域、年代については段階表示とし、大区分のグラフをクリックすることで深層(小区分)のグラフが表示されるようにした。これにより、大局把握と詳細の検討のあいだの接続がスムースになった。加えて、(同姓・)同名の固有名詞について、文献ごとの場合分けが記憶できるようにした。
これらのアプリケーション開発の傍ら、今後実装されるべき機能を検討するため、膨大数の手動のデータ整理が必要な、2つの建築史研究を遂行した。これにより、今後のアプリケーション開発で効率化が図れる部分を検討した。具体的には、1951年初回以降の1級、2級建築士国家試験に出題された、すべての建築物の実作をデータ化した。個々の実作に付帯する、竣工年や設計者、受賞歴や事績などの情報の組み込みを、精度高く自動化することが課題となった。
また、建築のジャポニスム研究通史の先行研究を網羅的に収集し、これらをデータ化した。これらのなかには明示的な「ジャポニスム研究」ではないものも含まれており、扱われた人名、作品名は必ずしも「建築のジャポニスム文脈において」扱われたものではない。任意の文献について、人名とトピックの結びつきの判別を、いかに効率化できるかが課題として浮上した。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

これまでEQstoraが基本的に満たすべきとしてきた動作は、①任意の文書データ中の固有名詞を悉皆的に判別すること、②任意の固有名詞について、教師あり学習が行えること、③蓄積された固有名詞データベースをもとに、任意の文書データに総検索をかけること、④複数の文書ファイルの分析結果を視覚的に比較可能にすること、であった。このうちの①については、一般的なスキャナーとOCR読取に目視によるチェックを介さない、中精度の文書データの解析を前提として開発を進めてきた。このためEQstoraには、「誤字」や「文字以外を文字として読みとった場合」や「不要なスペース」といった頻出の読取ミスによって生じる、固有名表記のばらつきをEQstora上で検知し、正しい固有名詞に統合する、という機能が前提として求められた。正しい文書データ内の固有名詞の検知についてはこれまで精度を向上させてきた。いずれにせよ任意の固有名詞について、これらのミスを含む場合分けが悉皆的に検知できているかは不透明であった。この状況を打破しないかぎり、「任意の文書データについて、固有名詞をすべて拾いあげている」というユーザーの確信・信頼には到達できず、したがって歴史研究への応用のためには不足である。
こうした開発状況のなか、2023年3月15日のGPT-4のリリースは、現在までに組み上げたプログラムの大幅な書き換えを迫った。特に、①で解析する文書データについて、OCRデータを生成系AIに通すことで、EQstoraの解析以前に読取ミスを簡易に無くせる可能性が示されたことは、従来EQstoraで満たすべきとしていた重要な機能のひとつが不要になることを意味する。また、②固有名詞に対する教師あり学習については、「属性(人名、建築物名など)」およびそのパラメータ(生年、国籍など)の反映を、人力ではなく生成系AIで一括で行える可能性が示された。

今後の研究の推進方策

これまでのアプリケーション開発で精確性を期するプログラム開発が難航していた部分が、生成系AIが利用可能になったことにより、大幅に効率化される可能性を見出した。これまでに開発してきたGUIを生かし、プログラム自体を生成系AIベースに書き換える。
EQstoraはこれまで「中精度OCRの解析」を前提として開発されてきたが、この方針は改められる。まず、EQstoraで解析する以前のOCRデータを、生成系AIの導入によって一括修正する手法を見出す(開発する)ことが急務である。この手法により、固有名詞を分析する元の文書データ全体が、可読の文章として整う。これは特に、固有名詞の表記ぶれが一掃されることにより、①固有名詞を100%、固有名詞として認識できること、②文書データごとの表記のぶれを勘案する必要がほぼなくなること、において重要なプロセスである。EQstoraが本来資するべき、歴史研究に応用可能な諸機能の検討に移ることができる。
EQstora内部では、「文書データ内の固有名詞の探索」と、「各固有名詞に属する情報の検索および付加」の大きく2つの処理について、生成系AIベースのプログラムとする。「任意の固有名詞を検知し」「検知された固有名詞の属性(人名など)」を理解し、「それらの基本情報に基づき情報を自動的に付加する」という一連の動作を自動化する。アプリケーション利用者は「生成系AIによる出力結果のミスをチェックする」という最終的な責任を担うが、その間の膨大なデータ収集・入力の手間を省略できるようにする。
今年度の目標は、上記の一連のプロセスについて、「500ページ程度の英語の建築史通史文献の処理が1日で終わる」ことである。このために、引き続きS.ギーディオン『空間 時間 建築』を試料とする。

次年度使用額が生じた理由

洋書の購入につき、予想された額よりも安く手に入ったために残額が発生した。その全額を次年度使用額とし、同用途(洋書の購入)に充てる。

  • 研究成果

    (4件)

すべて 2023 その他

すべて 雑誌論文 (2件) 学会発表 (1件) (うち招待講演 1件) 備考 (1件)

  • [雑誌論文] 邦国建築士試験問題の歴史学的試論:国内近現代建築の出題傾向に関して2023

    • 著者名/発表者名
      江本弘
    • 雑誌名

      京都美術工芸大学研究紀要

      巻: 3 ページ: 6-31

  • [雑誌論文] Shibui Katsura: The Emergence of a Japanese Global Icon, 1921-702023

    • 著者名/発表者名
      Emoto Hiroshi
    • 雑誌名

      Journal of the Society of Architectural Historians

      巻: 82 ページ: 63-82

    • DOI

      10.1525/jsah.2023.82.1.63

  • [学会発表] ラスキン、カツラ、エクストラ2023

    • 著者名/発表者名
      江本弘
    • 学会等名
      世界建築史15講 連続セミナー
    • 招待講演
  • [備考] Hiroshi Emoto Website

    • URL

      https://emo-arch.com/

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi