2023 Fiscal Year Research-status Report
建築論壇史研究におけるビッグデータ解析アプリケーションの実装
Project/Area Number |
22K14415
|
Research Institution | Kyoto University of Arts and Crafts |
Principal Investigator |
江本 弘 京都美術工芸大学, 建築学部, 講師 (10831422)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 近現代建築史 / ビッグデータ / 自然言語処理 / グローバル・ヒストリー |
Outline of Annual Research Achievements |
2023年度の研究においては、EQstoraのプログラムを見直し、自然言語処理に生成系AIを実装するための実験および、それらを踏まえた初等的な実装を行った。具体的にはOpenAI API(GPT-3.5TurboおよびGPT-4)を用い、①長文の文書データから一括で固有名を抽出し、②その区分(地名、人名等)を振り分け、③該当する固有名(特に人名)の付帯情報を自動で探索する、という2022年度研究までは人力であった部分の作業フローを改善した。 生成系AIに委ねられたこれら一連の作業のエラー頻度をGPT-3.5(高速・中精度・廉価)とGPT-4(低速・高精度・高価)で比較し、作業ごとの適性を検討した。 なお、EQstoraは中精度OCRの文書ファイルを対象としたアプリケーションである。固有名の抽出制度には固有名自体がOCRに正しく読みとられていることが重要だが、2022年度までの研究ではこの点の保証が困難であった。軽微な読取ミスであったとしても、同一の固有名とみなされないのが難点であった。 そこで2023年度研究では、そうした中精度のOCR文書の読み取りエラーや文字化けなどを、生成系AIを活用し次善的に修復するプログラムを開発した。高精度のアウトプットが得られるプロンプトを検討したほか、トークン数の制限を超えて長い文書ファイルに対応するプログラムを検討した。パラグラフ末尾で切れるチャンクに分割し、復元後に再統合するプロセスを組み込んだプログラムを開発した。 このOCRデータ整理を含む一連の作業を、EQstroraのGUIに実装する。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2023年3月15日のGPT-4のリリースにより、本研究のアプローチには抜本的な変更が迫られた。自然言語処理にかんするこれまでのプログラミング作業は打止めとし、生成系AIに対する指示(プロンプト)の検討をベースに開発を再開した。生成系AIの利用を検討するなかで、①「OCR文書の生成系AIによる補完」と②「補完された文書の解析」という大きな2段階を設定することで解析の精度向上が見込めると判断した。アプリケーション開発の進捗は芳しく、①、②ともにGUIに実装すれば即応用可能な状態である。GUI自体は2022年度までに開発したものをほぼそのまま使える。
|
Strategy for Future Research Activity |
2023年度に開発を進めたOpenAI API実装プログラムは、すでに個別研究に利用可能な水準に達している。すでに開発したGUIと統合することで、計数やグラフ表示などの基本的機能もすぐに利用可能である。まず、この作業を早急に進めて実用可能な状態にする。ここから、S. ギーディオン『空間 時間 建築』全5版の増補経緯に関する個別研究をまとめ、査読論文として投稿する(『日本建築学会計画系論文集』等)。また、EQstoraの技術を共有するため、その開発経緯や仕様、パフォーマンス(効率・精度)や問題点などについてまとめ、『日本建築学会技術報告集』に投稿する。
|
Causes of Carryover |
洋書の購入につき、予想された額よりも安く手に入ったために残額が発生した。その全額を次年度使用額とし、同用途(洋書の購入)に充てる。
|