建築論壇史研究におけるビッグデータ解析アプリケーションの実装
Project/Area Number |
22K14415
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 23040:Architectural history and design-related
|
Research Institution | Kyoto University of Arts and Crafts |
Principal Investigator |
江本 弘 京都美術工芸大学, 建築学部, 講師 (10831422)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 近現代建築史 / ビッグデータ / 自然言語処理 / グローバル・ヒストリー / 近代建築史 |
Outline of Research at the Start |
歴史書は、それを書く人びとによる事物の取捨選択によってなりたっています。この研究で発展させる「固有名の探索・登録」アプリケーションはまず、さまざまな歴史書のなかで取り上げられた建築作品や建築家、論考などを、情報技術によって可能なかぎり「すべて」取り出しデータベース化します。この探索・登録の精度向上と簡便化が第一段階です。さらに、それらのデータの比較分析の仕方を検討し実装することで、それぞれの歴史書が書かれたさいの、取捨選択の内容を明確化できるようにします。さらには歴史書同士の「横のつながり」までを視覚化できるようにし、これまで人力では難しかった、歴史記述研究の発展に資することを目指します。
|
Outline of Annual Research Achievements |
2022年の研究においては、EQstoraのGUIを改善した。具体的には、登録された語彙の一括検索結果をグラフ表示できるようにし、データ分析の容易性を視覚的に向上させた。このグラフ表示について、特に人名に関して以下の機能を実装した。まず、グラフのソートに地理別、年代別の二種を設けた。これにより、任意の歴史書が「どこを対象に書かれたか」と、「どの時代を対象に書かれたか」のそれぞれの重みづけを、視覚的に確認することが容易になる。これらの重ね合わせで、「どの地域の歴史については、どの年代に重みがある」等が把握可能となる。また、地域、年代については段階表示とし、大区分のグラフをクリックすることで深層(小区分)のグラフが表示されるようにした。これにより、大局把握と詳細の検討のあいだの接続がスムースになった。加えて、(同姓・)同名の固有名詞について、文献ごとの場合分けが記憶できるようにした。 これらのアプリケーション開発の傍ら、今後実装されるべき機能を検討するため、膨大数の手動のデータ整理が必要な、2つの建築史研究を遂行した。これにより、今後のアプリケーション開発で効率化が図れる部分を検討した。具体的には、1951年初回以降の1級、2級建築士国家試験に出題された、すべての建築物の実作をデータ化した。個々の実作に付帯する、竣工年や設計者、受賞歴や事績などの情報の組み込みを、精度高く自動化することが課題となった。 また、建築のジャポニスム研究通史の先行研究を網羅的に収集し、これらをデータ化した。これらのなかには明示的な「ジャポニスム研究」ではないものも含まれており、扱われた人名、作品名は必ずしも「建築のジャポニスム文脈において」扱われたものではない。任意の文献について、人名とトピックの結びつきの判別を、いかに効率化できるかが課題として浮上した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
これまでEQstoraが基本的に満たすべきとしてきた動作は、①任意の文書データ中の固有名詞を悉皆的に判別すること、②任意の固有名詞について、教師あり学習が行えること、③蓄積された固有名詞データベースをもとに、任意の文書データに総検索をかけること、④複数の文書ファイルの分析結果を視覚的に比較可能にすること、であった。このうちの①については、一般的なスキャナーとOCR読取に目視によるチェックを介さない、中精度の文書データの解析を前提として開発を進めてきた。このためEQstoraには、「誤字」や「文字以外を文字として読みとった場合」や「不要なスペース」といった頻出の読取ミスによって生じる、固有名表記のばらつきをEQstora上で検知し、正しい固有名詞に統合する、という機能が前提として求められた。正しい文書データ内の固有名詞の検知についてはこれまで精度を向上させてきた。いずれにせよ任意の固有名詞について、これらのミスを含む場合分けが悉皆的に検知できているかは不透明であった。この状況を打破しないかぎり、「任意の文書データについて、固有名詞をすべて拾いあげている」というユーザーの確信・信頼には到達できず、したがって歴史研究への応用のためには不足である。 こうした開発状況のなか、2023年3月15日のGPT-4のリリースは、現在までに組み上げたプログラムの大幅な書き換えを迫った。特に、①で解析する文書データについて、OCRデータを生成系AIに通すことで、EQstoraの解析以前に読取ミスを簡易に無くせる可能性が示されたことは、従来EQstoraで満たすべきとしていた重要な機能のひとつが不要になることを意味する。また、②固有名詞に対する教師あり学習については、「属性(人名、建築物名など)」およびそのパラメータ(生年、国籍など)の反映を、人力ではなく生成系AIで一括で行える可能性が示された。
|
Strategy for Future Research Activity |
これまでのアプリケーション開発で精確性を期するプログラム開発が難航していた部分が、生成系AIが利用可能になったことにより、大幅に効率化される可能性を見出した。これまでに開発してきたGUIを生かし、プログラム自体を生成系AIベースに書き換える。 EQstoraはこれまで「中精度OCRの解析」を前提として開発されてきたが、この方針は改められる。まず、EQstoraで解析する以前のOCRデータを、生成系AIの導入によって一括修正する手法を見出す(開発する)ことが急務である。この手法により、固有名詞を分析する元の文書データ全体が、可読の文章として整う。これは特に、固有名詞の表記ぶれが一掃されることにより、①固有名詞を100%、固有名詞として認識できること、②文書データごとの表記のぶれを勘案する必要がほぼなくなること、において重要なプロセスである。EQstoraが本来資するべき、歴史研究に応用可能な諸機能の検討に移ることができる。 EQstora内部では、「文書データ内の固有名詞の探索」と、「各固有名詞に属する情報の検索および付加」の大きく2つの処理について、生成系AIベースのプログラムとする。「任意の固有名詞を検知し」「検知された固有名詞の属性(人名など)」を理解し、「それらの基本情報に基づき情報を自動的に付加する」という一連の動作を自動化する。アプリケーション利用者は「生成系AIによる出力結果のミスをチェックする」という最終的な責任を担うが、その間の膨大なデータ収集・入力の手間を省略できるようにする。 今年度の目標は、上記の一連のプロセスについて、「500ページ程度の英語の建築史通史文献の処理が1日で終わる」ことである。このために、引き続きS.ギーディオン『空間 時間 建築』を試料とする。
|
Report
(1 results)
Research Products
(4 results)