2022 Fiscal Year Research-status Report
Personal Network in Islamic Urban Societies: A Study of Digital Humanities
Project/Area Number |
22K00922
|
Research Institution | The Toyo Bunko |
Principal Investigator |
三浦 徹 公益財団法人東洋文庫, 研究部, 研究員 (00199952)
|
Co-Investigator(Kenkyū-buntansha) |
土山 玄 お茶の水女子大学, 文理融合 AI・データサイエンスセンター, 特任講師 (00755390)
徳原 靖浩 東京大学, 附属図書館, 特任助教 (80612358)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 都市 / ネットワーク / イスラーム / 人文情報学 / 伝記集 |
Outline of Annual Research Achievements |
(1)人文情報学(Digital Humanities)に関する国内(「イスラーム信頼学」C01班「デジタルヒューマニティーズ的手法によるコネクティビティ分析」など)や国外(Islamic Digital Humanities Network)の研究会やセミナーに参加し(いずれもオンライン)、研究上のツールや手法などについて、情報収集と意見交換を行った。アラビア語の歴史・文学などの基本的資料(作品、テキスト)は、オープンデジタルデータとしてウェブ上での公開が進んでいる(Maktaba Shamila Haditha, KITAB Corpus Arabic Metadataなど)。また日本史分野で、人名辞典データのコンピュータ(機械学習、固有表現認識ツール)による情報収集・整理・分析を行った研究者から情報収集を行った。
(2)16世紀シリア・エジプトを対象とするアラビア語伝記集(ガッズィーNajm al-Din al-Ghazzi『星al-Kawakib al-sa'ira』、全3巻)の第1巻について、知識人(ウラマー、約650名)の伝記情報(人名、法学派、称号、生没年、出身地、師弟関係、学問分野、公職、著作、活動場所、収入経済、家族など)を、アラビア語テキストデータからエクセルファイルに抽出した。当初、テキストデータにタグ付け(マークアップ)をする方式を試行したが、抽出すべき伝記情報の項目が多いこと(約30項目)、および、アラビア文字テキストにタグ情報(ラテン文字)をつけるとテキストの左右の配列が乱れることがあり、エクセルに抽出(コピー&ペースト)する方式で作業した。今後、データの点検・整理を行ったのち、「R」などのツールを用いて分析を試行する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度(初年度)は、伝記集のアラビア語デジタルテキストの入手、そこからの伝記情報の抽出・整理を行った。当該の伝記集(Kawakib、3巻)のうち、1巻からの抽出・整理にとどまったが、アラビア文字テキストを扱う場合の技術的な問題点を把握できた。
|
Strategy for Future Research Activity |
アラビア語の自然言語処理のツールがさらに開発・改良されれば、機械的な(機械学習による)データ処理が可能となるかもしれないが、現時点では、コンピュータを用いた手作業によって、分析用のデータを作成することで研究を進める。
|
Causes of Carryover |
研究会等はオンラインで開催されたため旅費を使用する必要がなくなり、また分析用のデータ作成作業(謝金による)については、入力の方法についての検討に時間をかけたため、一部の作業は、2023年度に実施することとし、予算の一部を繰り越した。
|
Research Products
(12 results)