研究課題/領域番号 |
22K00922
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分03030:アジア史およびアフリカ史関連
|
研究機関 | 公益財団法人東洋文庫 |
研究代表者 |
三浦 徹 公益財団法人東洋文庫, 研究部, 研究員 (00199952)
|
研究分担者 |
土山 玄 お茶の水女子大学, 文理融合 AI・データサイエンスセンター, 特任講師 (00755390)
徳原 靖浩 東京大学, 附属図書館, 特任助教 (80612358)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2025年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 都市 / ネットワーク / イスラーム / 人文情報学 / 伝記集 |
研究開始時の研究の概要 |
本研究は、急速に発展している人文情報学(Digital Humanities)の手法を活用し、ダマスクス(シリア)を対象に、都市社会の人的ネットワークなどの分析を行う。16―19世紀の世紀別伝記集や地誌などから、名士(知識人)の経歴や活動、宗教施設とそこにおける活動などについてのデータベースを作成し、これをデータサイエンスの手法を用いて分析し、その結果を叙述資料と照合して、都市社会の特徴と変化を明らかにする。データサイエンスおよび資料情報学を専門とする研究分担者と協力し、中東・イスラーム研究における人文情報学の可能性を開拓するとともに、都市研究の分析モデルを提示し、国内外の学会などに発信する。
|
研究実績の概要 |
(1)人文情報学(Digital Humanities)に関する国内(「イスラーム信頼学」C01班「デジタルヒューマニティーズ的手法によるコネクティビティ分析」など)や国外(Islamic Digital Humanities Network)の研究会やセミナーに参加し(いずれもオンライン)、研究上のツールや手法などについて、情報収集と意見交換を行った。アラビア語の歴史・文学などの基本的資料(作品、テキスト)は、オープンデジタルデータとしてウェブ上での公開が進んでいる(Maktaba Shamila Haditha, KITAB Corpus Arabic Metadataなど)。また日本史分野で、人名辞典データのコンピュータ(機械学習、固有表現認識ツール)による情報収集・整理・分析を行った研究者から情報収集を行った。
(2)16世紀シリア・エジプトを対象とするアラビア語伝記集(ガッズィーNajm al-Din al-Ghazzi『星al-Kawakib al-sa'ira』、全3巻)の第1巻について、知識人(ウラマー、約650名)の伝記情報(人名、法学派、称号、生没年、出身地、師弟関係、学問分野、公職、著作、活動場所、収入経済、家族など)を、アラビア語テキストデータからエクセルファイルに抽出した。当初、テキストデータにタグ付け(マークアップ)をする方式を試行したが、抽出すべき伝記情報の項目が多いこと(約30項目)、および、アラビア文字テキストにタグ情報(ラテン文字)をつけるとテキストの左右の配列が乱れることがあり、エクセルに抽出(コピー&ペースト)する方式で作業した。今後、データの点検・整理を行ったのち、「R」などのツールを用いて分析を試行する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2022年度(初年度)は、伝記集のアラビア語デジタルテキストの入手、そこからの伝記情報の抽出・整理を行った。当該の伝記集(Kawakib、3巻)のうち、1巻からの抽出・整理にとどまったが、アラビア文字テキストを扱う場合の技術的な問題点を把握できた。
|
今後の研究の推進方策 |
アラビア語の自然言語処理のツールがさらに開発・改良されれば、機械的な(機械学習による)データ処理が可能となるかもしれないが、現時点では、コンピュータを用いた手作業によって、分析用のデータを作成することで研究を進める。
|