Project/Area Number |
23K21706
|
Project/Area Number (Other) |
21H03514 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Tokyo University of Science |
Principal Investigator |
池口 徹 東京理科大学, 工学部情報工学科, 教授 (30222863)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 秀行 大分大学, 理工学部, 講師 (00733510)
島田 裕 埼玉大学, 理工学研究科, 准教授 (50734414)
松本 朋子 東京理科大学, 教養教育研究院神楽坂キャンパス教養部, 准教授 (50783601)
松浦 隆文 日本工業大学, 先進工学部, 准教授 (70579771)
保坂 亮介 芝浦工業大学, システム理工学部, 准教授 (80569210)
木村 貴幸 日本工業大学, 基幹工学部, 准教授 (80579607)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2024: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2022: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
|
Keywords | 多言語解析 / 複雑ネットワーク / メタ文法 / 数理言語学 / 最適化 / 言語 / ネットワーク解析 / 感情 / ネットワーク / Transformer / 文脈ベクトル / 最適性 / 言語ネットワーク / 数理最適化 / 認知心理学 / 共起ネットワーク / 文法構造 / Colexification / コミュニケーション最適化 / 中間言語 / 機械翻訳 |
Outline of Research at the Start |
世界中の国々・地域の個人から組織に至る様々なスケールで大量の情報が発信されている.多様な言語で書かれたこれらのデータに対して,言語横断的にデータ解析する技術を開発できれば,言語に依らない新たなデータ解析の枠組みを構築することができる.本研究課題では,様々な言語の文法機能に現れる数理的な共通性・普遍性からメタ文法規則を導出することで,新たな言語学-数理言語学-の礎を創出する.これにより,データを記述する個々の言語の特殊性に依らないメタ文法規則に基づくデータ解析技術の基盤を構築することが眼目である.さらに,導出したメタ文法規則に基づいた定量的な言語分類を実現し,言語が分岐する要因を究明する.
|
Outline of Annual Research Achievements |
(1)感情を頂点とするネットワーク解析により,どの語族においてどのような感情が中心的なものとなるかをネットワークのハブという概念から調査した.その結果,GOOD, WANT, BAD, LOVEという四つの概念が中心的であることを明らかにした.また,英文小説を対象に,辺のフィルタリング手法を用いて単語の共起ネットワークの骨格を抽出し,その構造を調査した.その結果,骨格構造には小説作品の作風に関する情報の一部が含まれうること,削除された辺とその両端の単語間の係り受け関係の有無に密接な関係があることを明らかにした.この他,所得再分配政策の現実と理論の不整合に関する検証,明治維新という体制転換期のエリート社会の流動性の実証,衆議院選挙における非争点化政策の政策一致度に関する調査を行った. (2) Google's neural machine translation systemを用いた中間言語の解析に加え,Transformerを基盤技術とするBERTを用いた自動翻訳について中間言語の検討を開始した.また,M2M100モデルの内部で生成される文脈ベクトルに対してクラスタ解析を適用した.従来のGNMTで生成される文脈ベクトルとは異なり,Transformer内の文脈ベクトルは単に「文脈」情報のみを有するのではなく,言語特有の記号などの情報が含まれるため,GNMTと比較し翻訳精度が向上していることを明らかにした. (3)単語間の依存関係を考慮したネットワークを評価するための予備実験として,最小シュタイナー木問題に対して,重力中心性を用いた新たなコスト関数を定義し,手法の評価を行った.また,単語間の依存関係を目的関数とするネットワーク最適化問題の予備研究として,決定論的なダイナミクスに従い解遷移を行うカオスニューラルネットワークを用いた手法に,確率的な解遷移を導入した手法の開発を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題における (1) 言語データ解析によるメタ文法規則の導出,(2) 数理最適化によるメタ文法規則の導出,(3) 計算論的認知・神経科学的方法論によるメタ文法規則の導出という三つの主要な課題それぞれにおいて,適宜議論を進め,論文投稿,学会発表を行なってきている.2022年度での研究成果では,複数の原著論文が採録されている.また,投稿中論文が1編あるだけでなく,各種の学会においても報告が決定しており,概ね順調に進展しているといえる. ただし,「当初の計画以上」と自己評価していないのは,(2)の最適性の解析の課題において,ネットワークにおける経路最適化アルゴリズムの評価実験に留まっており,話者間でのエネルギー最小化問題に対する解探索アルゴリズムの提案には至っていないためである.本年度は,これらの部分に対して力点を置くことにより,総合的な解析へと進める予定である.
|
Strategy for Future Research Activity |
研究代表者の池口,分担者の松本,島田は,引き続き,言語データ解析によるメタ文法規則の導出を目指した解析を遂行する.具体的には,多言語を対象とし た共起ネットワークの構造と文法構造の関係の調査を進める.また,Colexification に基づく概念のネットワークの構造の解析については,様々な語族への展開を行うと同時に,地理学的,気候学的なデータとの関連性も含めて解析する.また,これらの解析で得られた結果は,2023年度において各種学会で報告し,複数の原著論文化を目指す. 次に,研究分担者の木村と松浦は,数理最適化によるメタ文法規則の導出を目指した解析の進展を図る.具体的には,コミュニケーション労力の最適化の立場からの研究も進展させる.これを種々の語族,多言語への適用可能性について模索する.その際,木村と松浦が,これまでの研究により得た知見をもとに,話者間での 最小化に関する数理最適化問題の定義やその解法の提案を進める予定である.また,文章で用いられる語句で構成されるネットワークを作成し,文章機能をネッ トワーク最適化問題とて捉えた調査を行う. 研究分担者の保坂と加藤は,計算論的神経科学的方法論を用いたメタ文法規則の導出を目指した解析を続行する.2022年度における解析で得られた知見に基づいて,多語族・多言語に対する中間言語の定義について検討を行う.2022年度は,グーグルニューラル機械翻訳機を含む多様な機械翻訳機で生成される文脈ベクトルの解析を進展させる. なお,2022年度までは,新型コロナウィルス感染症のため,全メンバーによる対面での議論の機会を持つことが困難であったが,2023年度は複数回の直接的議論の場を持つことで,総合的な解析を推し進め,より発展した内容に踏み込むことを考えている.
|