Project/Area Number |
21K04527
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 25010:Social systems engineering-related
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
Miyashiro Ryuhei 東京農工大学, 工学(系)研究科(研究院), 准教授 (50376860)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | OR / 統計学 / 特徴選択 / 変数選択 / 整数最適化 / 統計 / アルゴリズム / 多重共線性 |
Outline of Research at the Start |
多重共線性とは、回帰分析において特徴選択により得られた回帰モデルに線形従属性が高い特徴が含まれることであり、予測精度が悪化するため避けるべき現象である。これまで多重共線性の大きさを評価する指標は「相関係数行列の条件数」と「分散拡大要因」が独立に用いられていたが、最近の研究により前者の指標では多重共線性が大きいと判定されるが後者の指標ではそうならない回帰モデルや逆の状態を示す回帰モデルの存在が判明するなど、指標間の整合性の欠如が明らかになってきた。本研究では、両者の指標を考慮した最良特徴選択の手法を構築して多数の回帰モデルの統計的解析を行うことにより、多重共線性の評価指標の統一を目指す。
|
Outline of Final Research Achievements |
In this study, we first developed a feature selection algorithm using integer optimization for the feature selection problem in canonical correlation analysis. The feature selection problem contains the process of solving nonconvex and nonlinear integer optimization problems, which are difficult to handle by an off-the-shelf optimization solver. We also implemented a new branch-and-bound method for this integer optimization problem and confirmed that the algorithm is about 100 times faster than existing solvers. Next, we proposed a formulation for the problem of maximizing the distance between centers between two classes in high-dimensional spaces, which appears in support vector machines and other applications. The maximization problem has a nonconvex, nonconcave and nonlinear objective function, and is extremely difficult to optimize for a general purpose solver. For this maximization problem, we developed an integer linear optimization formulation.
|
Academic Significance and Societal Importance of the Research Achievements |
現象を観察して得られたデータから重回帰分析で回帰モデルを作成する際に、無関係な特徴を削除して必要な特徴だけを回帰モデルに組み入れることを特徴選択と呼ぶ。特徴選択は変数選択とも言われ、古くから統計学における課題であったが、近年のデータサイエンスの流行に伴い改めて重要性が指摘されている。本研究では、特徴選択における二つの重要な問題(正準相関分析における特徴選択問題、高次元空間におけるクラス間の重心間距離最大化問題)に対して、新しい数理モデル化を提案した。これらの問題はその非線形性から、従来のソフトウェアでは解くのが困難だったが、本研究の提案手法により高速に最適な特徴選択が行えるようになった。
|