Abstract:
ソフトウェアメトリクスに基づくfault-proneモジュール判別の精度向上を目的として,相関ルール分析とロジスティック回帰分析を組み合わせたfault-proneモジュール判別手法を提案する.提案手法では,与えられたモジュールに対し,重要なルール(支持度,信頼度,または,リフト値の大きなルール)が存在する場合は相関ルール分析によって判別し,そうでない場合は,ロジスティック回帰分析によって判別する.適用可能な複数のルールが存在する場合には,判別結果の多数決を行う.提案手法の判別性能を評価するために,3つの代表的なfault-prone判別モデル(ロジスティック回帰分析,線形判別分析,分類木)の性能と提案手法の性能を比較する実験を行った.実験では,NASA/WVUの公開しているデータセットと,Eclipseプロジェクトから収集したデータセットを対象として,交差検証法による評価と,複数バージョンを用いた評価を行った.実験の結果,重要と見なすルールの選択にはリフト値が適していることが分かり,リフト値に閾値を設けてルールを選定することで,判別精度を表すF1値が従来手法と比較して0.163向上した.; To improve the performance of fault-prone module detection, we propose a fault-prone module detection method that combines association rule mining with logistic regression analysis. In our method, if a module satisfies the premise (i.e. the condition in the antecedent part) of one of the important rules (i.e. support, confidence or lift of the rules is large), the module is classified by the rule as either fault-prone or not. Otherwise, the module is classified by the logistic model. We experimentally evaluated the detection performance of the proposed method with different thresholds of each rule interestingness measure (support, confidence and lift) using two module sets (the NASA/WVU dataset and the Eclipse project dataset), and compared it with three well-known fault-proneness models (logistic regression model, linear discriminant model and classification tree). The result showed that the lift was the most suitable measure to select useful association rules in the proposed method compared to other measures (support and confidence). The improvement of the F1-value of the proposed method with the lift was 0.163 at maximum compared to conventional models.