Abstract:
ソフトウェアテスト・保守において,限られたリソースで信頼性を確保するために,faultの有無を推定するモデル(fault-proneモジュール判別モデル)が数多く提案されている.しかし,fault-proneモジュール判別モデルの構築には,同一プロジェクトの過去バージョンの開発で計測されたメトリックスと欠陥データが必要であり,開発データの計測・蓄積が行われていない企業や,新規開発プロジェクトでは導入が困難であった.そこで本論文では,他のプロジェクトのデータを利用してモデル構築・判別を行う上で有用と考えられる手法を明らかにするため,四つのリサーチクエスチョンを実験的に検証した.18個のプロジェクトデータを用いた実験を通して,(1)ランダムフォレストはプロジェクトをまたがる判別に効果を発揮する,(2)学習データに対する前処理(正規化)の効果はない,(3)データセット間に類似性が確認できるならば,高い精度での判別が期待できる.(4)複数のプロジェクトのデータを用いた集団学習の効果はある,といった教訓が得られた.