La résolution du problème de multi-colinéarité dans la régression logistique PLS vient de la méthode.
La première étape consiste, pour chaque variable explicative xi (i [1 ; n]) à créer une nouvelle variable xi* qui est égale à la variable xi centrée-
réduite
[1]
. Ensuite, on recherche m composantes orthogonales (m<=n) qui soient corrélées à la variable à expliquer. Ces composantes sont fonction des xi*. Une fois définie les m composantes trouvées, avec m obtenu par la technique de validation
croisée
[2]
, la régression logistique est lancée sur les m composantes orthogonales, notées Tk (k[1 ; m]). On obtient une équation du type P(« faire défaut ») = 0 + k * Tk, qu’il faut alors ré-exprimer en fonction des xi. Son principal inconvénient réside dans l’interprétation des nouvelles composantes obtenues et dans le choix de m qui peut être long.
1
Une variable xi centrée-réduite est une variable pour laquelle, à chaque observation, on lui retranche la moyenne des xi et qu’on divise ensuite le résultat par l’écart-type des xi.
2
La validation croisée est une méthode qui consiste :