La régression logistique PLS

Créé le

13.10.2014

-

Mis à jour le

28.10.2014

La résolution du problème de multi-colinéarité dans la régression logistique PLS vient de la méthode.

La première étape consiste, pour chaque variable explicative x_i (i [1 ; n]) à créer une nouvelle variable x_i* qui est égale à la variable x_i centrée- réduite [1] . Ensuite, on recherche m composantes orthogonales (m<=n) qui soient corrélées à la variable à expliquer. Ces composantes sont fonction des x_i*. Une fois définie les m composantes trouvées, avec m obtenu par la technique de validation croisée [2] , la régression logistique est lancée sur les m composantes orthogonales, notées T_k(k[1 ; m]). On obtient une équation du type P(« faire défaut ») = ₀ +  _k* T_k, qu’il faut alors ré-exprimer en fonction des x_i. Son principal inconvénient réside dans l’interprétation des nouvelles composantes obtenues et dans le choix de m qui peut être long.

1 Une variable xi centrée-réduite est une variable pour laquelle, à chaque observation, on lui retranche la moyenne des xi et qu’on divise ensuite le résultat par l’écart-type des xi. 2 La validation croisée est une méthode qui consiste :

À retrouver dans la revue

Notes :
1 Une variable xi centrée-réduite est une variable pour laquelle, à chaque observation, on lui retranche la moyenne des xi et qu’on divise ensuite le résultat par l’écart-type des xi.
2 La validation croisée est une méthode qui consiste :