La plupart des modèles permettant de prévoir la défaillance d’entreprises, que toutes les banques ou agences de notation utilisent depuis bien longtemps, reposent sur des méthodes de modélisation plus ou moins sophistiquées et s’appuient essentiellement sur des données comptables et financières manipulées sous forme de ratios. Leur fonction est simple : tenter d’appréhender le risque couru par un débiteur de non-remboursement d’une créance en cas de défaut de l’entreprise dû à son incapacité à faire face à ses engagements.
Ces modèles de faillite servent à prévoir un risque de crédit au travers de la plus ou moins grande distance d’une entreprise à un seuil délimitant une frontière entre des entreprises dites saines et d’autres qui ont fait faillite. C’est la nature même de leur processus d’élaboration qui veut cela. La règle de prévision est calculée à partir d’un échantillon d’entreprises divisé en deux groupes : l’un comprenant des entreprises en activité, l’autre comprenant des entreprises qui ont été liquidées ou redressées par décision d’un tribunal.
Les travers des modèles de faillite
Cette façon de procéder n’est pas nouvelle et remonte aux années 1960. Depuis cette époque, à peu près tous les travers de ces modèles ont été étudiés.
D’abord, les méthodes de modélisation ont été passées au crible et quasiment tout ce que la statistique compte comme méthodes de régression ou de classification a été testé, montrant la très grande difficulté des règles de prévision à appréhender la frontière entre deux classes qui se chevauchent parfois grandement. Ensuite, les variables employées ont été étudiées, indiquant les limites de l’emploi d’indicateurs de nature uniquement financière et plaidant pour la prise en compte de paramètres plus qualitatifs et relatifs à l’organisation, la structure, la stratégie, les couples produits-marchés… de la firme ou des paramètres décrivant son environnement. Enfin, les conditions même d’élaboration des modèles ont été analysées ainsi que les facteurs pouvant influer sur leur précision, montrant notamment le rôle critique des critères de constitution des échantillons et de celui de l’horizon de prévision.
La liste pourrait être encore longue si on devait la détailler. Pour autant, une question importante reste encore en suspens et a peu retenu l’attention : celle de la stabilité des modèles. Tous ceux qui se sont intéressés de près à cette problématique savent que les modèles doivent être réestimés en permanence et le manque de solution pouvant les rendre plus stables fait que l’on s’y accommode aisément.
Des modèles dont les variables sont trop conjoncturelles
Le premier facteur d’instabilité trouve sa traduction dans l’absence de variables « fortes » ou de ratios « forts » incarnant une dimension de fragilité. Si l’on recense les ratios financiers employés dans les modèles qui ont été publiés ici ou là, on trouve plus de 500 indicateurs différents. Ceci montre bien que les variables employées ont un caractère très conjoncturel. Même si l’on sait que certains ratios disposent d’un pouvoir discriminant général et permanent, toujours révélateurs de risques quand ils se dégradent, la réalité de la construction des modèles fait que pour un échantillon donné et avec une méthode de modélisation donnée, ceux qui seront choisis in fine font rarement partie d’une short list qui pourrait servir de référence. Il est clair qu’un ratio ne possède pas les mêmes propriétés selon l’activité de l’entreprise, sa taille… ou la structure capitalistique du secteur de la firme. Cependant, même dans les situations ou ces paramètres externes sont contrôlés, on rencontre une très grande variabilité dans les ratios utilisés.
Une question émerge alors : s’agit-il d’une propriété de la réalité, où les formes pouvant structurer la santé financière sont tellement diverses qu’elles ne se laissent pas facilement appréhender, ou est-ce le résultat d’une défaillance dans le processus de choix des variables à employer ? Vraisemblablement, les deux. S’il est difficile d’agir sur la première cause, il n’en est pas de même de la seconde.
Rechercher le meilleur pouvoir de prédiction…
Un processus de sélection de variables nécessite la fixation de plusieurs paramètres. En effet, il s’agit d’extraire d’une liste de ratios fixés a priori un sous-ensemble susceptible de disposer du meilleur pouvoir de prédiction. Il faut d’abord définir une façon d’explorer l’ensemble initial des variables car, compte tenu du nombre de combinaisons à analyser, il ne pourra pas être parcouru entièrement (avec 10 variables, on peut former 210 – 1 sous-ensembles). Ensuite, il faut choisir un critère permettant d’évaluer chaque sous-ensemble pour ne retenir que le meilleur. Enfin, il faut définir un point d’arrêt indiquant le moment où la recherche doit se terminer. Le point le plus délicat réside dans le choix du critère d’évaluation, car ils sont nombreux. On peut en effet retenir un critère qui maximise l’écart entre les groupes, donc qui cherche les variables pour lesquelles chaque groupe est le plus homogène possible tout en étant le plus hétérogène des autres groupes. On peut aussi choisir un critère qui privilégie le gain en information procuré par une variable par rapport à une autre et qui cherche celles qui apportent le plus d’information compte tenu de la tâche à résoudre. On peut encore sélectionner un critère qui évalue le pouvoir de prédiction d’une variable à partir d’une autre variable, donc le degré de redondance entre elles et qui ne retient que celles qui ont la meilleure contribution à la prévision…
Selon la combinaison choisie (mode de recherche, critère d’évaluation, critère d’arrêt), les résultats d’une sélection ne seront généralement pas les mêmes. Or, les procédures employées pour construire les modèles de défaillance sont le plus souvent des procédures qui ne reposent que sur un seul critère d’évaluation. Si l’on ajoute à ceci l’incidence de la structure des données choisies, du processus de calibrage de l’échantillon… on comprend dès lors la très grande variabilité des résultats obtenus.
…en déterminant les variables « fortes »
Une façon de contourner cette difficulté consiste à employer un protocole similaire à celui utilisé en typologie lorsque l’on souhaite, par exemple, décrire une population en la représentant au travers des différents sous groupes qui la composent. Pour réaliser une telle tâche, si l’on n’utilise qu’une seule méthode de classification, on risque d’être tributaire du critère employé pour effectuer les regroupements. En effet, rien ne dira si ceux-ci existent bien dans la réalité ou s’ils n’existent que grâce au critère utilisé. Pour avoir quelque assurance de leur réelle existence, il convient toujours d’employer différentes méthodes et différents critères, puis de croiser les résultats de façon à mettre en évidence des « formes fortes », donc des individus qui, quel que soit le paramètre de regroupement, se retrouvent toujours ensemble. On aura alors une certaine assurance que ces « formes fortes » constituent bel et bien des groupes réels. Il peut en être de même avec la sélection de variables si l’on emploie plusieurs méthodes et si l’on ne retient que les « variables fortes » : celles qui sont sélectionnées à plusieurs reprises. Ceci pourrait constituer un moyen d’échapper à la contingence et de stabiliser, à tout le moins en partie, le processus d’estimation des modèles de défaillance.
Les techniques d’estimation pourraient être améliorées
Le second facteur d’instabilité, qui ne peut pas être déconnecté du premier, est lié, cette fois, à la variabilité des résultats que donnent les modèles. Toutes les études qui ont tenté d’appliquer des modèles en l’état à d’autres données que celles qui ont servi à leur élaboration – « autres » désignant des données provenant de périodes différentes et d’entreprises appartenant à des secteurs différents de ceux employés dans l’échantillon d’origine – ou ces mêmes modèles, mais après ré-estimation pour tenir compte d’éventuels changements, conduisent à deux conclusions. Tout d’abord, les modèles utilisés tels quels donnent systématiquement de mauvais résultats, et ce quelles que soient les variations étudiées. Ensuite, une fois les coefficients des fonctions réestimés, ils donnent de biens meilleurs résultats, sans pour autant présenter le même degré de précision que les modèles originaux. Et l’écart provient essentiellement des entreprises défaillantes, que les modèles ne parviennent pas à classer correctement, contrairement aux entreprises saines, qui obtiennent des taux bien supérieurs. Les études entreprises pour comprendre ce phénomène ne mènent nulle part. Ni l’âge des modèles, ni la taille des entreprises utilisées pour leur mise au point initiale, ni la technique de discrimination, ni le nombre de variables – donc la complexité des modèles – ni la nationalité des firmes d’origine ne paraissent être en cause. Tentons alors une explication.
L’apport de la méthode du bagging
L’instabilité, toute chose égale par ailleurs, tient au processus de choix des variables, mais aussi à la façon d’estimer les coefficients des fonctions. Une étude attentive de la distribution des ratios financiers montre deux choses : leur extrême corrélation, puisque les données initiales dépendent les unes des autres, et la présence d’un nombre particulièrement important de valeurs aberrantes. Quels que soient les retraitements effectués pour limiter ces deux effets, dès lors que les ratios sont utilisés en l’état dans le calcul des modèles, ces deux phénomènes persistent. L’instabilité des coefficients est la conséquence directe de ces deux phénomènes. Si la corrélation peut être limitée par des techniques simples employées après la phase de sélection des variables susceptibles d’apparaître dans un modèle, la question liée à la forme de la distribution des ratios appelle une méthode de résolution sophistiquée. En effet, lorsqu’un échantillon dispose d’observations atypiques, ce qui est le cas avec des variables financières, ces observations sont à l’origine de perturbations qui influent notoirement sur les estimations. Toute variation d’échantillonnage, même minime, peut alors conduire à des variations importantes de la magnitude des coefficients. Dans ce cas, et dans ce cas seulement, une technique consiste à construire non pas un seul modèle, mais un grand nombre de modèles à partir de répliques de l’échantillon initial. Chaque réplique est constituée à partir d’un tirage avec remise des observations de l’échantillon initial. Ainsi, dans une réplique donnée, certaines observations seront présentes plusieurs fois et d’autres non. En répartissant de cette manière les observations, on diminue notamment la probabilité de présence de celles qui sont atypiques dans chaque réplique de l’échantillon initial. Et comme ces observations apparaissent moins souvent, ceci permet de lisser l’effet des perturbations qu’elles pourraient engendrer. Une fois que les échantillons répliqués sont choisis, on élabore autant de modèles que l’on dispose d’échantillons, typiquement plusieurs centaines. Enfin, lorsque les modèles sont calculés, on demande à chacun d’entre eux d’effectuer une prévision et l’on retient comme prévision finale, celle qui a été effectuée par le plus grand nombre de modèles. Cette méthode relativement récente, appelée bagging, a donné de bons résultats dans bien des domaines. Mais dans le monde de la prévision de défaillance, aucune étude n’a été conduite en ce sens.
Précision et stabilité
De nombreux progrès peuvent encore être accomplis pour améliorer la stabilité des règles de prévision en tablant sur l’utilisation conjointe, quelle que soit l’étape de la construction d’un modèle, de plusieurs procédures. Ceci à un coût bien évidemment. Mais la précision et la stabilité des modèles le valent bien.