Risque de faillite

Les fonctions scores sont-elles encore efficaces ?

Créé le

17.02.2015

Mis à jour le

31.03.2015

Les fonctions de scoring sont encore largement utilisées pour tenter de circonscrire au mieux le risque de faillite des entreprises. Ces méthodes ont l’avantage de se fonder sur l’information financière, très accessible, mais présentent de nombreuses limites. Les derniers travaux de recherche en la matière permettent de construire des outils plus précis.

Philippe du Jardin

Professeur Edhec Business School

Éric Séverin

Enseignant chercheur, IAE Lille, Laboratoire Rime Lab. EA7396 Université de Lille

Dès la fin des années 1960, Beaver (1966, 1968) ou encore Altman (1968) proposent des méthodes susceptibles de circonscrire le risque de faillite. L’idée est simple : il s’agit de comparer deux groupes d’entreprises en vue de déceler les variables capables de discriminer correctement les bonnes entreprises des mauvaises. L’enjeu est de taille quand on sait le coût supporté par les banquiers lorsqu’un débiteur n’est pas en mesure de rembourser l’argent emprunté. Depuis se sont développées des agences de notation dont l’objectif est similaire à celui des fonctions de scoring : discerner les bons risques des mauvais. Malgré des sophistications toujours plus grandes, on a constaté que les avis et recommandations issus de ces outils et agences n’étaient pas exempts de critiques. On sait, par exemple, qu’un mois avant son dépôt de bilan au début du mois de décembre 2001, la fameuse entreprise américaine Enron était classée dans la catégorie « investment grade ».

Comme les notes, les scores ont comme particularité de prendre appui sur les nombres comptables. Cette caractéristique a l’avantage de prendre en compte une information abondante : l’information financière. Ce travail a pour but de s’interroger sur les modèles de scoring et leurs limites.

Modèles univariés ou multivariés ?

L’utilisation des données comptables est le pilier sur lequel sont basés tous les modèles de faillite. Le travail séminal est celui de Beaver (1966). En partant de 30 ratios, calculés sur un échantillon de 79 entreprises ayant fait faillite, l’auteur fait ressortir 6 ratios pertinents capables de mieux circonscrire dans un premier temps les entreprises saines et faillites. Le ratio cash flow/endettement total, permet à l’auteur d’obtenir un taux global d’entreprises bien classées égal à 77 % un an avant la faillite. Cette méthode a néanmoins une limite : la non-prise en compte de la dimension temporelle.

C’est la raison pour laquelle Altman (1968) a substitué à cette approche univariée, une approche multivariée au travers d’une fonction faisant ressortir un seuil en deçà duquel l’entreprise peut être considérée comme faillite (Z-Score). La base du travail est la même : à l’aide d’un échantillon apparié (33 entreprises saines et 33 entreprises faillites), Altman (1968) met en évidence que si une entreprise a un score inférieur à 2,675, elle doit être considérée défaillante. Un an avant la faillite, l’auteur obtient sur la base de ce critère 95 % de bons classements alors que ce taux est de 48 % trois ans avant. Malgré ces améliorations, le Z‑score développé par Altman (1968) reste subordonnée à des hypothèses très restrictives sur les variables, à savoir la multinormalité des ratios, l’hypothèse de linéarité du lien entre les ratios et le risque de faillite d’une entreprise ainsi que l’égalité des matrices de variance-covariance dans les deux échantillons d’entreprises saines et défaillantes. La remise en cause de ces hypothèses va faire émerger d’autres types de modèles basés sur d’autres méthodes économétriques ou sur l’intelligence artificielle.

Les premières limites statistiques

Multinormalité des ratios

La remise en cause de l’hypothèse de multinormalité a conduit au développement des modèles logit. Ces modèles ont été développés suite au travail d’Ohlson (1980) et permettent de trouver par exemple les facteurs qui caractérisent les firmes faillites par rapport à des firmes saines. Quant au modèle probit, il suppose le respect des hypothèses de la loi normale. Les résultats des deux modèles sont proches dans l’ensemble. La formalisation l’est également. Alors que certains auteurs concluent à une meilleure performance des modèles probit/logit comparativement aux analyses linéaires et quadratiques relativement à leur taux de bon classement, d’autres relativisent ce constat et concluent plutôt à l’inverse (Bardos, 1989). C’est dans cette logique que d’autres modèles, ne recourant pas aux modèles paramétriques, ont été mis en œuvre. Il s’agit des méthodes non paramétriques qui utilisent le partitionnement récursif en utilisant les arbres de décision (Frydman et al., 1985).

Linéarité du lien

Bardos (1989) s’est intéressé au problème de la linéarité du lien entre les ratios et le score de discrimination. À cet effet, elle transforme les variables comptables en variables binaires.

L’auteur estime que le score construit sur cette base est plus robuste malgré sa faible performance par rapport à celui de l’analyse linéaire.

Égalité des matrices variance-covariance

En éludant l’hypothèse d’égalité des matrices de variance-covariances dans les deux échantillons, certains auteurs développent un modèle de discrimination quadratique qui ne prend en compte que l’hypothèse de la multinormalité des ratios. Malgré la relative pertinence de cette approche par rapport à l’analyse linéaire, cette dernière paraît moins performante car, outre les problèmes d’hétéroscédasticité, cette méthode nécessite un nombre élevé d’observations. Sur l’inventaire des études empiriques ainsi réalisées, l’analyse discriminante linéaire l’emporte. Par ailleurs, dans la plupart des cas, la probabilité de bon reclassement des individus se situe au-delà de 80 %, ce qui tend à créditer l’outil d’une efficacité certaine. Toutefois, au regard du pouvoir prédictif, les approches alternatives à l’instar des algorithmes génériques apparaissent comme des approches concurrentes.

Sur l’inventaire des études empiriques ainsi réalisées, l’analyse discriminante linéaire l’emporte. Par ailleurs, dans la plupart des cas, la probabilité de bon reclassement des individus se situe au-delà de 80 %, ce qui tend à créditer l’outil d’une efficacité certaine. Toutefois, au regard du pouvoir prédictif, les approches alternatives à l’instar des algorithmes génériques apparaissent comme des approches concurrentes.

Les autres limites et les pistes d’amélioration

Outre les limites statistiques précédemment décrites, un certain nombre d’auteurs ont souligné d’autres limites des modèles de faillite. On peut en citer, en particulier, les erreurs de reclassement, les échantillons et la non prise en compte de la dynamique de la faillite.

Les erreurs de reclassement et les échantillons

Tous les modèles de prédiction sont marqués par deux types d’erreurs, celle de type 1 (considérer qu’une entreprise est saine alors qu’elle est en réalité faillite) et les erreurs de type 2 (considérer une entreprise faillite alors qu’elle est saine). La difficulté provient de la nature de ces erreurs. Si l’on cherche à minimiser une erreur de type 1, cela ne peut se faire qu’au détriment d’une erreur de type 2. On peut alors penser que les établissements financiers vont privilégier les outils qui seront en phase avec leur politique de crédit.

L’autre problème des modèles tient dans les échantillons utilisés. En effet, les études qui servent de base à la construction de ces modèles considèrent toujours deux populations : une population de firmes saines et une population de firmes faillites. Même si des précautions minimales sont prises en considérant la taille ou l’appartenance sectorielle, il est discutable de considérer deux échantillons de taille égale. Cela signifie que dans la réalité, il y a autant de firmes faillites que saines !

Les modèles de faillite : des modèles statiques qui oublient l’histoire de l’entreprise

En général, les modèles de faillite prennent des données à la date T sur lesquelles ils construisent le modèle. Cela signifie que les modèles « oublient » le passé puisque les informations comptables plus anciennes (portant sur les années T-1, T-2, etc.) ne sont pas prises en compte. Des travaux scientifiques (Laitinen, 1991 ; Pompe et Bilderbeek, 2005) ont montré que la faillite est le résultat d’un processus qui s’inscrit dans le temps, ce qui revient à dire que l’histoire des entreprises est une variable essentielle expliquant leur aptitude à survivre. Ainsi, certaines entreprises vont montrer des signes de faiblesses très longtemps avant qu’elles ne disparaissent, d’autres vont voir leur situation se dégrader très rapidement, d’autres encore vont disparaître alors que rien ne le laissait supposer (D’Aveni, 1989). C’est pourquoi, les travaux les plus récents intègrent désormais cette dimension au travers de trajectoires (du Jardin et Séverin, 2011). L’intérêt de ces méthodes, parfois lourdes à manier, est de pouvoir améliorer d’une part, le taux de classement, et, d’autre part, d’améliorer la capacité temporelle prédictive des modèles. En effet, la plupart des modèles linéaires sont à reconsidérer au bout de 2 ans. Cette caractéristique pose un problème pour le décideur. En effet, comment attribuer un prêt à long terme à une entreprise (par exemple un prêt à 5 ans) alors que les outils de prévision n’ont qu’un horizon de bons reclassements de l’ordre de 18 mois à 2 ans ?

Conclusion

Les dernières avancées permettent de construire des outils de plus en plus précis et de dépasser les fonctions scores encore largement utilisées. À l’avenir, d’autres questions sont susceptibles d’être des objets de réflexion. Ainsi, un certain nombre de travaux mettent en évidence la sensibilité des résultats des modèles de faillite à la sélection de variables. Il ressort que la sélection de variables est un élément essentiel dans le choix et l’utilisation d’une méthode de prévision. Néanmoins, ces questionnements n’épuisent pas les pistes de travail. À titre d’exemple, prenons le cas des variables manquantes. En effet, dans de nombreux cas, les entreprises faillites ne renseignent pas l’ensemble de l’information financière. La capacité des méthodes capables de pouvoir traiter ce problème est un élément déterminant dans la recherche de la qualité des modèles.