Ouagadougou/wayalghin(kossodo) contact@3im-consulting.org

Blog Details Title

Quelques études

Quel estimateur faut-il pour des modèles dynamiques en données de panel?

 

Dans une étude économétrique, le choix d’un estimateur approprié, c’est-à-dire qui permet d’éliminer le biais d’estimation, constitue même, si on peut le dire, une problématique de l’étude. Cette problématique est autant plus accentuée s’il s’agit encore d’un modèle dynamique en données de panel puisque dans ce cas les estimateurs classiques (OLS ou LSDV), connus pour leurs consistances, se révèlent inefficaces. Nous pouvons comprendre davantage la difficulté liée au choix des techniques d’estimations des modèles tels que les nôtres avec certains auteurs qui avaient déjà fait montre.

Nickell (1981) avait déjà souligné l’inefficacité des estimateurs OLS et LSDV dans le cas d’un modèle dynamique sur données de panel (lorsque l’échantillon est large et le temps fixe). Il mentionne que le biais vient du fait que la variable endogène est corrélée avec le terme d’erreur.

Caselli et al. (1996) a souligné que la plupart des études empiriques souffrent d’au moins un des problèmes suivants : premièrement, un problème de sous-détermination du modèle qui peut être exacerbé par la présence d’une variable endogène retardée. Arjoma et al. (OCDE, 2002) ajoutent pour leur part qu’avec une spécification dynamique, une corrélation sérielle peut résulter de l’omission d’un regrésseur pertinent. Deuxièmement, un problème d’endogénéité qui subsiste surtout dans toute analyse de la croissance du fait qu’un certain nombre de déterminants de la croissance sont affectés réciproquement par la croissance elle-même.

II.1 Analyse des biais d’estimation des modèles dynamiques en données de panel avec l’estimateur Within ou LSDV

Sur la base des analyses ci-dessus, nous allons donc avant tout choix d’estimateurs montrer la pertinence des biais liés à la spécification dynamique des modèles.

Soit le modèle dynamique standard en  données de panel suivant :

yit = γyi,t-1 + x’itβ + ƞi + ²it ; |γ |<1 ; i = 1, …, N et t =1, …, T   (1)

 

yit représente la variable dépendante, xit est le vecteur {(k-1) x1)} de variables explicatives strictement exogènes, ƞi est l’effet individuel inobservé, et ²it est le bruit blanc de variance constante σ²².

L’écriture sous forme matricielle de l’équation (1) est donnée par : Y = Dƞ + Wδ +².  (2)

Y est le vecteur (NT x 1) de la variable endogène et W = (Y-1 ⁞ X) est la matrice (NT x k) qui contient un retard de la variable dépendante et les (k-1) des variables explicatives ; D = I x ƖT est la matrice (NT x N) des variables muettes (ƖT est le vecteur (T x 1) des valeurs unitaires) ; ƞ est le vecteur (N x 1) des effets individuels ; ² est le vecteur (NT x 1) des résidus et δ = (γ ⁞ β’) est le vecteur (k x 1) des coefficients à estimer.

L’estimation des paramètres du modèle (1) à effets individuels fixes peut se faire par la méthode des Moindres Carrés Ordinaires (MCO). Cet estimateur est appelé estimateur Within ou estimateur à effets fixes ou encore estimateur LSDV (Least Square Dummy Variable). Le terme Within s’explique par le fait que cet estimateur tient compte de la variance intra zone de la variable endogène. La troisième appellation LSDV tient au fait que cet estimateur conduit à introduire des variables dummy représentées par la matrice D dans la spécification (2).

L’estimateur LSDV du vecteur  δ est donné par la relation suivante :

 LSDV = (W’AW)-1W’Ay     (3)

A = IN x (IT ƖTƖ’T) est une matrice (NT x NT) qui nous permet de centrer les variables par rapport à leurs moyennes par zone et d’éliminer l’effet fixe.

L’estimateur LSDV des paramètres du modèle (1) est biaisé et non convergent en raison de la présence de la variable dépendante retardée à la droite de l’équation qui est corrélée avec le terme d’erreur (Anderson et Hsiao, 1982). Néanmoins, cet estimateur peut fournir des estimations efficaces pour  T→+ ∞.

 

Quelle solutions alternatives pour l’estimation des modèles dynamiques

 

Le recours à certains estimateurs, pour cerner empiriquement la problématique d’endogénéité, est basé sur la revue de littérature. Disons qu’après l’article de Nickell (1981), de nombreux estimateurs consistants ont été fournis par la littérature économétrique et qui permettent de combler les lacunes des estimateurs classiques tels que les OLS et les LSDV. On a, ainsi, eu le développement des estimateurs consistants qui utilisent des variables instrumentales (Anderson et HSIAO, 1982) et des moments généralisés (Arellano et Bond, 1991 ; Arellano et Bover, 1995; Blundell et Bond, 1998). Peu après, d’autres estimateurs ont vu également le jour. On a la méthode de Group Mean Panel Fully Modified OLS (GM-FMOLS) en panel proposée par Pedroni (1996, 2000), la méthode de Pooled Mean Group (PMG) proposée par Pesaran, Shin et Smith (1999), la méthode basée sur la correction de biais de l’estimateur LSDV (LSDVC) de Bruno (2005a), etc.

Tous ces estimateurs appliqués sur données de panel possèdent des bonnes propriétés et permettent de résoudre entre autres, les problèmes d’endogénéité, d’hétérogénéité individuelle, de simultanéité, d’autocorrélation des erreurs, etc.

Quelles techniques d’estimation à retenir pour notre étude?

 


 

Nous voyons que nos modèles tels que spécifiés (leur caractère dynamique) ne sont pas exemptés dans leurs estimations des problèmes cités ci-dessus. En plus, nous partageons l’avis de ceux qui pensent qu’aucune technique ne peut garantir à elle seule l’élimination de tous les problèmes économétriques. Par exemple, on peut citer la mise en garde de Roman Arjoma et al. (OCDE, 2002) qui soulignent que la plupart des études qui prétendent résoudre le problème lié aux variables omises ignorent purement et simplement le risque d’endogénéité et réciproquement.

Au regard de l’analyse susmentionnée, nous estimons qu’il est impératif pour les estimations de nos modèles de trouver un compromis qui permettra de minimiser les sources potentielles de biais.

Afin d’atteindre notre objectif, nous avons délibérément adopté une stratégie d’estimation pluriméthodologique. Il s’agit pour nous, dans cette étude, de faire appel à trois types d’estimateurs jugés consistante, au regard de la spécification de nos modèles et aux spécificités de notre échantillon.

Comme le soulignent Roman Arjoma et al. (OCDE, 2002), les résultats qui sont obtenus avec plusieurs méthodes adoptant des démarches si différentes pour tenir compte des difficultés d’estimation apparaissent plus fiables que ceux produits par une seule méthode. Nous ne voulons pas, dans cette logique, remettre en cause les résultats des études ayant adopté une seule technique d’estimation, mais nous espérons être à l’abri des biais d’estimation et pouvoir apporter un jugement efficace sur les résultats. Dans notre contexte, la combinaison des techniques d’estimation permet de résoudre les modèles et de prendre en compte les incertitudes sur les paramètres estimés.

Dans le cadre de notre étude, nous avons choisi d’appliquer la méthode des Moments Généralisés (GMM) de Blundel et Bond (1998) et celle de Least Square Dummy Variable Corrected (LSDVC) de Bruno (2005a), à l’estimation de nos équations de croissance et d’investissement.

 Notre choix se justifie par l’avis partagé avec Alain Serres et al. (OCDE, 2003) qui soulignent que le choix parmi des estimateurs consiste en un compromis entre consistance et efficacité. Ils estiment par ailleurs que les estimateurs qui imposent des restrictions sont plus efficaces avec les modèles hétérogènes, pour peu que les restrictions soient valables.

II.2  Correction de biais : La Méthode des Moments Généralisés (GMM)

La méthode des moments généralisés (GMM) est la plus généralement utilisée dans les études en panel dynamique[1]. Son choix est lié à sa capacité à résoudre les problèmes de biais de simultanéité, de causalité inverse, de variables omises et de contrôler les effets spécifiques individuels et temporels.

Mais cette méthode présuppose la quasi-stationnarité des variables en niveau et l’absence d’autocorrélation des erreurs.

Il existe deux variantes des méthodes GMM, les plus utilisées en panel dynamique :

  • L’estimateur GMM en première différence et (b) l’estimateur GMM en système.

Avant de parler de ces deux estimateurs, il est intéressant d’aborder celui d’Aderson et Hsiao (1982) qui fut le premier estimateur en panel dynamique utilisant la méthode des moments. Pour résoudre le problème d’hétérogénéité individuelle, ƞi de l’équation (1), ces auteurs ont procédé premièrement à l’écriture de ce modèle (1) en différence première : yit – yi,t-1 = γ(yi,t-1– yi,t-2) + β(xit – xi,t-1) + (²it²i,t-1) et se sont rendus compte qu’une corrélation persiste ente la variable endogène en différence première et le terme d’erreur. Ainsi, les auteurs ont donc proposé d’utiliser la méthode des variables instrumentales en choisissant comme instrument la variable endogène retardée d’ordre deux, yi,t-2, ou sa différence première, yi,t-2 – yi,t-3. Ces instruments ne sont pas corrélés avec le terme d’erreur (²it²i,t-1).

Cependant, il a été démontré que cet estimateur est efficace et non convergent car n’exploite pas toutes les conditions sur les moments et ne prend pas en compte la structure du terme d’erreur.

Pour pallier à ce problème, les deux autres estimateurs en panel dynamique ont été proposés.

L’estimateur GMM en première différence d’Arellano et Bond (1991) consiste à prendre pour chaque période la première différence de l’équation à estimer pour éliminer les effets spécifiques des pays, et ensuite à instrumenter les variables explicatives de l’équation en première différence par leurs valeurs en niveau retardées d’une période ou plus.  Le but est de réduire le biais de simultanéité introduit par la présence de la variable retardée en différence. Pour des séries suffisamment longues, les différences de retards (yi,t-2 – yi,t-3) ou les retards yi,t-2 et  yi,t-3 constituent un ou deux instruments pour (yi,t-1– yi,t-2).

Quant à l’estimateur GMM en système de Blundel et Bond (1998), il combine les équations en première différence avec les équations en niveau dans lesquelles les variables sont instrumentées par leurs premières différences.  En effet, Blundel et Bond (1998) ont montré que la procédure en première différence d’Arellano et Bond (1991) n’exploite pas toutes les informations de l’échantillon.

 Présentation des estimateurs  GMM

 

 

  • L’estimateur GMM d’Arellano et Bond (1991) se présente comme suit :

GMM = [(W*’Z) AN (Z’W*’)]-1(W*’Z) AN (Z’Y*)

AN = -1 ; W* et Y* sont deux transformations respectives de W et Y (les différences premières) ; Zt  est la matrice des variables instrumentales et Ht la matrice des effets spécifiques.

  • L’estimateur GMM de Blundell et Bond (1998) :

Dans cet estimateur, nous avons les transformations suivantes : Yt* = (ΔYt3, …, ΔYtT, Yt3, …, YtT)

Et Wt* =              

Ces deux estimateurs (GMM en système et GMM en première différence) sont des estimateurs efficaces lorsque N → + ∞. Par contre, sur des petits échantillons les deux estimateurs fournissent des estimations biaisées (Bun et Kiviet, 2003 ; Bruno, 2005).

Cependant, plusieurs auteurs ont tenté de mettre en évidence la supériorité de chaque variante par rapport à l’autre.

Arellano et Bover (1995) et, Blundell et Bond (1998) montrent que lorsque les données sont persistantes et que le nombre de période est faible, l’estimateur GMM en différence fournit de mauvaises estimations du fait que dans ces conditions les variables décalées en niveau deviennent de faibles instruments.

Blundel et Bond (1998) ont montré à l’aide des simulations de Monte Carlos que l’estimateur GMM en système est plus performant que celui en première différence.

Au regard des spécificités de notre échantillon et des données dont nous disposons, il nous paraît plus pertinent de recourir à l’estimateur GMM en système.

Des tests de suridentification de Sargan/Hansen s’avèrent nécessaires afin de détecter la présence d’instruments faibles comme l’ont suggéré Arellano et Bond (1991), Arellano et Bover (1995) et, Blundel et Bond (1998).

Pour cette méthode spécifiquement (GMM), le test d’autocorrélation porte sur l’hypothèse d’absence d’autocorrélation de second ordre. En effet, par construction, il est montré que le terme d’erreur en différence première est corrélé au premier ordre, mais ne doit pas l’être au second ordre. Les auteurs cités ci-dessus ont donc suggéré un test d’autocorrélation de second ordre. Le test d’autocorrélation d’Arellano et Bond où l’hypothèse nulle est l’absence d’autocorrélation de second ordre  des erreurs (de l’équation en différence première) est donc mieux indiqué pour vérifier ce point.                                                

II.3 Correction de biais : La méthode Least Square Dummy Variable Corrected (LSDVC)

Comme nous l’avons souligné plus haut, l’estimation des modèles dynamiques est biaisée avec les estimateurs classiques tels que Least Dummy Variable (LSDV) et Ordinary Linear Square (OLS).

Pour contourner le biais surtout d’endogénéité, il est procédé à la correction de ce biais  d’estimation fourni par cet estimateur en recourant à une série de techniques fournies par la littérature dont les plus utilisées sont notamment la méthode d’Anderson et Hsiao (1982) (AH), la méthode d’Arellano et Bond (1991) (AB) et la méthode de Blundel et Bond (1998)  (BB). 

Ces  méthodes  d’estimations  sont  basées  sur  la  méthode  des  moments généralisés en panel dynamique qui permet de contrôler les effets individuels et temporels et de pallier le problème d’endogénéité des variables.

Contrairement aux deux premiers estimateurs susmentionnés, qui sont gourmands en données (transversales et temporelles), l’estimateur LSDVC reste toujours efficace même en petites données.

En effet, Kiviet (1995, 1999) et, Bun et Kiviet (2003) ont montré que l’estimation des paramètres d’un modèle dynamique sur données de panel est possible pour des échantillons de petite taille. Ces auteurs mettent également en évidence qu’un estimateur LSDV corrigé   (LSDVC) est plus  efficace  que  l’estimateur  GMM  lorsque  N est  faible.  Bruno  (2005b)  prolonge  la formulation de Bun et Kiviet (2003) pour le cas des panels dynamiques non cylindrés.

Quelle Principe de correction de biais connus sous le nom de <<Biais de Nickell>>

Nickell (1981) examine le biais d’un estimateur LSDV pour N→ +∞,  cependant  un biais additionnel donné par   = E ( LSDVδ) joue un rôle important dans le cas où N et T sont finis (Bun et Kiviet, 2003 et 2006). Bun et Kiviet (2003) ont défini les trois types de biais suivants :

B1 = c1(T-1),

B2 = B1 + c2 (N-1T-1),

B3 = B2 + c3 (N-1T-1).

Où les valeurs de ci[2], i = 1, 2, 3 dépendent des paramètres inconnus de l’équation (2) (δ) et de la variance du terme d’erreur.

L’estimateur  LSDVC est obtenu en soustrayant la valeur estimée de βi (i) de l’estimateur Within (LSDV). Pour l’estimation de βi, Bruno (2005b) utilise comme valeur initiales les valeurs estimées de  issues de l’une des méthodes d’estimation AH, AB ou BB (les propriétés de ces estimateurs sont définies dans la section concernant l’estimateur GMM).

L’estimateur LSDVC est donné comme suit :

LSDVCi = LSDV – i,  i = 1, 2, 3.

Et  l’estimateur de σ² est donné par :

h=  où h = y-Wh, et h = [AH, AB, et  BB][3]

Quels sont les avantages de l’estimateur LSDVC ?

Si toutefois, le biais est corrigé, cet estimateur présente un double avantage puisque d’une part, l’estimateur LSDV a souvent une variance plus faible que les autres estimateurs et d’autre part, une correction du biais de l’estimateur LSDV permet de fournir une estimation consistante pour l’ensemble des dimensions de panels.

Quels sont les inconvenients de l’estimateur LSDVC ?

 

 

 Contrairement aux estimateurs précédents qui permettent une estimation efficace en présence de régresseurs endogènes, les estimateurs LSDVC suppose a minima une exogénéité faible. L’estimateur LSDVC proposé par Bruno (2005b) suppose une stricte exogénéité des régresseurs du modèle.

Dans notre étude, nous appliquons les trois types de correcteurs de biais (AH, AB et BB) et nous retenons les critères standard error des coefficients et  Root Mean Square Error (RMSE) pour comparer ces méthodes d’estimation. La régression retenue sera celle qui présente des standard error ou un RMSE le plus faible :

                                               

                                                RMSE = √RSS/N-K

 

Avec RSS = somme des carrés des résidus, N= nombre d’observations et k = nombre de paramètres.

Le choix de la méthode d’estimation appropriée aux fins d’analyse

Bien que le recours à plusieurs estimateurs (trois dans notre cas) possède des avantages en termes de contrôle de biais d’estimation, il n’en demeure pas moins qu’il impose évidemment un problème de choix parmi les différentes estimations obtenues pour l’analyse de la problématique (surtout si les résultats sont très différents). Il faudrait comprendre la nécessité de ce choix par le fait que nous ne sommes pas dans un cadre de comparaison statistique des estimateurs. Notre souci est d’apporter des réponses plausibles à notre problématique décrite plus haute.

Nous ne pouvons pas d’ores et déjà savoir parmi les trois estimateurs, capables de produire des estimations robustes et efficaces, celui qui donnera des estimations plus satisfaisantes. Nous estimons que seuls les tests statistiques pourront en discriminer. D’autant plus que chaque estimateur repose sur des hypothèses dont la validé des résultats en dépend de celle des hypothèses.

Aux fins de comparaison de l’efficacité des estimateurs dans les modèles dynamiques, les chercheurs recourent souvent au critère des bornes du coefficient de la variable endogène obtenue à partir des estimations par les techniques OLS et LSDV. En effet, la revue de littérature nous enseigne que l’estimation du coefficient de la variable décalée est biaisée à la hausse par l’estimateur OLS et à la baisse par l’estimateur LSDV (Bond, 2002). Par conséquent, les estimations par ces deux méthodes permettent d’obtenir les bornes du coefficient de la variable décalée et de discuter les résultats qui seront obtenus par les différents estimateurs.

 

Auteur : Harouna KERE/ Economiste-statisticien

Directeur de 3I-R

Date de publication : Juin 2022

[1] (Kpodar, 2008) souligne que les GMM, de par ses avantages, sont les plus indiquées pour les panels dynamiques.

[2]  Voir Bun et Kiviet (2003) et Bruno (2005) pour plus de détails sur les valeurs de ci.

[3] L’option AH correspond à la commande ivreg sans constante dans stata, AB correspond à xtanbond sans constante et BB correspond à xtanbond2 sans constante.

  • Related Tags: