C’est quoi une statistique avancée ? On vous explique tout dans une série d’articles qui sera publiée au fil de la saison.
Les Expected Points Added (EPA) passent en premier sous le microscope de la rédaction.
D’où ça vient ?
Le concept d’Expected Points (EP) ou Points Attendus a été introduit pour la première fois en 1970 par Virgil Carter le quarterback titulaire des Bengals de l’époque et par Robert Machol, qui était professeur à Northwestern. Leur article quantifiait un concept intuitivement compris par tous les fans de football : posséder le ballon c’est bien, le posséder proche de l’en-but adverse, c’est mieux.
La notion a ensuite été améliorée et explicitée dans le livre fondateur de l’approche statistique appliquée au football américain : « The Hidden Game of Football ».
Cet ouvrage sorti en 1988 et co-écrit par Bob Carroll, John Thorn et Pete Palmer a permsi une première démocratisation de cette notion avant qu’elle soit reprise plus largement ces 5 dernières années par plusieurs journalistes américains.
A quoi ça sert ?
Les Expected points reposent sur l’idée que tous les yards ne sont pas égaux. Une course de 5 yards en 3e & 2 et une de 5 yards en 3e & 10 ont beau compter pour le même total de yards à la fin du match, elles n’ont pas la même valeur. La première permet à l’équipe de continuer son drive et donc augmente sa probabilité de marquer. Les EP ont pour objectif de donner du contexte à ce qu’il se passe sur chaque action afin de comprendre la valeur ajoutée de chaque jeu.
Les « points attendus » sont aujourd’hui utilisés par de nombreux analystes et équipes pour mieux comprendre ce qu’il se passe sur le terrain.
Comment ça marche ?
Dans Expected Points Added, il y a Expected Points (EP). Pour définir la notion d’EPA il faut donc d’abord expliciter celle d’EP.
Les EP servent à contextualiser un jeu. Pour chaque situation (exemple : 2e & 10 sur les 25 yards), les EP essayent de déterminer, en moyenne, combien de point une équipe est censée marquer sur cette possession.
Ces probabilités sont calculées grâce aux centaines de milliers de jeux qui ont eu lieu précédemment en NFL. Grossièrement, si une équipe est en 2nd&5 sur ses 35 yards, on regarde toutes les situations similaires qui ont eu lieu lors des 10 dernières années, et on regarde combien de fois la possession s’est terminée par un touchdown, un field goal, un punt… C’est une façon très simplifiée de voir les choses mais qui résume bien le principe de cette statistique.
Plus la valeur des EP est grande plus la probabilité de marquer des points est importante pour l’équipe qui a la balle. En revanche plus la valeur est négative plus c’est l’équipe adverse qui a de chance de marquer les prochains points.
Pour donner plus de contexte, les EP ont été simulés selon plusieurs modèles dans le graphe ci-dessous en fonction de la position de l’attaque sur le terrain:
Ici 3 modèles sont détaillés (nflscrapR, Hidden Game of Football, Carter) mais le plus utilisé aujourd’hui est celui de nflscrapR en accès publique. Dans ce modèle, pour un 1st down sur les 5 yards adverses il est donné une valeur d’EP de 6, car cette possession a une très forte probabilité de se terminer par un touchdown. A l’inverse une 3ème tentative sur ses 25 yards donne une valeur légèrement négative car il y a plus de chances que l’équipe adverse inscrive les prochains points.
La plupart des modèles de calcul d’EP se basent en fait sur plusieurs facteurs contextuels autre que seulement la position du terrain et le down comme c’est le cas ci-dessus.
On peut citer par exemple:
- Le nombre de yards à parcourir pour obtenir un first down
- Le différentiel de point
- Le nombre de minutes qu’il reste avant la mi-temps
Ces éléments servent à affiner le contexte de chaque action. Par exemple l’intégration du différentiel de point au moment de l’action permet de moins valoriser les actions ayant lieu quand le match est perdu ou gagné. En effet il n’est pas rare que des équipes qui mènent largement au score se relâchent et permettent à l’équipe adverse de marquer quelques points qui n’ont finalement aucune valeur. Plus une équipe est loin au tableau d’affichage moins ce qu’elle va faire aura une valeur ajoutée sur l’aboutissement du match.
Maintenant que les EP ont été définis, le calcul des EPA est en fait très simple. Si une équipe est en situation de 1ere & 10 sur ses 25 yards. Comme défini au-dessus, cette situation a une valeur d’EP qui lui est propre : EP (1).
Sur ce premier down le quarterback va compléter une passe de 5 yards amenant son équipe en 2nd & 5 sur ses 30 yards. Cette situation a elle aussi une valeur d’EP attitrée :EP (2). La valeur en EPA de ce jeu est simplement la différence d’EP entre les deux situations:
EPA = EP (2) – EP(1)
Ainsi les EPA permettent de définir de combien la moyenne de points attendus sur ce drive a évolué grâce au jeu qui vient de se dérouler.
Plus la valeur d’EPA d’un jeu est grande plus ce jeu donne de chance d’aller marquer des points. Ce nombre obtenu permet donc de quantifier la véritable valeur ajoutée de chaque action.
En revenant à l’exemple de début d’article, pour un même gain de 5 yards, les EPA mettent bien en avant la différence de valeur ajoutée entre les deux courses:
Comment les utiliser ?
Généralement les EPA sont toujours ramenés au nombre de jeu après avoir additionné les EPA d’une escouade pour effacer les effets de volume. Ils sont toujours utilisés du point de vue de l’attaque, ainsi une bonne défense aura un total d’EPA inférieur à zéro.
Voici quelques exemples d’utilisation des EPA, les données n’ont pas été ajustées pour l’époque et le calendrier.
Les limites de la statistiques
Comme toute statistique les Points Attendus présentent des limites, d’autant plus quand la donnée est utilisée de façon brute.
Les EPA ne peuvent pas distinguer les performances individuelles. Cela marchera bien pour les quarterback de par leur importance dans le niveau de jeu d’une attaque, mais cela sera beaucoup moins fiable pour les running backs ou les receveurs. Mais même pour les quarterbacks, en ne prenant que cette statistique il est parfois difficile de différencier le joueur de son système offensif.
Ils ne peuvent pas non plus quantifier l’impact que peuvent avoir certains jeux. Une formation ou un jeu particulier peuvent avoir de l’importance de par la suite du match, en signalant par exemple en tendance. De même pour les longues périodes, les défenses de Seattle 2013 et Denver 2015 n’apparaissent pas dans les 10 meilleures défense ci-dessus alors qu’elles ont eu un gros impact sur l’avenir défensif de la ligue.
Il est également parfois nécessaire d’ajuster les données au calendrier et de les confronter aux tendances de l’époque pour effectuer des analyses pertinentes.
Enfin, plupart des analyses se basant sur les EPA sont issues des données publiques de nflfastR. Cette base de donnée ne référence pas les formations et schéma ce qui signifie que les EPA brutes ne peuvent pas prendre en compte l’intention d’un jeu. Parfois un petit gain est volontaire.
Conclusion
L’EPA est une statistique très adaptée pour évaluer des performances collectives ou tirer des conclusions sur des grands volumes de données. Elle présente des limites dès que l’on cherche à rentrer dans l’individualité.
Cette statistique peut indiquer que les équipes devraient passer plus, surtout dans certaines situations, mais elle ne peut pas conclure si la décision d’un entraîneur de passer ou de courir était bonne en fonction de la défense à laquelle il faisait face.
Les EPA sont un outil très pratique pour mieux comprendre le football, notamment en manipulant des données s’étalant sur plusieurs matchs ou années. Elle sont peut-être aujourd’hui la donnée accessible la plus performante pour évaluer la véritable production d’une équipe sur le terrain, mais comme toute statistique, elle prend encore plus de sens quand elle est confrontée à d’autres indicateurs.