Model Checking in Practice When Teaching Frequentist Statistics

In the prominent and widely cited "Storks deliver babies (p= 0.008)." Teaching Statistics 22.2 (2000): 36-38, Matthews computes a p-value for an operationalization of the hypothesis that storks deliver babies. We point out that the issue in that analysis is not the interpretation of the p-value, but that the p-value should never have been computed: (1) The correlation is driven by a single outlier visible on a diagnostic plot and (2) The (dubious) operationalization is incorrect, since the correlation is between the birth *rate* and the total number of storks.

We use this example as a jumping point for exploring a dilemma in teaching model checking in conjunction with frequentist statistics: on the one hand, we know that computing p-values on a misspecified model makes no sense; on the other hand, rigorous model checking is extremely difficult for students, and relies on subjective judgement.

We discuss several pedagogical case studies and conclude that this is not a solved problem.

Vérification de modèles dans la pratique de l'enseignement de la statistique fréquentiste

Dans l'article très connu et souvent cité « Storks deliver babies (p= 0,008) » (Les cigognes livrent les bébés (p= 0,008)), publié dans Teaching Statistics 22.2 (2000) : 36-38, Roberts calcule une valeur p pour une opérationnalisation de l'hypothèse selon laquelle les cigognes livrent les bébés. Nous soulignons que le problème dans cette analyse n'est pas l'interprétation de la valeur p, mais le fait que cette valeur n'aurait jamais dû être calculée : (1) la corrélation est due à une seule valeur aberrante visible sur un graphique diagnostique et (2) l'opérationnalisation (douteuse) est incorrecte, car la corrélation concerne le *taux* de natalité et le nombre total de cigognes.

Nous utilisons cet exemple comme point de départ pour explorer un dilemme dans l'enseignement de la vérification de modèles en conjonction avec les statistiques fréquentialistes : d'une part, nous savons que le calcul de valeurs p sur un modèle mal spécifié n'a aucun sens ; d'autre part, la vérification rigoureuse des modèles est extrêmement difficile pour les étudiants et repose sur un jugement subjectif.

Nous discutons plusieurs études de cas pédagogiques et concluons qu'il s'agit d'un problème non résolu.

Session

New Frontiers in Business and Industrial Statistics: Outlier Detection and p-Values

Date and Time

Wed, 06/03/2026 - 10:20 - Wed, 06/03/2026 - 10:35

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English