Comparing Permutation Approaches in Linear Regression: Theoretical Insights and Practical Guidelines
Permutation tests provide a robust non-parametric alternative for hypothesis testing, especially when null distributions are complex or model assumptions are violated. In this paper, we investigate permutation methods in linear regression to test the association between an outcome and a predictor, adjusting for other covariates. We compare two key choices (1) permuting residuals vs. raw data, and (2) permuting the outcome, predictor, or both. Our theoretical frameworks show permuting raw data often inflates Type I error rates, while permuting residuals typically preserves correct error rates, except under certain conditions we specify. Simulation studies support our findings. We also propose an efficient approximation for p-values, assuming a normal null distribution, reducing computational cost in large sample sizes or high-dimensional data requiring repeated permutation tests. Our results offer practical guidelines for selecting appropriate permutation strategies in complex analyses.
Comparaison des approches de permutation dans la régression linéaire : perspectives théoriques et indications pratiques
Les tests de permutation constituent une alternative non paramétrique robuste pour les tests d'hypothèse, en particulier lorsque les distributions sous l'hypothèse nulle sont complexes ou que les hypothèses du modèle ne sont pas respectées. Dans cet article, nous étudions les méthodes de permutation dans la régression linéaire pour tester l'association entre un résultat et un prédicteur, en tenant compte d'autres covariables. Nous comparons deux choix clés (1) permuter les résidus versus permuter les données brutes et (2) permuter la variable réponse, le prédicteur ou les deux. Nos cadres théoriques montrent que la permutation des données brutes conduit souvent à l'inflation des taux d'erreur de type I, tandis que la permutation des résidus préserve généralement des taux d'erreur corrects, sauf dans certaines conditions que nous spécifions. Des études de simulation appuient nos conclusions. Nous proposons également une approximation efficace des valeurs p, en supposant une distribution normale sous l'hypothèse nulle, ce qui permet de réduire les coûts de calcul pour les échantillons de grande taille ou les données à haute dimension nécessitant des tests de permutation à répétition. Nos résultats offrent des indications pratiques pour la sélection de stratégies de permutation appropriées dans des analyses complexes.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais