2016-Progrès récents en modélisation par les arbres de régression

Progrès récents en modélisation par les arbres de régression
Responsable et président: Matthew Pratola (Ohio State University)
[PDF]

HUGH CHIPMAN, Acadia University Modèle de dispersion avec ensemble d'arbres [PDF]: Les arbres additifs de régression bayésiennes (BART) forment un modèle d'apprentissage supervisé flexible et évolutif qui offre une évaluation précise de l'incertitude via des intervalles de crédibilité. Ce modèle se base sur la forte hypothèse des erreurs iid. Même lorsque l'erreur de la variance est non constante, BART peut donner des prédictions ponctuelles précises. Par contre, il est improbable que les intervalles de crédibilité demeurent précis ou utiles. Nous développons un nouveau modèle BART hétéroscédastique pour dissiper ces préoccupations. Cela est possible par l'introduction d'arbres multiplicatifs bayésiens, qui modélisent la composante de variance en tant que fonction des prédicteurs. Nous employons et démontrons cette approche à travers plusieurs exemples.
TOM LOUGHIN, Simon Fraser University Forêts aléatoires adaptatives élaguées et robustes utilisant des arbres fondés sur la vraisemblance [PDF]: Les forêts aléatoires de régression sont généralement construites à l'aide d'arbres de régression standards. Ces arbres font des divisions qui minimisent l'erreur carrée, ce qui suppose implicitement une homoscédasticité. Ils ne sont pas robustes en présence d'hétéroscédasticité, ce qui peut se transférer aux forêts. Comme l'hétéroscédasticité est courante dans une part substantielle des données réelles, les forêts aléatoires peuvent fréquemment être peu efficaces. De plus, ils sont inefficaces pour ajuster les fonctions moyennes qui sont partiellement planes. Nous présentons une version des arbres de régression basée sur la vraisemblance qui modélise explicitement à la fois la moyenne et la variance, et qui utilise ces arbres comme base d'apprentissage dans notre forêt aléatoire. Nous développons aussi un algorithme rapide d'élagage fondé sur des critères d'information qui améliore l'ajustement avec les fonctions moyennes partiellement planes.
DANIEL ROY, University of Toronto Les processus Mondrian et leurs applications statistiques [PDF]: Les processus Mondrian sont une classe de processus stochastiques en temps continu qui induisent une partition aléatoire hiérarchique d'un espace produit. Durant cet exposé, je passerai en revue les processus Mondrian et leurs applications à un certain nombre de problèmes statistiques, y compris les modèles de réseau et la classification efficace en ligne et la régression via les forêts Mondrian.