Mélanges Plus

2000

Date Source: 

NA

Organizer: 

Peter Macdonald


Introduction


La modélisation par mélange consiste à modéliser une répartition statistique par un mélange (ou une somme pondérée) d'autres répartitions. La modélisation par mélange est également connue sous le nom d'"apprentissage de concepts non encadré" en Intelligence artificielle, d'"analyse de classes latentes" en Psychologie, de "classification intrinsèque" en Philosophie et de "classification", de "clustering" (informatique de grappes) ou de "taxinomie numérique" dans d'autres contextes. Toutes ces applications impliquent des échantillonnages à partir d'une population hétérogène. La variable d'intérêt suit une répartition différente dans chaque population de composantes mais il est impossible d'observer directement la composante de laquelle un individu échantillonné provient.


Dans sa forme la plus pure, un problème de mélange nécessite de tirer des conclusions sur les coefficients pondérateurs et la répartition des composantes sur la base d'un simple échantillon du mélange. Plus les répartitions de composantes sont proches les unes des autres, plus cela sera difficile. Ce que nous essayons de faire est de tirer des conclusions sur une répartition mixte à partir de l'une des ses marges : on peut donc s'attendre à des problèmes d'identifiabilité et d'instabilité quantificative, et toute solution peut être très dépendante du modèle.


La situation sera bien meilleure si nous disposons ne serait-ce que de quelques informations supplémentaires, et c'est là la raison d'être de ces deux exemples. Le but de l'exercice est de trouver un modèle approprié et une façon de l'adapter, et de se prononcer sur les quantités d'intérêt, que ce soit par probabilité maximum (avec votre choix de recherche directe, quasi-Newton, algorithme EM ou autre optimisation), analyse non paramétrique ou Bayésien. Toutes les solutions auxquelles je pense peuvent facilement être programmées en Splus ; il est inutile d'acheter des logiciels de mélange spéciaux ou de programmer en C++.


Données - Diamètre des fibres nerveuses


Ronald H. Stead, PhD, FRCPath, président et directeur scientifique de, Holburn Biomedical Corporationet professeur associé de pathologie et médecine moleculaire, Université McMaster, a étudié l'effet d'une infection de nématodes sur les fibres nerveuses de l'intestin.
 

L'infection par le nématode Nippostrongylus brasiliensis provoque la dégranulation des mastocytes des muqueuses intestinales et l'hyperplasie ultérieure des mastocytes en réaction inflammatoire à cet organisme. Dr Stead a montré que les mastocytes dans la muqueuse de l'intestin sont innervés et a également noté que, pendant la phase d'activation des mastocytes suivant l'infection par Nippostrongylus brasiliensis, l'ultrastructure des nerfs était en accord avec une dégénérescence. Il a donc émis l'hypothèse qu'une régénération nerveuse devait accompagner l'hyperplasie des mastocytes et a voulu tester cette hypothèse en étudiant les mesures de superficie des coupes transversales des fibres nerveuses des muqueuses. Cette étude est conforme à des travaux antérieurs qui ont montré que les diamètres des axones en régénération sont inférieurs à ceux des fibres nerveuses établies. Des échantillons d'intestin de rats infectés par le nématode ont fait l'objet d'une étude histologique, une méthode immunocytochimique permettant de localiser une protéine liée aux nerfs appelée GAP-43 (ou B-50). Une analyse par microimagerie a ensuite été réalisée à l'aide d'un Quantimet, permettant la mesure de la superficie des coupes transversales des profils de nerfs (en microns carrés), ainsi que de la densité des profils de nerfs dans les muqueuses. Cette étude a permis de fournir des preuves éloquentes de la dégénérescence nerveuse au cours de la phase aiguë de la réaction inflammatoire au nématode, suivie par une réinnervation et une augmentation à long terme de 30% des fibres nerveuses des muqueuses, plusieurs semaines après l'infection. Pour plus de détails sur cette étude, consultez J. Neurosci., 1991;11:3809.
 

La répartition des diamètres des fibres a été recherchée à 0, 10 et 14 jours suivant l'infection. Vous pouvez vous procurer les données sous la forme du tableur "nerve gut" dans le classeur Excel 97/98 mixtures.xls  (14 K), ou sous la forme d'un fichier de texte.. Les données ont été regroupées en casiers ; la colonne "Diamètre des fibres nerveuses" indique les points de coupure entre les casiers. Le casier final est ouvert, si bien que le point de coupure est indiqué par "*". Il semble qu'il existe de petites fibres (régénérées), de grandes fibres (dégénérées) et des fibres de taille intermédiaire, et que la taille moyenne des fibres régénérées et dégénérées reste la même alors que les proportions relatives évoluent en réaction à l'infection.
 

Données - Longueur et âge des limandes à queue jaune
 

Karen Whalen Dwyer et Stephen Walsh, Pêches et Océans Canada,Centre des pêches de l'Atlantique nord-ouest, Saint-Jean de Terre-Neuve, étudient des données historiques concernant la longueur et l'âge des limandes à queue jaune.
 

Notification de consentement : Les données brutes ne doivent être incluses dans aucun tableau ni annexe d'aucune revue scientifique. Elles pourront apparaître, mais sous forme récapitulative uniquement, avec l'autorisation écrite expresse du ministère des Pêches et des Océans.
 

La limande à queue jaune (Pleuronectes ferrugineus) est une limande de petite gueule et aux yeux droits de la famille Pleuronectidae. Elles sont réparties dans l'Atlantique du nord-ouest de la Baie de Chesapeake aux côtes du Labrador. Aux États-Unis, on les appelle parfois "rusty dab". La limande à queue jaune dérive son nom de la couleur jaune particulière sur la nageoire caudale ventrale et aux bords des deux longues nageoires sur le côté (blanc) aveugle. Elles vivent sur les fonds de sable ou de boue sablonneuse et se nourrissent principalement de vers polychaetes et de crustacés tels que des amphipodes. Elles vivent à des profondeurs de 37 à 91 m.
 


 

Le frai se produit à la fin du printemps ou au début de l'été et peut se prolonger jusqu'à septembre. La limande à queue jaune ne migre pas pour frayer mais descend au fond de l'eau. Cette limande produit un grand nombre de petits oeufs et larves, qui restent pélagiques pour les premiers mois de leur vie.
 

La limande à queue jaune est une espèce commerciale sur le Grand banc (Organisation des pêches de l'Atlantique du nord-ouest, Division 3LNO) ; elle est pêchée depuis les années 1960. La pêche est principalement au chalut ; la limande est prise à partir de l'âge de 4 à 7 ans. Les mâles arrivent à maturité à l'âge de 5 ans, les femelles à l'âge de 6 ans. La limande à queue jaune est une espèce dont l'espérance de vie est relativement courte (13 ans au maximum) par rapport à d'autres limandes qui peuvent vivre de 20à 30 ans.
 

Les données concernant la fréquence de longueur des limandes à queue jaune ont été obtenues à l'automne 1987 au cours d'une étude de chalut multi-espèce effectuée par le Département des pêches et océans. L'équipement d'étude utilisé est un petit chalut à filet à crevettes capable d'échantillonner toues les classes d'âge. Ces études couvrent chaque année l'ensemble du Grand banc.
 

Les données de 1987 sont dans le tableur "yellowtail 1987" du classeur Excel 97/98 mixtures.xls (14 K) or sous la forme d'un fichier de texte. L'échantillon regroupe 9 936 poissons. Chaque poisson a été mesuré et les données ont été regroupées en classes de longueur. La colonne "classe de longueur" indique le point de coupure de chaque casier en cm. Certains poissons ont été échantillonnés dans chaque classe de longueur et leur âge calculé par comptage des anneaux sur leurs otolithes.
 

Karen aimerait connaître la longueur moyenne (et l'écart type) à chaque âge et la proportion relative de chaque groupe d'âge dans la population. Il serait utile d'avoir une mesure de la justesse des estimations. Elle aimerait également savoir si le calcul de l'âge est valide ou au moins pouvoir dire si les données de longueur et d'âge-longueur sont compatibles ou non.
 

En utilisant uniquement les données de longueur, pouvez-vous adapter, par exemple, un mélange de composantes normales et estimer le nombre de groupes d'âge dans l'échantillon ?
 

Étant donné que nous connaissons la répartition des longueurs et la répartition des âges-longueurs, est-il possible de trouver une estimation non paramétrique de la répartition des longueurs-âges et ainsi estimer la longueur moyenne à chaque âge sans faire de suppositions de répartition ?
 

Ressources


N'hésitez pas à me poser(Peter Macdonald) toutes vos questions sur l'analyse de mélanges. Je tâcherai de vous aider ou de vous indiquer le nom d'un expert plus approprié.
 

Vous trouverez une collection de ressources Internet concernant les mélanges sur la page de modélisation de mélanges de David Dowe.
 

Pour une bibliographie historique approfondie des travaux dans ce domaine jusqu'à 1985, consultez :
 

Titterington, D.M., A.F.M. Smith et U.E. Makov (1985). Statistical Analysis of Finite Mixture Distributions, Wiley, New York. x+243 pp.
 

Pour une introduction à l'analyse de fréquence de longeur et à la méthodologie pour la détermination d'âge de poissons, voir
 

Summerfelt, R.C. et G.E. Hall [eds.] (1987) Age and Growth of Fish. Iowa State University Press, Ames.
 

Mon site web MIX contient plusieurs exemples d'adaptations de mélanges finis de répartitions normales, lognormales, gamma et Weibull, ainsi qu'une courte  bibliographie qui doit être mise à jour. Je ne vous recommande pas d'utiliser MIX pour cette Étude de cas, car il ne permet pas d'effectuer les analyses que je juge les plus intéressantes. Par exemple, j'ai utilisé MIX pour analyser les diamètres des fibres nerveuses comme mélanges de répartitions lognormales dans
 

Macdonald, P.D.M. (1991). Practical aspects of fitting mixture distributions to data, 1991 Proceedings of the Biopharmaceutical Section, American Statistical Association, 78-83.
 

mais comme je l'ai expliqué dans cet article, les échantillons des trois temps doivent être analysés ensemble et MIX ne le permet pas. De plus, je ne saurais justifier l'utilisation d'une répartition lognormale pour les fibres intermédiaires.
 

 

Research Question: 

NA
 

Variables: 

NA