L’émergence d’une modalité d’imagerie microscopique à haut débit évoque le problème du « big data » même au sein d’une simple expérience unique. Il n’est plus possible d’analyser les images microscopiques manuellement, même pour estimer une mesure simple telle le nombre de cellules. Il devient donc essentiel d’automatiser ce comptage.
BBBC005v1 est un ensemble d’images microscopiques simulées. Chacune d’entre elles, d’une taille de 696 x 520 pixels, est présentée au format TIF 8 bits. Elles fournissent des images de synthèse nettes et floues. Chaque image a été simulée pour un nombre de cellules donné. Des filtres gaussiens leur ont été appliqués pour simuler les images à différents niveaux de flou. Les régions de l’image représentant les noyaux et les corps cellulaires ont été mises en correspondance avec les noyaux et les corps cellulaires moyens d’un ensemble de données microscopiques réelles.
Aux fins de cette étude de cas, nous avons sélectionné des images avec trois (F1, F23, F48) des 16 niveaux de flou de l’ensemble de données BBBC005v1 comme données d’imagerie brutes. Nous avons inclus à la fois les images où le corps cellulaire est coloré et celles où le noyau l’est, pour un total de 3 600 images microscopiques.
Les étudiants sont invités à élaborer des méthodes statistiques et computationnelles pour estimer le nombre de cellules dans les images.
Stratégies de concours
Ces 3 600 images ont été aléatoirement affectées à un ensemble de formation de 2 400 images et un ensemble de test de 1 200 images. Le nombre réel de cellules pour chacune des 2 400 images de l’ensemble de formation est fourni, tandis que le nombre réel de cellules pour chacune des 1 200 images de l’ensemble de test est inconnu. Les étudiants doivent élaborer des méthodes statistiques et computationnelles pour construire un modèle de prévision fondé sur l’ensemble de formation, qui sera appliqué à l’ensemble de test pour en estimer le nombre de cellules.
Les étudiants doivent soumettre le nombre estimé de cellules pour les 1 200 images de l’ensemble de test à Pingzhao Hu (pingzhao.hu@umanitoba.ca) au plus tard le 20 mai 2019. La performance des résultats de l’estimation sera évaluée en fonction de l’erreur quadratique moyenne (EQM) :
$EQM = \sqrt{moyenne(c-\hat{c})^2}$
Ici, c = [x1, x2, …, xn] représente le nombre réel de cellules dans les 1 200 images de l’ensemble de test et ĉ = [y1, y2, …, yn] représente le nombre estimé de cellules dans ces mêmes 1 200 images.
Chaque équipe doit également préparer une présentation par affiche pour le concours des études de cas dans le cadre du congrès 2019 de la SSC. La prévision du modèle comptera pour 60 % et la présentation par affiche pour 40 % de la note finale de l’équipe. Le score final sera noté selon 0,6/rang de la prévision du modèle + 0,4/rang de la présentation par affiche.
Comment télécharger les ensembles de données : L’ensemble de données peut être téléchargé ici :
https://www.dropbox.com/sh/buofl2fhvyfi5bc/AAArMZbeKncXfz64kcY17l0pa?dl=0. (400MB file)
Pour toute question concernant le jeu de données, veuillez envoyer un courriel à pingzhao.hu@umanitoba.ca.
Organizateur :
Dr. Pingzhao Hu
Department of Biochemistry and Medical Genetics/Department of Computer Science
University of Manitoba
Division of Biostatistics, University of Toronto
e-mail: pingzhao.hu@umanitoba.ca
Le fichier "Data Files_Question1_SSC2019CaseStudy.zip" contient les répertoires et fichiers suivants :
Répertoire train
L’ensemble de formation inclut 2 400 images sélectionnées de manière aléatoire pour trois niveaux de flou (F1, F23, F48) et deux types de coloration (w1 – corps nucléaire, w2 – noyau). Il s’agit de 400 images pour chaque combinaison de niveau de flou et type de coloration: F1_w1,F1_w2,F23_w1,F23_w2,F48_w1,F48_w2. Le fichier train_label.csv inclut plus de détails sur les images.
Répertoire test
L’ensemble de test set inclut 1 200 images de manière aléatoire pour trois niveaux de flou (F1, F23, F48) et deux types de coloration (w1 – corps nucléaire, w2 – noyau). Il s’agit de 200 images images pour chaque combinaison de niveau de flou et type de coloration: F1_w1,F1_w2,F23_w1,F23_w2,F48_w1,F48_w2. Le fichier test_label.csv inclut plus de détails sur les images.
Description des fichiers
train_label.csv
Les lignes incluent les informations concernant les images individuelles de l’ensemble de formation. Les quatre colonnes représentent, respectivement :
- image_name: si le nom de l’image est A01_C1_F1_s01_w1.TIF, cela signifie
- A01: Format de plaque simulées à 384 puits. Les lignes sont numérotées de A à P et les colonnes de 1 à 24. Vous n’avez pas besoin de cette information.
- C1: Nombre de cellules simulées dans l’image (1-100).
- F1: Niveau de flou appliqué (1, 23, 48).
- s01: Nombre d’échantillons (1-25). Vous n’avez pas besoin de cette information.
- w1: 1 = coloration du corps cellulaire, 2 = coloration du noyau.
- cell_count: de 1 à 100.
- blur_level: Niveau de flou appliqué (1, 23, 48).
- stain: 1 = coloration du corps cellulaire, 2 = coloration du noyau.
test_label.csv
Les lignes incluent les informations concernant les images individuelles de l’ensemble de test. Les significations des trois colonnes sont identiques à celle du fichier train_label.csv. Nous avons caché l’information correspondant au nombre de cellules pour les images de l’ensemble de test.
Nous avons aussi fourni les codes R et Python permettant de lire les images aux fins de l’analyse de données.
code.R
Code R permettant de lire les valeurs de pixel des images et les informations d’étiquette.
- Veuillez indiquer comme répertoire votre chemin de travail.
- Il est possible que ce code R prenne 15 minutes ou plus pour lire toutes les images de votre environnement de calcul. N’hésitez pas à l’éditer ou à utiliser vos propres méthodes pour lire les valeurs de pixel des images de votre environnement.
code.py
Code Python permettant de lire les valeurs de pixel des images et les informations d’étiquette.
- Veuillez indiquer comme répertoire votre chemin de travail.
- Il est possible que ce code Python prenne 15 minutes ou plus pour lire toutes les images de votre environnement de calcul. N’hésitez pas à l’éditer ou à utiliser vos propres méthodes pour lire les valeurs de pixel des images de votre environneme