Aller au contenu principal

Annonce - Événement grand public de la Société statistique d'Ottawa

Cherche et trouve :
analyse du risque pour la ré-identification des données

Mardi, 7 avril 2015
Ottawa, Ontario, Canada

Est-il possible de dissimuler des gens dans les données? Comment évaluer le risque qu’une personne soit « trouvée » (ré-identifiée) dans les données? Il y a une grande différence entre diffuser publiquement des données sur internet et les fournir à une tierce partie de confiance qui accepte de les garder privées. Nous pouvons déterminer le contexte de diffusion des données et inclure cette information dans l’analyse du risque. En fait, nous pouvons modéliser les menaces de manière cohérente avec l’analyse du risque en sécurité de l’information. Les probabilités expertes peuvent être combinées avec des mesures du risque sur les données elles-mêmes pour pouvoir calculer le risque global de ré-identification et les intervalles de confiance. Cette présentation va explorer ces détails pour expliquer comment nous pouvons utiliser une approche axée sur le risque dans le but de gérer le partage de données responsable.

Luk Arbuckle | Directeur de l'analytique
Privacy Analytics

Endroit : The Foolish Chicken
79 Avenue Holland, Ottawa ON
17h00 – 19h00

Rejoignez-nous pour le réseautage, pour assister à une présentation intéressante et, pour avoir la chance de retrouver vos collègues de la SSO. Les boissons et la nourriture sont disponibles à l’achat et vous êtes invités à rester sur place après la présentation pour poursuivre la discussion durant le souper avec le conférencier invité.

Il n’y a aucun frais pour assister à l’événement. Toutefois, il sera possible de devenir membre de la SSO sur place.

Pour plus d’information, veuillez contacter la Société statistique d’Ottawa à sso.ottawa.canada@gmail.com

 

Annonce

Évènement grand public de la Société statistique d'Ottawa

 

Questions à l'ère des données volumineuses

Mardi, 5 novembre 2013
Ottawa, Ontario, Canada

 

L'explosion récente de l'information engendrée par les médias sociaux, les transactions en ligne et les dossiers de santé électroniques, pour ne nommer que quelques sources, a donné naissance à de gigantesques quantités de données prêtes à être analysées. Les données volumineuses (Big Data) ont le potentiel de transformer le monde des affaires, de la santé, de la recherche scientifique, de la politique et plusieurs autres domaines.

Néanmoins, il reste d'importante questions concernant les données volumineuses, telles que les conséquences juridiques et sur la vie privée, les limites des conclusions qu'on peut tirer des analyses de ce type d'ensembles de données et le rôle des statisticiens et autres scientifiques de l'information dans cette ère nouvelle.

En lien avec l'année mondiale de la statistique, la société statistique d'Ottawa organise un évènement public le mardi, 5 novembre au centre-ville d'Ottawa pour discuter des questions liées aux données volumineuses. Les faits saillants comprennent une table ronde avec des experts locaux sur les promesses et les problèmes liés aux données volumineuses.

Cet évènement est ouvert au grand public.


Parmi les panélistes :

Dr. Khaled El Emam – Chaire de Recherche du Canada en information électronique en santé
Dr. Shirley Mills – Professeur agrégé, École de mathématiques et statistique, Université Carleton
Dr. Jacomo Corbo - Chaire de Recherche du Canada (niveau II) Mesure d'information et de rendement, École de gestion Telfer, Université d'Ottawa
John Lawford – Directeur exécutif et avocat général, Centre pour la Défense de l'Intérêt Public
Kathryn Mills - Gestionnaire, Agence des services frontaliers du Canada


Lieu : Albert Street School, pièce C115 
440 rue Albert, Ottawa ON
Mardi, 5 novembre, 2013
19h00 – 21h00

 

Pour plus d'information, contacter la société statistique Ottawa à sso.ottawa.canada@gmail.com
ou visiter le site web http://www.ssc.ca/en/ottawa/statistical-society-ottawa.

Pour plus d'information à propos de l'année mondiale de la statistique 2013, consulter http://www.statistics2013.org

 

 

 

4ième journée de recherche étudiante

Parrainée par la Société Statistique d'Ottawa
Le vendredi 27 septembre, 2013
à l’Université d’Ottawa, salle 136 Pavillon Fauteux
08h30 à 16h00

ATTENTION ÉTUDIANTS CHERCHEURS

Est-ce que vos recherches impliquent ou appliquent les probabilités et la statistique? Si c'est le cas, pourquoi pas soumettre un résumé pour la
journée de recherche étudiante de la SSO? Les contributions de recherche appliquant les probabilités et méthodes statistiques sont
encouragées, ainsi que les présentations théoriques et de développement méthodologique.

Avantages de soumettre un résumé

    - Des prix (oui, c'est pluriel) pour les meilleures présentations
    - Une chance pour prendre contact avec de potentiels futurs employeurs
    - Un lunch gratuit
    - Un atelier gratuit dans l'après-midi présentant le logiciel statistique gratuit R dans toute sa splendeur.

Les détails

    - Les étudiants souhaitant participer doivent soumettre un résumé à la SSO (sso.ottawa.canada@gmail.com) d'ici le 13 septembre 2013.

Pas de résumé à présenter – pourquoi pas assister? Tous les avantages ci-dessus (sauf bien sûr la chance de gagner un prix de présentation).

Pas un étudiant – pourquoi pas assister? Comme membre de la SSO vous recevez:

    - Une chance de connaître les travaux d'étudiants chercheurs à Ottawa et dans les environs
    - Une opportunité de réseautage avec des gens qui partagent un intérêt dans les statistiques et la probabilité.
    - Un lunch gratuit (RSVP à sso.ottawa.canada@gmail.com)
    - Un atelier gratuit sur le logiciel R.

Ni étudiant, ni membre de la SSO? Pourquoi pas devenir membre (pour la modique somme annuelle de 12$) pour en apprécier ces bénéfices et
avoir l'opportunité de rencontrer d'autres qui partagent un intérêt pour les probabilités et les statistiques.

Horaire

Partie I Session matinale

8h10 - 8h30 Inscription matinale @ Pavillon Fauteaux 136 (FTX, 57 Louis-Pasteur, vous pouvez voir une carte à http://www.uottawa.ca/cartes/)
8h30 - 8h45 Mots de bienvenue et d'ouverture (FTX 136)
8h45 - 10h00 Présentations étudiantes 1

Heure Présentateur Titre
8h45–9h00 Yuliya Romanyuk ACP v. ACI : qui reconnaît mieux les FERETs?
9h00–9h15 Ewa Makvandi Estimation paramétrique de la survie à partir de données prévalentes et incidentes
9h15–9h30 Farid Elktaibi Propriétés asymptotiques de processus linéaires et de détection de point de changement
9h30–9h45 Maryam Sohrabi Théorie asymptotique pour estimateurs M dans des processus AR(P) instables avec innovations de variance infinie
9h45–10h00 Ibrahim Abdelrazeq Validation de modèle : processus Ornstein-Uhlenbeck entrainé par Lévy

10h00-10h20 Pause
10h20-11h20 Présentations étudiantes 2

Heure Présentateur Titre
10h20–10h35 Golshid Chatrchi Estimation robuste des composants de variance en estimation régionale
10h35–10h50 Zhigang Tong Solution analytique pour le problème d'évaluation d'option avec un modèle de volatilité stochastique à longue mémoire
10h50–11h05 An Gie Yong Application de méthode statistique dans les comparaisons des méthodes de sondages entre les entrevues par téléphone assistées par ordinateur et les sondages sur internet
11h05–11h20 Ioana Arbone Test de l'hypothèse de cognitivité culturelle dans une population étudiante canadienne de premier cycle universitaire

11h20-12h50 Lunch et réseautage (FTX 136)

Partie II Session d'après-midi

12h50-13h00 Marche jusqu'au pavillon Morisset (MRT, 65 rue Université)
13h30-15h30 Atelier sur R par Gilles Lamothe (MRT 256)
15h30-16h00 Mot de clôture

 

Résumés

Yuliya Romanyuk, Université Carleton
Titre : ACP v. ACI: qui reconnaît mieux les FERETs ?

Dans ce projet, nous comparons deux méthodes de reconnaissance faciale : analyse des composantes principales (ACP) et analyse de composante indépendante (ACI). ACP est largement utilisé comme technique de projection sous-espace qui projette des images originales sur un sous-ensemble de vecteurs caractéristiques, appelés les Composantes principales (CP), qui sont les directions de la variabilité maximale dans les données. ACI est une nouvelle approche qui suppose que les données observées ont été générées par des sources inobservées indépendantes, combinées d’une manière inconnue. ACI vise à trouver la matrice de séparation qui nous permet de retrouver les sources indépendantes. Alors que ACI peut être appliqué directement sur la matrice des données, ACP lui est typiquement utilisé comme un processus préliminaire à ACI. Suivant Draper et al. (2003), nous utilisons deux architectures ACI. Dans l’architecture I, ACI est appliquée sur un sous-ensemble des CP, correspondant à un sous-ensemble « d’images de base »; alors la séparation de la source arrive dans « l’espace frontal ». Dans l’architecture II, nous décomposons les données de CP projetées (la matrice de coefficients de l’ACP) pour obtenir des coefficients indépendants comme sources de génération des données. Puisque les deux approches ACI décomposent les données en différentes sources, les taux de reconnaissance de la face correspondante diffèrent aussi, en fonction de l’objectif de reconnaissance (expressions faciales par oppositions au vieillissement par exemple).

Nous comparons la performance de ACP par rapport à ACI I et II pour la base de données en couleur FERET, qui contient les photos d’individus utilisés pour la formation et les tests des algorithmes de reconnaissance faciale automatisée. Plus spécifiquement, nous regardons comment ACP et ACI I et II reconnaissent bien les expressions faciales et le vieillissement (court-terme : jusqu’à 18 mois, et long-terme : 18 mois à 3 ans), en utilisant différentes mesures métriques de distance pour l’appariement. Nous trouvons que l’architecture ACI II jumelée à la distance cosinusoïdale produit les plus hauts taux de succès et, que les expressiosn sont plus faciles à joindre que le vieillissement, particulièrement le vieillissement à long-terme. Nous examinons aussi les CP et les CI attentivement pour voir quelle information ils transportent et, trouvons que ACI II intègre des éléments de ACP et ACI I. Nous utilisons aussi une série de photos d’individus sans lunettes pour roder les algorithmes et ensuite appliquer l’appariement; les taux obtenus sont comparables à ceux pour lesquels les lunettes étaient permises dans le rodage. De plus, nous évaluons la performance de ACP et ACI I et II en ajoutant de nouvelles images à la base de données et en vérifiant si les algorithmes, rodés sans ces images, sont capable d’apparier aux nouvelles identités. Les résultats varient, selon la posture de l’individu dans le test de photo (exploration) et, nous fournissons des aperçus de l’intuition derrière les algorithmes ACP et ACI.


Ewa Makvandi, Université d'Ottawa
Titre : Estimation paramétrique de la survie à partir de données prévalentes et incidentes

En épidémiologie, les cohortes incidentes et prévalentes sont utilisées pour étudier l’histoire naturelle d’une maladie. Les études incidentes offrent les estimations de la meilleure qualité mais sont souvent trop dispendieuses pour être menées. D’un autre côté, les études prévalentes introduisent un biais échantillonnal qui, si la date de commencement de la maladie suit un processus de Poisson stationnaire, est appelé le biais de durée. Lorsque les deux types de données sont disponibles, combiner les échantillons sous l’hypothèse que le nombre d’échecs dans les cohortes incidentes et prévalentes provient de la même fonction de distribution F (x), pourrait améliorer le processus d’estimation d’un échantillon prévalent. Cette supposition est vérifiée grâce à un test du type Smirnov. Une fois vérifiée, nous construisons une fonction de vraisemblance à partir d’un échantillon combiné pour estimer paramétricalement la survie grâce à une approche du maximum de vraisemblance. Ensuite, nous comparons l’estimateur du maximum de vraisemblance combiné, ainsi que son efficacité, avec l’estimateur du maximum de vraisemblance obtenu des données incidentes et prévalentes, séparément. Enfin, nous utilisons des modèles du temps d’échec accéléré pour comparer l’effet des covariables sur la survie des populations incidentes, prévalentes et combinées. Les propriétés des tests suggérés et de l’estimateur combiné sont déterminées par la simulation et, illustrées avec des données de l’Enquête canadienne sur la santé et le vieillissement.


Farid Elktaibi, Université d'Ottawa
Titre : Propriétés asymptotiques de processus linéaires et de détection de point de changement

L’analyse de la distribution limite d’un processus séquentiel empirique est un problème classique en statistique. Cependant, la litérature traitant ce problème pour des observations dépendantes implique la plupart du temps des suppositions variées sur le mélange ou l’association. Ceci peut être évité en utilisant des techniques de martingale pour établir deux fonctions de théorème central limite pour le processus séquentiel empirique d’une série chronologique linéaire et stationnaire causale ainsi que pour le cas considérant un changement dans la distribution marginale d’un processus linéaire. Nous proposons aussi une approche non-paramétrique pour détecter un changement dans la fonction de distribution marginale. Nous considérons deux tests robustes basés sur les statistiques types Kolmogorov-Smirnov et Cramér-Von Mises. Pour terminer, nous présentons un théorème central limite fonctionel pour le processus séquentiel empirique sous bootstrap qui nous permet de traité les complications qui surviennent en raison de la structure de covariance de la distribution limite des théorèmes précédents.


Maryam Sohrabi, Université d'Ottawa
Titre : Théorie asymptotique pour estimateurs M dans des processus AR(P) instables avec innovations de variance infinie

Dans cette communication, nous présentons quelques distributions asymptotiques pour estimateurs M dans des processus AR(p) instables. Nous croyons que les innovations sont dans le domaine de l’attraction d’une loi stable avec un index 0<∝≤2. En particulier, lorsque le modèle implique des répétitions de racines d’unités ou traite des racines complexes d’unités, les estimateurs M ont un taux de convergence asymptotique supérieur par rapport aux estimateurs des moindres carrés. Nous montrerons aussi que les résultats asymptotiques peuvent être écrits sous la formes d’intégrales stochastiques Îto.

Mots clés : Modèle autorégressif, Test de racines d’unités, Processus stable, Instable, Simulation.

 

Ibrahim Abdelrazeq, Université d'Ottawa
Titre : Vérification de modèle: processus Ornstein-Uhlenbeck générés par Lévy

Les processus Ornstein-Uhlenbeck entrainés par Lévy (ou CAR(1)) ont été proposé par Bandorff-Nielsoen et Shephard (2001) comme modèle de la volatilité stochastique. Pham-Din-Tuan (1977) et Brockwell et al. (2007) ont développé une formule générale pour retrouver le processus générateur non observé à partir du processus CAR(1) observé continuellement. Quand le processus CAR(1) est observé à des temps discrets 0, h, 2h, ..., [T/h]h le processus générateur doit être approximé. Les accroissements approximés du processus générateur sont utilisés pour tester la supposition que le processus est généré par Lévy. Les propriétés asymptotiques de la statistique de test est centré à hautes fréquences d'échantillonnage. Le comportement du test est illustré par le biais d'une simulation.

 

Golshid Chatrchi, Université Carleton
Titre : Estimation robuste des composantes de la variance en estimation pour les petites régions

Les techniques modernes d’Estimation pour les petites régions (EPR) se fient sur des suppositions de modélisation explicite. Ces méthodes peuvent être grandement affectées par la présence de valeurs aberrantes. Des méthodes de EPR robustes ont été développées pour remédier à ce problème. Cette étude prend on considération des estimateurs basés sur des équations (Sinha and Rao, 2009) du Maximum de vraisemblance robuste (MVR) et se concentre principalement sur l’estimation de la variance des composantes. Un algorithme itératif alternatif, la méthode des points fixes, est proposé et l’estimateur de la Méthode III d’Henderson est aussi suggéré pour les valeurs initiales de l’algorithme. De plus, la méthode MVR est étendue au modèle de régression de l’erreur imbriquée double avec des erreurs de la variance équivalentes.

 

Zhigang Tong, Université d'Ottawa
Titre : Solution analytique pour le problème d'évaluation d'option avec un modèle de volatilité stochastique à longue mémoire

La volatilité joue un rôle important dans les séries temporelles financières aussi bien que dans l'évaluation d'option. Les études empiriques démontre que le processus de volatilité est non seulement stochastique, mais a également de possibles propriétés de longue mémoire. Dans le cas de longue mémoire, il est difficile d'obtenir des formules analytiques pour l'évaluation d'option. Dans cette présentation, on dérive une telle formule pour le modèle Heston fractionnaire. On utilise des techniques d'inversion de Fourier pour obtenir des formules explicites pour l'évaluation d'option. Notre modèle admet une corrélation non-nulle entre les processus de volatilité stochastique et de prix d'action. Un étude numérique des effets de la longue mémoire sur les prix d'option est effectuée. On démontre que le paramètre d'intégration fractionnaire a l'effet opposé du paramètre de volatilité dans un modèle de mémoire courte. On découvre également que le modèle à longue mémoire a le potentiel de mieux accommoder les options à court terme et la détérioration de l'asymétrie de la volatilité que le modèle de volatilité stochastique à mémoire courte correspondant.

 

An Gie Yong, Université d'Ottawa
Titre : Application de méthode statistique dans les comparaisons des méthodes de sondages entre les entrevues par téléphone assistées par ordinateur et les sondages sur internet

Les interviews téléphoniques assistés par ordinateur (ITAO) forment une technique de collecte des données favorite dans la recherche par sondage impliquant la population générale. Les avantages de l’ITAO incluent moins d’autosélection, une accessibilité accrue et le contrôle de la qualité. Cependant, le coût d’administration est un inconvénient majeur. Récemment, la méthode ITAO est de plus en plus remplacée par les interviews Web assistés par ordinateur (IWAO). Malgré les avantages des faibles coûts d’administration et de la vitesse de collecte, la méthode IWAO est moins favorisée dans la recherche sur la population générale. Une accessibilité décroissante et des plans de sondage biaisés sont des préoccupations qui en décourage l’utilisation. Au-delà des problèmes d’échantillonnage, il y a aussi des interrogations quand à la comparabilité des méthodes. Le déclin des lignes téléphoniques terrestres dans les ménages et l’accroissement de l’utilisation des ordinateurs suggèrent que les sondages sur internet vont continuer de prendre de l’ampleur. Par conséquent, de la recherche est nécessaire pour évaluer la comparabilité des méthodes ITAO et IWAO. L’étude présente a comparé deux sondages administrés avec échantillons proportionnels stratifiés et utilisant soit ITAO ou IWAO. Les données proviennent de 3 263 Canadiens avec 1 569 répondants en ligne et 1 694 répondants au téléphone. Une procédure systématique a été dérivée pour évaluer l’homogénéité de la variance, l’effet de la méthode, la non-représentativité et l’effet de l’échantillonnage. Cette procédure implique le test Fmax de Hartley, ANOVA, le test de l’effet de grandeur et le Chi-carré. Les découvertes démontrent l’homogénéité de la variance des deux échantillons. Il n’y a pas eu de différence statistique significative entre les deux échantillons concernant l’effet de la méthode, la non-représentativité et l’effet de l’échantillonnage qui ont été ainsi exlus. Nos découvertes suggèrent que la qualité des données saisies par IWAO est comparable à celles obtenues par ITAO; alors, les chercheurs ne devraient pas écarter l’utilisation de sondages par internet pour la recherche sur la population. Les implications des ces méthodes ainsi que les bases de données produites seront discutées.

 

Ioana Arbone, Université d'Ottawa
Titre : Test de l'hypothèse de cognition culturelle dans une population étudiante canadienne de premier cycle universitaire

Contexte et objectifs de recherche. Kahan et al. (2010) ont montré comment les perceptions du risque associées au vaccin du papillomavirus humain (PVH) sont influencées par les visions du monde. Leur étude a été conduite sur un échantillon national représentatif de la population des États-Unis. Considérant que la recherche sus-mentionnées a pris place dans un environnement socio-culturel différent, il serait intéressant d’étudier si une relation similaire entre les visions du monde et le vaccin du PVH est présente au Canada. Une proposition pour une étude de la sorte est décrite ici. Cette recherche vise à examiner si les perceptions du risque du PVH sont reliées aux visions du monde dans un cadre canadien. Cette étude examinera aussi si la nature de ces liens diffère entre les étudiants canadiens de premier cycle qui ont un profil en soins de santé et ceux qui n’ont pas un tel profil. L’étude proposée testera aussi un ensemble de questions potentiellement candidates pour ajouter au questionnaire de la vision du monde proposé par Kahan et al. (2010).

Design et analyse. La recherche sera conduite en deux phases par sondage en ligne. Durant la première phase, un questionnaire de la vision du monde personnalisé sera administré. Durant la deuxième phase, des questions reliées au PVH et au système de santé canadien seront incluses. Dans le but d’analyser les données, des modèles de régression et l’analyse factorielle seront utilisés. Le modèle de régression sera utilisé pour relier les covariables et les éléments reliés aux visions du monde (les variables indépendantes) aux perceptions du risque de PVH (la variable de dépendance), alors que l’analyse factorielle sera utilisée pour analyser le questionnaire sur la vision du monde. L’échantillon de l’étude sera composé de deux groupes d’étudiants du premier cycle: Sciences de la santé et Management à l’Université d’Ottawa. Ceci nous permettra de tester s’il y a une différence entre les étudiants avec un profil en santé et la population générale d’étudiants concernant les perceptions du risque associées au vaccin du PVH.

Originalité et importance. Cette étude est, selon nos meilleures connaissances, la première à tester l’impact des visions du monde sur le risque de perception dans le contexte canadien. En agissant ainsi, la recherche va intégrer la première composante d’une étude conduite par Kahan et ses collègues. Ces auteurs ont utilisé leurs découvertes pour proposer des améliorations aux stratégies de communication en ce qui a trait aux risques de la populations. L’idée principale derrière cette approche est que, si les perceptions du risque des gens est affectée par leurs visions du monde, alors il y a des façons de communiquer les risques de sorte qu’on puisse atténuer l’impact des visions du monde. Des conclusions similaires pourraient possiblement être tirées pour le succès de la gestion du risque ainsi que de la stratégie de communication du risque au Canada.

Mots clés : papillomavirus humain (PVH), risque, perception du risque, visions du monde, biais, culture, valeurs, Canada, système de santé