Outils pour utilisateurs

Outils du site


editions_precedentes:2013:defis:cnil:start

Défi Simulator

  • Thème: Simulateur de navigations sur Internet
  • Prix: Une visite de la CNIL sur une demi-journée (ce qu'on fait, nos missions, présentation de notre labo etc.) et goodies
logo

Podium

Les publicitaires profilent les internautes pour leur proposer des publicités en accord avec leur profil et leur comportement.

La CNIL s'intéresse à ce système de profilage pour comprendre les paramètres pris en compte dans ces systèmes. Pour cela, des simulateurs de navigation sont utilisés.

L'objectif de ce défi est de réaliser un automate capable de simuler des navigations sur Internet pour comprendre le ciblage comportemental de plus en plus répandu dans la sphère de l'e-commerce. Ces navigations doivent respecter deux critères:

- refléter une navigation aussi réaliste que possible d'un internaute

- être basées sur des données personnelles fictives

Pour atteindre ce double objectif, il peut être envisagé de réaliser un enregistreur de navigation d'un internaute (par exemple basé sur iMacro ou Selenium) permettant de tracer les actions depuis la recherche d'un produit jusqu'à son achat sur un site et enfin les publications en lien avec l'achat (avis, commentaire, photo sur un réseau social, etc.). Pour ce faire, il conviendrait :

- d'enregistrer chaque URL visitée

- d'enregistrer les actions au niveau du navigateur (clics, saisie de texte) ainsi que les champs associés aux données personnelles au fur et à mesure de sa navigation; par exemple, la création d'un compte va nécessiter de renseigner un formulaire: afin d'enregistrer une séquence anonyme (i.e. sans donnée personnelle de l'internaute), chaque champ du formulaire est collecté plutôt que la valeur saisie par l'internaute. Ainsi, ces champs étant assimilés à des variables, il sera possible de rejouer cette séquence en remplaçant chaque champ par une valeur stockée dans une base de données de profils d'internautes fictifs.

- de générer, simultanément à la navigation, un schéma de base de données correspondant au profil de navigation de l'internaute constitué des champs collectés.

Le logiciel doit notamment permettre :

  • Pour l'enregistrement de navigations:

- de démarrer et arrêter l'enregistrement;

- d'enregistrer des séquences de navigation avec pour objectifs:

- d'effectuer une recherche sur un moteur de recherche d'un produit, en précisant éventuellement le site cible au moyen du mot clé site : , et cliquer sur un des liens, en permettant notamment de sélectionner la page "suivant " présentant plus de résultats de recherche

- de consulter une page web déterminée du site et cliquer sur un lien quelconque, notamment afin d'effectuer un parcours d'achat du produit

- de s'inscrire, se connecter, lire un webmail et cliquer sur l'ensemble des liens qu'il contient avec l'objectif de valider une inscription au site ou suivre une commande du produit passée sur le site

- de poster un commentaire sur le site

- d'utiliser les réseaux sociaux pour partager le contenu du site, supporter un contenu (like, +1, tweet etc), supprimer son support à ce même contenu, publier une photo, effectuer un check-in, publier un statut, etc., notamment en rapport avec le produit

  • Pour la création de profils fictifs:

- peupler une base de données de quelques profils à partir de données personnelles fictives.

  •  Pour le rejeu de navigation:

- de rejouer ces séquences dans un ordre choisi à partir de données des données enregistrées. Plus les séquences créées lors de la phase d'enregistrement seront simples, plus il sera possible de les combiner pour créer des navigations différentes.

- de démarrer une séquence de rejeu à une date/heure déterminée

- d'émettre une alerte à une adresse email prédéfinie en cas d'interruption du rejeu avant son terme;

Optionnellement, l'interface pour la création de séquences pour permettre un rejeu de navigation pourra être constituée d'une IHM, éventuellement inspirée de celle du logiciel open source Orange (http://orange.biolab.si/), du logiciel de programmation NXT Mindstorm, de Quadrigram (www.quadrigram.com), etc.

  • Pour l'analyse du ciblage :

- d'enregistrer le contenu des pages web à partir des liens disponibles sur une page et déterminer automatiquement la catégorie de ce contenu, par exemple en utilisant la classification de l'URL d'après Google Insight

- d'enregistrer l'horodatage du moment où ces contenus se sont affichés sur la page du navigateur

Les équipes pourront réaliser l'un des quatre points, les points 1 et 3 étant les plus importants.

Elements attendus/critères de notation:

Eléments attendus

  • Les outils livrés devront être documentés (installation /utilisation), les choix techniques devront être justifiés et au moins une séquence de test devra être proposée pour démontrer que l'outil est opérationnel.

Critères d'évaluations

  • -Complétude de l'outil
  • -Qualité du modèle de la base de données générée
  • -Complétude des traces de navigation
  • -Modularité

Le livrable sera constitué d’une archive compressée au format tar + gzip, éventuellement chiffrée par dans un conteneur truecrypt, qui devra être déposée sur un site de téléchargement, du type http://dl.free.fr

Contact en cas de questions :

glegrand@cnil.fr et F. Baudot

La notification de l’envoi devra être faite à l’adresse email suivante : glegrand@cnil.fr et sei@cnil.fr, et le cas échéant, le mot de passe du conteneur truecrypt sera envoyé à la même adresse.

Le livrable comprendra, outre les références de l’équipe, le logiciel compilé si besoin, l’ensemble des sources, ainsi qu’un document présentant :

  • l’environnement nécessaire à son utilisation (système d’exploitation, version, navigateur, version de tout logiciel nécessaire à la bonne exécution du logiciel)
  • son installation
  • et quelques copies d’écrans et exemples de scripts réalisés.

Le challenge sera considéré comme résolu s’il est possible de rejouer l’ensemble des scripts demandés.

Si plusieurs équipes réussissent, la gagnante sera celle dont les scripts seront les plus rapides.

Le partenaire : CNIL

logo

Contact

Le Grand Gwendal (glegrand@cnil.fr)

Description

La Commission nationale de l'informatique et des libertés (http://www.cnil.fr/) est chargée de veiller à ce que l'informatique soit au service du citoyen et qu'elle ne porte atteinte ni à l'identité humaine, ni aux droits de l'homme, ni à la vie privée, ni aux libertés individuelles ou publiques.

Elle exerce ses missions conformément à la loi informatique et libertés qui la qualifie d'autorité administrative.

La CNIL est l'autorité en charge de veiller à la protection des données personnelles. A ce titre, elle dispose notamment d'un pouvoir de contrôle et de sanction. Jouant aussi un rôle d'alerte et de conseil, elle a pour mission de veiller à ce que le développement des nouvelles technologies ne porte atteinte ni à l'identité humaine, ni aux droits de l'homme, ni à la vie privée, ni aux libertés individuelles ou publiques.

Les équipes qui ont relevé le défi.

editions_precedentes/2013/defis/cnil/start.txt · Dernière modification : 2014/10/21 09:03 de 127.0.0.1