Les publicitaires profilent les internautes pour leur proposer des publicités en accord avec leur profil et leur comportement.
La CNIL s'intéresse à ce système de profilage pour comprendre les paramètres pris en compte dans ces systèmes. Pour cela, des simulateurs de navigation sont utilisés.
L'objectif de ce défi est de réaliser un automate capable de simuler des navigations sur Internet pour comprendre le ciblage comportemental de plus en plus répandu dans la sphère de l'e-commerce. Ces navigations doivent respecter deux critères:
- refléter une navigation aussi réaliste que possible d'un internaute
- être basées sur des données personnelles fictives
Pour atteindre ce double objectif, il peut être envisagé de réaliser un enregistreur de navigation d'un internaute (par exemple basé sur iMacro ou Selenium) permettant de tracer les actions depuis la recherche d'un produit jusqu'à son achat sur un site et enfin les publications en lien avec l'achat (avis, commentaire, photo sur un réseau social, etc.). Pour ce faire, il conviendrait :
- d'enregistrer chaque URL visitée
- d'enregistrer les actions au niveau du navigateur (clics, saisie de texte) ainsi que les champs associés aux données personnelles au fur et à mesure de sa navigation; par exemple, la création d'un compte va nécessiter de renseigner un formulaire: afin d'enregistrer une séquence anonyme (i.e. sans donnée personnelle de l'internaute), chaque champ du formulaire est collecté plutôt que la valeur saisie par l'internaute. Ainsi, ces champs étant assimilés à des variables, il sera possible de rejouer cette séquence en remplaçant chaque champ par une valeur stockée dans une base de données de profils d'internautes fictifs.
- de générer, simultanément à la navigation, un schéma de base de données correspondant au profil de navigation de l'internaute constitué des champs collectés.
Le logiciel doit notamment permettre :
- de démarrer et arrêter l'enregistrement;
- d'enregistrer des séquences de navigation avec pour objectifs:
- d'effectuer une recherche sur un moteur de recherche d'un produit, en précisant éventuellement le site cible au moyen du mot clé site : , et cliquer sur un des liens, en permettant notamment de sélectionner la page "suivant " présentant plus de résultats de recherche
- de consulter une page web déterminée du site et cliquer sur un lien quelconque, notamment afin d'effectuer un parcours d'achat du produit
- de s'inscrire, se connecter, lire un webmail et cliquer sur l'ensemble des liens qu'il contient avec l'objectif de valider une inscription au site ou suivre une commande du produit passée sur le site
- de poster un commentaire sur le site
- d'utiliser les réseaux sociaux pour partager le contenu du site, supporter un contenu (like, +1, tweet etc), supprimer son support à ce même contenu, publier une photo, effectuer un check-in, publier un statut, etc., notamment en rapport avec le produit
- peupler une base de données de quelques profils à partir de données personnelles fictives.
- de rejouer ces séquences dans un ordre choisi à partir de données des données enregistrées. Plus les séquences créées lors de la phase d'enregistrement seront simples, plus il sera possible de les combiner pour créer des navigations différentes.
- de démarrer une séquence de rejeu à une date/heure déterminée
- d'émettre une alerte à une adresse email prédéfinie en cas d'interruption du rejeu avant son terme;
Optionnellement, l'interface pour la création de séquences pour permettre un rejeu de navigation pourra être constituée d'une IHM, éventuellement inspirée de celle du logiciel open source Orange (http://orange.biolab.si/), du logiciel de programmation NXT Mindstorm, de Quadrigram (www.quadrigram.com), etc.
- d'enregistrer le contenu des pages web à partir des liens disponibles sur une page et déterminer automatiquement la catégorie de ce contenu, par exemple en utilisant la classification de l'URL d'après Google Insight
- d'enregistrer l'horodatage du moment où ces contenus se sont affichés sur la page du navigateur
Les équipes pourront réaliser l'un des quatre points, les points 1 et 3 étant les plus importants.
Eléments attendus
Critères d'évaluations
Le livrable sera constitué d’une archive compressée au format tar + gzip, éventuellement chiffrée par dans un conteneur truecrypt, qui devra être déposée sur un site de téléchargement, du type http://dl.free.fr
Contact en cas de questions :
glegrand@cnil.fr et F. BaudotLa notification de l’envoi devra être faite à l’adresse email suivante : glegrand@cnil.fr et sei@cnil.fr, et le cas échéant, le mot de passe du conteneur truecrypt sera envoyé à la même adresse.
Le livrable comprendra, outre les références de l’équipe, le logiciel compilé si besoin, l’ensemble des sources, ainsi qu’un document présentant :
Le challenge sera considéré comme résolu s’il est possible de rejouer l’ensemble des scripts demandés.
Si plusieurs équipes réussissent, la gagnante sera celle dont les scripts seront les plus rapides.
Le Grand Gwendal (glegrand@cnil.fr)
La Commission nationale de l'informatique et des libertés (http://www.cnil.fr/) est chargée de veiller à ce que l'informatique soit au service du citoyen et qu'elle ne porte atteinte ni à l'identité humaine, ni aux droits de l'homme, ni à la vie privée, ni aux libertés individuelles ou publiques.
Elle exerce ses missions conformément à la loi informatique et libertés qui la qualifie d'autorité administrative.
La CNIL est l'autorité en charge de veiller à la protection des données personnelles. A ce titre, elle dispose notamment d'un pouvoir de contrôle et de sanction. Jouant aussi un rôle d'alerte et de conseil, elle a pour mission de veiller à ce que le développement des nouvelles technologies ne porte atteinte ni à l'identité humaine, ni aux droits de l'homme, ni à la vie privée, ni aux libertés individuelles ou publiques.