samedi 27 octobre 2012

Les Zombies du Spam et l'Apocalypse des Captchas

Les zombies spammeurs à l'attaque

La plupart des solutions de captcha se basent sur un texte à lire ou à écouter auquel on a ajouté du bruit et de la distorsion. Et la plupart du temps, ce texte est généré de façon aléatoire et ne sert qu'un seul but : celui d'arrêter le spam. De trop nombreux humains résolvent des captchas dans le monde entier à chaque instant et utilisent leur cerveau pour traiter des données inutiles.

Que pouvons-nous faire pour résoudre ce problème de sous-utilisation de toute cette capacité cérébrale ?

Le spam, c'est pas du jambon

Spam allégé
Un captcha est un test utilisé pour discriminer les humains des ordinateurs (programmes, bots et spambots). Ce mot est l'acronyme de Completely Automated Public Turing test to tell Computers and Humans Apart, ou Test de Turing public complètement automatisé pour distinguer les ordinateurs des humains. Et pour tenter d'y parvenir, de nombreux systèmes de captchas ont été développés, utilisant du texte brouillé, des images non triées, des questions mathématiques et autres casse-tête.

Captcha publicitaire

Captcha publicitaire
Captcha type-in par Solve Media
Oui, ils l'ont fait ! Aucun cerveau humain ne devrait être privé d'une bonne propagande, seuls les bots peuvent surfer sans publicité. Les internautes sont de plus en plus aveugles aux publicités lorsqu'ils se promènent sur le web, aussi les gars du marketing (et les filles aussi) sont toujours en train de créer de nouveaux formats de bannières de pub et de nouvelles façons de mélanger leur publicité au contenu réel. L'instant captcha leur plaît particulièrement puisque les utilisateurs qui ont l'habitude de lire en diagonale les textes qu'on leur présente sur le web sont obligés de s'arrêter et de se concentrer sur une tâche. Peut-on rêver d'un meilleur moment pour leur présenter quelque publicité ? Et qui plus est, le résultat est mesurable : le rappel de message est 12 fois meilleur qu'avec une bannière publicitaire ordinaire.

Accessibilité

Nous vouloir cerveaux
Comme vous le savez peut-être déjà, près de 8% de la population masculine est daltonienne (alors que seulement 0,5% des femmes sont touchées), et pratiquement une personne sur sept souffre de dyslexie, ce qui veut dire qu'elle a des difficultés à lire et/ou à écrire. Tout le spectre du handicap est concerné par les captchas, des handicaps intellectuels (dyslexie, dyscalculie, agéométrie…) aux handicaps physiques (mobilité, déficience visuelle ou auditive…).
Aussi, les captchas devraient fournir différentes modalité d'interaction, laissant à l'utilisateur une façon de choisir entre elles, qu'il s'agisse de reconnaître un texte écrit ou enregistré, de résoudre une équation mathématique simple, de reconnaître une forme ou une image…

Des captchas avec du sens

Il existe quelques solutions gratuites de captcha qui permettent de réaliser des tâches plutôt que de résoudre des casse-tête inutiles.

reCaptcha est l'une d'entre-elles. Elle aide Google à numériser des livres, des journaux, et des émissions radio. Quelques chiffres pour voir l'ampleur de la chose : reCaptcha, c'est 200 millions de captchas résolus par jour, soit 100 millions de mots numérisés par jour, ou 2,5 millions de livres par an.

Asirra aide à l'étiquetage de photos de chiens et de chats. Ça déchire plutôt pas mal, non ? Bon, au moins les photos sont bien classées, mais cela va un peu plus loin. Car les photos de la Reconnaissance d'Image d'Espèces Animales pour Restreindre l'Accès (c'est sûr qu'en anglais, ça passe mieux, Animal Species Image Recognition for Restricting Access) sont fournies par PetFinder, un site qui permet de trouver un nouveau foyer aux chiens et chats sans abri, lui permettant aussi de gagner plus de visibilité.
Voir l'article de recherche Asirra : un Captcha qui exploite la catégorisation manuelle d'image par alignement d'intérêt (pdf en anglais) pour en savoir plus.

Civil Rights Captchas demande à ses utilisateurs de prendre position au sujet de faits relatifs aux droits humains. Une situation est décrite (par exemple, « Au Kosovo, des gens sont torturés en détention ») et il est demandé aux utilisateurs quel sentiment cela éveille en eux (déprime, légèreté ou sentiment positif), les mots étant légèrement brouillés.
Disponible en anglais et en suédois, ce service pose la question fondamentale d'où se place la limite : peut-on demander à ses utilisateurs de penser d'une certaine façon pour exécuter une tâche spécifique (créer un compte pour un service web ou laisser un commentaire sur un site) ?

Consentez devant votre maître captcha

Comme le dit Jonathan Lung dans sa série de billets, extraite de son article Considérations éthiques et légales de reCAPTCHA présenté à la conférence Confidentialité, Sécurité et Confiance (Paris, 2012) :
En analogie à la notion de conscience de classe de Marx, à moins que les agents ne réalisent qu'ils sont exploités, ils ne peuvent agir rationnellement dans leur propre intérêt supérieur. Par conséquent, si les gens ne sont pas informés de la façon dont sont utilisées leurs solutions aux reCAPTCHAs, ils ne sont pas en position de donner leur consentement.
Votre maître captcha
Il n'y a aucune liberté dans la résolution d'un captcha du point de vue de l'utilisateur. Ou il le résout et accède au service derrière cette barrière, ou il ne le fait pas et son interaction est perdue à jamais.
De la même façon, si un utilisateur n'accorde pas son consentement à la tâche effectuée par le captcha qui lui est proposé, il n'a aucun moyen de le contourner.

Par ailleurs, mutualiser des tâches (les crowdsourcer) à travers un captcha soulève des questions de monopole, de lois du travail et d'imposition : le vrai coût du travail est payé par les utilisateurs qui effectuent la tâche du captcha (qui est commercialisable), certains peuvent être des enfants, la nécessité de résoudre le captcha peut être considérée comme de la coercition, voire de l'esclavage, et aucun impôt n'est prélevé sur ce travail (alors que les tâches du Mechanical Turk d'Amazon sont imposables, puisque considérées comme un travail sous contrat). Pour en savoir plus, voir le billet Part V (Legal) de Jonathan Lung.

Je ne suis pas Franz Otto Spamer !

Franz Otto Spamer
(C'est lui !)

Quel est l'intérêt de mettre tout le fardeau sur les épaules de l'utilisateur avec qui on veut créer une interaction ? Si les spambots et les Black Hats veulent automatiser certaines fonctions que vous offrez en ligne, vous devriez être capables de les gérer côté serveur. C'est là que vous pouvez mettre en place les heuristiques de votre choix pour séparer le bon grain de l'ivraie. Il s'agit à la fois d'ergonomie et de respect de vos utilisateurs.


The Spam Zombies and the Captcha Apocalypse (en anglais)
Os zumbis do Spam e o Apocalipse dos Captchas (en portugais)
Los Zombis del Spam y la Apocalipsis de los Captchas (en espagnol)

7 commentaires:

  1. Je n'aime pas les captchas, très souvent ils sont illisibles et il faut s'y prendre à plusieurs reprises pour réussir à passer ces choses.

    Les captchas publicitaires : "le rappel de message est 12 fois meilleur qu'avec une bannière publicitaire ordinaire"... sachant que je ne vois pas les pubs (bloquées par un antipub), dans mon cas on peut même dire que les captchas publicitaires sont infiniment meilleurs que les simples pubs.
    Car de toute façon 0 fois infini = 0

    Bref, les captchas sont une plaie et démontre bien que certains développeurs ne sont pas foutus de développer un antispam simple et fiable sans embêter les humains.

    RépondreSupprimer
  2. Justement, pour illustrer mes propos : je me suis pris à 4 fois avec le captcha de ce blog avant de réussir à poster mon commentaire précédent...
    Il me faudra combien d'essais pour ce celui-ci ? Réponse dans mon prochain commentaire lol

    RépondreSupprimer
    Réponses
    1. Je vous conseille de passer au plus vite un test Voight-Kampff. Vous êtes peut-être un Réplicant en déni de réalité...

      Cela dit, dès qu'un formulaire non protégé est publié sur le web, il se fait vite envahir par le spam, et la plupart du temps complètement inutile et automatisé.
      Personne ne vérifie que cela ne sert à rien et les blasts continuent jusqu'à ce qu'on rajoute un filtre au détriment des utilisateurs légitimes. Toujours la vieille histoire de l'épée et du bouclier...

      Supprimer
  3. Le captcha est à la base un anti-spam mais il est également le plus souvent un anti-utilisateur.
    En effet, les premières versions étaient à l'antithèse de l'effet voulu, mal paramétrés, ils étaient compliqués le plus souvent illisibles, ils rebutaient plus d'un utilisateur (cœur de cible des sites).
    Aujourd'hui on revient à des captcha simplifiés, qui laissent passés certains robots, mais sont suffisamment évolués pour faire un barrage de premier niveau et surtout ne sont pas perçus pas les internautes comme des barrières insurmontables. Bref, vive les solutions simples et je suis entièrement d'accord pour le développement coté serveur, qui devrait d'ailleurs être la règle pour la validation de n'importe quel formulaire.
    En conclusion, la devise devrait être : php friendly et js poubelle.
    D'ailleurs le captcha présent sur le site n'est pas un bon exemple ;-)

    RépondreSupprimer
  4. Très intéressante évolution du captcha. Par contre je ne comprend pas trop comment ca peut aider à la digitalisation des livres : il faut déja connaitre le résultat pour valider que le captcha rentré est le bon, non ?

    RépondreSupprimer
    Réponses
    1. En effet. Mais en pratique, un seul des mots proposés par reCaptcha provient d'un livre et n'a pas été reconnu par leur logiciel de reconnaissance de caractères (il est quand même distordu pour rendre sa lecture plus difficile). Le second en revanche est déjà connu, et c'est lui qui sert de filtre pour séparer les bons (les humains travailleurs malgré eux) des méchants (les robots spammeurs maléfiques).

      Supprimer
  5. Faire travailler des opérateurs humains pour briser les captchas existe déjà, ça s'appelle du crowdtask et des sociétés payent en bitcoins pour lire des captchas ou regarder des vidéos.

    RépondreSupprimer