dimanche 30 mars 2014

Technologies du web sémantique (MOOC)

Technologies du web sémantique (MOOC)

Ce cours présente les fondamentaux des technologies du web sémantique, c’est-à-dire comment représenter la connaissance et comment accéder aux données sémantiques du web et en tirer parti. Il est enseigné en anglais par le Dr. Harald Sack, chercheur à l’Institut Hasso Plattner de Potsdam, et est accessible sur la plate-forme openHPI.

Déroulement du cours


Ce cours se divise en six semaines, comprenant environ quatre heures de contenu par semaine (incluant les devoirs). Un excursus est aussi offert au milieu du cours pour présenter des façons d’enrichir des sites web avec des métadonnées sémantiques (à travers les microformats, le RDFa et schema.org). En tout et pour tout, ce cours nécessite un strict minimum de 25 heures pour être visionné, sans ajouter aucun contenu additionnel, ni passer de QCM ou d’examen. Chaque semaine (ou leçon) renferme en moyenne sept vidéos de 15 à 20 minutes suivies d’un quiz. Chaque cours est conclu par un travail d’une heure en temps limité avec date de remise. Cependant, ce cours était dans un mode archive lorsque je l’ai suivi. Dans ce mode, les sujets des devoirs ne sont pas accessibles, seules le sont leurs solutions. Enfin, un examen final de trois heures clôture l’ensemble du cours, mais il est lui aussi inaccessible en mode archive.

Le Dr. Harald Sack, qui présente ce cours, est chercheur senior et chef du groupe de recherche sur les technologies sémantiques de l’Institut Hasso Plattner de Potsdam.

Contenu


Ce cours a pour but d’expliquer l’ensemble des technologies du web sémantique. Commençant par l’histoire du web, il montre ses limites et combien une approche sémantique est nécessaire pour les dépasser. Mais qu’est-ce que signifie au juste la sémantique ? Le triangle sémiotique l’explique de façon concise : un symbole symbolise un concept, qui réfère à un objet, et le symbole représente cet objet. Les formalismes RDF et Schéma RDF sont ensuite introduits pour représenter ces triplets de données, de leur représentation par graphes au XML et à la syntaxe Turtle. Après nous avoir montré comment construire de petites bases de connaissance grâce auxquelles nous pouvons inférer des données implicites à partir des explicites, le cours nous apprend comment aller plus loin en interrogeant ces bases en SPARQL, qui est un peu plus qu’un simple langage de requêtes. La problématique du stockage de données RDF(S) est illustré par quelques implémentations de triplestores en bases de données relationnelles. Néanmoins, le RDF(S) manque encore d’expressivité sémantique. On nous présente alors l’histoire des ontologies en philosophie, puis en représentation des connaissances, puis nous passons à la logique des propositions et à la logique de premier ordre, et à quelques algorithmes de résolution (forme normale conjonctive et méthode des tableaux). Nous passons ensuite à la logique descriptive, au langage des ontologies web OWL (et plus spécifiquement sa variante OWL2, qui est très expressive et encore décidable), et aux règles (incluant Datalog et quelques mots sur SWRL et RIF). Après avoir fait du hacking d’ontologies, il nous faut maintenant passer à l’ingénierie d’ontologies, c’est-à-dire à l’utilisation de méthodologies pour conceptualiser, cartographier et fusionner des ontologies, puisqu’elles ont besoin, comme les autres projets, d’être gérées, planifiées, développées, validées par l’Assurance Qualité, maintenues… Le processus 101 est expliqué, ainsi que le processus unifié et les patrons de conception qui sont brièvement évoqués. On nous présente aussi l’Open Linked Data et des façons d’interagir avec lui, ce qui est illustré par le problème de la reconnaissance d’entités nommées, le tout menant à différentes approches de la recherche sémantique, et particulièrement à la recherche exploratoire.

Prérequis


Ce cours a quelques prérequis, particulièrement une connaissance de base des technologies web (URL, http, HTML, XML), des bases de données relationnelles et du SQL, et de logique (logique propositionnelle et de premier ordre).


Bénéfices et autres réflexions


L’excursus sur l’implémentation des données sémantiques dans le code HTML est assez intéressant, spécialement lorsqu’on connaît déjà le RDF. Cependant (et cela n’engage que moi), je ne le pense pas très utile d’un point de vue SEO. Car même si Google peut afficher des fragments enrichis dans son résultat de recherche (photo de l’auteur, votes, fil d’ariane…) à partir des données lisibles par machine avec lesquelles nous enrichissons notre contenu, il peut tout aussi bien les ignorer ou les utiliser à ses propres fins, accumulant des données sémantiques gratuites pour les afficher à sa guise sur sa page de résultats de recherche où les utilisateurs trouveront toutes les données dont ils auront besoin sans visiter les sites d’où elles proviennent. Dans ce sens, fournir des métadonnées sémantiques est déjà travailler pour la machine, ces fragments pouvant être facilement déconnectés de leur contenu originel et de leur contexte. D’un autre côté, ces données compréhensibles par la machine pourraient aussi être une des raisons pour lesquelles une page spécifique est affichée dans les premiers résultats des SERPs.

Un autre point intéressant est la recherche sémantique exploratoire déjà implémentée par Google sur sa première page de résultats, qui illustre d’ailleurs le premier point. Dès qu’une entité nommée est reconnue dans le champ de recherche, un résultat du graphe de connaissance est affiché sur la partie droite de la page, incluant des données de Wikipédia (et de sa contrepartie sémantique DBpédia) et d’autres sources, comme des faits, des livres, des films, etc. Les utilisateurs sont guidés dans leur recherche exploratoire, mais les sites qui fournissent ces informations ne sont dès lors plus visités, ce qui peut tuer leur business model, et Google peut être vu comme le prédateur ultime de la chaîne de la connaissance (ce qui ne signifie pas qu’un moteur de recherche exploratoire de taille conséquente ne bénéficierait pas à ses utilisateurs en supportant des requêtes qu’un moteur de recherche basé sur des mots-clés serait incapable de traiter).

C’est aussi une bonne illustration du fait que l’écosystème web actuel a développé un ensemble de règles qui ont perverti l’idéologie de ses débuts. Les données ne sont pas gratuites, et la plupart sont créées avec un coût, ou pour en tirer parti, qu’il s’agisse de reconnaissance, de trafic ou de revenus publicitaires. Le mouvement Open Data est emblématique d’un combat pour libérer les données réunies via un financement public, et Wikipédia peut être vu comme une résurgence du Siècle des Lumières via un processus collaboratif, mais le reste du web est principalement dirigé par des forces économiques. Nous avons au bout des doigts une énorme quantité de données. Cependant, les mêmes moteurs de recherche qui nous aident à naviguer dans cet océan dictent aussi la façon dont nous les consommons. Est-ce que le web sémantique est le futur du web, ou juste une façon pour les grands acteurs d’organiser cette avalanche de données à leurs propres fins ?

Suggestions de lecture


Le web sémantique : comment lier les données et les schémas sur le web pour extraire l’information utile

Le web sémantique : comment lier les données et les schémas sur le web pour extraire l’information utile, de Fabien Gandon, Catherine Faron-Zucker et Olivier Corby, Dunod (2012)
A Developer’s Guide to the Semantic Web

A Developer’s Guide to the Semantic Web, de Liyang Yu, Springer (2011)
Programming the Semantic Web

Programming the Semantic Web, de Toby Segaran, Colin Evans & Jamie Taylor, O’Reilly Media (2009)


Semantic Web Technologies (MOOC) (en anglais)
Tecnologías de la web semántica (MOOC) (en espagnol)
Tecnologias da Web Semântica (MOOC) (en portugais)

1 commentaire:

  1. Une bonne nouvelle pour celles et ceux qui sont intéressé-e-s par le web sémantique, puisque ce cours va de nouveau avoir lieu du 26 mai au 15 juillet 2014. Plus d'informations sur le site de l'openHPI à https://openhpi.de/courses/semanticweb2014

    RépondreSupprimer