Reprise d’un article publié par Internet actu
Dans : Articles/Usages/Web sémantique - Par Cyril Fievet le 13/10/2005
(magazine en ligne sous licence Creative Commons)
Deux services américains, del.icio.us et Flickr ont donné le ton, en permettant aux utilisateurs de "taguer" eux-mêmes le contenu qu’ils proposent ou souhaitent partager en ligne. Dans un cas, il s’agit de mettre en commun des signets, sous la forme d’adresses de site web repérées par chacun des utilisateurs. Dans l’autre, chacun peut partager ses photos numériques sur la toile. Pour les deux services, les "tags" sont une composante essentielle, bien que d’apparence rudimentaire : de simples mots-clés qui définissent ou tentent de décrire le contenu concerné.
Dès lors, on assiste sur le web à une déferlante, dans la foulée des "logiciels sociaux" et autres services de partage. On ne compte plus les clones de del.icio.us, qu’il s’agisse de services similaires en français (BlogMarks), en OpenSource (de.lirio.us) ou dédiés à des thématiques précises (Connotea dans le monde de la science, par exemple). On peut également visualiser en temps réel les nouveautés publiées sur del.icio.us (LiveMarks) et il existe des "agrégateurs de tags" montrant la popularité des mots utilisés comme de ! scripteurs sur plusieurs autres services (Guten Tag), ainsi que des plug-ins permettant d’ajouter la gestion des tags à une application existante, quelle qu’elle soit (Freetag pour PHP/MySQL, par exemple).
Les acteurs historiques de l’internet semblent eux aussi séduits, à l’instar du très récent annuaire de podcasts de Yahoo, qui intègre également des tags, tendant à démontrer que tout nouveau service se doit désormais d’intégrer ce principe de navigation. (Yahoo a par ailleurs absorbé Flickr en mars 2005).
Dans un nombre incalculable d’applications et de services en ligne, la plupart récentes et se référant au "Web 2.0", ces mots-clés jouent désormais un rôle central. Hors du tag, point de salut sur le web d’aujourd’hui et de demain ?
On peut être tenté de le croire, à en juger par la ferveur avec laquelle internautes, développeurs et entrepreneurs semblent s’être approprié le principe des tags. Technorati, l’un des plus gros moteur d’indexation de blogs, propose depuis janvier 2005 aux blogueurs d’indiquer dans leurs billets des tags représentatifs du contenu. Ces "étiquettes" peuvent être de simples catégories thématiques déjà présentes sur les blogs ou des expression beaucoup plus spécifiques correspondant par exemple à des événements ponctuels. En août dernier, on recensait 25 millions de billets "tagués". Et le moteur suit quotidiennement l’indexation de plus de deux millions de descripteurs distincts, dans de nombreuses langues différentes. Les 250 tag ! s les plus populaires sont affichés en permanence et chaque jour, ce sont quelques 12 000 nouveaux tags qui font leur apparition dans la blogosphère. Un succès édifiant.
Tags & Folks
Il est pourtant facile d’entrevoir combien le principe même des tags est limité et leur généralisation problématique.
La principale nouveauté de tous ces services provient du fait que ce sont les utilisateurs qui proposent et choisissent leurs tags. Dès lors, c’est bel et bien une forte "non-organisation", voire "désorganisation", qui préside à l’évolution du contenu tagué. Il n’y a en général aucune hiérarchie entre les différents tags qui constituent dans leur globalité une simple liste de mots et d’expressions de même niveau. En outre, le principe ne permet pas réellement de gérer la synonymie. Un billet comportant le tag "java" est-il relatif à l’une des principales îles indonésiennes, à une ville du Wyoming, au langage de programmation inventé par Sun Microsystems, ou au café ?
Et à cela s’ajoute la problématique de la langue. Technorati a choisi de mélanger tous les mots-clés, affichant en permanence une liste digne d’un manifeste de la tour de Babel, sur laquelle des caractères asiatiques ou arabes côtoient une multitude de termes anglais. Outre la lisibilité de l’ensemble, la sémantique n’est pas épargnée : le mot-clé "pain" fait-il référence à des articles sur la boulangerie française, ou plutôt sur la douleur, pain en anglais ? Et les internautes francophones, constatant la prédominance de termes anglais dans les index, ne seront-ils pas tentés d’utiliser des tags anglophones pour marquer leur contenu, renforçant la prédominance des descripteurs en langue anglaise ?
Enfin, l’indexation par tags prédispose à l’emploi de termes génériques qui n’apportent que peu d’éléments sémantiques. Que penser du tag "chiens" ? S’agit-il de contenu de nature médicale provenant de vétérinaires, de textes d’origine marketing émanant d’une boutique en ligne proposant des croquettes, ou de simples photos amateurs échangées par des propriétaires de chiens ?
Du reste, malgré une apparente uniformité, tous les tags ne sont pas identiques. Sur Technorati, les tags indexés sont ceux choisis par les blogueurs et fonction du contenu qu’ils ont eux-mêmes publiés. Sur del.icio.us, en revanche, ce sont les internautes qui taguent le contenu des pages qu’ils conservent dans leurs signets. Il est donc tout à fait possible (et même courant) qu’un même billet de blog ne soit pas tagué par les mêmes mots sur Technorati et sur del.icio.us.
Sous leur forme actuelle, il paraît difficile, de prime abord, de trouver un intérêt réel aux tags. Souvent trop vagues, sujets à interprétation ou à orthographe multiples, les tags ne prennent leur sens que sur des expressions très spécifiques, notamment liées à l’actualité ou à des événement précis. Le tag Flickr "chicagomarathon" permet ainsi de consulter toutes les photos relatives au marathon de Chicago tandis que sur Technorati, le tag "Hurricane Katrina" regroupe les 8 600 billets publiés sur les blogs au sujet de l’ouragan.
Les anglo-saxons ont créé un terme pour désigner le principe : "Folksonomy". Difficile à traduire, le mot, inventé par Thomas Vander Wal et construit à partir de "Folks" (les gens) et "taxonomy" (pris ici dans le sens de classification systématique) résume bien le concept. Plutôt que de partir d’ontologies, organisant le contenu de façon hiérarchisée, ce sont désormais les utilisateurs qui prennent eux-mêmes en charge l’indexation du web, avec pour résultat une joyeuse anarchie que personne ne cherche véritablement à optimiser ou à organiser : une "soupe de tags", comme l’appellent certains.
L’appel du tag
Force est néanmoins de constater que le principe n’est pas non plus dénué d’intérêt. Beaucoup, y voyant l’expression d’une nouvelle forme de démocratisation du web, défendent les tags avec vigueur.
"Je pense que c’est clairement un mouvement de fond. Les folksonomies sont représentatives d’un phénomène un peu paradoxal qui est que d’un côté l’usager, le client ou l’utilisateur final veut de plus en plus être placé au coeur du système en tant qu’individu et que de l’autre il souhaite s’inscrire dans une démarche communautaire ou de réseau", explique Christophe Deschamps, auteur du blog "Outils froids".
Pour Stéphane Lee, créateur - entre autres - du service Guten Tag, "le tag est le web sémantique du pauvre, suffisant pour créer des connexions intéressantes entre les différents contenus de la toile". "Le principe permet de se concentrer sur ce qui est important pour la majorité des gens, sans passer des mois à délimiter le contour d’une catégorie fixe pré-déterminée et qui de toute façon ne conviendra jamais pleinement", résume-t-il. En somme la principale vertu de la folksonomy est sa souplesse et la spontanéité qu’elle offre aux internautes. "Les tags, en laissant aux gens déterminer ce qui compte pour eux, font apparaître de nouveaux usages. Ils permet ! tent de faire surgir des informations qui étaient jusque là masquées : mots les plus utilisés, les plus populaires, connexions entre groupes de mots ou d’utilisateurs...", souligne-t-il.
"Le principal intérêt des tags vient du fait qu’ils agissent comme un premier filtre au web. Ils constituent une cartographie du web créée collaborativement par ses utilisateurs et permettent d’obtenir rapidement un ensemble de pages déjà validées par d’autres", ajoute Christophe Deschamps.
Un avis partagé par Adam Mathes, auteur d’un passionnant travail académique sur les folksonomies (décembre 2004, Université de l’Illinois). "La première vertu de la folksonomy est la ’sérendipité’ [traduisible par "heureux hasard", voir notre article sur la "sérendipité sociale", NDLR]. C’est une solution qui incite à la navigation et, via un ensemble de tags liés entre eux, constitue une source fantastique pour identifier des choses inattendues qu’on ne trouverait pas sans cela", écrit-il. Citant des travaux antérieurs, il explique du reste que c’est précisément "l’absence de hiérarchie, d ! e gestion des synonymes et de précision sémantique qui font que la folksonomy fonctionne". Et de résumer que la liberté offerte par le principe des tags permet de s’approcher très près de ce que permet une véritable taxonomie, tout en étant "10 fois plus simple".
"La liberté apportée par les tags encourage les utilisateurs à organiser l’information à leur manière, en l’adaptant à leurs besoins et à leur vocabulaire. [...] La constitution d’une ensemble de meta-données, relevant jadis d’une activité isolée et professionnelle, s’est transformée en une démarche partagée impliquant des utilisateurs actifs et communicants entre eux. C’est une étape importante qui doit être explorée pour de futurs développements", conclut Adam Mathes.
Il reste néanmoins à admettre que sous leur forme actuelle, les tags sont en train de parvenir à leurs limites. A en juger par les chiffres provenant de Technorati, on peut facilement anticiper que tous les mots du dictionnaire deviendront des tags, si ce n’est pas déjà le cas. Les tags ne risquent-il pas alors de perdre tout leur intérêt, en faisant double emploi avec les indexations traditionnelles en texte plein ?
L’évolution perpétuelle
Le fait est que, si le principe des tags est incroyablement populaire aujourd’hui, il est également en perpétuelle évolution. Bien qu’il soit difficile d’entrevoir une ligne directrice dans cette évolution, on constate que plusieurs services s’orientent vers davantage d’organisation.
Ainsi, Flickr a introduit récemment la notion de "groupes (clusters) de tags", un premier pas vers une forme de hiérarchisation des mots-clés. Par exemple, le terme "jaguar" amène à une page proposant plusieurs "clusters", dont l’un regroupe des images de félins, un autre des photographies de voitures anglaises et un troisième, des photos de l’avion de chasse français. On peut également citer fac.etio.us, un outil de recherche qui offre une présentation alternative du contenu disponible sur del.icio.us, organisée selon un rubricage original, plus structuré que ne l’est le service d’origine. De même, le très attendu Tagsy entend proposer, sous la forme d’une extension Firefox, un dispositif universel de description, basé sur une organisation hiérarchique des tags.
Certains essaient de limiter le nombre de tags existants au plan global. Tagyu propose par exemple d’aider les utilisateurs à choisir les tags qu’ils emploient. Sur la base d’un texte ou d’une adresse web, l’outil suggère les "bons" descripteurs en comparant le contenu concerné à des contenus similaires déjà tagués par d’autres. Un moyen potentiel de lutter contre l’inflation de tags.
Mais on sent bien que de nombreuses pistes restent à explorer, comme le préfigurent quelques nouveaux services innovants. On peut citer Tagalag, qui permet de "taguer des individus", repérés par leur nom, leur emplacement géographique, ou les termes qui les définissent le mieux. Bien que le principe ne soit pas radicalement nouveau, l’intérêt provient de la souplesse inhérente à la folksonomy. Encore en beta, le service permettra par exemple de recherche des "geeks" habitant à San Francisco. Plus ambitieux, et étonnamment "meta-conceptuel", le service Ning, déjà très populaire, propose à chacun de créer simplement son propre service "social", de type del.icio.us ou Flickr notamment. Un "meta-outil" p ! ermettant de créer de nouveaux outils de partage, au coeur desquels se trouvent les tags...
"N’en doutons pas, les tags représentent un mouvement de fond, qui va chambouler toutes les bases de données dont les champs sont gravés dans le marbre et n’offrent aucune souplesse, aucune dynamique", prévient Stéphane Lee. Et d’ajouter : "Les tags sont aussi le graal du marketing. Ils vont permettre de définir des intérêts connexes entre différentes thématiques ou produits, tout en regroupant les utilisateurs en communautés qui partagent des affinités similaires".
"Les tags seront présents comme un moyen simple et pratique de classer ses informations et ses données personnelles sans avoir à entrer dans des systèmes complexes. Ils permettent, à un niveau personnel, de donner un peu d’ordre au chaos. Pour autant je ne pense pas qu’ils pourront se substituer à des classements plus ’professionnels’, même si de nombreuses tentatives, notamment autour de del.icio.us, vont en ce sens", explique Christophe Deschamps.
En attendant le "Web 3.0"
La situation d’aujourd’hui est donc pour le moins paradoxale. Les créateurs d’applications semblent ne plus pouvoir se passer des tags, encouragés par les internautes qui se sont appropriés le principe avec un enthousiasme débordant.
Ce faisant, en à peine 18 mois, le web a pris des allures de web sémantique, sans que personne - et en particulier aucun organisme de normalisation - ne soit intervenu en amont pour que cela se réalise. Au contraire, le vent de renouveau insufflé par les tags symbolise en quelque sorte ce qui se passe actuellement sur l’internet. Selon un processus provenant de la base ("bottom-up") plutôt qu’imposé par des instances centralisées ("top down"), les utilisateurs ne sont plus passifs, mais s’impliquent sur le web au point d’en définir l’évolution, ou la transition vers un web sémantique.
Ainsi, tout le monde s’accorde à dire que le principe des tags est imparfait et, concrètement, difficile à utiliser, sans toutefois pouvoir se passer de l’utiliser.
"La folksonomy constitue une nouvelle approche, à l’évolution rapide, de la classification des objets numériques. Il reste beaucoup à découvrir et à tester en la matière. Et nous n’avons pas encore trouvé la bonne solution, intermédiaire entre le tagging bottom-up purement démocratique et le déterminisme empirique des vocabulaires contrôlés de haut en bas", conclut Emanuele Quintarelli, auteur d’une analyse très complète sur le sujet (juin 2005, ISKO).
Au delà du tag, la voie la plus prometteuse est peut-être celle des "micro-formats", un projet de web "semi-sémantique", qui s’appuie sur des "micro meta-données" qualifiant certaines parties du contenu des pages web, le tout lisible par des machines ou par des humains. L’un de ces micro-formats, "xFolk", a pour but de laisser les utilisateurs définir leur tags, sans avoir à passer par un service centralisé de type Flickr ou del.icio.us pour le faire (la fonctionnalité peut être ajoutée facilement à de multiples outils de publication). [voir notre article "Les microformats, prochaine &eacut ! e ;tape du web sémantique ?"]
Quoi qu’il en soit, par certains aspects, nous avons vécu en 10 ans les deux extrémités d’un mouvement de balancier, entre d’un côté les annuaires ontologiques et très structurés du Yahoo initial et de l’autre une folksonomy débridée dont les limites irrationnelles sont sur le point d’être atteintes. Le juste milieu reste à trouver, et les internautes s’y emploient.