Les standards en matière d’interopérabilité sémantique sont apparus en vue de répondre à la prolifération anarchique de langages hétérogènes, a priori incompatibles entre eux. Quand les applications concernées sont stratégiques et constituent des instruments d’action sur le réel, telles que dans l’egovernment, les enjeux en termes de coûts-bénéfices de cette problématique sont considérables.
Dans la foulée de SKOS (Simple Knowledge Organization System), recommandation officielle du W3C depuis le 18 août 2009, la norme ISO 25964-1 adaptée à l’interopérabilité des thesauri multilingues est parue le 15 août 2011 : “Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval”.
Nous avons déjà eu l’occasion d’aborder ces modèles de représentation dans le cadre de l’inventaire « open source » du département “Recherche” de Smals. Dans la pratique, le succès opérationnel de telles normes repose sur une organisation solide impliquant des accords bilatéraux entre les parties concernées et sur un investissement intellectuel humain conséquent. Il est fondamental par ailleurs de bien cerner les forces et les limites de ces standards d’interopérabilité, en vue de les exploiter au mieux.
Nous proposons ici de souligner plusieurs points forts de SKOS et d’initier un débat relatif aux points d’attention et questions ouvertes que pose cette recommandation du W3C à la lumière de la récente norme ISO 25964 en matière de thesaurus multilingue.
Construit sur la base du langage RDF (“Resource Description Framework”), SKOS permet théoriquement, dans l’environnement du Web sémantique, la conversion de tout type de langage documentaire contrôlé préexistant (thésaurus, classification, …) dans une syntaxe homogène. Par exemple, il pourrait être maintenant possible de faire communiquer entre eux des langages documentaires aussi différents que le thésaurus de l’UNESCO, le MESH (Medical Subject Headings) ou tout autre langage documentaire contrôlé développé en interne au sein d’une entreprise.
Les points forts du modèle sont les suivants :
- Il offre, de par son ouverture et sa rigueur, un standard répondant potentiellement à la prolifération anarchique des langages documentaires hétérogènes sur le Web ou au sein d’une entreprise.
- Il inclut une syntaxe riche (compatible avec tous les langages documentaires existants et avec les normes, plus complexes, du Web sémantique) et flexible (toutes les propriétés sont optionnelles) : l’utilisateur peut choisir de n’exploiter qu’un sous-ensemble de fonctionnalités en fonction de ses besoins. On ne se trouve dès lors pas nécessairement confronté à la lourdeur et aux coûts de maintenance que soulèvent les normes les plus riches du Web sémantique.
- Par rapport à un thésaurus, il propose un réel apport syntaxique, par exemple, en permettant aux concepteurs de caractériser les propriétés des descripteurs (“pour expert”, “pour néophyte”, …) ou encore, de leurs relations hiérarchiques (partitives, d’instantiation, …).
- La parution du nouveau standard ISO 25964-1 adapté à SKOS en matière de conception de thésaurus le 15 août 2011 en reforce la reconnaissance opérationnelle (le nouveau standard ISO inclut notamment une réflexion approfondie sur la conception des concepts composés, dans le contexte de la postcoordination, sur la notion de « rôle » pour spécifier les descripteurs et sur les degrés d’équivalence entre langues).
- Enfin, il existe à l’heure actuelle plusieurs langages documentaires d’envergure reposant sur SKOS, par exemple :
- Agrovoc, le thésaurus de la FAO (Food and Agriculture Organization of the United Nations), auquel est associé un Web service
- Le GEMET (General Multilingual Environmental Thesaurus) de l’Agence européenne pour l’environnement
- Le langage documentaire de la Library of Congress
A cela s’ajoutent toutefois des questions ouvertes et points d’attention, sans doute inhérents à ce type de formalisme tendant à l’interopérabilité sémantique :
- L’arbitrage “coût-richesse de représentation” : plus le pouvoir de représentation d’un langage documentaire est riche, plus sa mise en place et sa maintenance sont coûteuses.
- Un certain laxisme syntaxique, inévitablement lié à la souplesse qu’offre la norme : toutes les propriétés étant optionnelles, le concepteur doit veiller lui-même au maintien de l’intégrité de l’application. Paradoxalement, une bonne utilisation de cette norme, offrant à la fois flexibilité et richesse, requiert des compétences de conception de très haut niveau. Celle-ci n’est certainement pas à la portée de l’utilisateur lambda auquel s’adressent uniquement les applications finales.
- La syntaxe de SKOS permettant de distinguer explicitement les notions de termes et de concepts, de nombreux auteurs affirment que SKOS place définitivement et de manière stable le concept au cœur du système d’information, contrairement à un thesaurus au sein duquel il faut identifier en fonction du contexte les descripteurs et les non descripteurs (voir par exemple : “A method to Convert Thesauri to SKOS”). Nous pensons que cet avantage est illusoire : car les termes et les concepts sont des constructions historiques destinées à représenter certains aspects du réel observable. Les concepts empiriques évoluent intrinsèquement avec le contexte et seront toujours évolutifs (voir par exemple : Boydens I., Les bases de données sont-elles solubles dans le temps? In La Recherche hors série (“Ordre et désordre”). Hors série n° 9, novembre-décembre 2002, p. 32-34). Croire en leur caractère statique est un leurre ne pouvant donner lieu qu’à une impasse sur le plan opérationnel alors que la prise en compte de leur nature évolutive permet d’améliorer la qualité de l’information avec un ROI important (voir par exemple, l’initiative “Free your metadata“, I. Boydens, “Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium” (New York, Springer, 2011) et I. Boydens, Linked Open Data Quality Around-The-Clock, 2011).
- Enfin, SKOS est censé remédier à l’hétérogénéité des langages sur le Web. Nous l’avons vu, ce mode de représentation normalisé inclut beaucoup de points forts dans ce sens. Toutefois, il ne faut pas perdre de vue qu’en informatique plus qu’ailleurs, les normes et standards finissent souvent par faire l’objet de déviances. La norme SKOS n’échappe donc pas a priori aux maux qu’elle vise à traiter…
Ces évolutions (émergence de SKOS au sein du W3C depuis le 18 août 2009 et d’une nouvelle norme ISO adaptée à l’interopérabilité des thesauri le 15 aout 2011) concernent de près l’egovernment, au sein duquel les projets terminologiques, documentaires et liés au contenu et à la qualité de l’information sont aussi nombreux que stratégiques.
Leave a Reply