Du coût des données en silo vers l'interopérabilité des données par la technologie sémantique

Silos de données

Au fil des années, les organisations ont accumulé dans leurs systèmes d’informations une multitude de données. Ces données auront permis à l’organisation d’opérer et de remplir leur mission au quotidien. Aujourd’hui, dans certains cas, ces données constituent un patrimoine d’informations que, s’ils étaient partagés avec d’autres unités ou départements, constituerait une plus-value pour l’organisation concernée. Ce besoin est aussi présent dans le contexte élargi : des villes intelligentes, de l’internet des objets, du big data, de l’intelligence d’affaires où l’échange de données constitue un enjeu fondamental.

Note historique — Article de 2016. Ce texte a été rédigé au printemps 2016. Les exemples de bases de données (Oracle, MySQL) et les références technologiques reflètent l’état de l’art de l’époque. Une mise à jour 2026 est disponible en fin d’article.

Le partage des données et la problématique d’interopérabilité

Quand vient le temps d’exposer ses données, un problème technologique majeur et complexe se pose : comment interchanger des données entreposées dans des bases de données (BD) de technologies hétérogènes (par ex. : des données à échanger entre une BD Oracle et une BD MySQL). Bien qu’il existe des solutions pour résoudre ce problème, elles sont souvent complexes à implanter, à maintenir et elles sont rarement économiques.

Qu’est-ce qui occasionne le problème d’interopérabilité ?

Le problème d’interopérabilité des données vient du fait que dans une BD classique, la donnée et le cadre qui la structure sont codés dans une notation propre et propriétaire au logiciel qui gère les données. Par exemple, la table des employés d’une entreprise ne sera pas entreposée de la même façon dans une BD Oracle et une BD MySQL.

Une technologie qui vise à inter-opérationnaliser la donnée : le web sémantique

Le web sémantique est une solution d’interopérabilisation des données qui, comme les autres technologies du web, est normalisé par le W3C (World Wide Web Consortium). La technologie du web sémantique offre les dispositifs nécessaires à l’exploitation, la diffusion et la recherche dans les données interopérables. La donnée traitée par cette technologie est totalement découplée de l’architecture du logiciel qui la supporte.

L’interopérabilité de la donnée du web sémantique fonctionne selon le même principe que la présentation de l’information dans le web. Un serveur web diffuse une page HTML et il n’a pas à se soucier de la technologie qui lira cette page. De même, le client web — qui est souvent un fureteur comme Firefox, Safari, Internet Explorer, etc. — n’a pas à se soucier de la technologie qui dessert la page HTML. C’est exactement le même principe qui sous-tend l’interopérabilité des données dans le web sémantique.

Le dispositif langagier du web sémantique : l’URI, le RDF, le RDFS et l’ontologie

Par définition, tout ce qui est dans le web est considéré comme une Ressource, même une donnée. Comme pour une page web, dans le web sémantique, la ressource est identifiée par une Unified Resource Identifier (URI) (par exemple : https://cotechnoe.com/compagnie#MichelHeon). Il s’agit d’un identifiant unique dans le web.

Quant au Resource Description Framework (RDF), il est un « framework » utilisé pour décrire une ressource — par exemple, indiquer que Michel est un Technicien.

Le Resource Description Framework Schema (RDFS) est le dispositif langagier qui permet de définir la structure de donnée, l’équivalent de la définition des tables dans une BD. C’est avec le RDFS qu’il est possible de coder qu’un Technicien est une sorte d’Employé et qu’un Employé a la propriété d’avoir un statut temporaire ou permanent. C’est d’ailleurs par le dispositif RDF/RDFS que le web devient « sémantique ».

Il existe d’autres dispositifs langagiers qui exploitent le RDF/RDFS pour étendre l’expressivité du langage : ce sont les ontologies. C’est le cas entre autres du Web Ontology Language (OWL), du Simple Knowledge Organization System (SKOS) et bien d’autres.

Exploiter l’interopérabilité des ontologies pour réutiliser la donnée

Du fait qu’il existe un dispositif interopérable de modélisation des données (les ontologies), on a vu apparaître sur le web un nombre impressionnant d’initiatives de définitions de vocabulaires réutilisables (fondées sur RDF/RDFS) en fonction du domaine dans lequel on souhaite exploiter la donnée. Par exemple :

FIBO — pour le domaine de la finance
Dublin Core — dans le domaine de l’édition
CIDOC-CRM — pour la description de données culturelles
Friend Of A Friend (FOAF) — pour les réseaux sociaux

Ainsi, pour une solution maison, en plus de modéliser sa propre structure dans une ontologie, il est tout à fait possible d’agréger et d’exploiter les structures ontologiques déjà normalisées et disponibles sur le web. C’est à cette étape que le web de données ouvertes et liées (Linked Open Data — LOD) fait son apparition.

Dispositif d’accès aux données diffusées : le SPARQL endpoint

Comme tout système d’entrepôt de données, la technologie sémantique possède un dispositif de requêtes permettant d’extraire un sous-domaine de données en fonction de conditions spécifiques. Le langage de requête dévolu au web sémantique est le SPARQL (qui se prononce comme « étincelle » en anglais), acronyme de SPARQL Query Language for RDF.

Il est possible d’accéder aux données diffusées par un serveur web via le service SPARQL endpoint. L’URL du SPARQL endpoint est normalisée sous la forme http://nomserveur/sparql. Par exemple, le SPARQL endpoint de DBpedia (l’entrepôt sémantique de données issues de Wikipédia) est le http://dbpedia.org/sparql.

Pour un néophyte, la réponse est quelque peu occulte. Par contre, les données qui y sont présentées le sont dans un format interopérable et exploitable par un système d’informations distant, qui vise à réutiliser ces données pour éventuellement en générer de nouvelles (par la conjonction avec des données locales), et qui elles-mêmes peuvent être ré-exploitées, par exemple, dans le contexte d’un système d’intelligence d’affaires.

La technologie sémantique : une solution d’interopérabilité, pas seulement une solution web publique

En raison de sa dénomination « web sémantique », on imagine souvent que cette technologie est dévolue à une solution web au sens « grand public » du web. Néanmoins, ceci est un malentendu. La technologie sémantique peut tout à fait être déployée dans un intranet pour desservir des données privées dans un sous-réseau sécurisé de la même manière que sont utilisées les pages d’informations dans les serveurs web intranet.

À vrai dire, la technologie sémantique devient une solution dès lors qu’une problématique d’interopérabilité des données se pose.

Pourquoi les technologies du web sémantique méritent une place de choix dans l’évaluation d’une solution d’interopérabilisation ?

Les technologies du web sémantique sont matures — elles sont apparues vers les années 2001, elles ont donc à ce jour plus de 15 ans d’âge. Elles sont non-propriétaires (elles appartiennent à tous), normalisées et régies par un organisme sans but lucratif et international (le W3C) dont la mission est de définir, en partenariat avec les chercheurs et les grandes entreprises du monde entier, les standards technologiques du web.

De plus, la plupart des fournisseurs de solutions propriétaires offrent des mécanismes qui permettent d’interfacer leur système aux technologies sémantiques.

Oui… mais…

Bien sûr, il y a un prix à payer. Ce prix, c’est le changement de paradigme dans la représentation des données. L’administrateur de base de données conventionnel est familier avec une représentation des données dans un format du type Entité-Relation et la gestion d’enregistrements dans une Table. Or, avec la technologie sémantique, la forme de base de la représentation des données est l’énoncé structuré en sujet-prédicat-objet géré par des réseaux de graphes.

De plus, l’idée selon laquelle la donnée est interopérable génère souvent de la confusion sur les possibilités de traitement de ces données. L’incorporation des technologies sémantiques impose un changement de paradigme profond chez les technologues, les gestionnaires et les utilisateurs — ce changement peut causer des instabilités dans l’organisation s’il n’est pas mené avec un processus de gestion du changement adéquat incluant des professionnels compétents en la matière.

La question de performance est aussi une autre problématique à évaluer. Comme tous systèmes web, la technologie du web sémantique n’a pas le niveau de performances de traitement de l’information que l’on peut retrouver dans les solutions natives. Il importe donc de bien considérer et évaluer cet aspect avant la conception et la mise en œuvre de la solution.

En conclusion

Il existe, par le biais des technologies du web sémantique, une solution pour le décloisonnement et l’échange des données qui sont actuellement en silos. Du point de vue technologique, le décloisonnement de la donnée passe par l’utilisation de dispositifs qui permettent d’interopérationaliser la donnée. La technologie du web sémantique offre ces dispositifs :

URI — identifiant unique de toute ressource dans le web
RDF — description d’une ressource
RDFS — structure interopérable (équivalent des tables)
Ontologies (OWL, SKOS…) — vocabulaires réutilisables pour des domaines spécifiques
SPARQL endpoint — accès aux données par requête web

Il est possible de tirer profit de la technologie sémantique en l’utilisant dans l’environnement du web mondial (le web de données ouvertes et liées) ou à l’abri dans un intranet privé. La technologie est normalisée, standardisée par le W3C et libre de droits d’accès et d’usage. Il faut cependant gérer son intégration dans l’organisation par le biais d’un mécanisme de gestion du changement adapté et faire appel à des professionnels qualifiés.

Mise à jour 2026 — Ce que la décennie a confirmé

Dix ans après la rédaction de cet article, le diagnostic sur les silos de données tient plus que jamais — mais les outils pour y remédier ont considérablement évolué.

Le problème des silos s’est aggravé avant de s’améliorer. La prolifération des microservices, des data lakes et des plateformes SaaS a multiplié les sources de données hétérogènes. Les organisations qui n’ont pas investi dans une couche sémantique souffrent aujourd’hui d’un problème structurel identique à celui décrit ici, mais à une échelle bien supérieure.

Les graphes de connaissances comme réponse industrielle. Google Knowledge Graph, Amazon Product Graph, Microsoft Azure Purview — les grandes plateformes ont adopté exactement l’approche décrite ici : une couche RDF/ontologie pour fédérer des données hétérogènes. Le W3C Data Catalog Vocabulary (DCAT v3, 2024) est devenu le standard de facto pour cataloguer les jeux de données ouverts, y compris au gouvernement du Canada et à l’Union européenne.

SPARQL est toujours vivant — et intégré dans les LLM. Apache Jena, Fuseki, Stardog, Amazon Neptune, GraphDB d’Ontotext : l’écosystème SPARQL s’est professionnalisé. En 2024, des architectures GraphRAG combinent graphes de connaissances et grands modèles de langage (LLM) pour ancrer les réponses dans des faits structurés et traçables — répondant directement aux limites des LLM seuls (hallucinations, manque de traçabilité).

Sur le changement de paradigme. L’avertissement de 2016 reste d’actualité. La montée en compétences en knowledge engineering et ontology design reste un frein réel. Les outils ont amélioré l’expérience développeur (Protégé, TopBraid Composer, Stardog Designer), mais la courbe d’apprentissage du modèle sujet-prédicat-objet reste significative pour les équipes habituées aux BD relationnelles.

Sur les performances. Les triplestore modernes (Stardog 9, GraphDB 10, Virtuoso 8) ont fait des gains significatifs. Pour les charges analytiques massives, l’approche hybride (couche sémantique + moteur analytique columnar) est devenue la norme dans les architectures data mesh.

Michel Héon, Ph.D. Docteur en informatique cognitive Président fondateur de Cotechnoe

Article originalement publié le 21 mai 2016 sur le blog Web sémantique de Cotechnoe.