Files

Abstract

In this paper, we explore the schema matching techniques to compare the content of three geospatial standards which are LADM, LandInfra (InfraGML) and LandXML. Those standards all refer to the concept of “land” and we will try to quantify the similarity of them based on syntax and semantic comparison of the class names exposed in their respective schema. Consequently, we will demonstrate the applicability, the accuracy and the usefulness (rapidity and automation) of schema matching techniques for comparing the content of standards. The comparison is performed with XSD (XML Schema Definition) files that describe the schema in English. The results show that syntactic match rate between LADMLandInfra (54%) is higher than LADM-LandXML (10%). In adding the semantic information extracted from Wordnet, the match rate between LADM-LandInfra goes to 84% and 59% for LADM-LandXML. In comparing our matching results with two independent sources of information that already and manually compared these three standards, we obtained distinctive results. The correctness of LADM-LandInfra is 60%, while the correctness of LADM-LandXML is only 20%. The applicability of schema matching is positively demonstrated while the usefulness and the accuracy still need further improvements in order to make any statement.

Dans ce papier, nous explorons les techniques d’appariement de schémas pour comparer le contenu de trois standards géospatiaux soit LADM, LandInfra (InfraGML) and LandXML. Ces trois standards réfèrent au concept de « land » et nous allons tenter de quantifier leur similitude en tenant compte de la syntaxe et de la sémantique des noms de classe contenu dans leur schéma respectif. Nous allons ainsi démontrer l’applicabilité, l’exactitude et la facilité (rapidité et automation) des techniques d’appariement de schémas. La comparaison est effectuée à partir des fichiers XSD (XML Schema Definition), qui présentent la modélisation en anglais des standards. Les résultats montrent que, lorsqu’uniquement la syntaxe est prise en compte, le taux d’appariement de LADM-LandInfra (54%) est plus élevé que celui de LADM-LandXML (10%). En tenant compte des relations sémantiques possibles extraites de Wordnet, le taux d’appariement de LADM-LandInfra grimpe à 84%, alors qu’il revient à 59% pour LADM-LandXML. En comparant nos résultats avec des sources d’information externes qui ont déjà comparées manuellement ces trois standards, nous obtenons un taux d’exactitude de 60% pour LADM-LandInfra et de 20% pour LADM-LandXML. L’applicabilité des techniques d’appariement de schémas est démontrée par nos expérimentations tandis que l’exactitude et la facilité montrent des résultats divergeant qui nécessiteront d’autres tests et analyses.

Details

Actions