Résumé

Nowadays, the search for information on the Internet is done through search engines. Search engines return information, present on the Web, indexed based on one or more keywords entered by the user. The results of these search engines are then available in the form of a list of links to a web page that is supposed to contain the information one is looking for. This thesis proposes an alternative approach that provides the information sought directly to users in the form of a synthesis. This synthesis is automatically built based on the results provided by existing search engines. To allow the construction of this synthesis three main themes have been addressed. The first theme concerns the aggregation of documents on the Internet for a given context or search. Based on this collection of documents, an extractive summary allows the user to visualize the important information for this context or search topic. To build the extractive summary, it is necessary to semanticize the data present on each page before merging them. The data semantization is carried out either in a parameterized way (e.g. for a given format type) or automatically (e.g. for plain text). The merging process consists of determining the distance between two data graphs and deciding whether or not to merge them. To achieve this synthesis, two sub-themes are studied: the extraction of unstructured data from the Internet and the recording of this data in a homogeneous structured format and the determination of the quality of a document on the Web using objective and measurable criteria. Several concepts and prototypes have been created to validate this thesis work. The main field covered revolves around Swiss politics and many resulting concepts have been validated and used for several years by the Documentation Service of the Federal Assembly (Swiss Parliament). These concepts made it possible to propose an analysis of the information published on social networks during federal referendums. These concepts have yielded positive results and have validated the approach proposed in this thesis work.

De nos jours, la recherche d’informations sur Internet se fait au travers des moteurs de recherche. Les moteurs de recherche permettent de retrouver de l’information préalablement indexée en fonction d’un ou plusieurs mots-clés saisis par l’utilisateur. Les résultats pour une recherche donnée sont disponibles sous la forme d’une liste de liens pointant vers une page web censée contenir les informations recherchées par l’utilisateur. Cette thèse propose une approche alternative qui fournit directement aux utilisateurs l’information recherchée sous la forme d’une synthèse. Cette synthèse est construite automatiquement à partir des résultats fournis par les moteurs de recherche existants. Pour permettre la construction de cette synthèse, trois thématiques principales ont été abordées. La première thématique concerne l’agrégation de documents sur Internet pour un contexte ou une recherche donnée. Sur la base d’une collection de documents, un résumé extractif permet à l’utilisateur de visualiser les informations importantes pour un contexte ou sujet de recherche donné. Pour construire le résumé extractif, il est nécessaire de sémantiser les données présentes sur chaque page avant de les assembler. La sémantique des données s’effectue soit de manière paramétrée (par ex. pour un type de format donné), soit automatiquement (par ex. pour du texte brut). Pour réaliser cette synthèse, deux sous thématiques sont étudiées : l’extraction de données non structurées provenant d’Internet puis l’enregistrement de ces données dans un format structuré homogène et la détermination de la qualité d’un document sur le Web à partir de critères objectifs et mesurables. Plusieurs concepts et prototypes ont été réalisés pour valider ce travail de thèse. Le principal domaine couvert tourne autour de la politique suisse et de nombreux concepts en résultant ont été validés et utilisés depuis plusieurs années par le Service de documentation de l’Assemblée Fédérale (Parlement suisse). Ces concepts ont permis de proposer une analyse de l’information publiée sur les réseaux sociaux lors des référendums fédéraux. Ces concepts ont donné des résultats positifs et ont validé l’approche proposée dans cette thèse.

Einzelheiten

Aktionen