Information scoring, a semantic approach - Archive ouverte HAL Access content directly
Theses Year : 2011

Information scoring, a semantic approach

Évaluation sémantique d'informations symboliques : la cotation

(1, 2)
1
2

Abstract

Confidence in information should represent how far one can believe it, how much faith to put in it. Trust is a thriving field of study yet, in general, it tends to measure quality of the process responsible for producing the information rather than advise on whether to believe it or not. In the same way that hearing a fact from a trustworthy source is insufficient to fully believe it, automatic evaluation of trust in an information requires a rich model capable of explicitly puting forward why what it qualifies should or should not be believed. This is the problem we have tackled in our work. From a careful study of an existing representation of confidence, we choose to split the problem in two: the encoding of trust, i.e. how it is represented, and the rules governing its appraisal, i.e. how it is evaluated. We derive the quintessential dimensions participating in the building of trust from the prerequisites imposed on the definition of its encoding. We offer a categorisation of these dimensions which gathers the evaluated criteria according to their object and influence and thus ensures their independence and non-redundancy. We also take great care of ensuring the readability of the measures involved in the assessment by proposing their expression along discrete scales made explicit through the use of linguistic labels. After these dimensions have been selected, we can address the problem of their combination to model the trust-building process. We solve this problem by proposing a philosophy of integration fo the dimensions, that is, we shape the architecture of information scoring. We provide this architecture with a representation as a scoring-chain which highlights the order in which dimensions are considered and the influence they have on the increase or decrease of the confidence evaluation. We also show how the flexibility of our model can be used to represent different user gullibility-postures, an essential adaptability for the modeling of subjective matters. Once these definitions are set, we propose a theoretical formalisation of the scoring process and of its expression, the score. Using the expressiveness of multivalued logics, we choose to set our solutions in this formalism. To reintroduce the important distinction between impossibility of measure and a neutral, yet expressed, measure, we extend this formalism by adding a new truth-degree. Within this new framework of an extended symbolic logic, we define combination operators to represent the entire collection of proposals we offered and formalise credulity-modeling. We then consider the implementation of our model in the extraction and scoring of symbolic information. We first examine the transposition of information scoring to the problem of knowledge extraction from text. We describe successively the scoring of information extraction and that of their fusion, examining for both how the scoring dimensions translate. We then develop a prototype for implementing our model. Finally, we apply both model and prototype to a real-world usecase consisting of the extraction and scoring of a social-network from a corpus of published texts.
La confiance en une information est une mesure de la foi qu'on peut lui apporter, c'est-à-dire qu'elle indique combien on peut la croire. Si la confiance constitue un sujet de recherche très étudié, dans la plupart des cas sa mesure témoigne plus de la qualité de la production de l'information sur laquelle elle porte qu'elle ne révèle si l'on peut s'y fier. Comme on ne se satisfait pas du fait qu'une nouvelle émane d'une source sûre pour la croire, l'évaluation automatique de la confiance nécessite un modèle plus riche, capable de décrire pour quelles raisons son objet est ou n'est pas crédible. C'est à cette problématique que nous nous sommes attaché dans nos travaux. Après avoir étudié la perception d'un mode de représentation de la confiance, nous proposons d'aborder séparément son expression et le processus gouvernant son établissement, de distinguer la cote de la cotation. Nous étudions les prérequis à la définition de la cote et en déduisons les dimensions incontournables à sa construction. Nous en proposons un découpage permettant de regrouper les différents critères d'évaluation selon leur objet et leur influence et assurant leur indépendance et leur non-redondance. Nous nous attachons également à assurer la lisibilité des mesures participant à l'évaluation de la cote en proposant de les apprécier sur des échelles discrètes explicitées d'étiquettes linguistiques. Une fois cette sélection des dimensions effectuée, nous nous posons la question de leur combinaison pour modéliser le processus d'établissement de la confiance. Afin de répondre à ce problème, nous proposons une philosophie de l'intégration des dimensions à la confiance: nous façonnons une architecture à la cotation. Nous fournissons à cette architecture une représentation sous la forme d'une chaîne de cotation, celle-ci mettant en avant l'ordre de prise en compte des dimensions d'intérêt et leur influence sur la hausse ou la baisse de la cote. Nous montrons également comment la souplesse de notre modèle permet de représenter différentes postures de crédulité de l'utilisateur, adaptabilité essentielle à la modélisation de principes subjectifs. Suite à ces définitions, nous proposons une formalisation théorique du procédé de cotation ainsi que de la cote, son mode d'expression. Exploitant l'expressivité de la logique multivaluée, nous choisissons ce formalisme pour exprimer nos propositions. Afin de préserver la nuance importante entre l'impossibilité de mesurer et la mesure neutre, nous l'étendons en lui adjoignant un nouveau degré de vérité. Dans ce cadre de logique symbolique étendue, nous définissons les opérateurs de combinaison permettant de représenter l'ensemble de nos propositions et formalisons la modélisation de la crédulité. Nous considérons ensuite la mise en pratique de notre modèle dans l'extraction et la cotation d'informations symboliques. Dans un premier temps nous examinons la transposition de la cotation au problème de l'extraction de connaissances à partir de textes. Nous détaillons successivement la cotation de l'extraction d'informations, puis celle de leur fusion, en examinant pour chacune la transposition des dimensions qui la constituent. Nous implémentons, ensuite, un démonstrateur pour la mise en {\oe}uvre de nos propositions. Enfin, nous appliquons modèle et démonstrateur à un cas réel d'extraction et de cotation de réseau social.
Fichier principal
Vignette du fichier
ARA.pdf (1.39 Mo) Télécharger le fichier

Dates and versions

tel-01559975 , version 1 (11-07-2017)

Licence

Public Domain

Identifiers

  • HAL Id : tel-01559975 , version 1

Cite

Adrien Revault d'Allonnes. Évaluation sémantique d'informations symboliques : la cotation. Intelligence artificielle [cs.AI]. Laboratoire d'informatique de Paris 6 [LIP6]; Paris 6, 2011. Français. ⟨NNT : ⟩. ⟨tel-01559975⟩
184 View
177 Download

Share

Gmail Facebook Twitter LinkedIn More