Modele de recherche d`information

On trouve couramment des modèles de systèmes de récupération d`information dans les textes et les documents de recherche d`informations (p. ex., [Lancaster 79, page 8,]; [Meadow 92, p. 5,]; [Soergel 85, p. 58,]; [& Vickery 87, p. 11,]; de Vickery [van Rijsbergen 79, p. 7,]). Ces modèles sont généralement sous la forme illustrée à la figure 1, avec des quantités variables de détails descriptifs supplémentaires en fonction de la finalité de la description. En 1992, le département de la défense des États-Unis avec l`Institut national des normes et de la technologie (NIST), a coparrainé la Conférence de recherche de texte (TREC) dans le cadre du programme de texte TIPSTER. L`objectif était de se pencher sur la communauté d`extraction de l`information en fournissant l`infrastructure nécessaire à l`évaluation des méthodologies de récupération de texte sur une très grande collection de textes. Cette recherche catalysée sur des méthodes qui s`adapter à d`énormes corpus.

L`introduction de moteurs de recherche sur le Web a renforcé encore plus le besoin de systèmes de récupération à très grande échelle. La sortie de récupération, traditionnellement sous la forme d`un affichage, mais de plus en plus sous la forme d`un flux d`objets à utiliser ailleurs ou à d`autres fins, complète le cycle de récupération de base. Ces flux peuvent être dirigés vers des outils de visualisation, le stockage pour le traitement ultérieur, ou l`utilisation comme flux d`entrée à d`autres systèmes de sélection, ou comme rétroaction dans le système lui-même. Étant donné que la représentation est ce qui est stocké, la représentation est également celle qui pourrait, en principe, être recherchée et, après la sélection, produite comme sortie pour l`affichage ou d`autres fins. Mais cela n`est pas nécessairement soutenu dans la pratique. Les catalogues de bibliothèques en ligne actuels, par exemple, limitent généralement la recherche à quelques champs (notamment l`auteur, le titre et les en-têtes d`objet) dans les représentations qui contiennent plusieurs autres champs dans lesquels la recherche n`est pas prise en charge. C`est une raison suffisante pour laquelle il est nécessaire de faire une distinction entre la représentation et l`index indexable. L`index consultable, dans ce sens technique, est la partie interrogeable de la représentation. Nous utilisons des «règles d`indexation indexables» pour désigner ce qui détermine ce qui doit être consultable. Les systèmes de récupération ont généralement en outre une structure syndétique pour cartographier les recherches admissibles (voir, voir aussi, arrêter les mots, etc.), que nous traitons également comme un deuxième composant de l`index indexable. Encore une fois, dans le cas d`un texte intégral non édité, l`index indexable sera co-étendu avec la représentation et, par conséquent, avec l`objet source (le texte original).

Mais, comme indiqué, dans d`autres cas, tels que les catalogues de bibliothèques, les règles de création d`index peuvent restreindre les parties de la représentation disponibles dans l`index indexable.