Cours 2 : les outils de recherche et leurs fonctionnements
cours 2: les outils de recherche et leurs fonctionnements
Matière : recherche d'informations sur le web
Niveau : M2 sciences du langage
objectifs du cours: amener les étudiants à:
- Comprendre les différents types d'outils de recherche disponibles sur Internet
- Comprendre les principes de fonctionnement des moteurs de recherche
- Découvrir les autres fonctionnalités des outils de recherche,
La meilleure façon d’obtenir de bons résultats au moyen des outils de recherche demeure le recours à plus d’un outil. De façon assez schématique et en se basant sur leur mode de fonctionnement, il est possible de distinguer 3 catégories d'outils de recherche d'information sur internet: les moteurs ou robots de recherche, les méta-moteurs et les annuaires (répertoires).
1-les moteurs de recherche
C’est quoi un moteurs de recherche (search engine) ?
C’est une des applications web créées pour effectuer des recherches sur la toile.
comment fonctionnent-ils d’une manière générale ?
Les moteurs de recherche fonctionnent à partir de bases de données qui emmagasinent l’information transmise par des logiciels-robots explorant le Web et ses innombrables pages. Il n’y a aucune intervention humaine dans ce processus. À partir des mots-clés soumis, le moteur cherche dans sa base de données les occurrences correspondant à la requête, quel que soit le type de document ou la nature du site, et présente les résultats par ordre de pertinence.
comment est calculée cette pertinence ?
Cette pertinence est calculée de différentes façons selon les moteurs, généralement en fonction de la fréquence et de la position des termes de la requête dans les pages balayées par le moteur. Plus le moteur recense de liens vers une page donnée, plus celle-ci est considérée comme pertinente.
est-ce que les résultats de recherche sont variables ?
Oui, Le Web est constamment en mouvement et les moteurs de recherche y sont sensibles. Les résultats de recherche pour une requête peuvent varier d’un jour à l’autre et d’un moteur à l’autre.
Il est fréquent de tomber sur des liens brisés, c’est-à-dire sur des liens vers des sites qui n’existent plus ou qui ont déménagé, parfois sans laisser d’adresse. Cependant, lorsqu’un lien aboutit à une page du type « 404 — Non trouvé », il se peut que ça ne soit que temporaire, en raison d’une mise à jour en cours ou d’une panne de serveur.
comment fonctionnent-ils ?
Sur internet, un moteur de recherche réalise 3 principales tâches :
1- Exploration du web par ses robots (spider, crawler) :
2- Indexation de contenus
3- Recherche dans son index
Exploration : Les moteurs de recherche utilisent des robots, aussi appelés web spiders ou crawlers. Le robot va explorer les pages du web et suivre les liens présents sur ces pages pour découvrir au fur et à mesure de nouvelles pages et de nouveaux contenus.
Indexation : le robot indexe le contenu des pages web c’est-à-dire il copie et enregistre les pages dans les serveurs situés dans les data du moteur de recherche
La recherche dans l’indexe : L’internaute interroge un moteur de recherche au moyen d’une requête. Cette requête correspond à une suite de mots clés. Le moteur explore alors son index et retourne une série ordonnée de ressources se rapportant à cette recherche.
2- Les répertoires (annuaires)
C’est quoi un annuaire ou répertoire ?
Les répertoires sont des bases de données organisées par des humains qui conçoivent un mode hiérarchisé de classification des sites Internet permettant une navigation de catégorie en sous-catégorie (selon une structure dite « en arborescence »).
Quelles sont les caractéristiques des répertoires ?
- les répertoires recensent des sites et non des pages
- chaque site est en fait signalé au moyen d'une notice descriptive (une base de références de sites) : Les professionnels qui établissent le contenu des répertoires ne sont généralement pas des spécialistes universitaires. Leur décision d’inclure un site ne dépend pas de critères scientifiques, mais plutôt du souci de répondre aux attentes d’un vaste public.
- le répertoire offre souvent, en complément, la possibilité de faire une recherche par mots-clés.
L’interrogation d’un répertoire s’effectue sur un nombre de sites plus restreint que l’interrogation d’un moteur de recherche, mais le répertoire a l’avantage de proposer des sites minimalement fiables dans une présentation relativement bien ordonnée. Par exemple, la requête archéologie Québec donne une trentaine de résultats avec le répertoire About.com et 64 200 avec le moteur de recherche Google : on gagne plus de temps à dépouiller les 30 résultats du répertoire qu’à démêler les centaines de résultats douteux du moteur. Les recherches dans les répertoires, sans promettre des résultats exhaustifs, seront fructueuses et moins sujettes au bruit. Il s’agit donc d’un point de départ intéressant pour connaître ce que le Web peut proposé de valable sur un sujet.
Comment fonctionnement les répertoires ?
Pour chercher des informations dans un répertoire il existe deux possibilités.
-Le classement des sites en catégories et sous-catégories permet une navigation thématique dans chaque répertoire. De la catégorie générale appropriée, on peut se rendre à la sous-catégorie la plus pertinente pour sa recherche et consulter les sites retenus : certains seront généraux, d’autres plus pointus, mais en les visitant on peut trouver des liens de plus en plus utiles.
- utiliser le moteur de recherche interne de l’annuaire.
Exemple sur un répertoire :
Catégorie : enseignement
Sous-catégorie 1 : enseignement primaire et secondaire
Sous-catégorie 2 : école maternelle et primaire
Que peut-on rechercher dans un répertoire ?
Assurément pas des informations très pointues telles que l’effet de la vidéo sur la compréhension du texte... Ce genre de recherche sera réservé à un moteur de recherche qui fonctionne sur le texte intégral des pages des sites.
On peut donc plutôt rechercher des lots de sites sur des sujets aussi vastes que les sciences du langage.
Un répertoire permet donc d'aider à repérer les sites existant dans un domaine.
Exemples de répertoires
Yahoo ! Le cœur de Yahoo ! est le répertoire bien connu d'origine. Mais c'est aussi un portail de services en tous genres, proposant aussi bien le webmail que la météo ou les actualités. C'est ce qui rend l'usage du répertoire de Yahoo ! un peu difficile de prime abord puisque celui-ci est noyé au milieu d'une page fourmillant de propositions de toutes sortes. Le répertoire est aujourd'hui accessible sous cette adresse : http://fr.dir.yahoo.com
L’annuaire est utile pour rechercher une sélection de sites sur une thématique donnée