Comment fonctionnent les moteurs de recherche?

Comment fonctionnent les moteurs de recherche? / La technologie expliquée

Article mis à jour par Joel Lee le 10/10/2017

Pour beaucoup, Google est l'Internet. C’est le point de départ de la recherche de nouveaux sites, et c’est sans doute l’invention la plus importante depuis Internet. Sans moteurs de recherche, le nouveau contenu Web serait inaccessible aux masses.

Mais savez-vous comment fonctionnent les moteurs de recherche? Chaque moteur de recherche a trois fonctions principales: analyse (découverte du contenu), indexation (suivi et stockage du contenu) et récupération (extraction du contenu pertinent lorsque les utilisateurs interrogent le moteur de recherche)..

Rampant

Le Crawling commence là où tout commence: l'acquisition de données sur un site Web.

Cela implique de numériser des sites et de collecter des informations sur chaque page: titres, images, mots clés, autres pages liées, etc. Différents robots peuvent également rechercher des informations différentes, telles que les dispositions de page, l'emplacement où les annonces sont placées, les liens remplis, etc..

Mais comment crawler un site web? Un bot automatisé (appelé un “Araign? e”) visite page après page le plus rapidement possible, en utilisant les liens de page pour trouver où aller ensuite. Même dans les premiers jours, les araignées de Google pouvaient lire plusieurs centaines de pages par seconde. De nos jours, c'est par milliers.

Lorsqu'un robot d'indexation Web visite une page, il collecte tous les liens de la page et les ajoute à la liste des pages suivantes à visiter. Il passe à la page suivante de sa liste, collecte les liens sur cette page, et répète. Les robots d'indexation Web consultent également les pages précédentes de temps en temps pour voir si des modifications ont été apportées.

Cela signifie que tout site lié à un site indexé sera éventuellement analysé. Certains sites sont analysés plus fréquemment et d'autres à des profondeurs plus grandes, mais parfois un robot d'exploration peut abandonner si la hiérarchie des pages d'un site est trop complexe..

Une façon de comprendre le fonctionnement d'un robot Web consiste à en créer un vous-même. Nous avons rédigé un didacticiel sur la création d'un robot d'indexation Web de base en PHP. Vérifiez-le si vous avez une expérience de la programmation..

Notez que les pages peuvent être marquées comme “noindex,” ce qui revient à demander aux moteurs de recherche de passer outre son indexation. Les parties non indexées d’Internet sont connues sous le nom de “web profond” Qu'est-ce que le Web profond? C'est plus important que vous ne le pensez Qu'est-ce que le Web en profondeur? Il est plus important que vous ne le pensiez Le Web profond et le Web sombre semblent à la fois effrayants et néfastes, mais les dangers ont été exagérés. Voici ce qu’ils ont réellement fait et comment vous pouvez même y accéder vous-même! En savoir plus et certains sites, comme ceux hébergés sur le réseau TOR, ne peuvent pas être indexés par les moteurs de recherche. (Qu'est-ce que TOR et le routage des oignons? Qu'est-ce que le routage des oignons, exactement? [MakeUseOf explique] Qu'est-ce que le routage des oignons, exactement? [MakeUseOf explique] La confidentialité sur Internet. ses pires caractéristiques, en fonction de qui vous demandez.) Laissant de côté le genre de problèmes qui se posent à… Lire la suite)

Indexage

L'indexation est le moment où les données d'une analyse sont traitées et placées dans une base de données..

Imaginez pouvoir dresser une liste de tous les livres que vous possédez, de leurs éditeurs, de leurs auteurs, de leurs genres, du nombre de pages, etc. Ramper signifie que vous parcourez chaque livre en indexant, lorsque vous les connectez à votre liste..

Maintenant, imaginez que ce n’est pas seulement une salle remplie de livres, mais toutes les bibliothèques du monde. C'est une version à petite échelle de ce que fait Google, qui stocke toutes ces données dans de vastes centres de données contenant des milliers de pétaoctets de disques. Taille de la mémoire expliquée: gigaoctets, téraoctets et pétaoctets dans le contexte dans le contexte Il est facile de voir que 500 Go est plus de 100 Go. Mais comment se comparent les différentes tailles? Qu'est-ce qu'un gigaoctet pour un téraoctet? Où se situe un pétaoctet? Clarifions ça! Lire la suite .

Voici un aperçu de l'un des centres de données de recherche de Google:

Crédit d'image: Google

Récupération et classement

La récupération correspond au moment où le moteur de recherche traite votre requête de recherche et renvoie les pages les plus pertinentes correspondant à votre requête..

La plupart des moteurs de recherche se différencient par leurs méthodes de récupération: ils utilisent différents critères pour choisir les pages qui correspondent le mieux à ce que vous recherchez. C’est pourquoi les résultats de recherche varient entre Google et Bing, et pourquoi Wolfram Alpha est particulièrement utile. 10 utilisations intéressantes de Wolfram Alpha si vous lisez et écrivez en langue anglaise 10 utilisations intéressantes de Wolfram Alpha si vous lisez et écrivez en langue anglaise Il a fallu Il me reste un peu de temps pour réfléchir à Wolfram Alpha et aux questions qu’il utilise pour produire ces résultats. Vous devez plonger profondément dans Wolfram Alpha pour vraiment l'exploiter… Read More .

Les algorithmes de classement vérifient votre requête de recherche des milliards de pages pour déterminer la pertinence de chacun. Les entreprises gardent leurs algorithmes de classement comme des secrets industriels brevetés en raison de leur complexité. Un meilleur algorithme se traduit par une meilleure expérience de recherche.

Ils ne veulent pas non plus que les créateurs Web utilisent le système et grimpent injustement au sommet des résultats de recherche. Si la méthodologie interne d'un moteur de recherche était mise au jour, toutes sortes de personnes exploiteraient sûrement ces connaissances au détriment des chercheurs comme vous et moi..

Crédit d'image: photovibes via Shutterstock

Exploitation de moteur de recherche est possible, bien sûr, mais ce n'est plus si facile.

À l’origine, les moteurs de recherche classaient les sites en fonction de la fréquence à laquelle les mots-clés apparaissaient sur une page, ce qui conduisait à: “Remplissage de mot-clé” - remplir des pages avec des absurdités de mots-clés.

Puis vint le concept d’importance des liens: les moteurs de recherche valorisaient les sites contenant de nombreux liens entrants car ils estimaient que la popularité des sites était pertinente. Mais cela a conduit à lier des spams sur le Web. De nos jours, les moteurs de recherche pondèrent les liens en fonction de la “autorité” du site de liaison. Les moteurs de recherche accordent plus de valeur aux liens d'un organisme gouvernemental que ceux d'un répertoire de liens.

Aujourd’hui, les algorithmes de classement font l’objet de plus de mystère que jamais, et “optimisation du moteur de recherche” Démystifier le référencement: 5 guides d'optimisation des moteurs de recherche qui vous aident à démarrer Démystifier le référencement: 5 guides d'optimisation des moteurs de recherche qui vous aident à commencer La maîtrise des moteurs de recherche requiert des connaissances, de l'expérience et de nombreux essais et erreurs. Vous pouvez commencer à apprendre les principes fondamentaux et à éviter facilement les erreurs de référencement courantes à l'aide de nombreux guides de référencement disponibles sur le Web. Lire plus n'est pas si important. Un bon classement des moteurs de recherche provient désormais d'un contenu de haute qualité et d'une expérience utilisateur exceptionnelle.

Quelle est la prochaine pour les moteurs de recherche?

Ah, maintenant il y a une question intéressante. La réponse est “sémantique”: la sens du contenu de la page. Vous pouvez en savoir plus sur notre aperçu du balisage sémantique et son impact futur. Qu'est-ce que le balisage sémantique va changer Internet pour toujours? [La technologie expliquée] .

Mais voici l'essentiel.

En ce moment, vous pouvez rechercher “biscuits sans gluten” mais les résultats peuvent renvoyer des recettes de biscuits sans gluten. Au lieu de cela, vous pouvez trouver des recettes de biscuits régulières qui disent “Cette recette n'est pas sans gluten.” Il a les bons mots-clés, mais le mauvais sens.

Avec la sémantique, vous pouvez rechercher des recettes de biscuits, puis supprimer certains ingrédients: farine, noix, etc. Vous pouvez également limiter les résultats aux recettes dont le temps de préparation est inférieur à 30 minutes et revoir les scores de 4/5 ou plus.. Cette serait cool, non? C'est là que nous allons!

Vous ne savez toujours pas comment fonctionnent les moteurs de recherche? Voyez comment Google explique le processus:

Si vous trouvez cela intéressant, vous voudrez peut-être aussi apprendre comment image les moteurs de recherche fonctionnent.

Crédit d'image: prykhodov / Depositphotos

En savoir plus sur: Google Analytics, Google Search, Web Search.