[Recherche] Les mécanismes du classement Google @ Goopilation

Source : Official Google Blog

Dans mon précédent billet, je vous ai présenté la philosophie derrière le classement de Google. Dans notre volonté de discuter la qualité de la recherche, je souhaite vous en dire davantage sur les technologies derrière ce classement. Le cœur de notre technologie de classement est tiré du très académique "Information Retreival" (IR). La communauté IR a étudié la recherche pendant près de 50 ans. Celui-ci utilise des signaux statistiques basés sur la probabilité d'un mot à être remarqué, comme la fréquence d'un mot, pour classer les pages. (Voir "Modern Information Retrieval: A Brief Overview" pour un bref aperçu de ce qu'est la technologie IR.) L'IR nous donne de solides fondations, qui nous ont permis de construire un puissant système basé sur les liens, la structure des pages, et un pléthore d'autres facteurs innovateurs.

Durant la dernière décennie, la recherche a évoluée de "donnez-moi ce que j'ai dit" à "donnez-moi ce que je veux". Les attentes des utilisateurs concernant la recherche ont radicalement changées. Nous travaillons dur pour satisfaire les attentes de chaque utilisateur, et pour ce faire il nous faut arriver à mieux comprendre les pages, les requêtes, ainsi que nos utilisateurs. Pendant la dernière décennie, nous avons poussé les mécanismes de compréhension de ces trois éléments vers une toute nouvelle dimension.

Quand nous parlons de requêtes à Google, nous utilisons les crochets [ ] pour marquer le début et la fin d'une requête (voir "comment écrire une requête" par Matt Cutts), notation que j'utiliserai dans ce billet. (Les pages et résultats de recherche changent fréquemment, donc les exemples cités dans cet article pourraient ne plus être valables dans quelques temps.)

Comprendre les pages : Au fil des années, nous avons investi massivement dans notre système d'indexation. Résultat, nous disposons d'un index très large et à jour. En plus de cela, nous avons procédé à d'autres améliorations. Une des technologies clés que nous avons développée pour comprendre les pages est l'association de concept à une page, même si ce n'est pas clairement énoncé. Vous trouverez par exemple la page d'accueil officielle de la Sproviery Gallery de Londres pour la requête italienne [galleria sprovieri londra], et ce même si la page ne contient pas les termes London ou Londra. Aux Etats-Unis, quelqu'un cherchant [cool tech pc vancouver, wa] trouvera la page d'accueil de www.cooltechpc.com même si il n'est aucune mentionné sur la page que cela se trouve à Vancouver, WA. D'autres technologies de notre crue sont chargées de la détection de l'importance des mots, et de la validité de l'information.

Comprendre les requêtes : Il est primordial pour nous de comprendre les requêtes effectuées par nos utilisateurs (au-delà des quelques mots de la requête). Nous sommes à l'origine de remarquables avancées dans ce domaine, avec un correcteur orthographique à la pointe de la technologie, un système très avancé pour les synonymes, et un système d'analyse particulièrement solide.

La plupart de nos utilisateurs ont déjà utilisé le système de suggestion orthographique au moins une fois. Ce système sait que quelqu'un cherchant [kofee annan] cherche en fait M. Kofi Annan, et se voit suggéré : Essayez avec cette orthographe : kofi annan ; alors que quelqu'un cherchant [kofee beans] est en fait à la recherche d'informations sur les "coffee beans" (grains de café). Rendre ce système internationalement disponible et le plus pertinent possible n'est pas chose facile, et nous le faisons bien.

Les synonymes sont la fondation de notre système de compréhension des requêtes. C'est l'un des problèmes les plus ardus qu'il nous ait été donné de résoudre. Parfois évident pour les humains, c'est encore un problème non résolu dans le traitement automatique du langage. En tant qu'utilisateur, je ne veux pas trop réfléchir à quels mots utiliser dans mes requêtes. Souvent, je ne sais même pas quels sont les bons mots. C'est dans ces situations que notre système de synonymes entre en action. Il peut procéder à de complexes modifications : il saura que le mot "Dr" dans la requête [Dr Zhivago] fait référence à Docteur, alors que dans [Rodeo Dr] elle fait référence à Drive. Nous avons développé ce système de compréhension pour presque une centaine de langues, ce dont je suis particulièrement fier.

Un autre mécanique que nous utilisons dans notre système de classement est l'identification de concepts. Identifier les concepts dans les requêtes nous permet de fournir des résultats bien plus pertinents. Par exemple, dans la requête [new york times square church] nos algorithmes comprennent que l'utilisateur est à la recherche de la célèbre église à Times Square, et pas d'un article dans le New York Times. Et nous ne nous arrêtons pas là. Nous améliorons également les recherches avec les bons concepts quand, par exemple, quelqu'un cherchant [le pc et son impact sur les gens] cherche en fait l'impact des ordinateurs sur la société. Nos algorithmes d'analyse de requêtes sont constitués de tout un tas de techniques de pointe, et encore une fois, nous le faisons dans presque tous les langages que nous supportons.

Comprendre les utilisateurs : Notre travail d'interprétations des intentions de l'utilisateur est conçu pour donner les résultats voulus par les personnes, et non ce qu'ils disent dans leurs requêtes uniquement. Ce travail débute par une localisation de niveau mondial, ajouté à nos technologies avancées de personnalisation, et à d'autres progrès que nous avons fait dans l'interprétation des requêtes, ou la Recherche Universelle.

Notre objectif annoncé de "fournir des résultats localisé mondialement" se reflète dans notre travail de localisation. La même requête tapée dans plusieurs pays peut dans certains cas afficher des résultats complètement différents. Un utilisateur cherchant [bank] aux Etats-Unis se verra proposé une liste de banques américaines, alors qu'un utilisateurs britannique cherche soit la Bank fashion Line, ou les institutions financières britanniques. Les résultats à cette requête devraient affichés les institutions financières locales d'autres pays anglophones comme l'Australie, le Canada, la Nouvelle-Zélande et l'Afrique du Sud. Là où cela devient intéressant, c'est quand cette requêtes est saisie dans des pays non anglophones comme l'Egypte, Israel, le Japon, l'Arabie Saoudite, ou la Suisse. De la même manière, [football] correspond à un sport totalement différent en Australie, en Grande-Bretagne ou aux Etats-Unis. Ces exemples démontrent comment nous localisons le même concept correctement. Cependant, la même requête peut ne pas signifier la même chose dans des pays différents. Par exemple [Côte d'Or] est une région géographique en France, alors que c'est une grosse entreprise de chocolaterie dans le pays voisin et francophone qu'est la Belgique. Et oui, nous faisons la différence. :-)

La personnalisation est une autre puissante fonctionnalité de notre moteur de recherche qui affine les résultats selon l'utilisateur. Les utilisateurs qui sont connectés et qui ont activé l'historique de recherche obtiennent des résultats plus pertinents que les résultats généraux de Google. Quelqu'un effectuant beaucoup de recherche sur le Football obtiendra plus de résultats liés au football en tapant [giants], alors que d'autres auront des résultats plus axés sur l'équipe de Baseball. De la même façon, si vous avez tendance à préférer cliquer sur les résultats issus d'un certain site d'ecommerce, vous aurait plus de chance d'obtenir des résultats provenant de ce site quand vous chercher des produits. Nos études montrent que les utilisateurs bénéficiaires de résultats personnalisés les trouvent plus pertinents que les non personnalisés.

Un autre exemple du fonctionnement de ce système peut être illustré par la requête [chevrolet magnum]. Magnum est en fait produit par Dodge, pas Chevrolet. Nos afficheront donc les résultats pour Chevrolet Magnum accompagné de la mention "Voir les résultats pour : dodge magnum".Notre travail sur la Recherche Universelle est un autre exemple de notre manière d'interpréter les intentions de l'utilisateur pour lui donner ce qu'il veut vraiment. Quelqu'un cherchant [bangalore] obtient non seulement les pages importantes, mais aussi une carte, une vidéo de la vie de la rue, du trafic routier, etc, à Bangalore -- je m'y croirais presque en regardant cette vidéo :-)

Pour finir, je me permet de mentionner notre dernière avancée dans la recherche : le Cross Language Information Retreival (CLIR). Le CLIR permet aux utilisateurs de découvrir des informations dans une autre langue que la leur, puis en utilisant la technologie de Google Traduction, nous rendons l'information disponible. J'appelle cela une avancée : donnez moi ce que je veux dans n'importe quelle langue. Un utilisateur russe cherchant la biographie de Tony Blair en russe [Тони Блэр биография] se voit proposé à la fin des résultats de rechercher en anglais :

Un égyptien cherchant des musiques de film de Disney via [أغاني أفلام ديزني] sera de la même manière encouragé à chercher sur le web anglophone. Nous sommes très excité par ce CLIR car cela nous rapproche vraiment de notre mission d'organiser les informations mondiales et les rendre universellement accessibles et utiles.

Je pourrai encore vous citer d'autres exemples de cette technologie de pointe que nous avons développé pour rendre notre système de classement aussi performant, mais le fait est que la recherche n'est en aucun cas parfaitement maîtrisée. Beaucoup de requêtes n'obtiennent pas les résultats escomptés avec Google, et chacun de ces échecs est une opportunité pour nous d'améliorer le système. Avec plusieurs techniques en développement dans notre groupe, je pense que nous feront d'importantes améliorations à nos algorithmes dans un futur proche.

J'espère que mes deux articles sur le classement par Google vous ont fait comprendre que nous vivons et respirons avec la recherche, et nous sommes plus passionnés que jamais. Notre ferveur à satisfaire tous les utilisateurs à travers le monde est sans précédent. Nous sommes fiers d'éditer un très bon système de classement, et nous travaillons chaque jour extrêmement dur pour encore l'améliorer.

Par Amit Singhal, fidèle emplyé de Google

Dans la même série :
- Présentation du système de classement
- Les mécanismes du classement Google
- Google, d'une complexité enfantine
- Des expérimentations pour tous les goûts
- L'évaluation de la recherche chez Google
- Comportement des internautes dans leur habitat naturel
- Notre approche internationale de la recherche

Links

Goopilation Les blogs officiels de Google traduits en français.

Pages