Source : Official Google Blog
Dans mon précédent billet, je vous ai présenté la philosophie derrière le classement de Google. Dans notre volonté de discuter la qualité de la recherche, je souhaite vous en dire davantage sur les technologies derrière ce classement. Le cœur de notre technologie de classement est tiré du très académique "Information Retreival" (IR). La communauté IR a étudié la recherche pendant près de 50 ans. Celui-ci utilise des signaux statistiques basés sur la probabilité d'un mot à être remarqué, comme la fréquence d'un mot, pour classer les pages. (Voir "Modern Information Retrieval: A Brief Overview" pour un bref aperçu de ce qu'est la technologie IR.) L'IR nous donne de solides fondations, qui nous ont permis de construire un puissant système basé sur les liens, la structure des pages, et un pléthore d'autres facteurs innovateurs.
Durant la dernière décennie, la recherche a évoluée de "donnez-moi ce que j'ai dit" à "donnez-moi ce que je veux". Les attentes des utilisateurs concernant la recherche ont radicalement changées. Nous travaillons dur pour satisfaire les attentes de chaque utilisateur, et pour ce faire il nous faut arriver à mieux comprendre les pages, les requêtes, ainsi que nos utilisateurs. Pendant la dernière décennie, nous avons poussé les mécanismes de compréhension de ces trois éléments vers une toute nouvelle dimension.
Quand nous parlons de requêtes à Google, nous utilisons les crochets [ ] pour marquer le début et la fin d'une requête (voir "comment écrire une requête" par Matt Cutts), notation que j'utiliserai dans ce billet. (Les pages et résultats de recherche changent fréquemment, donc les exemples cités dans cet article pourraient ne plus être valables dans quelques temps.)
- Comprendre les pages : Au fil des années, nous avons investi massivement dans notre système d'indexation. Résultat, nous disposons d'un index très large et à jour. En plus de cela, nous avons procédé à d'autres améliorations. Une des technologies clés que nous avons développée pour comprendre les pages est l'association de concept à une page, même si ce n'est pas clairement énoncé. Vous trouverez par exemple la page d'accueil officielle de la Sproviery Gallery de Londres pour la requête italienne [galleria sprovieri londra], et ce même si la page ne contient pas les termes London ou Londra. Aux Etats-Unis, quelqu'un cherchant [cool tech pc vancouver, wa] trouvera la page d'accueil de www.cooltechpc.com même si il n'est aucune mentionné sur la page que cela se trouve à Vancouver, WA. D'autres technologies de notre crue sont chargées de la détection de l'importance des mots, et de la validité de l'information.
- Comprendre les requêtes : Il est primordial pour nous de comprendre les requêtes effectuées par nos utilisateurs (au-delà des quelques mots de la requête). Nous sommes à l'origine de remarquables avancées dans ce domaine, avec un correcteur orthographique à la pointe de la technologie, un système très avancé pour les synonymes, et un système d'analyse particulièrement solide.
- Comprendre les utilisateurs : Notre travail d'interprétations des intentions de l'utilisateur est conçu pour donner les résultats voulus par les personnes, et non ce qu'ils disent dans leurs requêtes uniquement. Ce travail débute par une localisation de niveau mondial, ajouté à nos technologies avancées de personnalisation, et à d'autres progrès que nous avons fait dans l'interprétation des requêtes, ou la Recherche Universelle.
La personnalisation est une autre puissante fonctionnalité de notre moteur de recherche qui affine les résultats selon l'utilisateur. Les utilisateurs qui sont connectés et qui ont activé l'historique de recherche obtiennent des résultats plus pertinents que les résultats généraux de Google. Quelqu'un effectuant beaucoup de recherche sur le Football obtiendra plus de résultats liés au football en tapant [giants], alors que d'autres auront des résultats plus axés sur l'équipe de Baseball. De la même façon, si vous avez tendance à préférer cliquer sur les résultats issus d'un certain site d'ecommerce, vous aurait plus de chance d'obtenir des résultats provenant de ce site quand vous chercher des produits. Nos études montrent que les utilisateurs bénéficiaires de résultats personnalisés les trouvent plus pertinents que les non personnalisés.
Un autre exemple du fonctionnement de ce système peut être illustré par la requête [chevrolet magnum]. Magnum est en fait produit par Dodge, pas Chevrolet. Nos afficheront donc les résultats pour Chevrolet Magnum accompagné de la mention "Voir les résultats pour : dodge magnum".Notre travail sur la Recherche Universelle est un autre exemple de notre manière d'interpréter les intentions de l'utilisateur pour lui donner ce qu'il veut vraiment. Quelqu'un cherchant [bangalore] obtient non seulement les pages importantes, mais aussi une carte, une vidéo de la vie de la rue, du trafic routier, etc, à Bangalore -- je m'y croirais presque en regardant cette vidéo :-)
Pour finir, je me permet de mentionner notre dernière avancée dans la recherche : le Cross Language Information Retreival (CLIR). Le CLIR permet aux utilisateurs de découvrir des informations dans une autre langue que la leur, puis en utilisant la technologie de Google Traduction, nous rendons l'information disponible. J'appelle cela une avancée : donnez moi ce que je veux dans n'importe quelle langue. Un utilisateur russe cherchant la biographie de Tony Blair en russe [Тони Блэр биография] se voit proposé à la fin des résultats de rechercher en anglais :

Un égyptien cherchant des musiques de film de Disney via [أغاني أفلام ديزني] sera de la même manière encouragé à chercher sur le web anglophone. Nous sommes très excité par ce CLIR car cela nous rapproche vraiment de notre mission d'organiser les informations mondiales et les rendre universellement accessibles et utiles.
Je pourrai encore vous citer d'autres exemples de cette technologie de pointe que nous avons développé pour rendre notre système de classement aussi performant, mais le fait est que la recherche n'est en aucun cas parfaitement maîtrisée. Beaucoup de requêtes n'obtiennent pas les résultats escomptés avec Google, et chacun de ces échecs est une opportunité pour nous d'améliorer le système. Avec plusieurs techniques en développement dans notre groupe, je pense que nous feront d'importantes améliorations à nos algorithmes dans un futur proche.
- Présentation du système de classement
- Les mécanismes du classement Google
- Google, d'une complexité enfantine
- Des expérimentations pour tous les goûts
- L'évaluation de la recherche chez Google
- Comportement des internautes dans leur habitat naturel
- Notre approche internationale de la recherche
0 commentaires:
Enregistrer un commentaire