Source : Official Google Blog
Lors des précédents billets de cette série, nous avons parlé des difficultés à surmonter pour construire un moteur de recherche de qualité. Notre objectif est que Google soit pertinent pour tous, quelque soit votre langue ou votre nationalité. Comme l'a décrit mon collègue Amit Singhal, nous nous basons sur des données statistiques avant de procéder à une modification quelconque. La plupart de ces modifications peuvent être appliquées à toutes les versions linguistiques que Google comporte. Parfois cependant, les caractéristiques uniques des langues nous forcent à ajuster l'algorithme au cas par cas. Et pour compliquer encore les choses, il existe des cas où la même langue varie d'un pays à l'autre. Prenez par exemple les mots "color" (Etats-Unis) et "colour" (Royaume-Uni), ou "camião" (Portugal) et "caminhão" (Brésil).
Mon nom est Daphne Dembo, et ma mission est d'améliorer la recherche Google sur le plan international. C'est un gros défis, puisque Google est utilisé dans beaucoup de pays et de langues différentes, que nos ingénieurs ne connaissent pas forcément. Au départ, l'affinement de la recherche internationale était effectuée par les ingénieurs de l'équipe Recherche Qualité, qui étaient passionnés par leurs langues et pays : Lina de Suède a amélioré l'analyse grammaticale des mots composés en allemand et en suédois ; Dimitri de Grèce a introduit la prise en charge du diacritique ; Ishai d'Israël a travaillé sur les translittération pour l'hébreu et l'arabe ; Trystan d'Australie est à l'origine d'une méthode servant à identifier les résultats de recherche locaux et à les classer ; Alex, bilingue en ukrainien et russe, a introduit la compréhension morphologique de ces langues. Alors que l'importance de Google à l'international n'arrêtait pas de croitre, nous avons due solliciter l'assistance des Googlers de tous nos bureaux.
La première étape dans la prise en charge d'une nouvelle langue est de mettre à l'essai notre algorithme sur un large panel de document écrits dans cette langue. Nous déterminons ainsi si notre modèle est assez précis et complet - par exemple, celui-ci comprend des noms, idiomes, expressions familières, que l'on ne trouve que rarement dans les dictionnaires classiques. Nous venons par exemple de commencer à identifier le swahili, et utilisons des pages comme celle-ci du Parlement de Tanzanie pour entrainer notre système à comprendre les nuances du langage. Avoir un modèle linguistique bien rodé nous aide à classer les documents pendant l'exploration et l'indexation de la toile, et de décomposer la requête de l'utilisateur. Une fois cette étape terminée, nous avons lancé Google Recherche en swahili dans des pays comme la Tanzanie et le Kenya, permettant de rechercher des informations comme "le cours boursier de Dar es Salaam" [Soko la hisa dar es salaam], et le "remède contre la Malaria" [Tiba ya malaria] (j'utilise comme d'habitude les crochets pour identifier les requêtes. Vous pouvez par exemple rechercher des infos sur le "football" en allemand en cliquant sur [fußball in hamburg]).
Nous apprenons à partir de ce que font nos utilisateurs, donc dès que les gens commencer à utiliser le moteur de recherche, nous pouvons améliorer le classement des résultats dans cette langue. Voici quelques exemples :
- Correction orthographique : nous venons de lancer la correction en estonien. Si votre estonien est un peu défaillant, et que vous ne vous souvenez plus comment écrire "détecteur de fumée", nous vous suggèrerons une correction pour [suitsuantur], menant vers de meilleurs résultats.
- Signes diacritiques : de nombreuses langues utilisent des signes diacritiques, altérant la prononciation. Nos algorithmes sont conçus pour les prendre en charge, et sont même capables d'aider si vous les avez oublié ou mal saisi. Par exemple, si vous êtes un habitant de Quebec au Canada, et que vous souhaitez connaître la météo dans cette ville, nous afficherons les mêmes résultats pour avec les signes diacritiques [Météo à Québec] ou sans [meteo quebec]. Les utilisateurs tchèques verront les mêmes résultats pour [krtecek] et [krteček] (un cartoon populaire). D'un autre côté, ces signes changent parfois complètement le sens d'un mot. Par exemple, en thaï, [ข้าว] signifie "riz" alors que [ข่าว] signifie "actualités". En slovène, les résultats pour [dieťa] (enfant) sont différents de [diéta] (régime).
- Synonymes : Les recherches en coréens ont démontrées que "samsung" peut être perçu comme un synonyme de "삼성". Par conséquent, lorsque les internautes cherchent [samsung], les résultats de recherche incluent le nom de la société en coréen.
- Combinaisons : certaines langues comportent des combinaisons, qui sont l'association de mots pour en former de nouveaux. Voici un excellent exemple en suédois, où nous affichons des résultats concernant une entreprise de carte de crédit pour [Visakort] et [visa kort].
- Lexémisation : Google a développé des modèles morphologiques permettant de déduire les mots à la bases des combinaisons. Par exemple, lorsque vous cherchez "voiture" en saoudien, vous pouvez rechercher [سيارة] et [سيارات] car les deux sont des variantes de la même racine, et les deux génèrent des résultats similaires. Un utilisateur polonais peut rechercher "film" [film] et obtenir des résultats contenant d'autres formes de ce mots, comme "filmów," "filmu," "filmie," "filmy."
En plus de ces facteurs sémantiques, Google pousse l'analyse des requêtes beaucoup plus loin. Comprendre les détails d'une langue dans un pays est primordial. La notation des acronymes est différente d'une langue à l'autre : en hébreux, il faut un guillemet avant le dernier caractère, comme dans "premier ministre" [
רה"מ] ; en thaï - un point à la fin du mot comme dans "poste de police" [
สน. ] ; aux Etats-Unis - un point après chaque lettre, comme [
I.B.M.].
Nous analysons non seulement les éléments linguistiques, mais aussi la façon des utilisateurs à saisir une requête. Par exemple, certaines langues ne possédant pas de caractères latins nécessitent des claviers alphanumériques. L'utilisateur peut passer d'un ensemble de signe à un autre en tapant sur une touche spécifique. Au cas où l'utilisateur oublierait cette séquence, la requête devient incompréhensible - mais pas pour Google. Vous pouvez par exemple voir comment nous corrigeons en arabe ([
hgsuv] corrigé en [
السعر]) ou en hébreux ([
vdrk, kuyu] corrigé en [
הגרלת לוטו]).

La facilité de lecture et de saisie est aussi influencée par la langue pratiquée. Puisque tous les mots chinois nécessitent plusieurs changements de modes sur un clavier, nous fournissons une
navigation par catégorie pour les images et les
recherches similaires, afin que les utilisateurs n'aient pas à trop taper. De la même façon, nous lançons en ce moment Google Suggest (
auto-complétion des requêtes en temps-réel) dans de nombreuses langues.
Je me suis pour le moellon cantonnée à décrire l'amélioration de la qualité de recherche dans une langue. Cependant, la localisation géographique de l'utilisateur est un facteur très important, même si cela se limite au pays, puisque les informations locales sont souvent plus importantes que les informations mondiales. Par exemple, rechercher "Pages Jaunes espagnoles" [Páginas Amarillas] aboutira à plusieurs documents d'intérêt mondial et d'autres plus locaux selon que vous vous trouvez au
Pérou, au
Mexique, ou en
Espagne. Chercher "Côte d'Or" en
France donnera des informations sur la région, alors que la chocolaterie du même nom ressortira en
Belgique.
Notez que l'affichage des informations doit se conformer aux standards du pays. Le signe "," correspond à une notation décimale en
Craotie et en
Italie. La température sera présentée en Clesius en
Norvège, et en Fahrenheit aux
Etats-Unis.
Si tous ces procédés échouent, nous essayons de fournir une traductions des résultats basée sur la technologie Google Traduction expliquée dans
ce billet. Nous traduirons votre requête en anglais, chercherons en anglais, et traduirons les résultats dans la langue de votre requête. Par exemple, les utilisateurs japonnais intéresses par des dessins sur le thème d'Halloween (Halloween étant à l'origine une fête irlandaise) peuvent rechercher [
ハロウィン イラスト]. Vous pouvez demander une traduction des pages en anglais (au bas de la page), comme dans l'image ci-dessous. De la même façon, les utilisateurs coréens peuvent rechercher des informations sur le dernier Harry Potter [
해리 포터], et les lecteurs arabes peuvent se renseigner sur l'opéra de Sydney [
افتتاح دار الاوبرا في سيدني] (cliquez sur l'image pour l'agrandir).

En tout, Google est activement développé en plus de 100 langues, pour plus de 150 pays, avec des douzaines d'améliorations chaque mois. Je vous ai juste décrit les bases de la recherche internationale, mais ce n'est que la surface de ce que nous faisons. Il y a quantité d'autres sujets intéressants qui influencent les marchés internationaux comme l'ergonomie, la page d'accueil, et l'organisation des pages de résultats. Comprendre la culture et les facteurs humains est essentiel pour créer un moteur de recherche en phase avec ses utilisateurs.

Par Daphne Dembo, Ingénieur en chef