mars
2012
Au travers du blog de Google Inside Search, Amit Sighal a publié un post nommé «Lumières sur la qualité de la recherche : 40 changements pour février» qui nous parle de nombreuses améliorations sur le classement des pages du moteur incluant aussi :
L’évaluation des liens
« Nous utilisons souvent les caractéristiques des liens pour nous aider à comprendre le sujet d’une page liée. Nous avons changé la manière via laquelle nous évaluons les liens; en particulier, nous avons désactivé une méthode d’analyse de lien que nous avons utilisée pendant de nombreuses années. Nous réachitecturons et désactivons souvent des parties de notre cotation en phase à ce que notre système soit maintenable, propre et compréhensible« .
Suite à cette déclaration, beaucoup de personnes ont tenté de deviner quelle méthode de l’analyse des liens avait changé. Allant du Page Rank désactivé, à l’ancre du texte déprécié, au moteur ignorant l’attribut rel=‘nofollow’ et bien d’autres encore. Il y a un nombre potentiel d’approches que Google pourrait avoir changé.
Voici une liste d’une dizaine de possibilités reposant sur les différents brevets accordés. Cependant, Google réalise de différente manière l’analyse des liens et cet article a pour but de mettre en avant les fonctionnalités qui auraient pu être désactivé en fonction des comportements recensés et des brevets connus.
Voici la liste :
1 – Interconnectivité local
Lors d’une recherche, plusieurs étapes se succèdent afin d’obtenir un résultat final exposé à l’internaute. Le moteur récupère les résultats en fonction de la requête effectuée par celui-ci. Ensuite, ces résultats obtenus en cache, le moteur parcourt tous les liens et met en avant certains d’entre eux en fonction de critères spécifiques.
Le livre « In the Plex » mentionne que l’inventeur derrière ce brevet, Krishna Bharat a développé un algorithme dont le brevet fut déposé et accordé en 2003. L’implémentation de celui-ci au sein du moteur fut la même année.
Cet algorithme est similaire en de nombreux points à l’algorithme HITS.
Ce procédé pourrait être obsolète de nos jours, et plus spécifiquement si Google effectue un classement basé sur les termes de la cooccurrence des termes dans un résultat axé sur l’indexation basé sur une expression.
2 – Trouver les sites associés
Comme vous l’avez déjà constaté, lors d’une recherche d’informations, le moteur propose une liste d’éléments associés à la requête en bas de page des résultats. Si vous cliquez sur un des résultats proposés par le moteur, la recherche qu’effectue ce dernier est de type [related:www.exemple.com]. La méthode utilisée pour déterminer les pages en rapport à celle d’origine est basée sur les liens pointant sur ces pages utilisant l’analyse basée sur les liens.
Google aurait-il trouvé un meilleur moyen pour découvrir les pages associées ?
C’est possible, mais il ne serait pas encore utilisé puisque les résultats de recherches prouvent le contraire.
3 – Page Rank adaptable
Ce brevet décrit l’approche d’un calcul rapide du PageRank.
Comme vous pouvez le deviner, le calcul du PageRank peut prendre un certain moment à être réalisé. Ainsi, il était nécessaire pour le moteur de palier à ce point en optant pour une méthode qui s’adapte aux contraintes de temps.
Aujourd’hui, Google a beaucoup plus de pages indexés qu’au moment de la création et du dépôt du brevet. Par conséquent, il ne paraitrait pas aberrant le fait que le moteur puisse faire appel à cette méthode.
Calcul d’ajustement de classement.
4 – Recoupement des informations récupérées de langue
Le moteur utiliserait la langue de l’ancre texte d’un lien pour comprendre la langue de la page web ciblée et par conséquent son sujet. Tout autant, le brevet fait référence à la traduction de la requête sous une autre langue auquel le document pourrait avoir une référence et recherche ainsi en parallèle des informations connexes. Enfin, l’algorithme permettrait aussi d’analyser les liens faisant référence au site ou à la page en question dans une autre langue pour faire une recherche en parallèle des éléments pouvant y faire référence.
Google a réalisé de nombreux travaux dans le but de construire des modèles statistiques de traduction automatique au cours de ces 5 à 7 dernières années. Il ne serait pas absurde d’imaginer que ces techniques sont bien plus utilisés aujourd’hui avec le nombre croissant d’informations multilingues.
5 – Cluster de liens
Google regroupe des pages similaires en analysant les pages qui pointent sur celles qui apparaissent dans les résultats de recherche. Tout autant, le moteur recoupe ces informations avec les autres pages liés à elles.
Google devrait avoir remplace cette approche avec une autre méthode plus axée sur le contenu et/ou les concepts contenus dans les pages.
Cluster de liens de document hyperliés.
6 – Notation personnalisée de PageRank
Cette méthode permet de déterminer les scores personnalisés pour les pages en basant son analyse sur les liens pointant sur celles apparaissant à des requêtes spécifiques dans les résultats de recherche ainsi que l’ancre texte dans ces liens en rapport aux termes recherchés.
Google pourrait utiliser une approche différente qui peut traiter de grande quantité de données personnelles des internautes, de pages et de requêtes pour calculer un score de page personnalisé.
Personnalisation des scores des ancres de texte dans un moteur de recherche.
7 – Indexation des ancres de texte
En utilisant les liens des ancres de texte pour déterminer la pertinence des pages vers lesquelles elles pointent.
Google continue d’utilise une approche comme celle-ci, mais d’une manière différente qui pourrait être influencé par la méthode d’indexations basée sur les expressions – Indexation de la balise de l’ancre dans un système d’indexation web.
8 – Analyse de lien en utilisant l’historique des données
En 2005, Google publie un brevet d’application qui décrit un nombre important de facteurs basé sur le temps en rapport avec les liens. Ainsi, d’après le moteur, les facteurs temps pourraient être :
- leurs cycles de vie (apparitions/disparition)
- l’augmentation et la diminution du nombre de liens pointant sur le document
- les poids des liens basés sur la mise à jour
- les poids des liens basés sur l’autorité des documents en provenance
- l’âge des liens
- les pics de croissances de lien
- les ancres de texte en rapport à la page continuant de pointe vers le document au fil du temps.
Aujourd’hui, le moteur utilise encore la plupart de ces facteurs. Néanmoins, il apparaitrait que certains critères seraient utilisés, mais d’une manière modifiée et pour d’autres, Google aurait tout simplement désactivé la prise en compte de certains d’entre eux.
Recoupement d’information base les donnée historiques.
9 – Poids des liens base sur la segmentation de page
Nous avons su pendant des année que Google a donné différent poids sur les liens base sur les segments d’une page ou le lien est situé. Aujourd’hui encore, le moteur devrait utiliser quelque chose en ce sens mais quelque peu modifié comme la limitation du poids d’un lien si celui ci il apparait dans les pieds de page sur plusieurs pages du site.
Segmentation de document basé sur une différence visuelle
10 – Caractéristique raisonnable de lien de navigation
Le modele de navigation raisonnable de Google decrivant un bon nombre de caractéristiqueq qui doivent etre pris en compte ensemble pour determiner comment la valeur d’un lien devrait etre en rapport avec les liens sur la page. Il serait possible qu’une ou plusieurs de ces valeurs ne soit plus considere d’une certaine manière qu’il l’aurait ete dans le passé.
Cacul des documents basé sur le comportement et/ou les données fonctionnelle de l’utilisateur.
11 Les liens entre les sites affiliés
Certains sites peuvent etre taggés relié ou affilié de différentes manières tel que la propriété par la meme personne. La valeur des liens qui devraient etre diminue a cause de la relation en rapport avec les autres «liens determiné editoriallement» .
La manière de calcul de l’affiliation devrait avoir changé
Déterminer la qualité des liens des documents.
12 – Propogation de la pertinence entre les pages liés
Assigner une pertinence à une page par rapport aux autres pourrait être basé sur la distance des clics entre et/ou certaines caractéristiques dans le contenu des ancres (de texte) ou des urls.Par exemple, si une page fait référence à une autre avec le mot «contact» ou le mot «à propos», et que la page destinataire possède une adresse , l’emplacement pourrait être considéré comme pertinent par rapport à la dernière.
Il y a différentes parties de la méthode de pertinence d’une page d’un site lié à d’autres sur le meme site et une ou plus de celle ci qui aurait pu changer.
Propagation utilie de l’information au travers des pages liés tel que les pages web d’un site.
Parmi celle-ci, quelle méthode d’analyse de liens Google a t il désactivé selon vous ?
Remerciements :
Je tiens à remercier Bill pour les échanges que nous avons et les autorisations d’utilisation de ses articles.
Ainsi, cet article est la traduction de l’article de Bill Slawski, dont le document original se trouve ici.
Articles récents
- Nouvelle du jour : ce blog reprend vie :)
- Google acquiert les brevets applicatifs de Cuil
- 12 Méthodes d’analyse des liens qui auraient pu changer au sein de Google en février 2012
- Nouveautés chez Google dans les outils pour les webmasters
- Google fait un rappel important sur le prestataire pour l’hébergement de votre site internet
Commentaires récents
- Pourquoi Oracle devrait continuer à aider Netbeans ? dans
- Soirée GlassFish & Groovy à l’INSA avec le JUG de Lyon dans
- Une annonce de James Gosling (le créateur de Java) pour les membres de Developpez.com dans
- Une annonce de James Gosling (le créateur de Java) pour les membres de Developpez.com dans
- Session : Monitoring and Troubleshooting Glassfish application server in the wild dans