Qui sera le Google Killer ?

Article rédigé le 18 décembre 2014 à 11:44 RaphSEODans ma Cave

Eric Schmidt, qui dirige le mastodonte de la Silicon Valley depuis plus de 10 ans, a récemment révélé que les fondateurs Larry Page et Sergueï Brin sont convaincus que celui-ci est en préparation quelque part, au fin-fond d’un garage d’étudiant ou de « petit malin » qui aura la bonne idée de révolutionner la recherche d’information.

Si l’on est aujourd’hui à peu près convaincu que la recherche de pages pertinentes par rapport à une requête va devenir trop restrictive et trop difficile à gérer, en particulier avec l’augmentation structurelle et exponentielle du nombre de documents indexés par les moteurs de recherche, l’idée qui permettra de supprimer cette contrainte ne s’est pas encore installée.

Contrairement à l’idée généralement répandue, l’algorithme de Google n’est pas une formule extraordinairement complexe. Nul besoin d’être un génie en mathématiques pour l’administrer. Le filtre Google Penguin, bâti à partir de grosses ficelles faciles à identifier et à contourner, montre à quel point Google en est réduit à simplifier ses critères de pertinence, pour ne pas ralentir la production de ses résultats, malgré l’augmentation de  la taille de son index.

De même, la forte activité de la Search Quality team, qui revient à travailler manuellement sur les résultats de recherche, démontre l’impuissance de Google à produire des résultats satisfaisants uniquement à partir de critères informatiques.

Si les meilleurs ingénieurs du monde ne parviennent plus à endiguer l’action des référenceurs  autrement qu’en semant une terreur basée sur la confusion et la diffusion d’informations partielles, c’est que la solution (et l’avenir) se situent dans un changement de paradigme. Où se situe ce changement ? Certainement dans l’alliance de deux techniques anciennes et bien connues : le crawling et le scraping.

Le crawling est le premier métier de Google et des moteurs de recherche en général. Il consiste à explorer le web afin d’indexer les pages, c’est-à-dire d’en copier le contenu dans de gros Datacenter.

Le scraping (aussi nommé harvesting) est une couche supérieure qui consiste à repérer des données présentes sur la page, et d’être capable de les étiqueter, c’est-à-dire de leur donner un sens. Le sens est précisément ce qui manque à l’approche actuelle de Google : lorsqu’une requête est soumise par un internaute, Google ne fait que classer les pages qui semblent répondre à la question posée par l’utilisateur. En scrapant les pages, un moteur serait capable de comprendre le sens de la requête de l’utilisateur, et de ressortir uniquement l’information demandée, et non les pages dans lesquelles cette info serait contenue. Google est déjà partiellement capable de le faire, pour des requêtes générales telles que le nom d’un club de football, d’un personnage célèbre ou d’un monument.

La généralisation du scraping est une voie qui pourrait révolutionner le fonctionnement de Google, ou d’un concurrent qui émergerait avec une solution transversale de scraping. Au centre de cette technologie, se trouvent 2 grandes problématiques : la déduplication, et l’apprentissage automatique.

La déduplication consiste à détecter lorsqu’une information, présente sur deux documents (pages web) différents, est en fait une seule et même information. La raison pour laquelle Google déteste les comparateur de prix, est qu’ils présentent plusieurs fois la même information : un commerçant qui vend son Samsung Galaxy tab 4 chez Kelkoo et chez Twenga ou encore Clubic ne fait que polluer l’index de Google en soumettant deux fois le même objet dans des pages et domaines différents. L’enjeu du scrapeur est de parvenir à détecter que l’objet en question est le même, afin de ne pas le dupliquer.

Le deuxième enjeu, plus complexe encore, est celui de l’apprentissage automatique. Au départ, les règles de scraping doivent être définies « à la main ». Par exemple, on, va

indiquer au moteur que lorsque telle donnée est présente sous telle forme, à tel endroit, ou en présence de telle autre donnée, on va lui attribuer l’étiquette « X » (prix, nom de produit, livraison, etc…).

Cette règle va fonctionner dans un certain nombre de cas (50% à 70% par exemple), mais dans un nombre non négligeable de situations, elle ne sera pas valable. Il faudra alors que les utilisateurs puissent indiquer qu’il y a une erreur, en un clic simple. Ce clic permettra à la machine d’affiner les règles et de devenir « plus intelligente ».

De façon plus générale, le scraping pose la question centrale de la big data : l’uniformisation, la standardisation des formats et des modèles de données est au centre des capacités d’innovations des entreprises. L’actuelle diversité du web, liée aux habitudes de codage, aux CMS, aux langues, aux différentes cultures informatiques existantes dans le monde, ne permet pas aux technologies de scraping de se développer aussi vite que souhaité. Mais des services de plus en plus performants existent et rendent l’horizon de la révolution du « search » plus visible qu’auparavant. Mais peut-être le Google Killer dans son garage, a-t-il eu une idée plus géniale encore….

Article proposé par Mehdi Coly, formateur SEO, fondateur de Optimiz.me, service de référencement pour tous.

5 réflexions au sujet de « Qui sera le Google Killer ? »

  1. Laurent Bourrelly

    Quote de Larry Page que je tiens d’une source directe : « ils me cassent les couilles avec le moteur de recherche Google, mais ils ne pigent pas que c’était seulement mon diplôme ! »
    Aujourd’hui, les gonzes sont à des stratosphère du search, tel qu’on le connait encore actuellement.

    Après, je vois bien que le ticket d’entrée dans le secteur est plutôt facile à choper. Pour suivre Qwant de près, la voie est même royale.

  2. Julien

    Plutôt pas mal l’article même si on perd de vue le « Google Killer » a un moment.

    De mon coté j’ai des doutes sur le fait que le GG killer va naitre dans un garage – perso je le vois plutôt venir de chez un autre gros – pas forcement un gros du search, mais un gros.

    Ensuite m’est avis que dans un ère ou on est de plus en plus connecté de manière mobile, le Google Killer devrait a mon avis venir du « prédictive search » – on peut commencer a voir les prémices du concept avec « cortana » sur les téléphone Nokia – Cortana étant une version avancée de SIRI qui apprend au plus près qui vous êtes, quels sont vos déplacements, ou vous faites vos courses, quels sont vos sites / endroits préférés, et qui selon les accès que vous lui donnez peut en savoir plus sur vous que votre propres Maman.

    Perso j’ai vu fonctionner Cortana au SMX http://lemusclereferencement.com/2014/06/12/retour-smx-advanced-day-2-cortana/ et je dois bien avouer que j’ai été bluffé.

    A partir de ce concept – cortana est plus ou moins capable de vous présenter avec des informations pertinente en fonction de la situation ou vous vous trouvez. Alors bien entendu ce sont encore les prémices « avancé » du concept et on est en droit de penser aussi a la protection de la vie privée et tout cela mais de mont point de vue c’est cela qui va tuer Google.

    D’ailleurs il ne faut pas se leurrer – pourquoi a votre avis Google a t il racheté la compagnie NEST qui est un service d’automatisation / alarme de maison. Revenons un peu au base du SEO et rappelons nous que le search est une des branches du « permission marketing » – Je vous invite a lire le livre de SETH GODIN sur le sujet pour compléter mon raisonnement

  3. Laurent@Changer de site

    C’est un sujet très intéressant… Et je crois qu’il ne faut pas uniquement se concentrer sur le fond, sur tout ce qu’il y a sous le capot, mais aussi sur la forme. Aujourd’hui encore, les pages de résultat sont extraordinairement austères pour un internaute lambda.

    Alors bien entendu et par définition, sans un bon moteur proprement dit, on ne peut pas avoir un bon moteur de recherche 😉 D’ailleurs, certains acteurs ont tenté au fil des ans de pénétrer le marché avec de bonnes idées en matière de rendu des résultats, mais comme le fond ne suivait pas… Mais je pense que si un nouvel entrant parvient à proposer quelque chose d’à la fois efficace et innovant, tout en restant sobre – c’est là toute la difficulté évidemment -, il pourrait ringardiser Google, ou du moins les forcer à réagir assez vite. Et à mon avis il ne pourra réellement bousculer le marché que s’il n’oublie pas la forme dans l’histoire. J’imagine que certains ont compris ça et ont déjà épluché la biographie de Steve Jobs dans l’espoir d’une soudaine illumination…

  4. Emmanuel

    Il est claire que l’intelligence artificielle est l’avenir de la recherche, mais Google n’est pas en reste avec son Google Now.
    Au tout début de la recherche, on s’extasiait sur le nombre de pages indexées, puis Google arriva avec un classement des pages de plus en plus pertinent. Aujourd’hui, le défit est de comprendre chacun pour mieux répondre à ses questions (et éventuellement lui vendre un ou deux services en plus). Le big data est sans doute l’une des clés de cette meilleurs compréhension des individus.

  5. karnabal

    « Le sens est précisément ce qui manque à l’approche actuelle de Google ».

    Pas vraiment, depuis l’avènement du Knowledge Graph, voire depuis le rachat de Metaweb. Si lorsqu’on demande l’âge de Barack Obama, Google répond aujourd’hui « 53 ans », cela confirme que son approche est clairement sémantique.

    Ce que tu appelles le scraping est en fait du text mining, et de l’annotation inline. On s’accorde plus généralement à dire que le scraping consiste simplement à relever une donnée présente dans une balise HTML.

    La problématique de déduplication d’information, c’est la détection d’entités nommées.

    Si ces sujets t’intéressent, tu peux creuser du côté du Web Sémantique et des techno/solutions de text mining (OpenCalais, Luxid…). 😉

Les commentaires sont fermés. Si vous avez vraiment quelque chose d'intéressant pensez au mail. Merci.