Samsa.fr

Un moteur de recherche sémantique me scotche au plafond

Il faut que vous raconte, même si on m’a fait promettre de ne pas tout dire, l’expérience que je viens de vivre. On nous parle de web sémantique depuis des années et je viens de voir à l’œuvre un moteur de recherche sémantique actuellement implémenté par un site de média. Il ne s’agit pas d’un moteur de recherche sur le web mais d’un moteur interne à un site ou à un bassin précis de données.

Kezako ?

Imaginez d’abord que pour conduire votre recherche, vous ne vous retrouviez pas face à une liste à parcourir. Là, une fois votre requête inscrite dans la case vous disposez d’un véritable poste de pilotage de votre recherche.

Vous pouvez affiner en fonction de critères géographiques, le moteur ayant de lui-même identifié tous les lieux cités dans les données (articles, légendes des images, etc).

Vous pouvez affiner en fonction des personnalités citées, le moteur ayant de lui-même identifié toutes les personnes citées dans les données (articles, légendes des images, etc).

Vous pouvez affiner en fonction des noms d’entreprises citées, le moteur ayant de lui-même…

Vous pouvez affiner en fonction des clubs de sport ou équipes citées, le moteur ayant de lui-même…

Vous pourrez sans doute affiner en fonction d’autres critères une fois l’engin paramétré en fonction des besoins.

Pour chaque critère (géographique, nom de personnalité, etc), on peut décider d’exclure la notion de la recherche ou au contraire d’affiner sur cette notion. Un menu déroulant s’affiche automatiquement quand on survole la notion.

Vous pouvez bien sût choisir la nature des éléments que vous recherchez (texte, photo, audio, vidéo)

Le poste de pilotage de la recherche permet également de choisir une plage de dates en déplaçant simplement deux curseurs (un pour la date de début et un pour la date de fin). Un petit graphique indique le nombre d’articles correspondant à la requête mois par mois et vous donne le total pour la période que vous avez sélectionnée.

Si le moteur semble parfaitement rodé, l’interface graphique, elle, est encore en version alpha.

Plus encore

Dans les résultats de recherche qui s’affichent ensuite, plusieurs modes d’affichage possible. Le mode compact affiche simplement titre et date. Le mode enrichi, propose un « résumé » de l’article (le chapô s’il s’agit de données structurées) et un « extrait » (un aperçu des premières phrases dans lesquelles figure la notion recherchée) dans tous les cas de figure.

Si l’on accède à l’article en cliquant sur « extrait », alors le texte apparaît avec des mots surlignés en couleur et cliquables (tous les noms de lieux, de personnalités, etc) et en gras et surlignés pour les mots figurant dans la requête (il s’agit du mot saisi au début de la recherche et de tous ceux éventuellement ajoutés dans le pilotage de la recherche).

Le moteur, qui est capable « d’attaquer » (je me demande si je n’ai pas été contaminé par le jargon) des bases de données structurées, est également en mesure de traiter des textes bruts (sans titre, ni chapo, ni signature) et d’en extraire, là aussi, les noms de lieu, de personnalités, etc.

Le moteur est capable d’établir automatiquement de lui-même, sur un article, des liens vers d’autres articles pertinents. Et ça marche !

Le moteur est capable de proposer sous chaque résultat, des éléments de données structurées pertinents. Par exemple, s’il s’agit d’un site de sport, il affichera sous un article parlant de Thierry Henry, la bio du footballeur. S’il s’agit d’un site économique, il affichera sous un article parlant d’Air France, la fiche de l’entreprise et la dernière cotation de l’action. S’il s’agit d’un site culturel, il affichera sous un article parlant de Beigbeder, un lien permettant d’acheter son bouquin.

A quoi ça sert ?

Ca sert à rendre la recherche plus intuitive et plus efficace pour l’utilisateur qui recherche une info sur un site proposant un gros volume d’info.

Ca sert à valoriser l’ensemble des informations déjà publiées autour du même sujet.

Ca sert à renforcer (ou remplacer ?) les processus manuels de créations de liens existants vers d’autres articles publiés sur le même sujet lors de l’édition d’un article.

Ca sert à monétiser les archives en ouvrant la possibilité de placer automatiquement des liens commerciaux pertinents dès les résultats du moteur de recherche.

Ca sert également à mieux cibler la pub dans les pages. Le système semble beaucoup plus efficace que les mots-clefs habituels (AdSense) qui ne manquent pas de travers. Mais je n’ai pas pu voir cet aspect à l’œuvre.

A quoi ça peut servir ?

Ca peut rendre véritablement possible le rêve de certains, comme Emmanuel Parody :

Le projet éditorial ne commence pas par le choix des rubriques (pour faire court) mais justement sur le périmètre sémantique. Le reste en découle. Mon obsession personnelle c’est le site sans rubrique, entièrement structuré par la combinaison de mots clés.

More to come

Et ça ne s’arrête pas là, de prochains développements sont prévus :

Mise en place d’alertes ou de fils RSS sémantiques, non pas sur la base de mots-clefs mais de notions.

Intégration d’un module permettant de traiter le contenu des éléments audio ou vidéo (au moins pour ceux enregistrés en studio, le système, me dit-on, est capable d’identifier très convenablement ce qui est dit).

Et tout un tas d’autres choses, mais là j’ai promis de ne pas tout révéler.

Et je suis incorruptible (enfin ça dépend jusqu’à combien).

Quitter la version mobile