Définition du Cosinus de Salton

Définition du Cosinus de Salton :

definition cosinus de saltonLe Cosinus de Salton est une mesure issue du modèle vectoriel initié par Gerard Salton (1927-1995) permettant de représenter un contenu par un vecteur et son poids par rapport à une requête par un angle entre plusieurs vecteurs. Il permet notamment de définir la pertinence d’une page web pour une recherche donnée.

 

Le Cosinus de Salton est un incontournable historique des moteurs de recherche depuis plusieurs décennies. certainement encore utilisé dans de nombreux moteurs, il mesure la pertinence d’un contenu par rapport à une requête donnée. Explications…

Gerard (Gerry) Salton (1927-1995) était un chercheur informatique de l’université de Cornell. D’origine allemande (son vrai nom est : Gerhard Anton Sahlmann, qu’il a américanisé en Gerard Salton), il a inventé le concept de « modèle vectoriel », le poids « TF*IDF » et le fameux Cosinus de Salton. Il est également à l’origine de la première implémentation pratique de ces outils dans un moteur, le fameux système « SMART » développé à l’université de Harvard. Ses travaux ont inspiré de très nombreuses recherches ultérieures jusqu’à aujourd’hui.

Le Cosinus de Salton est une suite logique des travaux sur le TF*IDF de la part de Karen Spärck Jones et Gerard Salton, dans les années 70. Le but est ici de définir un document selon une représentation spécifique, sous la forme d’un « vecteur » qui part de l’origine des deux axes et dont l’extrémité correspond au point dont les coordonnées sont définies par les poids respectifs sur chaque axe (d’où le nom de « modèle vectoriel »). On pourra ainsi mesurer la différence entre deux contenus en mesurant le cosinus de l’angle entre ces deux vecteurs. Ce schéma peut par exemple être utilisé pour détecter du duplicate content entre plusieurs pages web.

Dans la pratique, le modèle vectoriel de Salton ne s’arrête pas à une représentation sur deux axes (donc deux dimensions). On a en fait autant d’axes que de termes indexés ! Mais on sait calculer une distance angulaire, et le cosinus de l’angle, entre des vecteurs définis par des coordonnées dans N dimensions. Il s’agit alors d’un problème de calcul matriciel, le genre de calcul pour lesquels les ordinateurs modernes se révèlent très performants, car ces calculs sont « parallélisables » et « distribuables ».

A noter que les contenus de cette définition sont en grande partie extraits de l’article Le cosinus de Salton : un classique (méconnu) des moteurs de recherche« , écrit par Philippe Yonnet pour la lettre « Recherche et Référencement » du site Abondance.

cosinus-salton
Calcul du Cosinus de l’angle entre deux vecteurs.

Voici également quelques liens pour aller plus loin sur le sujet :

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.