Pourquoi cette question de la distance sociale ?

C’est vrai, pourquoi se poser tant de questions ? Dans SharePoint, vous rencontrez la notion de distance sociale à différents niveaux.

De manière explicite et visible, lorsque vous effectuez une recherche sur les personnes, SharePoint vous propose de trier les résultats de recherche selon la « Distance Sociale » :

De manière implicite, la notion de distance sociale intervient aussi dans différents processus, particulièrement de recommandation et de ranking. Il est donc intéressant de s’y attarder quelque peu et de l’expliciter.

Un peu de théorie

Si l’on s’en tient à la définition de Wikipedia, la distance sociale est une notion essentiellement sociologique :

« Social distance describes the distance between different groups of society and is opposed to locational distance. The notion includes all differences such as social class, race/ethnicity or sexuality, but also the fact that the different groups do not mix. The term is often applied in cities, but its use is not limited to that. »

Pour aller plus loin :

En tant que transposition virtuelle des modèles et processus du monde réel, les réseaux sociaux font abondamment référence à cette notion. Je vais tenter de l’expliciter…
Dans les faits, pour mesurer la distance sociale entre des groupes ou individus, plusieurs échelles peuvent être utilisées et parfois combinées. On trouvera entre autre :

  • Les degrés de séparation
  • Les degrés de proximité ou de similarité

Mais ces deux échelles représentant des réalités très différentes qu’il convient d’appréhender.

Les degrés de séparation

Rendue célèbre par l’expérience des 6 degrés de séparation, cette expression de la distance sociale est mesurée en déterminant le chemin le plus court entre deux individus dans le réseau constitué par leurs contacts directs.
Par exemple, dans la représentation graphique ci-dessous, les individus A et B sont à une distance de 6 :

Ce système est utilisé par exemple dans les réseaux sociaux comme LinkedIn ou Viadeo pour envoyer une demande de mise en relation entre deux individus qui ne se connaissent pas encore, en transmettant la demande à tous les contacts intermédiaires.

A titre anecdotique, l’expérience des 6 degrés de séparation a prouvé que deux individus, pris totalement au hasard dans la population mondiale, sont au maximum à une distance de 6. Ces résultats ont d’ailleurs été confirmés par Microsoft sur la base d’une étude à grande échelle menée anonymement sur utilisateurs de Windows Live Messenger : http://www.washingtonpost.com/wp-dyn/content/article/2008/08/01/AR2008080103718_pf.html

Mais cette expression de la distance sociale n’est que partielle et ne reflète pas certains facteurs comme “nous avons les mêmes centres d’intérêts” ou “nous travaillons dans le même secteur d’activité”, il était donc nécessaire d’introduire un autre outil de mesure.

Les degrés de similarité

La problématique de la similarité, par nature floue et non binaire, est pourtant traitée par l’informatique dans de nombreuses situations.
Par exemple, les moteurs de recherche tels que Bing ou Google utilisent ces systèmes de comparaison de mots pour proposer des corrections automatiques à des fautes de frappe :

Dans ces cas « simples », deux valeurs sont comparées puis on leur attribue une note de similarité sur une échelle donnée. Mais pour comparer des contenus plus complexes, comme un document bureautique, une page Web ou un profil utilisateur, de multiples facteurs entrent en jeu.

De nombreux algorithmes de calcul et de ranking de similarité existent, un des plus courants étant la distance de Levenshtein.

Sans trop vouloir rentrer dans le détail, on peut par exemple transposer ces algorithmes à des profils utilisateurs traités comme des documents. Ils sont tout d’abord transposés sous forme d’espaces vectoriels afin d’être manipulables mathématiquement, puis traités selon des algorithmes de ranking tels que le Okapi BM25.

Un autre exemple concret avec la “iTunes Genius Bar”, qui élabore des playlists musicales à partir des morceaux de votre bibliothèque qui se ressemblent, ou que des utilisateurs « similaires » ont acheté :

Pour cela, iTunes utilise notamment :

  • Les artistes classés dans le même genre musical
  • Les musiques communes à d’autres playlists
  • Les données anonymes d’autres utilisateurs
  • La base des achats de l’iTunes Store

L’approche mixte

Pourquoi comparer des profils dans les réseaux sociaux ? Simplement pour créer un moteur de recommandation et ainsi mettre en relation des utilisateurs présentant des points communs. Certes plus complèxe que d’utiliser un seul système, la démarche mixte (séparation + similarité) peut par exemple prendre en compte :

  • La proximité des intérêts
  • Le maillage complet et explicite des contacts

Par exemple dans Facebook avec l’application “People you may know”, qui propose notamment les “contacts de mes contacts” (FOAF pour Friend Of A Friend) ainsi que les profils similaires, par exemple travaillant dans la même société :

Les applications pratiques dans SharePoint

Les moteurs de recommandation

De manière similaire à FaceBook, SharePoint propose au travers de la fonction “Suggested Colleagues” des recommandations de personnes à suivre ou à inviter dans une communauté :

Il utilise pour cela un moteur de recommandation basé entre autres sur la notion de distance sociale.

De la même manière, avec l’introduction dans SharePoint 2013 de la possibilité de « suivre » un document (de s’y abonner), SharePoint peut désormais vous recommander des documents similaires, ou que d’autres utilisateurs proches suivent également :

Le « ranking » de résultats

Autre application de la distance sociale, l’ordonnancement des flux d’information et des résultats de recherche :

Ainsi lorsque vous consultez des résultats de recherche triés par distance sociale, un traitement complémentaire des résultats est utilisé pour les regrouper par priorité :

  1. Les premières pages selon la distance relative des collègues associés aux contenus (Collègues, Collègues de vos collègues puis tout le monde)
  2. Dans chacun de ces groupes, les résultats sont triés par pertinence
  3. Puis le système de regroupement s’applique à nouveau sur les pages suivantes
Cela peut sembler simple, mais les algorithmes de ranking sont particulièrement complexes, et peuvent faire intervenir un très grand nombre de critères de multiples natures :
  • Statiques et dynamiques
  • Degrés de séparation / Similarité directe
  • Similarité sémantique
  • Similarité sonore, particulièrement utile pour les recherche de noms de personnes dont on ne connait pas l’orthographe exacte… (Voir la fonction SQL SoundEx : http://en.wikipedia.org/wiki/Soundex)
  • Utilisation des centres d’intérêts pour pondérer les critères de recherche

Pour aller plus loin, vous trouverez plus d’informations sur la configuration du moteur de recherche de SharePoint 2013 dans cette vidéo.

Conclusions

Comme vous avez pu le constater, cette notion de distance sociale est partout et influence bon nombre des applications que nous utilisons quotidiennement. C’est un des apports majeur du social computing, et c’est particulièrement vrai pour SharePoint 2013 puisque les intéractions sociales sont démultipliées (Follow, Tag, Posts…).

Si le sujet vous intéresse, voici quelques références bibliographiques complémentaires pour étancher votre soif de connaissances :

Publicités