L’organisation de l’opération “Tel Aviv Sur Seine” a suscité une importante polémique née d’abord au sein des réseaux sociaux (Twitter en particulier) avant de prendre une tournure politique puis médiatique.
Le souflet est déjà retombé, mais cette polémique est une leçon pour l’avenir car elle révèle la puissance des réseaux sociaux comme moyen de peser sur l’agenda médiatique et l’incapacité des médias traditionnels à distinguer un mouvement spontané d’une opération militante.
Nicolas Vanderbiest, assistant universitaire à l’université catholique de Louvain et spécialiste des réseaux sociaux, est l’auteur d’un article fort instructif décrivant l’exploitation du hashtag #TelAvivSurSeine
par un nombre restreint de militants très engagés, et le manque de clairvoyance des médias face à l’astroturfing, une technique de manipulation de l’opinion.
La démonstration de Nicolas souffre néanmoins d’un petit défaut, celui de s’appuyer sur des outils propriétaires et payants (Visibrain Focus).
Je n’ai évidemment pas la prétention de faire aussi bien que Visibrain mais il est possible de s’adonner soi-même à l’exploration de données en étant suffisamment habile sous UNIX et relativement à l’aise avec le langage Python.
Je me suis prêté à cet exercice par simple curiosité intellectuelle, et certainement pas pour des considérations politiques ou militantes.
J’en ai tiré les faits suivants :
- la mobilisation sur Twitter contre l’évènement
#TelAvivSurSeine
n’est pas assis sur un mouvement massif, spontané et populaire - elle est d’abord le fait d’une poignée de comptes militants jouissant d’une certaine audience et liés les uns aux autres par des affinités politiques ou identitaires
- le compte du Parti de Gauche et de militants adhérents à ce parti a joué un rôle important dans la médiatisation de la polémique, à l’instar de comptes de personnalités connues et pro évènement
- la campagne BDS du 10 Août 2015 contre l’évènement a été efficace et coordonnée
- sur toutes les périodes étudiées, les clients Twitter les plus utilisés sont, dans l’ordre, le client iPhone, le client Android puis le client Web sauf le 10 Août 2015 autour de 19h où c’est le client Web (navigateur) qui arrive en tête. Cette anormalité pourrait s’expliquer par une utilisation de comptes fictifs durant cette période, et destinés à faire du bruit.
Je présenterai dans cet article les résultats obtenus en évitant les digressions techniques car l’article serait trop long.
Dans mon prochain billet, j’aborderai à nouveau ce sujet mais sous un angle beaucoup plus technique, à l’occasion duquel je publierai sur mon compte GitHub l’ensemble du code source m’ayant permis d’obtenir ces résultats.
Collecte des données
Le script de collecte consiste à rechercher l’ensemble des tweets portant le hashtag #TelAvivSurSeine
. Il s’appuie sur tweepy
, un excellent client de l’API Twitter pour l’écosystème Python.
J’ai pu collecter 76 698
tweets au format JSON sur une période allant du 03 Août 2015 10h49 au 12 Août 2015 08h03, stockés dans des fichiers horodatés (2015-08-*DD*_tweets.json
) et représentant plus de 800 Mo de données brutes.
Chaque tweet collecté au format JSON contient une masse très importante d’informations que nous exploiterons avec l’utilitaire jq
, l’équivalent de la commande grep
adaptée au format JSON.
La structure d’un tweet est décrite sur le portail de dev de Twitter.
Eléments statistiques sur l’ensemble de la période
Commençons par comptabiliser le nombre total de tweets ainsi que les comptes ayant tweeté :
En 2 commandes on établit qu’il y a eu 76 698
tweets pour 16 666
comptes, soit une moyenne de 4,6 tweets par compte. C’est un premier signe suggérant l’utilisation d’une technique de manipulation d’opinion, l’astroturfing.
Voyons comment sont répartis les tweets par type de support :
Nous en aurons besoin plus tard. Relevons au passage que l’activité est majoritairement mobile.
Courbe des tweets et RT
Il est aisé de produire en une commande la série temporelle du nombre de tweets par tranche horaire. La seule petite difficulté consiste à convertir l’heure UTC du tweet en heure locale :
La représentation graphique est réalisée avec GNU Plot :
Ce qui interpelle de prime abord, c’est le pic brutal du 10 Août vers 19h.
On peut mesurer l’influence d’un compte en comptabilisant le nombre de retweets.
Etablissons le classement des comptes les plus retweetés le 10 Août entre 18h00 et 19h59 (heure locale) :
On constate que le compte @Campagnebds
ressort très largement en tête.
Ce pic peut donc être parfaitement corrélé avec l’annonce d’un tweet storm sur le compte de la campagne BDS (Boycott, Désinvestissement et Sanctions) :
A noter la présence en seconde position du compte du Parti de Gauche : la polémique prend largement une tournure politique. On ne reverra plus jamais le compte du PdG à une telle position dans le classement des RT.
Revenons au graphique. On ne constate pas de mouvement significatif entre le 03 Août, date du premier tweet, et le 08 Août peu avant midi.
L’emballement commence le 08 Août à partir de midi avec une pointe vers 14h heure locale.
De la même façon, identifions les 5 comptes les plus retweeté le 08 Août entre 12h00 et 14h59 (heure locale)
Effectuons la même opération mais en rajoutant le nombre d’abonnés à ces comptes et en formatant le résultat avec l’utilitaire csvlook
:
Tous ces comptes sont connus pour être très engagés dans la promotion de la cause palestinienne.
Il me semble évident qu’ils ont été à l’avant garde de la montée du hashtag (premiers pics du graphique).
Si on élargit la recherche à l’ensemble de la journée, on retrouve d’autres comptes à forte audience, tous critiques à l’égard de l’évènement :
Sur la seule journée du 08, les retweets de ces 10 comptes représentent près d’un quart du nombre total de tweets (3 875
sur 16 658
).
Courbe des tweets et RT par canal
Nous avions vu plus haut que les principaux supports utilisés sont en moyenne, par ordre d’utilisation, l’iPhone, un terminal Android et un navigateur web non mobile. La distribution des tweets par canal est intéressante :
Les profils d’activité pour les canaux iPhone, Android et web sont assez semblables.
En superposant les courbes, l’activité web est toujours substantiellement en deçà des supports iPhone ou Android sauf durant le pic du 10 Août vers 19h00.
Cette sur-activité sur ce canal est peut-être induite par des comptes fictifs, mais il n’y a pas de certitude.
Classement des hashtags
En comptabilisant les hashtags associés à #telavivsurseine
, on peut dégager les sentiments dominants.
La commande ci-dessous permets d’extraire les 20 mots croisillons les plus populaires :
Classement des comptes les plus mentionnés
La commande ci-dessous permet d’établir les 20 comptes les plus mentionnés, ce qui permet de qualifier leur réputation :
On y trouve pèle mèle :
- des politiques
- des activistes déjà identifiés plus haut
- des comptes média généraliste et communautaires
Classement des 20 comptes ayant été le plus retweetés
Le nombre de retweets est un indicateur d’influence. On retrouve dans ce classement les comptes des principaux protagonistes, où dominent les comptes d’obédience pro palestiniennes :
Classement des 20 comptes ayant le plus twitté
Ce tableau est intéressant :
- il n’y a aucun compte connu ou réputé influent
- la majorité des comptes possède relativement peu de followers mais ils sont particulièrement volubiles
- en particulier, le compte
Dajjalsystem
intrigue par le nombre de tweets et RT (3 030
) au regard de son très faible nombre d’abonnés (36
)
Le qualificatif de “compte pour crier” utilisé par Nicolas dans son article prend là tout son sens.
L’API Twitter followers/ids
est très utile pour reconstituer le réseau de relations de ces petits comptes avec les comptes d’activistes patentés.
Dans leur immense majorité, les comptes les plus volubiles sont liés à l’un des comptes ouvertement pro palestiniens :
En définitive, cette polémique est une tempête dans un verre d’eau qui n’aurait jamais dû sortir des réseaux sociaux ni des cercles militants.