Comment expliquer le fiasco des tweets vocaux ?

En 2020, Twitter décide de développer des tweets vocaux, qui permettent de twitter non par le truchement de l’écrit mais avec sa propre voix. Ils suscitent d’emblée critiques et incompréhension. Rapidement délaissée, la fonctionnalité semble être réduite à des utilisations de niche. Récit d’un échec plutôt parlant.

 “Les premiers tweets vocaux sont un échec“, lit-on sous la plume de Niri Brusa, chef de projet éditorial. “Remember voice tweets ? Lmao” (“Vous vous souvenez des tweets vocaux ? Mdr”), interroge le titre assassin de Mashable, se faisant l’écho d’un certain nombre d’internautes perplexes. Le constat est implacable : les tweets vocaux sont un semi-échec. Mais que s’est-il passé ? 

Depuis quelques années, les podcasts ont émergé, les assistants vocaux sont devenus mainstream, bref, le “tournant vocal” d’Internet s’est peu à peu concrétisé. “Une chose est sûre, la révolution sera podcastée“, se moque gentiment l’humoriste Augustin Shackelpopoulos dans son spectacle DAVA 8

Les tweets vocaux avaient donc tout pour s’inscrire sans trop de difficulté dans l’air du temps. Plus spécifiquement, le pari de Twitter était de surfer sur l’essor des messageries vocales. “C’est toute une génération, née avec les nouvelles technologies, qui préfère communiquer par messages vocaux“, pouvait-on déjà lire dans les colonnes du Figaro en 2019. Conversations familiales sur WhatsApp, disputes sur Messenger, toute notre vie sociale peut désormais se résumer à ces petites capsules vocales qui ont su allier la praticité du répondeur téléphonique et le côté court des messages numériques

Pour comprendre les raisons du désintérêt profond pour cette fonctionnalité, on peut d’abord invoquer des raisons très pragmatiques. “Il y a eu tout un débat sur la modération. Un débat légitime puisqu’il peut y avoir plus de problèmes en vocal qu’en texte“, analyse Emmanuelle Patry, consultante en stratégie marketing. Une modération a posteriori qui fait grincer des dents. Le rétropédalage est immédiat : Twitter annonce l’intégration à venir de sous-titres dans les tweets vocaux. Une preuve supplémentaire de l’impasse que constitue la voix seule, pour la consultante :

L’idée des tweets vocaux, c’était une réponse à la tendance du vocal, à la recherche de son, mais cela ne répond pas vraiment aux besoins des utilisateurs. La tendance du vocal commence à être forte sur Instagram, et de manière générale dans les conversations privées, mais n’a pas pris dans les conversations en public“.

En réalité, il y aurait un malentendu sur la montée de l’oralité sur le web 2.0. Le vocal est cet entre-deux, ni vraiment intime car il s’adresse à un public spécifique, ni vraiment totalement public

Une erreur stratégique ?

Pour Elsa Godart, philosophe à l’université Gustave Eiffel, la grammaire spécifique du réseau social ne permet pas une bonne intégration des tweets vocaux:

Le format natif de Twitter, c’est celui de la joute. C’est normalement du tac au tac, mais avec les tweets vocaux on ne voit rien. On n’est plus à l’ère du présentéisme, on est à l’ère de l’instantanéisme

C’est très égotique le message vocal, on fait subir un message à l’autre“, abonde la chercheuse, autrice de l’essai Éthique de la sincérité. Survivre à l’ère du mensonge (Armand Colin, 2020). D’aucuns dénoncent cette prise à partie verbale, où l’interlocuteur ne peut pas ajouter son point de vue. Un mécanisme qui n’est pas nouveau, il est aussi à l’œuvre dans les messageries privées. 

Le vocal en public est désormais indistinguable de son aspect polémique. Ce que suggère par exemple le tweet suivant : 

On voit ici comment s’articule la tension entre modération, format vocal et le nombre de secondes consacrées à un sujet (qui viennent souligner l’intensité de la controverse). Alors qu’autrefois, l’auteur d’un pavé sur Internet se voyait répondre un “mdr g pas lu“, expression devenue typique du folklore web, l’internaute se voit contraint de refuser d’utiliser ou d’écouter un tweet vocal, pour la simple et bonne raison que sa forme en soi empêche un quelconque dialogue. 

Une expérience intime, vraiment ? 

La discussion qui se dessine n’est plus la même, selon Elsa Godart :

La voix est intrusive vient fragmenter le quotidien, le silence au travail. Elle est dérangeante. Parfois on vous rétorque ‘je n’ai pas le temps d’écouter ton message’. Ça crée une coupure, on attend cinq heures avant de l’écouter

 Les tweets vocaux viennent s’immiscer dans le régime silencieux de la conversation écrite. Cette brusque irruption dans l’intime n’est pas du goût de tout le monde. “Les réseaux sociaux vocaux qui commencent à émerger, comme ClubHouse, perdent de vue que le plus intéressant, c’est-à-dire d’écouter les gens parler entre eux, comme à la radio ou dans un podcast. Alors qu’une voix toute seule est assez désincarnée“, se désole Alexandra Profizi, spécialiste des pratiques numériques. 

La voix seule perd son aspect intimiste pour se noyer dans le flot d’images et de vidéos que constitue la timeline du réseau social. Entre le bruit numérique et le silence du scrolling, il ne semble pas y avoir de place pour un autre format. Alexandra Profizi explique :

Il y a d’abord eu les appels téléphoniques classiques, avec un début et une fin à la conversation. Puis les portables, avec lesquels on pouvait répondre n’importe où. Puis les réseaux sociaux avec un certain retour à l’écrit, et à des outils vocaux qui ont repris l’aspect fragmenté des réseaux sociaux“.

Le tournant vocal ne va donc pas de soi. Il s’agit de retourner aux origines du téléphone, alors même que les pratiques et les besoins ont fortement évolué. 

Twitter commence tout juste les tests pour sa fonction « Spaces », sur le modèle de ClubHouse. Le réseau social entend ici se concentrer sur “l’intime de la voix humaine“.

Cela me fait penser à Bubble, un réseau social qui permet de faire des bulles sonores, des petites capsules que l’on pouvait écouter. Mais à ma connaissance cela n’a pas vraiment marché“, détaille Emmanuelle Patry. Il y a comme une contradiction à vouloir faire entendre la voix des utilisateurs. Un compte en ligne est une mise en scène, une façon d’apparaître au monde. Faire entendre sa voix, c’est en quelque sorte venir briser l’image que l’on s’est construite en ligne. Pour David Le Breton, auteur d’Éclats de voix: une anthropologie des voix (Métailié, 2011), la voix disparaît souvent au profit du sens de ce qui est dit. Or, sur les réseaux sociaux, il n’y a rien de plus saillant qu’une voix qui vient rompre la continuité silencieuse du défilement de texte. 

D’autant que le format limité par le nombre de secondes ne permet pas d’établir une vraie connexion, comme le rappelle Elsa Godart:

“Le choix de limiter les messages à 240 secondes, c’est une forme de castration du langage, c’est l’antithèse de la parole”

La trahison des images 

Longtemps, Internet a été le royaume de l’écrit. Le web 1.0 ne supportait que difficilement les ajouts multimédias, comme le son ou le vidéo. Aujourd’hui, on pourrait croire que tous les formats se consomment de manière indifférenciée. Pourtant, un élément se hisse au-dessus des autres. Selon Social Insider, les images restent le mode d’expressions préférées des marques, “que ce soit sur Instagram, Facebook ou Twitter“. Pas évident dès lors de faire entrer au forceps l’oralité, via les tweets vocaux ou les Spaces. 

Alexandra Profizi, qui s’est intéressée aux mèmes dans son ouvrage Le Temps de l’ironie (L’Aube, 2020), abonde :

La combinaison de l’écrit et du visuel a donné lieu à beaucoup de créativité, car on joue sur la complémentarité d’une phrase écrite et d’une image qui va créer le contraste. C’est cet assemblage qui donne plus de pouvoir à une publication

Ne sous-estimez pas les tweets vocaux, ils pourraient totalement changer la plateforme“, prévient de son côté le magazine Forbes. Citant une étude de 2005, l’article rappelle qu’à l’oral, les gens n’arrivent à distinguer la différence entre premier degré et sarcasme que dans “56% des cas“, “ce qui n’est guère plus que le hasard“. La célèbre loi de Poe, selon laquelle “en ligne, les expressions sincères […] sont souvent impossibles à distinguer des expressions satiriques“, n’est pas prête d’être remise en question par la forme de “sincérité” que constituerait l’oral. “Même si l’on pourrait dire que dans une certaine mesure, la forme d’énonciation de base de Twitter est l’ironie“, complète Alexandra Profizi. 

Les utilisations actuelles tendent d’ailleurs plutôt à l’humour, à une mise en scène de soi par la parole et par l’absence de son image à l’écran. 

Le Père Noël Bouygues est une ordure  

De manière générale, l’humour audio fait partie intégrante de la culture web. Les mèmes vocaux existent (du Ah” de Denis Brognart au Jeang Castex” d’Usul), et parviennent souvent à se détacher de leurs attaches picturales originelles. L’usage du GIF reste encore courant pour les évoquer: le son n’est alors plus que suggéré par l’image animée. L’aspect vocal du mème est là, en creux. Sur Twitch, la mécanique est différente, et permet d’insérer les mèmes vocaux sous la forme de petits jingles.

De son côté, le tweet vocal, de par son format hybride, ne permet pas vraiment l’émergence de la forme mémique. Tout repose alors sur une utilisation composite: le tweet vocal se contente de reprendre les éléments comiques écrits, il n’est souvent que la simple oralisation d’un contenu écrit, comme cet internaute qui oralise un mème textuel :

La culture de l’écrit semble coller à la peau de Twitter, qui cherche pourtant à développer une grammaire audiovisuelle plus prononcée (comme avec l’arrivée des Fleets)

Lorsque Bouygues lance sa campagne publicitaire du Père Noël, en décembre 2020, elle donne lieu à de multiples détournements de sa synthèse vocale. Cette foisonnante créativité, alliant vocal et détournement de l’image de la marque, se situe au cœur de ce qu’est Internet : le jeu permanent avec les limites.

Mais pour que ce soit efficace, Bouygues a bien évidemment parié sur la complémentarité entre synthèse vocale et image du père Noël. 

A la marge, quelques grands comptes se servent ponctuellement de la fonctionnalité. Comme la BBC, pour faire la promo de sa série Doctor Who :

Ces deux compagnies ont bien compris que le vocal sur Internet ne marche qu’en relation avec une image, et dans un contexte de détournement parodique. Quant aux médias -notamment les podcasts-, ils ont toujours su valoriser leurs productions en s’aidant des possibilités graphiques déjà existantes.

Dans son ouvrage La pensée visuelle (1969), l’historien de l’art Rudolf Arnheim développe l’idée selon laquelle les frontières entre les images, le texte et le son sont de plus en plus poreuses. Internet lui aura donné raison. Isoler un seul aspect apparaît aujourd’hui comme un pari risqué : si l’on écoute des podcasts, c’est parce que l’on fait quelque chose d’autre à côté. Le tweet vocal n’est pas assez long pour faire sa vaisselle, et il n’est pas un message assez personnel pour que l’on puisse se sentir impliqué. 

En cela, Twitter n’a sans doute pas compris la révolution réalisée par les plateformes comme Twitch ou TikTok, qui sont des endroits où la fusion entre son, image et texte se fait de manière quasi-organique. Quant à la fonctionnalité Spaces, elle s’ouvre peu à peu aux émojis et cet ajout n’est pas anodin : la “reprise” est consubstantielle à Internet. Les vidéos TikTok sont repostées sur Twitter, les tweets sont screenés sur Instagram, et inversement. Bref, c’est à cette discussion infinie que refusent de s’ouvrir les tweets vocaux. Il ne reste dès lors que le choix de l’entre-soi imperméable et des clubs très privés. Comme ClubHouse et Spaces. 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *