Depuis son lancement en 2016, TikTok a amassé plus d'un milliard d'utilisateurs mensuel. Depuis un moment déjà, les utilisateurs se sont demandés quel genre de données l'application et son propriétaire, ByteDance, récoltaient sur eux pour être en mesure de nourrir cette machine à contenu. Nous ne sommes maintenant plus très loin d'avoir la réponse à cette question.
En décembre dernier, un reporter du New York Times a réussi à mettre la main sur un document interne provenant de l’équipe d’ingénierie de TikTok, à Beijing, et qui explique comment les likes, les commentaires, le watch time (temps que vous passez à regarder chaque contenu individuellement) et les partages sont tous enregistrés et analysés par un algorithme de recommandation, qui va ensuite évaluer l’attrait d’une vidéo pour un utilisateur donné. De plus, une équipe de modérateurs de contenu pourrait voir quelles vidéos vous envoyez à vos amis ou mettez en ligne de manière privée, ce qui augmenterait d’autant plus le niveau de personnalisation des contenus qui vous seraient recommandés.
Cette déconstruction simplifiée de cet algorithme nous a offert un aperçu révélateur à la fois du noyau mathématique de l’application, mais aussi de comment l’entreprise comprenait la nature humaine, et notre tendance à l’ennui ou notre sensibilité à des normes culturelles. Ce qui explique pourquoi il est si dur d’en décrocher. Mais cela a également mis en exergue comment cet algorithme peut aussi vous entraîner dans un tourbillon de contenu toxique qui pourrait potentiellement conduire à se faire du mal.
Ces nouveaux détails viennent étayer un dossier d’investigation mené par le Wall Street Journal l’année passée, qui consistait à utiliser 100 robots automatisés, afin de retracer le parcours d’un individu sur TikTok et son expérience, allant de contenus très populaires à des vidéos plus ciblées et basées sur des intérêts spécifiques. Par exemple, l’un de ces robots programmé pour avoir un certain intérêt pour la politique, s’est finalement vu proposé des vidéos à propos de conspirations électorales et de QAnon. Un porte-parole de la firme avait alors réfuté ces déclarations, rétorquant que cette expérience « n’était pas représentative du véritable comportement d’un utilisateur, puisqu’un humain a des centres d’intérêts plus divers et variés. »
Selon ce document révisé par le New York Times, l’équation de notation des vidéos est basé sur une combinaison de l’activité de l’utilisateur, ses likes, ses commentaires, les vidéos qu’il regarde et combien de temps ce dernier passe à regarder celle-ci. Y est également inclus une formule qui calcule l’intérêt du public auprès de créateurs individuels. Le système de recommandation donne ensuite une note à toutes les vidéos en se basant sur cette équation, et propose enfin ces dernières à un utilisateur, les meilleures notes étant proposées en priorité.
Pas le temps de tout lire ? Clique pour aller directement à la partie qui t’intéresse le plus :
Un problème de diversité
Le but ultime est donc de présenter un ensemble de contenus qui maximisera le temps que passe un utilisateur sur l’application, et qui le fera également revenir. Mais les ingénieurs chez TikTok sont au courant du fait que, proposer un seul type de vidéo à quelqu’un, finirait au final par lasser la personne, et celle-ci quitterait l’application. Pour résoudre ce problème, ils ont ajouté deux paramètres à l’algorithme : l’un vous propose plus de vidéos que vous pourriez aimer d’un même créateur, et l’autre met une limite journalière au nombre de vidéos ayant les mêmes tags pouvant être visionnées. Ils ont cherchés à diversifier les recommandations dans l’onglet « Pour Vous », en entremêlant du contenu que vous pourriez aimer avec du contenu que vous ne regarderiez pas d’ordinaire.
Le génie de TikTok est son interface, où vous pouvez, au choix, regarder ce que les gens que vous suivez ont posté, ou bien dire « TikTok, montre moi quelque chose que tu penses que j’aimerais regarder ». En faisant cela, la plateforme règle un problème de diversité qui a gangréné d’autres groupes comme Facebook ou encore Twitter à ses débuts. Le machine learning permet désormais aux applications d’engloutir d’énormes quantité de données, et de prendre des décisions concernant les préférences personnelles de chaque utilisateurs, plutôt que de présenter les mêmes options basiques de contenu à tous. Hors du cadre de vos préférences, ces plateformes veulent savoir comment vos actions pourraient changer en fonction de votre réseau. Par exemple, regarderiez-vous tel type de contenu parce que des amis à vous l’ont auparavant regardé ?
Facebook est limité car, mis à part avec les publicités, il vous proposera seulement les publications des vos amis, ou bien issues de groupes que vous suivez. Et pendant un long moment, Twitter ne vous montrait que les tweets des personnes que vous suiviez. L’onglet « # Explorez » est la parade à ce problème que Twitter a décidé de mettre en place. Cela vous donne l’opportunité d’avoir une plus grande diversité de contenu, d’essayer d’autres choses pour voir ce que vous pourriez aimer. TikTok a fait ça depuis le début avec son onglet « Pour Vous ».
L’équipe de modération de contenu, quant à elle, composée d’humains, s’occupe de trier le contenu controversé que l’algorithme a encore du mal à trier par lui-même. Ils peuvent supprimer le contenu, limiter les personnes pouvant voir la vidéo, ou encore empêcher des vidéos d’être recommandées ou de finir dans un fil. Alors que TikTok augmente de plus en plus l’automation de ces systèmes de vérification, les créateurs peuvent néanmoins faire appel à la modération humaine s’ils pensent que leurs vidéos ont été supprimées par erreur.
Vous trouverez une plus grande variété de contenus sur l’application, au prix de nombreuses heures de scrolling si vous n’êtes pas assez discipliné !
À quel point TikTok vous connaît-il ?
Peut être que la raison pour laquelle TikTok peut deviner vos goûts si rapidement, est qu’ils ont en fait accès à bien plus de données sur vous que vous ne le souhaiteriez.
En juin 2020, TikTok a proposé un aperçu inédit du fonctionnement de son algorithme de recommandation. Dans un article sur leur blog, l’entreprise écrit que les données relatives aux interactions des utilisateurs (liker, commenter, ou encore suivre un compte), les informations d’une vidéo (les sous-titres, les sons, et les hashtags), ainsi que les paramètres du compte (préférences de langue et localisation) entrent toutes en compte lors du calcul de l’intérêt de l’utilisateur par le système.
Alors que TikTok clame qu’il utilise surtout les likes, les commentaires et les partages pour mesurer le taux d’engagement avec un contenu spécifique, le Wall Street Journal a découvert que l’élément le plus important analysé par l’application était le watch time : avez vous immédiatement quitté la vidéo ? Ou l’avez vous mise sur pause, ou regardée une seconde fois (ou plus même) ? L’algorithme voit à quel type de contenu vous réagissez, et peut rapidement enregistrer cette information. Il en déduit qu ce genre de contenu est celui auquel vous êtes vulnérable, qui vous fera cliquer, qui vous fera regarder. mais cela ne veut pas forcément dire que vous l’aimez vraiment et qu’il s’agit de votre contenu préféré. À mesure que le flux de contenu d’un utilisateur devient de plus en plus « de niche », ce dernier est plus à même de tomber sur du contenu indésirable qui serait passé sous le radar des modérateurs. C’est devenu rapidement un problème alors que les utilisateurs de l’application se sont rapidement trouvé être les jeunes (voire très jeunes), bien plus que sur d’autres plateformes comme Facebook ou Youtube.
TikTok connaît bien plus de choses sur vous que vous ne pourriez bien le croire.
Surveillance permanente
Les algorithmes de recommandation de ces sites sont sous surveillance permanente depuis qu’un lanceur d’alerte issu de Facebook ait alerté du fait que ces derniers, priorisant l’engagement des utilisateurs plutôt que sa sécurité, risquait d’amplifier la désinformation de manière dangereuse. Depuis, des possibles changements ont été mis en place pour responsabiliser ces plateformes en cas de désinformation propagée par leurs algorithmes et contenu recommandé.
TikTok dit avoir été vigilant de bien supprimer le contenu qui ne respectait pas ses règles d’utilisation (notamment le contenu basé sur l’automutilation). Ils ont assuré qu’ils utilisaient un mélange de machines et d’humains pour savoir quel contenu supprimer. Mais des erreurs arrivent parfois, et des vidéos sûres se retrouvent marquées incorrectement, ou passent au travers des mailles du filet.
En septembre dernier, TikTok sortait un « guide du bien-être » pour aider les utilisateurs qui partageaient leurs expériences personnelles sur la plateforme, et suggérait des astuces pour créer de l’engagement responsable.
C’est un vrai challenge pour ces entreprises car elles sont si grandes et se sont développées si vite. Facebook a connu également le même problème : il a grandi tellement vite qu’il n’était même pas conscient des problèmes qui existait dans les autres langues et autres pays utilisant le site par exemple.
Pour aller plus loin :
→ How TikTok recommends videos #ForYou un blogpost officiel de la firme
→ Etude de cas : TikTok et le hack de ses 1000 premiers utilisateurs
→ Tendances TikTok : à quoi s’attendre en 2022 ? par Le Blog du Modérateur