“Un bébé radis daikon en tutu promène un chien” : une nouvelle IA crée des images à partir d’une simple description texte

Un nouveau modèle de deep learning permet de créér des images à partir d’une simple description de texte. Un bon de géant qui fascine autant qu’il inquiète les illustrateurs et créateurs qui pourraient se trouver face à une nouvelle forme de concurrence déloyale. C’est la société OpenAI qui vient de sortir le DALL-E, utilisant l’intelligence…

Un nouveau modèle de deep learning permet de créér des images à partir d’une simple description de texte. Un bon de géant qui fascine autant qu’il inquiète les illustrateurs et créateurs qui pourraient se trouver face à une nouvelle forme de concurrence déloyale.

C’est la société OpenAI qui vient de sortir le DALL-E, utilisant l’intelligence artificielle pour créer des images à partir d’une simple description de texte. Ainsi en demandant à l’IA de dessiner une chaise avocat, le modèle a été capable de produire des illustrations assez bluffantes.

OpenAI avait déjà fait parler d’elle ces derniers mois avec une autre de ses applications de deep learning, le GPT-3, un modèle de langage intelligent capable de générer un texte cohérent de manière autonome.

Grâce à des milliards d’articles absorbés, son modèle est capable d’analyser la probabilité de chaque phrase d’exister. Il choisit donc le prochain mot ou caractère le plus probable pour compléter une phrase dans un certain contexte.

De nombreuses applications développées à partir de son API ont fait grand bruit comme :

☞ Un moteur de recherche intelligent qui donne directement la réponse à la question posée

☞ Des applications pour générer du code informatique automatiquement en javascript ou SQL

Un article publié par le Guardian entièrement écrit par le GPT-3

☞ Un court-métrage dont le script a été écrit par une IA (les dialogues sont absurdes mais fun)

un faux blog ayant attiré en 2 semaines près de 26 000 lecteurs

Les ingénieurs d’Open AI ont même pu mettre au point un outil pour reconstituer des images incomplètes en appliquant la même technique de probabilité d’occurrence des mots aux pixels :

DALL-E, prononcé Dali en anglais (on image un double clin d’œil à Salvador Dalí et au petit robot de Disney WALL-E 🙃) est une nouvelle version du GPT-3, capable de générer des images correspondantes à la description d’un texte.

Le modèle a absorbé des milliards d’images accompagnées de leurs descriptions sur internet pour être capable d’établir un lien entre les mots et les images.

Et les résultats sont plutôt bluffants comme cette image de chaise-avocat générée à partir de la description “un fauteuil ayant la forme d’un avocat” ou “un fauteuil ressemblant à un avocat”

La chaise-avocat générée par DALL-E – Source: blog Open AI

Ce qui étonne même ses concepteurs, c’est sa capacité à relier des concepts vraiment opposés en une image plus ou moins censée, comme le raconte Aditya Ramesh (un des concepteurs de DALL-E) au MIT Technology Review :

Ce qui m’a le plus surpris, c’est que le modèle est capable de prendre deux concepts qui n’ont rien à voir et de les assembler en un objet relativement fonctionnel”

Un autre exemple assez frappant est cette série d’images produites par DALL-E à partir de la description “un bébé radis daikon en tutu promène un chien”.

images générées par DALL-E à partir de la description “un bébé radis daikon en tutu promène un chien”. – Source: blog Open AI

Tous les essais n’ont pas n’ont été si réussis comme ce croisement entre une tortue et une girafe. Mais l’effort est là.

Images générées par DALL-E à partir de la description “une girafe ressemblant à une tortue” – Source: blog Open AI

Pour Ilya Sutskever, chef scientist chez Open AI, la vision long terme d’un tel projet est l’amélioration de la compréhension globale du langage :

“Nous vivons dans un monde visuel, d’ici quelque temps, on aura des modèles qui comprennent à la fois le texte et les images. L’IA sera capable de mieux comprendre le langage car elle peut voir ce que les mots et les phrases signifient”

L’équipe d’Open AI a aussi présenté un autre modèle baptisé CLIP, un peu moins impressionnant sur le papier, mais qui participe à cette ambition long terme d’une compréhension holistique du langage.

CLIP, pour Contrastive Langage Image Pre-training, est capable de sélectionner l’image correspondant le mieux à une description texte au milieu d’une base de plus de 30 000 images. Une fois que DALL-E génère les images, c’est CLIP qui va classer les résultats par ordre de pertinence.

Il est un peu différent des modèles de reconnaissance d’image habituels (comme ceux utilisés pour la reconnaissance faciale) puisqu’il n’a pas appris sur des images labellisées dans une base de données mais à partir d’images et de descriptions tirées d’Internet dans leur contexte naturel, une prouesse technique.

Même si les résultats sont encore mitigés, le rythme de progression du GPT-3 laisse penser que la production automatisée d’images de haute qualité n’est plus très loin. Ce qui soulève plusieurs questions.

Il y a d’abord, le risque de concurrence frontale avec le travail des illustrateurs, photographes ou dessinateurs. Mais aussi, la question des droits d’auteurs. S’il n’y a pas d’auteur humain, il n’y aurait donc, en théorie, pas de droits d’auteurs distribués ? 

On est clairement sur un vide juridique qu’il faudra éclaircir pour ne pas déstabiliser un pan entier de l’économie.

Deuxième point d’ombre, le statut de la société d’Open AI. Fondée en 2015 par Elon Musk et Sam Altman (président du Y combinator, un prestigieux accélérateur de start-up basé en Californie), la société a d’abord hérité du statut d’ organisation à but non lucratif (nonprofit). En mars 2019, elle est devenue une entreprise à profit limité (capped-profit).

Concrètement, ce statut lui permet d’assurer un retour sur investissement encadré à ses investisseurs privés contrairement au statut associatif.

Pour justifier sa décision, Open AI évoque les budgets nécessaires pour attirer les meilleurs talents (en étant en concurrence directe avec des géants privés comme Deep Mind de Google ou Amazon) et les coûts de développement de ses projets (une estimation a été faite par un internaute sur le forum Reddit). 

Mais cela pose naturellement la question de la gouvernance de la société et le risque de privatisation de telles découvertes.

Microsoft a d’ailleurs négocié en septembre 2020, pour un montant non communiqué, un accès exclusif au code du GPT-3 afin de l’ inclure dans le développement de ses futurs produits (développer des applications à partir de l’API reste cependant accessible à tous).

L’enjeu de gouvernance est essentiel sur la question de l’IA et des entreprises privées ne devraient pas être les seules à décider du chemin pris par ces découvertes qui ont un impact très large sur la société.

Il y a aussi la question de la maîtrise de telles technologies. Pour Nick Bostrom, philosophe suédois et professeur à Oxford, fondateur du Future of humanity Institute et auteur du livre Superintelligence qui analyse les enjeux long terme  autour de l’IA, les risques existent bel et bien :

“il y a un risque potentiel que l’IA elle-même fasse quelque chose de différent de ce qui était prévu et qui pourrait alors être préjudiciable”. 

Une avancée sur la question : la commission européenne vient de sortir un rapport sur la régulation de l’IA qui pourrait établir un cadre légal sur l’utilisation de l’IA en Europe, un peu comme le RGPD encadre désormais l’utilisation de données personnelles. 

Une protection légale qui pourrait inspirer le reste du monde et remettre l’Europe au premier plan sur ces questions.

Leave a comment