“Un bébé radis daikon en tutu promène un chien” : une nouvelle IA crée des images à partir d’une simple description texte

Un nouveau modèle de deep learning permet de créér des images à partir d’une simple description de texte. Un bon de géant qui fascine autant qu’il inquiète les illustrateurs et créateurs qui pourraient se trouver face à une nouvelle forme de concurrence déloyale.

C’est la société OpenAI qui vient de sortir le DALL-E, utilisant l’intelligence artificielle pour créer des images à partir d’une simple description de texte. Ainsi en demandant à l’IA de dessiner une chaise avocat, le modèle a été capable de produire des illustrations assez bluffantes.

DALL-E — our new neural network for generating images from text:https://t.co/HMGw12LPDd pic.twitter.com/XEnUJOGsc6
— Greg Brockman (@gdb) January 5, 2021

OpenAI avait déjà fait parler d’elle ces derniers mois avec une autre de ses applications de deep learning, le GPT-3, un modèle de langage intelligent capable de générer un texte cohérent de manière autonome.

Grâce à des milliards d’articles absorbés, son modèle est capable d’analyser la probabilité de chaque phrase d’exister. Il choisit donc le prochain mot ou caractère le plus probable pour compléter une phrase dans un certain contexte.

De nombreuses applications développées à partir de son API ont fait grand bruit comme :

☞ Un moteur de recherche intelligent qui donne directement la réponse à la question posée

I made a fully functioning search engine on top of GPT3.

For any arbitrary query, it returns the exact answer AND the corresponding URL.

Look at the entire video. It's MIND BLOWINGLY good.

cc: @gdb @npew @gwern pic.twitter.com/9ismj62w6l
— Paras Chopra (@paraschopra) July 19, 2020

☞ Des applications pour générer du code informatique automatiquement en javascript ou SQL

Here's #gpt3 writing some SQL for me. pic.twitter.com/JVeyijV2MX
— Ayush Patel (@ayushpatelxyz) July 19, 2020

☞ Un article publié par le Guardian entièrement écrit par le GPT-3

👏 Le #Guardian fait de la pédagogie en proposant un article produit avec l'algo GPT-3 : "A robot wrote this entire article. Does that scare you, human?"#NLG #IA #GPT3 #MachineLearning
https://t.co/h7g6tmiziE pic.twitter.com/9mBufMQxue
— Christophe Tricot (@ctricot) September 9, 2020

☞ Un court-métrage dont le script a été écrit par une IA (les dialogues sont absurdes mais fun)

☞ un faux blog ayant attiré en 2 semaines près de 26 000 lecteurs

😈Le faux blog d'un lycéen, généré par l'#IA (#GPT3), a trompé des dizaines de milliers de personnes.

"A college kid created a fake, AI-generated blog. It reached #1 on Hacker News."#AI #blog #fake #NLG #ArtificialIntelligence #GPT3
https://t.co/mDWktM0480 pic.twitter.com/3d6PtHQRix
— Christophe Tricot (@ctricot) August 16, 2020

Les ingénieurs d’Open AI ont même pu mettre au point un outil pour reconstituer des images incomplètes en appliquant la même technique de probabilité d’occurrence des mots aux pixels :

DALL-E, prononcé Dali en anglais (on image un double clin d’œil à Salvador Dalí et au petit robot de Disney WALL-E 🙃) est une nouvelle version du GPT-3, capable de générer des images correspondantes à la description d’un texte.

Le modèle a absorbé des milliards d’images accompagnées de leurs descriptions sur internet pour être capable d’établir un lien entre les mots et les images.

Et les résultats sont plutôt bluffants comme cette image de chaise-avocat générée à partir de la description “un fauteuil ayant la forme d’un avocat” ou “un fauteuil ressemblant à un avocat”

*La chaise-avocat générée par DALL-E – Source:* *blog Open AI*

Ce qui étonne même ses concepteurs, c’est sa capacité à relier des concepts vraiment opposés en une image plus ou moins censée, comme le raconte Aditya Ramesh (un des concepteurs de DALL-E) au MIT Technology Review :

“Ce qui m’a le plus surpris, c’est que le modèle est capable de prendre deux concepts qui n’ont rien à voir et de les assembler en un objet relativement fonctionnel”

[2/3] OpenAI released a new text-to-image synthesizer called DALL-E. The combination of a GPT-3 variant with a VQ-VAE model shows extremely promising results. Waiting for the paper to get juicy theoretical details and to know how the data was gathered.https://t.co/Qc0gHCTEbc pic.twitter.com/5yIFVMEpbe
— Visium (@VisiumAI) January 11, 2021

On dirait une gamme de WC pour gamers pic.twitter.com/np15K5es9O
— Agar 🌱 (@akaAgar) January 5, 2021

https://twitter.com/neonbabel/status/1349024591784648704

Un autre exemple assez frappant est cette série d’images produites par DALL-E à partir de la description “un bébé radis daikon en tutu promène un chien”.

*images générées par DALL-E à partir de la description “un bébé radis daikon en tutu promène un chien”. – Source:* *blog Open AI*

Tous les essais n’ont pas n’ont été si réussis comme ce croisement entre une tortue et une girafe. Mais l’effort est là.

*Images générées par DALL-E à partir de la description “une girafe ressemblant à une tortue” – Source:* *blog Open AI*

Pour Ilya Sutskever, chef scientist chez Open AI, la vision long terme d’un tel projet est l’amélioration de la compréhension globale du langage :

“Nous vivons dans un monde visuel, d’ici quelque temps, on aura des modèles qui comprennent à la fois le texte et les images. L’IA sera capable de mieux comprendre le langage car elle peut voir ce que les mots et les phrases signifient”

➡️Le second, CLIP a la capacité d'effectuer de manière fiable un ensemble massif de tâches de reconnaissance visuelle. En outre, CLIP sait ranger dans des catégories des images inhabituelles. Ce réseau est annoncé comme plus performant que ImageNet, la référence du secteur. pic.twitter.com/KU8g0AV0WJ
— Mathyas (@mathsurmars) January 5, 2021

L’équipe d’Open AI a aussi présenté un autre modèle baptisé CLIP, un peu moins impressionnant sur le papier, mais qui participe à cette ambition long terme d’une compréhension holistique du langage.

CLIP, pour Contrastive Langage Image Pre-training, est capable de sélectionner l’image correspondant le mieux à une description texte au milieu d’une base de plus de 30 000 images. Une fois que DALL-E génère les images, c’est CLIP qui va classer les résultats par ordre de pertinence.

Il est un peu différent des modèles de reconnaissance d’image habituels (comme ceux utilisés pour la reconnaissance faciale) puisqu’il n’a pas appris sur des images labellisées dans une base de données mais à partir d’images et de descriptions tirées d’Internet dans leur contexte naturel, une prouesse technique.

Même si les résultats sont encore mitigés, le rythme de progression du GPT-3 laisse penser que la production automatisée d’images de haute qualité n’est plus très loin. Ce qui soulève plusieurs questions.

Il y a d’abord, le risque de concurrence frontale avec le travail des illustrateurs, photographes ou dessinateurs. Mais aussi, la question des droits d’auteurs. S’il n’y a pas d’auteur humain, il n’y aurait donc, en théorie, pas de droits d’auteurs distribués ?

On est clairement sur un vide juridique qu’il faudra éclaircir pour ne pas déstabiliser un pan entier de l’économie.

Je suppose (naïvement) que ça appartiendra à celui ou celle à qui appartient le logiciel.
— MrExal@lou.lt – 🐺 (@MrExal) January 7, 2021

Deuxième point d’ombre, le statut de la société d’Open AI. Fondée en 2015 par Elon Musk et Sam Altman (président du Y combinator, un prestigieux accélérateur de start-up basé en Californie), la société a d’abord hérité du statut d’ organisation à but non lucratif (nonprofit). En mars 2019, elle est devenue une entreprise à profit limité (capped-profit).

Concrètement, ce statut lui permet d’assurer un retour sur investissement encadré à ses investisseurs privés contrairement au statut associatif.

Pour justifier sa décision, Open AI évoque les budgets nécessaires pour attirer les meilleurs talents (en étant en concurrence directe avec des géants privés comme Deep Mind de Google ou Amazon) et les coûts de développement de ses projets (une estimation a été faite par un internaute sur le forum Reddit).

Mais cela pose naturellement la question de la gouvernance de la société et le risque de privatisation de telles découvertes.

Microsoft a d’ailleurs négocié en septembre 2020, pour un montant non communiqué, un accès exclusif au code du GPT-3 afin de l’ inclure dans le développement de ses futurs produits (développer des applications à partir de l’API reste cependant accessible à tous).

L’enjeu de gouvernance est essentiel sur la question de l’IA et des entreprises privées ne devraient pas être les seules à décider du chemin pris par ces découvertes qui ont un impact très large sur la société.

Il y a aussi la question de la maîtrise de telles technologies. Pour Nick Bostrom, philosophe suédois et professeur à Oxford, fondateur du Future of humanity Institute et auteur du livre Superintelligence qui analyse les enjeux long terme autour de l’IA, les risques existent bel et bien :

“il y a un risque potentiel que l’IA elle-même fasse quelque chose de différent de ce qui était prévu et qui pourrait alors être préjudiciable”.

Une avancée sur la question : la commission européenne vient de sortir un rapport sur la régulation de l’IA qui pourrait établir un cadre légal sur l’utilisation de l’IA en Europe, un peu comme le RGPD encadre désormais l’utilisation de données personnelles.

Une protection légale qui pourrait inspirer le reste du monde et remettre l’Europe au premier plan sur ces questions.

CTRLZ

“Un bébé radis daikon en tutu promène un chien” : une nouvelle IA crée des images à partir d’une simple description texte

Leave a comment Cancel reply

“Un bébé radis daikon en tutu promène un chien” : une nouvelle IA crée des images à partir d’une simple description texte

Share this:

Leave a comment Cancel reply