nyris diskutiert #TechWeLove: Stable Diffusion

Im ersten Artikel der Reihe #TechWeLove taucht nyris gemeinsam mit Alessandro Leone in die Welt von Stable Diffusion ein und untersucht, wie diese KI die Bildgenerierung und synthetische Daten revolutioniert.

Bildbasierte generative KI hat in den letzten Jahren erheblich an Popularität gewonnen, wobei viele Marken zu bekannten Namen geworden sind, darunter Stable Diffusion und DALL-E von OpenAI. 

Aus Sicht der Nutzer scheint die KI zur Bilderzeugung recht einfach und unterhaltsam zu sein. Wir haben uns mit Alessandro Leone, dem Leiter der Abteilung für synthetische Daten bei nyris, zusammengesetzt, der uns erklärt, dass viel mehr dahintersteckt, als man auf den ersten Blick vermuten würde. 

In der ersten Folge von #TechWeLove von nyris sprechen wir über Stable Diffusion.

Das Wichtigste zuerst: Was ist Stable Diffusion?

Stable Diffusion ist ein Beispiel für einen Open-Source-Algorithmus für generative KI, der Bilder auf der Grundlage bestimmter Eingaben generiert. Diese Eingaben können Textanweisungen, Bilder oder eine Kombination aus beidem sein.

Professor Björn Ommer und die Gruppe für Computer Vision und Learning an der LMU München haben durch ihre Forschung im Bereich generative KI eine entscheidende Rolle bei der Weiterentwicklung stabiler Diffusionsmodelle gespielt. Durch die Bewältigung zentraler Herausforderungen beim Training und der Optimierung dieser Modelle haben ihre Beiträge zu Verbesserungen hinsichtlich der Stabilität und Qualität von Diffusionsprozessen geführt.

Das Modell von Prof. Ommer ist ein kleines Modell, das finanziell und ökologisch vorteilhafter sein soll. Das kleine Modell benötigt weniger Energie und kann auf einem Standard-PC betrieben werden, ohne dass energieintensive Rechenzentren erforderlich sind. nyris ist stolz darauf, Prof. Ommer als Mitglied unseres Technologiebeirats zu haben.

‍‍

Stabile Diffusion entmystifiziert

Alessandro erklärt, dass Diffusionsmodelle zwei Hauptphasen umfassen: 

  1. Der Vorwärtsprozess, bei dem einem sauberen Bild nach und nach zufälliges Rauschen (d. h. statisches Rauschen) hinzugefügt wird, wodurch eine Zufälligkeit in den Pixeln entsteht. 
  1. Der umgekehrte Prozess, bei dem der Algorithmus das Rauschen schrittweise entfernt, um das Originalbild wiederherzustellen. 

Das Modell ist darauf trainiert, in jedem Schritt eine berechnete Menge an Rauschen vorherzusagen und zu subtrahieren. Da der Prozess der Rauschunterdrückung jedoch nicht deterministisch ist, ist das Endergebnis ein neu generiertes Bild, das dem Original ähnelt, aber nicht genau mit diesem übereinstimmt – ein von Natur aus einzigartiges Bild, das von der KI erstellt wurde!

Die Kraft von CLIP: Eine Brücke zwischen Sprache und Sehen 

CLIP (Contrastive Language-Image Pre-Training) ist ein neuronales Netzwerk, das entwickelt wurde, um Bilder und die dazugehörigen Textbeschreibungen zu verstehen, indem es aus einem umfangreichen Datensatz von Bild-Text-Paaren lernt. Stable Diffusion nutzt dies, um seine Fähigkeiten zur Bild-Text-Zuordnung zu verbessern. 

CLIP funktioniert, indem es sowohl Bilder als auch Texte in denselben hochdimensionalen Raum einbettet, in dem ihre Attribute leicht verglichen werden können. Bilder werden durch Vektoren dargestellt, die ihre Hauptmerkmale in Bezug auf ihre Textbeschreibungen in diesem gemeinsamen Raum erfassen. Dieser Prozess ermöglicht es dem Modell, Bilder und Texte aufeinander abzustimmen, wobei Vektoren, die näher beieinander liegen, ähnlichere Elemente darstellen. 

Vom Bild zur Einbettung: Das „Ratet mal, wer?“ der KI

Wenn wir etwas physisch beschreiben wollen, verwenden wir natürlich eine Reihe von Schlüsselwörtern, die eindeutige Identifikatoren für das sind, woran wir denken. Um ein Bild zu generieren, können Benutzer von Stable Diffusion das Modell anweisen, indem sie eine Bildunterschrift mit Schlüsselwörtern für das eingeben, was sie sehen möchten.

Wie funktioniert das im Algorithmus? Alessandro erklärt dies anhand eines interessanten Vergleichs aus dem realen Leben: dem Brettspiel „Guess Who?“! 

Während des Spiels stellen wir unserem Gegner eine Reihe von Fragen, wobei wir Schlüsselwörter verwenden, um die Eigenschaften der Person auf seiner Karte zu identifizieren (z. B. Hat deine Person blonde Haare?, blaue Augen?, eine große Nase?). Durch Ausschlussverfahren mit binären „Ja/Nein”-Fragen können wir uns ein mentales Bild davon machen, was das bedeutet, und schließlich erraten, wer oder was auf seiner Karte ist . 

Jede Figur in „Guess Who?“ kann als Vektor von Attributen in einem Einbettungsraum dargestellt werden, in dem visuell ähnliche Figuren näher beieinander liegen. Genau wie beim Filtern von Punkten im Einbettungsraum teilen wir durch das Stellen von Fragen den Raum auf, grenzen die Möglichkeiten ein und erleichtern so die Identifizierung der richtigen Figur anhand ihrer Merkmale. 

Dieser Ansatz hilft dabei, Daten effizient zu vergleichen, zu gruppieren und zu analysieren, ähnlich wie wir im Spiel die Charakterkarte unseres Gegners ausarbeiten. 

Bei der Verwendung einer Textvorlage zur Erzeugung eines Bildes wird der Text durch ein Sprachmodell in numerische Darstellungen umgewandelt. Bei beiden Prozessen werden die Möglichkeiten durch iterative Verfeinerung und angeleitete Eingaben schrittweise eingegrenzt, um das gewünschte Ergebnis oder die „richtige Antwort“ zu erzielen.

 

Feinabstimmung: Die DJ-Decks der KI 

Fine-Tuning ist ein Prozess im maschinellen Lernen, bei dem ein vorab trainiertes Modell auf der Grundlage eines großen Datensatzes verwendet wird und die internen Parameter oder „Gewichte“ geringfügig angepasst werden, um eine andere Ausgabe zu erzielen. Ohne ein neues Modell zu erstellen oder die Gesamtarchitektur wesentlich zu verändern, wird es intelligenter und merkt sich, wie aus einer neuen Eingabe die gewünschte Ausgabe erstellt werden kann.

Alessandro zieht eine interessante Parallele zwischen der Feinabstimmung von KI-Modellen und der Einstellung eines DJ-Plattenspielers. So wie ein DJ seinen Mix durch Einstellen verschiedener Regler feinabstimmt, können KI-Forscher die Leistung ihres Modells verbessern, indem sie die Gewichte im neuronalen Netzwerk optimieren. Durch diesen Prozess kann Stable Diffusion für bestimmte Aufgaben oder Bereiche angepasst werden, wodurch seine Leistung in gezielten Anwendungen verbessert wird.

Bei der Feinabstimmung liegt der Fokus in der Regel auf den letzten Gewichtsebenen eines vortrainierten Modells wie Stable Diffusion. Dazu werden neue Bilder bereitgestellt und geringfügige Anpassungen vorgenommen, um das Modell an bestimmte gewünschte Ergebnisse anzupassen.

Anwendungsfall für nyris

Bei nyris ist es unser Hauptziel, unseren Kunden dabei zu helfen, ihre maximale Effizienz zu erreichen, indem wir ihre Produktidentifizierungsprozesse durch visuelle Suche beschleunigen. 

Wenn unseren Kunden Bilddaten für ihren Suchindex fehlen, kann nyris synthetische Datendienste bereitstellen, um fotorealistische Modelle ihrer CAD-Daten zu erstellen. Stable Diffusion bietet interessantes Potenzial für die Generierung hochwertiger Bilder für Kunden, die über unvollständige oder minderwertige Bilddaten verfügen. 

Alessandro erklärt, dass nyris zwar einen Suchindex mit Produkten mit einem einzigen Bild erstellen kann, aber je mehr Bilder wir haben, desto besser. Mit Stable Diffusion kann sein Team aus einem einzigen Produktbild oder einer detaillierten Beschreibung mehrere hochwertige Bilder von Ersatzteilen erstellen und so die Datenlücke für unsere Kunden verringern. Allerdings gibt es dabei einige Einschränkungen...

Herausforderungen und zukünftige Ausrichtung

Obwohl Stable Diffusion unglaublich leistungsstark ist, wissen wir, dass jede Technologie ihre Grenzen hat. Alessandro scheut sich nicht, einige aus seiner Erfahrung zu nennen:

  • Haben oft Schwierigkeiten mit der Erstellung hochdetaillierter Bilder, da sehr detaillierte Beschreibungen erforderlich sind. 
  • Probleme bei der Verallgemeinerung auf unbekannte Objekte oder Szenarien, da sie stark von den Mustern in ihren Trainingsdaten abhängig sind. 
  • Fehlendes Verständnis der „realen Welt“, wodurch ihre Fähigkeit, komplexe Szenen korrekt zu interpretieren, eingeschränkt ist. 
  • Kann manchmal Artefakte oder visuelle Unstimmigkeiten erzeugen, insbesondere bei komplexen Strukturen, was sich auf die Gesamtqualität und den Realismus der generierten Bilder auswirken kann.

Diese Herausforderungen treiben jedoch die Innovation in diesem Bereich voran. Professor Björn Ommer, seine Gruppe für Computer Vision und Learning sowie das Team von nyris arbeiten kontinuierlich daran, die Grenzen des Möglichen bei der Generierung synthetischer Daten zu erweitern. 

Möchten Sie mehr darüber erfahren, wie wir Stable Diffusion und andere innovative KI-Technologien nutzen, um die visuelle Suche und die Generierung synthetischer Daten zu revolutionieren? Kontaktieren Sie uns einfach über die nyris-Website und lassen Sie uns gemeinsam die Zukunft KI-gestützter Lösungen erkunden!

Bild von Alessandro mit Stable Diffusion erstellt
Generative KI
Stabile Diffusion
Synthetische Daten
KI-Innovation
TechTrends
Visuelle Suche
Maschinelles Lernen
nyris diskutiert #TechWeLove: Stable Diffusion
Sales Representative
Christina Lynn
Christina Lynn ist derzeit Marketing Managerin bei nyris und verfügt über einen vielfältigen Hintergrund sowohl im Vertrieb als auch in der Wissenschaft. Mit ihren kreativen und analytischen Fähigkeiten möchte sie das Bewusstsein für visuelle KI stärken.

Vereinbaren Sie eine Live-Demo, die auf Ihre Anforderungen und Daten zugeschnitten ist.

Erhalten Sie Antworten auf Ihre spezifischen Fragen und finden Sie heraus, warum nyris die richtige Wahl für Ihr Unternehmen ist.

Vielen Dank! Ihre Anfrage wurde erfolgreich übermittelt.
Einer unserer Mitarbeiter wird Sie in den nächsten 48 Stunden kontaktieren.
Huch! Beim Absenden des Formulars ist etwas schief gelaufen.
Vereinbaren Sie eine Live-Demo, die auf Ihre Anforderungen und Daten zugeschnitten ist.