Die lange Liste der generativen KI: 5000 Modelle, Tools, Technologien, Anwendungen und Prompts
Eine kuratierte Liste von Ressourcen zur generativen KI
Ein leises Flüstern für das Modell, ein dröhnender Weckruf für die Menschheit. Die allererste Antwort des neu veröffentlichten ChatGPT am 30. November 2022 stellte klar: Die generative KI ist da! Und sie wird alles verändern.
Grund genug, in die wilde Welt generativer KI einzutauchen. Jeder Abschnitt dieses Artikels behandelt einen Teil dieses Universums und liefert eine kuratierte Liste von Ressourcen, die zum Teil weitere Listen von Quellen enthalten:
20+: Was ist generative KI?
95x: Geschichte der generativen KI
600+: Zentrale technologische Konzepte
2.350+: Modelle und Medien - Text, Bild, Video, Code, etc.
350x: Anwendungsbereiche, Unternehmen, Startups
3.000+: Prompts, Prompt-Engineering, & Prompt-Listen
250+: Hardware, Frameworks, Ansätze, Tools & Daten
300+: Besondere Leistungen, Auswirkungen auf die Gesellschaft, Regulierung, & Ausblick
20x: Was ist generative KI?
Wenn die klassische KI eine Art weise Eule darstellt, dann ist die generative KI die noch klügere Eule mit einem Pinsel und einem Händchen fürs Schreiben. Traditionelle KI kann erkennen, klassifizieren und clustern, aber nicht die Daten generieren, auf die sie trainiert wurde. Klassische KI-Modelle sind in der Regel auf eine einzige Aufgabe ausgerichtet. Ihre generativen Schwestern hingegen werden mit riesigen Datenmengen aus menschlichen Arbeits-, Wissens oder Lebensbereichen trainiert. Sie können allgemeine Kenntnisse aufbauen und diese nutzen, um fast jede beliebige Antwort in ihrem spezifischen Medium (Text, Bild o. ä.) zu liefern.
95x Geschichte der generativen KI
Generative KI verfügt über eine lange Historie, die auf frühe Theorien von Leibniz, Pascal, Babbage und Lovelace basiert. Ihr ging die Entwicklung sogenannter Automata (Roboter und Rechenmaschinen) aller Art (Yan Shi, Ctesibius, Heron von Alexandria, die Brüder Banū Mūsā, Ismail_al-Jazari) voraus.
Mathematische Grundlagen wurden in den 1940er und 1950er Jahren gelegt (Shannon, Turing). Die Basis für die heutigen generativen Sprachanwendungen wurde in den 1990er Jahren erarbeitet (Hochreiter, Schmidhuber), und um das Jahr 2018 herum nahm das Thema Fahrt auf (Radford, Devlin et al.). Wichtige Meilensteine der letzten Jahre bilden BERT (Google, 2018), GPT-3 (OpenAI, 2020), Dall-E (OpenAI, 2021), Stable Diffusion (Stability AI, LMU München, 2022), ChatGPT (OpenAI, 2022).
2x: KI-Timeline, und einige beeindruckende Daten Visualisierungen
600+: Technologische Schlüsselkonzepte generativer KI
300+: Deep Learning - der Kern jedes generativen KI-Modells:
Deep Learning ist ein zentrales Konzept traditioneller KI, das von der generativen KI übernommen und weiterentwickelt wurde. Komplexe ML-Probleme lassen sich nur in neuronalen Netzen mit vielen verschiedenen Layern lösen. Das gilt übrigens auch für kognitive Prozesse und die Gehirne von Säugetieren (– ja genau, damit sind wir gemeint).
In einem künstlichen neuronalen Netz stellt ein Knoten ein Neuron dar. Eine Verbindung zwischen verschiedenen Knoten ist eine Synapse, die Informationen in eine bestimmte Richtung transportiert. Generative KI-Modelle haben in der Regel Millionen von Neuronen und Milliarden von Synapsen (auch "Parameter" genannt). Aktuelle Modelle verwenden keine Siliziumneuronen, sondern arbeiten mit herkömmlichen Rechenalgorithmen und mehr oder weniger herkömmlicher Hardware (manchmal CPUs, normalerweise GPUs/TPUs). In der Umsetzung wird das gesamte Deep-Learning-Netzwerk als eine Matrix von Gewichtungen dargestellt. Und - ja, ich versuche gerade die generative KI zu entzaubern - sowohl das Lernen als auch die Generierung von Antworten können bei allen wundersamen Modellen wie ChatGPT letztlich auf Matrixmultiplikation heruntergebrochen werden - gute alte Algebra. Nur viel, viel mehr davon, ausgeführt in nahezu Lichtgeschwindigkeit.
Mehr über Deep Learning und neuronale Netze:
200+: Foundation Modelle, Pre-Training, Fine-Tuning & Prompting
Die generative KI basiert auf Foundation Modellen. Diese Basismodelle sind riesige Modelle (Milliarden von Parametern), die auf gigantischen Datensätzen (GB oder TB an Daten) vortrainiert werden und die in der Lage sind, eine unendliche Zahl von Aufgaben in ihrem Bereich (Text- oder Bilderzeugung) auszuführen. Die Datensätze für das Vortraining umfassen in der Regel alle möglichen Inahlte in dem jeweiligen Bereich. Für Text zum Beispiel: wissenschaftliche Abhandlungen, Haikus, Tabellenkalkulationen, enzyklopädische Inhalte, Dialoge, Gesetze, Handbücher, Rechnungen, Drehbücher, Lehrbücher oder Romane. Das vortrainierte Modell lässt sich mit einem superschlauen und informierten Abiturienten vergleichen, der über großes Grundwissen verfügt und viele Sprachen verstehen kann, der aber keine spezifische Qualifikation für einen Job mitbringt. Um ein Modell auf eine bestimmte Aufgabe vorzubereiten, z. B. auf die Beantwortung von Fragen in einer Support-Hotline für ein bestimmtes Produkt, kannst Du ins Feintuning gehen: also ein zusätzliches Training mit einem kleinen Datensatz mit Inhalten für genau die spezielle Aufgabe durchführen. In den meisten Fällen nutzt Du nur den Prompt, um die Aufgabe zu spezifizieren, Daten für die Aufgabe bereitzustellen und die Antwort zu formatieren.
200+: Kuratierte Liste von Fine-Tuning Ressourcen (Ressourcen zum Thema Prompting siehe weiter unten in diesem Artikel)
120+: Token, Embeddings & Vektoren
Oh, das ist nicht korrekt; der Prompt enthält 89 Zeichen einschließlich Leerzeichen und Satzzeichen. Warum scheitert der klügste Bot der Welt an dieser einfachen Zählaufgabe? Ein Siebenjähriger könnte das besser!
ChatGPT versteht, genau wie jedes andere Sprachmodell, keine Sprache, keinen Text und keine Zeichen. Das eigentliche Modell bekommt meinen Prompt nicht einmal zu sehen:
Der Prompt wird zuerst in diese 19 Token aufgeteilt ("tokenisiert"):
Gewöhnliche englische Wörter werden nicht geteilt; sie bilden einzelne Token. Weniger gebräuchliche Wörter ("ChatGPT" war zum Beispiel im Trainingsmaterial vor der Veröffentlichung von ChatGPT nicht gebräuchlich) und falsch geschriebene Wörter ("inlcuding") bestehen aus zwei oder mehr Token.
Jedes Modell verwendet ein konstantes Vokabular an Token. Jedes Token wird dann in ein Embedding umgewandelt, einen hochdimensionalen Vektor (oft mehr als 1.000 Dimensionen), bevor die Modelle es zu sehen bekommen. Diese Einbettungen stellen den semantischen Wert eines Tokens dar. Bei semantisch ähnlichen Token wie "König", "Königin" und "Prinz" sollten die Vektoren nahe beieinander liegen. Ähnlich geschriebene Token wie "Hummel", "Himmel" und "Hummer" liegen nicht nahe beieinander, weil sie keine semantische Ähnlichkeit haben. Die Embeddings werden maschinell auf der Grundlage der Wort- oder Token-Nachbarn in den Texten generiert – und nicht durch eine menschliche Meta-Erklärung, was ein Wort bedeutet. So könnte "König" sowohl nahe an "Thron" als auch an "Schachmatt" sein, wenn man diese beiden Kontexte in deutschen Texten zugrunde legt. Nachdem der Prompt in eine Folge von Embeddings - hochdimensionale Vektoren, die Token darstellen - umgewandelt wurde, werden diese Einbettungen in das Sprachmodell gespeist und können dann verarbeitet werden.
Das Modell liefert keinen vollständigen Satz auf diesen Input. Nope. Es generiert lediglich (im ML-Jargon "predicts") das nächste Token. Danach nimmt es die Embeddings des Prompts und des ersten vorausgesagten Tokens und sagt das zweite Token seiner Antwort voraus ... und so weiter.
Im Prozess der Generierung von Token zu Token wissen die Modelle in der Regel nicht (und brauchen es auch nicht zu wissen), wo ihr eigener Beitrag zum laufenden Textfluss wirklich begonnen hat. Meiner Meinung nach ist dies eine der seltsamsten Eigenschaften von LLMs.
Mehr zu Token, Shmokens und Einbettungen:
10+: Die Transformer-Architektur
Nahezu alle relevanten Sprachmodelle basieren auf der Transformer-Architektur. Zu gern hätte ich diese hier erörtert, aber das würde leider den Rahmen dieser Einführung in genAI sprengen.
10x: Wer Komplexität nicht scheut, dem empfehle ich die schön illustrierte Einführung in die Konzepte der Spracherzeugung (von RNN über LSTM bis hin zu allen Konzepten der Transformer-Architektur) von Giuliano Giacaglia.
10x: Latente Diffusion-Modelle / Stable Diffusion
Latent Diffusion-Modelle (LDMs) wie Stable Diffusion funktionieren anders als große Sprachmodelle. Das beginnt schon beim Training: Während LLMs auf nicht gelabelten Daten trainiert werden, werden LDMs auf Text/Bild-Paare trainiert. Dies macht die Eingabe von Text in Bildgenerierungsmodelle möglich.
LDMs verarbeiten die Daten nicht direkt in der riesigen Bild-Sphäre, sondern komprimieren die Bilder zunächst in einen viel kleineren, aber wahrnehmungsmäßig äquivalenten Raum, wodurch das Modell schneller und effizienter wird.
Der Prozess der Bilderzeugung ist kontraintuitiv. Hier wird nicht wirklich ein Bild gezeichnet. Es geht vielmehr darum, das Rauschen einer zufälligen Pixelverteilung zu entfernen, die das Modell als Ausgangspunkt nutzt. Vergleichbar ist dieser Prozess mit dem eines Bildhauers, der alle überflüssigen Marmorstücke wegklopft, um die finale David-Statue zu erhalten.
Mehr Informationen:
2350+: Modelle — Text, Bild, Video, Sound, Code und mehr
1200+: Text — Large Language Models
Sprache ist zweifelsohne der wichtigste Anwendungsbereich für generative KI. Und während es in jedem Bereich der KI Geld regnet, ist dieses Feld besonders gut ausgestattet. Dies sind die wichtigsten LLMs:
3x OpenAI: GPT-4-turbo, GPT-3.5-turbo, ChatGPT — die Modelle der mother of invention – in vielerlei Hinsicht sind sie immer noch die Besten.
2x Meta: Llama 2, Llama — Nicht sehr groß (gemessen an Parametern), aber leistungsstark und open source.
1x Mistral: Mixtral 8x7B — Ein hochleistungsfähiges kleines Modell mit Mixture-of-Experts-Architektur. From Paris with love.
1x Stanford University: Alpaca — ein weiteres Mitglied der Familie der Camelidae, das auf Llama basiert. Erstaunlich klein (7B-Parameter).
1x: TII (Abu Dhabi): Falcon 180B Bloom: Bloomz, Bloom-Lora
1x: Aleph Alpha: Luminous supreme
1x: Anthropic: Claude — das erste Modell mit einem riesigen Kontextfenster
1x: Baidu: Ernie Bot — Chinas Antwort auf ChatGPT mit mehr als 100 Millionen registrierten Nutzern.
5x: Amazon: Titan Modelle
Und noch mehr LLMs:
120+: Bildgenerierung
Vielleicht nicht der wichtigste Bereich der generativen KI, aber sicherlich der charmanteste.
5x: CompVis / Stability.ai: Stable diffusion 1, Stable Diffusion 2.1 — Das Top open source Modell
1x: Midjourney — love it!
1x: OpenAI: DALL-e 3 — genauso!
14x: Von Vinnie Wong zusammengestellte Liste der mit demselben Prompt getesteten Bildgenerierungsmodelle.
15x: Code-Generierung
Tools zur Code-Generierung unterstützen Entwickler beim Schreiben, Debuggen und Dokumentieren von Code und können in IDEs oder andere Entwicklungstools integriert werden.
1x: GitHub: CoPilot. Das am weitesten verbreitete Tool zur Code-Generierung
1x: OpenAI: Codex, das Modell hinter CoPilot
1x: Tabnine — open source KI Code-Generierung
1x: Meta: Code Llama basiert auf Llama 2
1x: Google: Codey Generierung, Vervollständigung & Code-Chat
17+: Spracherkennung (STT / ASR), Spracherzeugung (TTS)
Inzwischen gibt es Modelle für beide Umwandlungsprozesse: Für Sprache zu Text und für Text zu Sprache.
1x: Openai: Whisper — eines der ersten großen Foundation-Modelle in ASR
1x: RevAI ASR — die präziseste ASR
1x: Google ist jetzt mit im Spiel mit Chirp ASR
1x: Meta: Voicebox Sprachgenerator (open source)
15x: Musikgenerierung
Es macht wirklich Spaß, einen Song mit nur zehn Wörtern zu kreieren.
1x: Harmonai — Community-gesteuertes und OS-Produktionstool
1x: Mubert — Ökosystem für lizenzfreie Musik
1x: MusicLM — Ein Modell von Google Research zur Generierung von originalgetreuer Musik aus Textbeschreibungen.
1x: Aiva — Generiere Songs in 250 verschiedenen Styles.
1x: Suno — registriere Dich, schreib einen Prompt und erschaffe ein erstes fantastisches Meisterwerk der Fahrstuhlmusik in nur etwa 50 Sekunden
18x: Videogenerierung (Text zu Video-Modelle)
Ähnlich wie die Bilderzeugung basiert auch die Videoerzeugung häufig auf Diffusion- bzw. Latent Diffusion-Modellen:
1x: Google: Imagen Videogeneration aus Text
1x: Synthesia — Generiere ein Video in Sekunden
1x: DeepBrain AI: Erstellt Videos und sogar die Skripte zur Erstellung der Videos
7x: Andere generative KI-Modelle
Generative KI kann in ganz unterschiedlichen Bereichen eingesetzt werden. Voraussetzung ist lediglich, dass ähnlich strukturierte Inhaltsformate (z.B. Bilder und Texte) und eine riesige Datenbank vorhanden sind, die für das Pre-Training genutzt werden können.
1x: Robotik-Steuerung. Google: RT-2 Repository
2x: Vorhersage von Molekül-Faltungen: AlphaFold. Super interessant, hier werden das Basismodell und der generative KI-Ansatz in einem Bereich eingesetzt, der fast keine Berührungspunkte zu Medieninhalten wie Sprache oder Bild hat. Startup mit einer Anwendung in der Medikamentenentwicklung: Absci
1x: Genomforschung: Aufbau von Sprachmodellen auf Genom-Ebene (GenSLMs) durch Anpassung großer Sprachmodelle (LLMs) für Genom-Daten
1x: Llemma — ein offenes Sprachmodell für die Mathematik
1x: AstroLLaMA — ein Foundation-Modell für die Astronomie
1x: Antibiotika: Generative KI zur Entwicklung und Validierung leicht synthetisierbarer und strukturell neuartiger Antibiotika
1000+: GPT Store:
Der GPT Store ist das Äquivalent von OpenAI zu einem App Store. Er bietet Tausende benutzerdefinierter GPTs auf der Grundlage von GPT-4 und Dall-E an. Das reicht von persönlichen Prompt-Engineering-Tools bis hin zu Unterstützung bei der täglichen Terminplanung, bei Präsentations- und Logodesign, Aufgabenmanagement, schrittweiser technischer Fehlerbehebung, Website-Erstellung und -Hosting. Hier lassen sich KI-Insights generieren, Brett- und Kartenspiele genauso erklären, wie visionäre digitale Malerei oder textbasierte Abenteuerspiele und mehr generieren. Zugang zum GPT Store haben nur ChatGPT Plus-Nutzer (für ca. $20 pro Monat). Sie können ihr eigenes GPT erstellen und es anderen Nutzern anbieten.
10+: Autonome KI-Agenten
KI-Agenten sind in der Regel keine eigenen Modelle, sondern Plattformen, die verschiedene Modelle (Sprache, Bilderzeugung usw.) orchestrieren, um komplexe, multimodale Aufgaben zu erfüllen. In der Regel verwenden sie große Sprachmodelle, um die Ausführung der Aufgabenausführung und die Aufteilung in einfache Schritte zu planen.
1x: AgentGPT
1x: AutoGPT
350x: Anwendungsbereiche, Unternehmen, Startups
Generative KI-Start-ups schießen wie Pilze aus dem Boden, und viele etablierte Unternehmen entwickeln Dienstleistungen in diesem Bereich. Ein XXXL-Dankeschön an alle, die sich die Mühe gemacht haben, diesen Bereich zu dokumentieren.
150+: Sequoia’s market map nach Zielgruppen und Anwendungsbereichen:
100x: Generative KI-Anwendungsbereiche von Audit-Reporting bis zur Erstellung von Produktbeschreibungen
3000+: Prompts, Prompt-Engineering & Prompt-Listen
Der Prompt ist das Werkzeug, um das Verhaltens eines Modells zu steuern. Die meisten Modelle, einschließlich derer, die Bilder, Videos oder Musik erzeugen, können mit einer Beschreibung der gewünschten Antwort angesprochen werden.
Prompts können so viel mehr sein als nur eine Anweisung oder eine Frage. Sie können enthalten:
Prompt-Engineering ist die Kunst, sichere, exakte, erfolgreiche, effiziente und robuste Prompts zu erstellen.
250+: Hardware, Frameworks, Plattformen & Tools
Generative KI-Modelle sind riesig (sie benötigen viel Speicherplatz) und erfordern viele Prozessorressourcen (eine unglaubliche Anzahl von Rechenoperationen für das Training und noch viel mehr für eine einzige Schlussfolgerung). Die Hardware ist also ein entscheidender Faktor für die generative KI:
1x: Hardware: Einführung in generative KI-Hardware
3x: Generative KI-Frameworks erleichtern die Entwicklung von Anwendungen mit Sprach- und anderen Modellen: LangChain, Llamaindex, Vergleich von La und Lla
1x: RAG — Retrieval Augmented Generation ist der Schlüssel, um LLMs mit Deinen Daten arbeiten zu lassen: Einführung
10+: Vektordatenbanken speichern Deine Daten in KI-Anwendungen und machen sie abrufbar: Einführung in Vektor-DBs und die Top-6-DBs, und mehr
5x: Plattformen, die Modelle und Ressourcen für deren Nutzung und Betrieb bereitstellen: HuggingFace, Haystack, Azure AI, Google, Amazon Bedrock
300+: Leistungen der generativen KI, Sicherheit und Datenschutz, Auswirkungen auf die Gesellschaft, Regulierung und Ausblick
40+: Besondere Leistungen
Generative KI-Modelle – und hier vor allem OpenAI-Modelle — haben die US-amerikanische Anwaltsprüfung (Bar Exam), die medizinische Zulassungsprüfung, den verbalen Intelligenztest mit einem IQ von 147, den SAT-College-Readiness-Test und viele weitere Tests und Prüfungen abgelegt.
10x: Hier einige weitere Tests, die generative KI bestanden hat, und auch solche, bei denen sie versagt hat
200+: KI-Sicherheit, Datenschutz, KI TRiSM, Explainability und Hallucination Control
KI TRiSM steht für Vertrauens-, Risiko- und Sicherheitsmanagement und umfasst die Bereiche:
Weitere Ressourcen:
25+: Auswirkungen auf die Gesellschaft
Generative KI wird unsere Gesellschaft in vielerlei Hinsicht tiefgreifend verändern. In der Regel neigen wir dazu, die kurzfristigen Auswirkungen neuer Technologien zu überschätzen und die langfristigen Folgen zu unterschätzen.
2x: Superintelligenz und warum und wie wir sicherstellen können, dass künftige KI auf die Ziele der Menschheit ausgerichtet ist (AI alignment)
50+: Regulierung
KI-Regulierung wird schon allein deshalb notwendig sein, um zu definieren, was in den neuen Anwendungsgebieten in welcher Form erlaubt ist, wer von welchem geistigen Eigentum wie profitieren darf und wer für Fehler und Schäden haftet. Die EU hat mit ihrem KI-Gesetzesentwurf den Wettbewerb um die schärfste KI-Regulierung mit einem Paukenschlag eröffnet. Viele Insider hoffen, dass andere Gesetzgeber einen maßvolleren Ansatz verfolgen und die gesetzgeberischen Aktivitäten stärker an aktuelle Technologien (generative KI) ausrichten. Im Prinzip hat die EU eine Verordnung erlassen, die sich im Wesentlichen mit den Fähigkeiten prägenerativer Modelle befasst.
1x: Ausblick & Fazit
Da praktisch niemand (– nicht einmal OpenAI) vorhergesagt hat, wie sich generative KI nach dem ChatGPT-Release entwickeln wird, bleibt spannend, was 2024 und danach passiert. Für den Ausflug ins Ungewisse möchte ich daher Vala Afshars Zusammenstellung von Vorhersagen führender Tech-Propheten wie IDC, Gartner, Forrester & Co. empfehlen. Afshar hat hier wirklich großartige Arbeit geleistet. Die Halbwertzeit der Prognosen? Vielleicht ein Jahr. Ein paar Monate. Oder nur wenige Wochen, bis uns wieder irgendeine bahnbrechende Entwicklung auf neuen Kurs schickt?
Und ja: Die Reise bleibt aufregend! Toll, das wir alle dabei sind!
Der Artikel basiert auf meiner Medium-Story zu Generativer AI.
Besonderen Dank an Kirsten Küppers für ihre Unterstützung!
Bildnachweise:
Generative AI Baum. Yang, Jingfeng et. al: arxiv.org/pdf/2304.13712.pdf
Neuronales Netz für Deep Learning (CC): BrunelloN
Pre-Training, Fine-Tuning und Prompting von großen Sprachmodellen. Brain icon von Freepik
Wörter, Vektoren und Einbettungen. Quelle (CC): David Rozado
Latent Diffusion-Pipeline-Architektur, Bildnachweis: Rombach, et. al.
Denoising zum Herausarbeiten des Bildes. Bildnachweis (CC): Benlisquare
Generative AI Map, Bildnachweis: Sequoia Capital
Das LangChain-Ökosystem. Bildnachweis: langchain docs
Agilität | eLearning | Digitalisierung | Working-out-Loud
5 MonateChristine Baltzer Silvia van den Berg Julius Hoyer
Fachkräfte finden und binden - nachhaltig Veränderungen gesund gestalten
6 MonateBesser spät als nie, bin ich heute auf diese großartige Zusammenstellung "impulsiert" worden. Herzlichen Dank!
AI Future Skills, Promoting the Gifted & Talented, Expert in (Digital) Learning Strategies, Ex-Amazon
1 JahrEin Rundumschlag, well done! Danke fürs Teilen.
Media Research & Strategy Consultant
1 JahrDanke fürs Teilen
Head of Communication, Brand Strategy, Social Media & Design @acatech and @MISSION KI, Team Management
1 JahrEine sehr gute Übersicht