3x3 in KI: Coding-König Claude Sonnet 3.7 💻 trifft auf "Vibes"-Star GPT-4.5 und Alexa wird smart (+) 🎯

3x3 in KI: Coding-König Claude Sonnet 3.7 💻 trifft auf "Vibes"-Star GPT-4.5 und Alexa wird smart (+) 🎯

Liebe KI-Freunde!

einen wunderschönen Guten Tag!

Für mich war am Montag schon klar … diese Woche wird es wieder in sich haben. Die großen Player haben praktisch gleichzeitig ihre neuesten Modelle vorgestellt: Anthropic präsentierte bereits am Montag Claude 3.7 Sonnet mit beeindruckenden Coding-Fähigkeiten, während OpenAI am Donnerstag mit GPT-4.5 nachzog - ein Modell, das laut Sam Altman "bessere Vibes" hat, aber auch deutlich teurer ist.

Aber das ist noch längst nicht alles: Eleven Labs hat mit "Scribe" das mutmaßlich beste Transkriptionstool veröffentlicht, OpenAI macht Deep Research für Plus-Nutzer verfügbar, OpenAIs Sora kommt endlich nach Europa, und Amazon stellt mit Alexa+ einen komplett überarbeiteten KI-Assistenten vor. Währenddessen teilt KI-Pionier Andrej Karpathy seine persönlichen LLM-Nutzungsstrategien.

Warten wir nicht länger – los geht's! ;-)

Claude 3.7: Anthropics Coding-Kraftwerk mit Denkfähigkeit


Artikelinhalte

Kurzgesagt:

Anthropic hat mit Claude 3.7 Sonnet ein neues KI-Modell veröffentlicht, das als "hybrides Reasoning-Modell" sowohl schnelle Antworten als auch detailliertes, schrittweises Denken beherrscht. Besonders in den Bereichen Programmierung und Web-Entwicklung setzt es neue Maßstäbe und wird durch "Claude Code", ein neues Kommandozeilen-Tool für Entwickler, ergänzt.

Detailliert:

Die KI-Welt entwickelt sich in rasantem Tempo weiter. Mit Claude 3.7 Sonnet zeigt Anthropic, wie gezielt sie auf die Bedürfnisse ihrer Nutzer eingehen: Da viele Claude primär für Coding-Aufgaben verwenden, haben sie genau diesen Bereich massiv verbessert.


Artikelinhalte

Was Claude 3.7 Sonnet besonders macht, ist sein dualer Charakter: Anders als bei Konkurrenten wie OpenAI, die separate Modelle für schnelle Antworten (GPT-4o) und Reasoning (o1, o3) anbieten, vereint Claude beides in einem System. Nutzer können wählen, ob sie eine rasche Antwort oder eine ausführliche Denkroutine sehen möchten - wobei im API-Zugang sogar die "Denk-Tiefe" feingesteuert werden kann.

In Benchmarks für Software-Engineering (SWE) lässt Claude 3.7 alle Konkurrenten deutlich hinter sich: Mit 70,3% Genauigkeit auf dem SWE-bench Verified übertrifft es OpenAIs o1 und DeepSeek R1, die bei etwa 49% liegen.


Artikelinhalte

Diese Zahlen spiegeln sich auch in realen Anwendungsfällen wider: Partner wie Cursor, Cognition, Vercel, Replit und Canva berichten von deutlich verbesserten Coding-Fähigkeiten.

Die beeindruckendsten Beispiele kommen von frühen Testern, die mit einem einzigen Prompt komplette Webanwendungen erstellen konnten - von Immobilien-Websites über animierte Wetter-Apps bis zu 3D-Rennspielen. Ein besonders cleveres Beispiel: Ein selbstreflektierendes Snake-Spiel, bei dem die Schlange ihre eigenen Gedanken während des Spiels anzeigt ("Moment, ich habe die Wand durchbrochen, sie können mich nicht aufhalten!").


Artikelinhalte

Das zweite große Highlight ist "Claude Code", Anthropics erstes agentisches Coding-Tool.

Artikelinhalte

Es läuft in der Kommandozeile, kann Code durchsuchen und bearbeiten, Tests schreiben und ausführen, Änderungen auf GitHub übertragen und Kommandozeilenwerkzeuge nutzen - alles während es den Entwickler über jeden Schritt informiert. Laut Anthropic konnte Claude Code in Tests Aufgaben in einem Durchgang erledigen, für die normalerweise 45+ Minuten manuelle Arbeit nötig wären.

Interessanterweise hat Anthropic bei der Entwicklung von Claude 3.7 weniger Wert auf mathematische und wissenschaftliche Wettbewerbsprobleme gelegt, sondern den Fokus auf reale Geschäftsanwendungen verschoben. Dies zeigt einen pragmatischen Ansatz, der die tatsächlichen Bedürfnisse von Unternehmen in den Mittelpunkt stellt.

Was die Verfügbarkeit betrifft: Claude 3.7 Sonnet ist auf allen Claude-Plänen verfügbar - von Free über Pro und Team bis Enterprise, sowie über die Anthropic API, Amazon Bedrock und Google Cloud's Vertex AI. Der Extended-Thinking-Modus ist überall außer im kostenlosen Tier verfügbar. Die Preise bleiben dabei gleich: 3 Dollar pro Million Input-Token und 15 Dollar pro Million Output-Token - inklusive der Denkprozesse.

ChatGPT 4.5: OpenAIs teures "Vibes"-Update mit Schattenseiten

Kurzgesagt:

OpenAI hat mit GPT-4.5 (intern als "Orion" bekannt) ein neues Sprachmodell vorgestellt, das laut CEO Sam Altman "wie ein durchdachter Mensch" klingt und bessere "Vibes" hat. Während es bei einfachen Fragen und kreativen Aufgaben glänzt, ist es bei Reasoning-Aufgaben schwächer als spezialisierte Modelle und mit dem 30-fachen Preis extrem teuer.

Detailliert: Nach Grok 3 und Claude 3.7 hat nun auch OpenAI nachgezogen. GPT-4.5, an dem laut OpenAI seit über einem Jahr gearbeitet wurde, ist jedoch kein klassisches "Benchmark-Monster", sondern setzt auf eine andere Art von Intelligenz.

Das Schlüsselwort der Präsentation war "Vibes" - GPT-4.5 soll sich in Konversationen deutlich menschlicher anfühlen. In direkten Vergleichen mit früheren Modellen wirkt der Schreibstil tatsächlich natürlicher und weniger KI-typisch.


Artikelinhalte

Bei einfachen Frage-Antwort-Tests schneidet das Modell deutlich besser ab als seine Vorgänger: Es erreicht 62,5% im Vergleich zu GPT-4 (38,6%), o1 (47%) und o3 mini (15%).


Artikelinhalte

Besonders beeindruckend ist die Reduzierung von Halluzinationen. Während o3 mini bei bestimmten Tests in 80% der Fälle halluzinierte, passierte das bei GPT-4.5 nur in 37,1% der Fälle - eine massive Verbesserung.

Doch es gibt auch erhebliche Schwächen. In mathematischen und wissenschaftlichen Benchmarks bleibt GPT-4.5 deutlich hinter OpenAIs eigenen Reasoning-Modellen zurück. Bei AIME-Matheaufgaben erreicht es nur 36,7% gegenüber 87,3% bei o3-mini. Und auch bei Coding-Aufgaben zeigt es sich schwächer als o3-mini und viel schwächer als Claude 3.7.

Das größte Problem ist jedoch der Preis: GPT-4.5 kostet über die API 75 Dollar pro Million Input-Token und 150 Dollar pro Million Output-Token - das ist das 30-fache von GPT-4o bei Input und das 15-fache bei Output. Zum Vergleich: OpenAIs Flaggschiff-Reasoning-Modell o1 pro kostet nur 15 Dollar pro Million Input-Token und 60 Dollar pro Million Output-Token, also deutlich weniger als GPT-4.5.

Diese Preisgestaltung macht das Modell für die meisten praktischen Anwendungen unerschwinglich. Tech-Investor Paul Gauthier testete GPT-4.5 auf dem Polyglot Coding Benchmark und fand heraus, dass es nur den 10. Platz bei der Gesamtleistung belegte (Claude 3.7 Sonnet mit Extended Thinking ist an der Spitze), und es schnitt auch beim Preis-Leistungs-Verhältnis schlecht ab.


Artikelinhalte

Sam Altman war auf X (Twitter) überraschend transparent: "Es wäre schön gewesen, GPT-4.5 für alle gleichzeitig zu veröffentlichen, aber wir sind buchstäblich 'out of GPUs'." OpenAI fügt hinzu, dass sie "aufgrund der Größe und Rechenintensität des Modells evaluieren, ob es langfristig in der API angeboten werden soll."

Diese Entwicklung scheint die lange vermuteten "diminishing returns" beim Training von traditionellen LLMs zu bestätigen. GPT-4.5 könnte das letzte seiner Art sein, während OpenAI bereits ankündigt, dass GPT-5 eine dynamische Kombination aus nicht-reasoning LLMs und simulierten Reasoning-Modellen wie o3 sein wird.

Aktuell ist GPT-4.5 für ChatGPT Pro-Abonnenten verfügbar, mit geplanter Einführung für Plus- und Team-Nutzer in der kommenden Woche, gefolgt von Enterprise- und Education-Kunden in der Woche darauf.

ElevenLabs Scribe: Das beste Transkriptionstool?



Artikelinhalte

Kurzgesagt:

ElevenLabs hat mit "Scribe" das weltweit genaueste Speech-to-Text-Modell vorgestellt. Es unterstützt 99 Sprachen, bietet Wort-für-Wort-Zeitstempel, Sprechererkennung und erreicht in Benchmark-Tests eine Genauigkeit von 96,7% im Englischen und bis zu 98,7% in anderen Sprachen - weit besser als konkurrierende Modelle.

Detailliert:

Nachdem ElevenLabs bereits den Text-to-Speech-Markt revolutioniert hat, erobert das Unternehmen nun auch den umgekehrten Weg: die Transkription von Sprache zu Text. Das neue Modell "Scribe" setzt dabei neue Maßstäbe in Sachen Genauigkeit und Sprachenvielfalt.


Artikelinhalte

In der Welt der Spracherkennung wird die Fehlerrate (Word Error Rate, WER) als wichtigstes Qualitätsmerkmal angesehen.

Hier glänzt Scribe mit beeindruckenden Werten: 96,7% Genauigkeit im Englischen und sogar 98,7% im Italienischen. In umfangreichen Benchmark-Tests auf den FLEURS- und Common-Voice-Datensätzen übertrifft Scribe konsequent führende Modelle wie Gemini 2.0 Flash, Whisper Large V3 und Deepgram Nova-3 in allen 99 unterstützten Sprachen.

Besonders bemerkenswert ist die Leistung in traditionell unterversorgten Sprachen wie Serbisch, Kantonesisch und Malayalam, wo konkurrierende Modelle oft Fehlerraten von über 40% aufweisen. Scribe reduziert diese Fehler dramatisch und macht ASR (Automated Speech Recognition) damit universell zugänglich.

Das Modell ist aber nicht nur genauer, sondern auch funktional umfassender: Es bietet Wort-für-Wort-Zeitstempel, Sprechererkennung (Diarization) und markiert sogar Nicht-Sprach-Ereignisse wie Lachen. All diese Informationen werden in einer strukturierten JSON-Antwort geliefert, was die Integration in bestehende Systeme erleichtert.

Für Entwickler steht Scribe über die Speech-to-Text-API von ElevenLabs zur Verfügung. Kreative und Unternehmen können es direkt über das ElevenLabs-Dashboard nutzen, um Audio- oder Videodateien hochzuladen und formatierte Transkripte zu generieren. Eine Version mit niedriger Latenz für Echtzeit-Anwendungen soll in Kürze folgen.

Deep Research und Sora: OpenAI bringt Premiumfunktionen nach Europa

Kurzgesagt:

OpenAI hat zwei wichtige Funktionen breiter verfügbar gemacht: Deep Research ist nun für alle Plus-, Teams-, Edu- und Enterprise-Nutzer zugänglich, während Sora, das revolutionäre Text-zu-Video-Modell, endlich in Europa verfügbar ist. Gleichzeitig erhalten kostenlose ChatGPT-Nutzer Zugang zu einer von GPT-4o mini betriebenen Voice-Funktion.

Detailliert:

OpenAI setzt seine Strategie fort, Premium-Features schrittweise einem breiteren Publikum zugänglich zu machen. Besonders erfreulich für europäische Nutzer: Sora, das beeindruckende Text-zu-Video-Modell, das bisher nur in ausgewählten Regionen verfügbar war, kommt endlich nach Europa.


Artikelinhalte

Sora hat seit seiner Ankündigung im Februar für Aufsehen gesorgt, da es in der Lage ist, aus einfachen Textbeschreibungen cinematografisch anmutende, bis zu 60 Sekunden lange Videos zu erzeugen. Die Qualität und Kohärenz der generierten Videos übertrifft bisherige Modelle deutlich. Bisher konnten europäische Nutzer Sora nur über Umwege oder Third-Party-Anbieter nutzen – jetzt ist es offiziell in der EU verfügbar.


Artikelinhalte

Parallel dazu wurde die "Deep Research"-Funktion, die bisher nur Pro-Nutzern ($20/Monat) vorbehalten war, für alle Plus-Nutzer ($20/Monat) sowie Teams-, Edu- und Enterprise-Pläne freigeschaltet. Deep Research geht über die normale Suchfunktion hinaus und ermöglicht es ChatGPT, umfassendere und tiefergehende Recherchen im Internet durchzuführen, mehrere Quellen zu vergleichen und analytischere Antworten zu generieren. 10 Anfragen sind monatlich in den Plänen verfügbar.

Amazon Alexa+: Der KI-Assistent wird endlich erwachsen


Artikelinhalte

Kurzgesagt:

Amazon hat mit Alexa+ einen komplett überarbeiteten KI-Assistenten vorgestellt, der von generativer KI angetrieben wird und deutlich natürlichere Gespräche, personalisierte Interaktionen und agentische Fähigkeiten bietet. Alexa+ kostet normalerweise 19,99 Dollar pro Monat, ist aber für alle Prime-Mitglieder kostenlos verfügbar.

Detailliert:

Nach Jahren inkrementeller Updates macht Amazons Alexa nun einen Quantensprung: Mit Alexa+ präsentiert der E-Commerce-Riese einen komplett neu entwickelten Assistenten, der auf den neuesten Large Language Models (LLMs) von Amazon Bedrock basiert und die Interaktion mit Smart-Home-Geräten verbessern soll.

Artikelinhalte

Im Gegensatz zur alten Alexa versteht Alexa+ natürliche Sprache viel besser - sie kann mit halbformulierten Gedanken, umgangssprachlichen Ausdrücken und komplexen Ideen umgehen. Das Gespräch fühlt sich laut Amazon "weniger wie eine Interaktion mit Technologie und mehr wie ein Gespräch mit einem einsichtsvollen Freund" an.

Eine der wichtigsten Neuerungen ist die Einführung von "Experten" - Gruppen von Systemen, Fähigkeiten, APIs und Anweisungen, die bestimmte Arten von Aufgaben für Kunden erledigen können. Mit diesen Experten kann Alexa+ Smart-Home-Produkte von Philips Hue, Roborock und anderen steuern; Reservierungen oder Termine mit OpenTable und Vagaro vornehmen; Diskografien durchsuchen und Musik von Amazon Music, Spotify, Apple Music und iHeartRadio abspielen; Lebensmittel bei Amazon Fresh und Whole Foods Market bestellen oder Lieferungen von Grubhub und Uber Eats in Auftrag geben.

Besonders spannend sind die neuen agentischen Fähigkeiten: Alexa+ kann selbstständig im Internet navigieren, um Aufgaben im Hintergrund zu erledigen. Wenn beispielsweise der Backofen repariert werden muss, kann Alexa+ im Web navigieren, über Thumbtack den relevanten Dienstleister finden, sich authentifizieren, die Reparatur arrangieren und zurückkommen, um zu berichten, dass es erledigt ist - ohne dass der Nutzer eingreifen muss.


Artikelinhalte

Ein weiterer Schwerpunkt liegt auf der Personalisierung: Alexa+ kennt bereits Einkäufe, gehörte Musik, gesehene Videos, Versandadressen und Zahlungspräferenzen. Darüber hinaus können Nutzer weitere Informationen wie Familienrezepte, wichtige Termine, Fakten oder Ernährungspräferenzen mitteilen, die Alexa+ bei künftigen Aktionen berücksichtigen kann.

Amazon plant, Alexa+ in den kommenden Wochen in den USA während einer frühen Zugangsphase einzuführen und anschließend in Wellen über die kommenden Monate zu verbreiten. In der frühen Zugangsphase werden Besitzer von Echo Show 8, 10, 15 und 21 Geräten priorisiert.

Der Preis für Alexa+ liegt bei 19,99 Dollar pro Monat, aber alle Amazon Prime-Mitglieder erhalten den Dienst kostenlos als neuen Prime-Vorteil. Dies stellt eine deutliche Aufwertung der Prime-Mitgliedschaft dar und könnte andere Anbieter wie Apple, Google und Microsoft unter Druck setzen, ihre eigenen KI-Assistenten weiterzuentwickeln.

Ausblick für die ruhigeren Tage: Andrej Karpathys "How I use LLMs"

Für die kommenden Tage habe ich noch einen Tipp: Schaut euch unbedingt das neue Video von Andrej Karpathy mit dem Titel "How I use LLMs" an.


Artikelinhalte

Der ehemalige OpenAI Mitgründer und KI-Pionier gibt darin einen umfassenden Überblick über sein persönliches LLM-Setup - von der Auswahl der richtigen Modelle über Tool-Integration bis hin zu fortgeschrittenen Voice-Anwendungen. Mit 24 informativen Kapiteln und über zwei Stunden Laufzeit ist es ein wahrer Schatz an praktischen Tipps und Strategien, die euren Alltag mit KI erheblich verbessern können.

Wie gewohnt gibt es nächste Woche wieder die neuesten Updates von mir - bis bald ;-)

Benedikt Backhaus

KI‑Dozent & Keynote Speaker | Praxisnahe KI‑Strategien & Schulungen für Mittelstand & Konzerne | 700+ Mitarbeitende geschult | 35+ Videokurse | 20+ Keynotes | ChatGPT‑Workshops & 2‑Tage‑KI-Strategie‑Sprints

6 Monate

Ich finde vor allem den Weg interessant, den OpenAI strategisch einschlägt. Noch stärkere emotionale Bindung durch den Voice Modus, da liegt aus meiner Sicht auch die Stärke von ChatGPT gegenüber anderen LLMs.

Stefan Reinhold Pohl

Human x Machine Architect | Head of L&D @Boehringer Ingelheim | Shaping Future Work with AI

6 Monate

Sora habe ich ganz kurz getestet, Text to Video ist aber kein Priotopic bei mir und hat mich nicht gleich vom Sessel „gehauen“. Claude erstmalig mit 3.7 probiert, aber die für mich spannenden features kommen erst hinter der Paywall. Ein Coding Vergleich für App spezifisches XML der gratis variante mit meinem GPT hat keine Unterschiede gezeigt. ChatGPT DeepSearch trifft meinen Bedarf am Besten und funktioniert gut. Solange das bei 10Anfragen pro Monat bleibt ist auch noch Perplexity Pro in meinem KI Stack. Elevenlabs begeistert mich nach wie vor und nutze ich ebenfalls mit bezahlten features.

Fabian Hemmerich

Co-Founder @ mytalents.ai | AI Education for Business | Shaping 25M EU Enterprises' Tomorrow 🌍

6 Monate

Beste Aslan Hemmerich

Fabian Hemmerich

Co-Founder @ mytalents.ai | AI Education for Business | Shaping 25M EU Enterprises' Tomorrow 🌍

6 Monate

Bin bei den Vibes und der Menschlichkeit bei ChatGPT sehr gespannt, wie sie das umsetzen wollen. In den Tests die wir gesehen haben hat es ja Dinge wie "aww", gepostet, wenn der User eine schlechte Nachricht übermittelt hat (Ist natürlich auch von der Sprache und Region abhängig, britisches vs amerikanisches Englisch). Da gibts einiges an Research, wie vor allem verschiedene Generationen schriftlich kommunizieren, wie emojis angenommen werden, etc. ChatGPT müsste sich hier eigentlich meiner Meinung nach stark an den jeweiligen User anpassen und wie dessen "Onlinesprache" ist. Deshalb halte ich Copilot Chat auch kaum aus, weil es dauernd diesen Smiley hier benutzt: 😊, und das auf mich mit meinem Online-Umgang ein wenig passiv aggressiv wirkt (vor allem im Kontext, wenn ich gerade Code-Probleme lösen möchte).

Zum Anzeigen oder Hinzufügen von Kommentaren einloggen

Ebenfalls angesehen

Themen ansehen