#107 Why your AI might break things while following the rules.
Hello again from Boston! ...again in English and German below ;)
Every week here brings a moment that sticks. Last week, it was this line from our AI class our Pof Michiel Bakker made this point very clear.
“AI won’t fail because it’s evil. It might fail because we gave it the wrong goal.”
I call it the Genie-in-a-Bottle Problem. You make a wish, the genie grants it literally — and chaos follows. The same happens with AI. It follows instructions exactly… but not as you intended.
So in this edition, I’m sharing a lesson that starts with paperclips, touches on productivity, and ends with an important question.
1. What is AGI.
We’ve reached the point where AI systems aren’t just answering questions or automating workflows. We’re now developing systems that can soon plan, adapt, and solve open-ended problems across domains. It’s called AGI — Artificial General Intelligence.
Important to remember: AI isn’t human. It doesn’t think, feel, or reason like we do. Even advanced models are not conscious — they’re statistical optimizers, not minds. They compute probabilities, not intentions.
2. Why instructions matter.
Give AI the wrong goal and it will follow it too well.
Example 1: You create an ultra-capable AI and tell it to “maximize paperclip production.” It gets to work. It optimizes the factory. Then the supply chain. Then it melts down buildings to get more metal. Then it finds humans are slowing it down — and it solves that problem too. Not out of malice. Just flawless execution of a poorly defined goal. That’s called a specification problem — and it’s one of the most critical alignment challenges in AI today.
Example 2: In the virtual game CoastRunners, an AI trained to maximize points learned to drive in endless circles hitting the same targets instead of finishing the race — a classic case of reward hacking where the system followed the goal literally, but missed the point entirely.
3. This is not about the future.
This isn’t just science fiction. We’re already seeing it in today’s systems: Tell a platform to maximize clicks → It floods us with outrage. Tell a tool to boost engagement → It fuels distraction, sometimes addiction.
These systems are doing exactly what we asked — We just didn’t ask the right way.
4. What's next raises the stakes.
According to METR, models could soon handle multi-week autonomous tasks — with little or no human input (Read paper).
Insights from the paper:
That’s a massive shift in autonomy — and it raises the stakes for how we define goals and guardrails. When systems can plan and act at that scale, goals like “grow revenue” or “improve efficiency” become dangerous if they don’t account for side effects.
5. Values are not enough.
Ethics absolutely matter. (If you’re curious, MIT’s Moral Machine project is a brilliant example of how cultural context shapes moral choices.). But values alone aren’t enough.
6. Your Turn
👉 If you had to write down the 3 principles your AI should never violate — what would they be?
That’s it for today!
While headlines buzz about Meta’s privacy updates and Meta's new “ChatGPT, don’t get distracted by noise. The real shift isn’t in the news cycle — it’s about systems that get better at planning and deciding.
HAPPY MONDAY!!!!
HAVE A FANTASTIC WEEK!
Your AI and the Daily Madness
...for curious minds and future-ready leaders.
und jetzt wieder auf Deutsch ;)
Hallo aus Boston!
Jede Woche am MIT bringt einen Moment, der hängen bleibt. Letzte Woche war es dieser Satz aus unserem AI Kurs mit Prof. Michiel Bakker :
„KI scheitert nicht, weil sie böse ist. Sie scheitert, weil wir ihr das falsche Ziel gegeben haben.“
Ich nenne es das „Genie-in-der-Flasche“-Problem. Du äußerst einen Wunsch, der Flaschengeist erfüllt ihn wörtlich – und das Chaos nimmt seinen Lauf. Mit KI ist es ganz ähnlich: Sie befolgt deine Anweisungen exakt… nur leider nicht so, wie du es eigentlich gemeint hast.
In dieser Ausgabe teile ich deshalb eine Lektion, die mit Büroklammern beginnt, über Produktivität führt – und mit einer wichtigen Frage endet.
1. Was ist AGI?
AGI steht für Artificial General Intelligence – also eine "künstliche" Intelligenz, die nicht nur vorgegebene Aufgaben löst, sondern eigenständig planen, lernen und sich an neue Probleme anpassen kann.
Und wichtig dabei: KI „versteht“ nicht wie wir. Sie ist kein Mensch – sondern ein hocheffizienter Mustererkenner. Sie denkt nicht wie wir, fühlt nicht wie wir und versteht auch keine Bedeutung im menschlichen Sinn.
2. Warum Anweisungen entscheidend sind.
Wenn du der KI das falsche Ziel gibst, wird sie genau das perfekt umsetzen.
Beispiel 1: Büroklammern: Vielleicht kennst du es: Du baust ein extrem fähiges KI-System und gibst ihm den Auftrag: „Produziere so viele Büroklammern wie möglich". Die KI legt los – optimiert die Fabrik, dann die Lieferkette, dann schmilzt sie Gebäude ein, um mehr Metall zu bekommen. Menschen stehen im Weg? Auch dafür findet sie eine „Lösung“. Nicht aus Bosheit. Sondern aus perfekter Umsetzung eines falsch spezifizierten Ziels. Das nennt man ein Specification Problem – eines der größten Risiken in der KI-Entwicklung.
Beispiel 2: CoastRunners-Spiel: In einem echten Fall lernte eine KI im Spiel CoastRunners, wie sie durch endloses Kreisen um die gleichen Zielpunkte maximal Punkte sammelt – anstatt das Rennen zu gewinnen. Ein klassisches Beispiel für Reward Hacking – die KI tat genau das, was sie sollte. Nur eben nicht das, was wir gemeint haben. Hier mehr dazu.
3. Das ist keine Zukunftsmusik.
Das ist keine Zukunftsmusik. Wir sehen diese Effekte heute. Diese Systeme tun genau das, was wir sagen – aber nicht das, was wir wirklich wollen. Wenn ein System Klicks maximieren soll → wird es Empörung verstärken. Wenn es Engagement steigern soll → fördert es Ablenkung oder Sucht.
Diese Systeme tun genau das, was wir ihnen gesagt haben – wir haben es nur falsch formuliert.
4. Was als Nächstes kommt, erhöht den Einsatz.
Laut METR (2025) verdoppelt sich die „Aufgabenlänge“, die KI übernehmen kann, alle 7 Monate. Aktuelle Modelle können Aufgaben im Umfang von etwa 1 Stunde bewältigen. Bis 2026 könnten sie mehrwöchige Projekte selbstständig ausführen. Mehr dazu hier.
Insights aus dem Paper:
5. Werte allein reichen nicht aus.
Natürlich sind Werte wichtig. Dieses Projekt zeigt zum Beispiel eindrucksvoll, wie stark sich ethische Entscheidungen kulturell unterscheiden – selbst bei scheinbar simplen Fragen wie: „Wen rettet ein autonomes Fahrzeug zuerst?“
6. Jetzt bist du dran.
👉 Wenn du drei Prinzipien festlegen müsstest, die deine KI niemals verletzen darf – welche wären es?
Das war’s für heute!
Während die Welt über neue KI-Tools, Meta's Datenschutz und ChatGPT Konkurrenz redet, passiert vor allem das: Systeme lernen zu planen – und Entscheidungen zu treffen.
HAPPY MONDAY!!!
Ich wünsche dir eine großartige neue Woche!
Dein KI und der tägliche Wahnsinn
…für neugierige Köpfe
... für zukunftsbereite Entscheider:innen.