AI Chat with your own Data

AI Chat with your own Data

Die Kunst der Überlappung in Retrieval-unterstützten Generierungsmodellen (RAG).

Bei AI-gesteuerten Chatbots für die unternehmenseigenen Daten ist Präzision der Schlüssel für die Qualität der Ergebnisse. Der Gesprächsfluss ist ebenso wichtig, sofern man sich mit seinen Daten unterhalten will, statt diese nur zu durchsuchen.

Ein oft ungenutzter Aspekt ist die "Überlappung" in Retrieval-Augmented Generation (RAG)-Modellen. Dies ist nicht nur eine Einstellung, sondern der Dreh- und Angelpunkt, um nahtlose und kontextreiche Interaktionen zu gewährleisten. Dieser "Overlap" garantiert, dass der AI-Bot nicht den Faden verliert, wenn wir uns mit der KI im Dialogstil unterhalten. Denn so gelangen wir sukzessive zu dem Ergebnis, das wir uns wünschen.

Die Wahl der richtigen Überlappung bedeutet eine Gratwanderung zwischen Redundanz und Relevanz. Bei zu wenig besteht die Gefahr, dass der Kontext verloren geht; bei zu viel ertrinken wir in Daten (und verschwenden Energie u. Kosten). Das perfekte Gleichgewicht verbessert sowohl das Benutzererlebnis als auch die Effizienz des Modells und führt zu Gesprächen, die sich natürlich und informativ anfühlen.

Auf unserer Suche nach einer KI, die uns wirklich versteht und nicht den Faden verliert, sollten wir also die Details nicht übersehen, wenn wir einen Chat Bot für unsere Kunden programmieren. Denn manchmal sind es die kleinsten Rädchen, die die besten Resultate erzielen.

Aber ist das nicht egal, wenn das Kontextfenster nur groß genug ist? Je größer der Kontext, desto einfacher, oder?

Hier die aktuellen LLM Anbieter nach Kontextfenstergröße (Token):

  • LTM-1 von Magic: 5 Million Token
  • Gemini 1.5 von Google: 1 Million Token
  • GPT-4 Turbo von OpenAI: 128.000 Token
  • Claude 2.1 von Anthropic: 200.000 Token
  • Mixtral 8x7B von Mistral AI: 32.000 Token
  • Llama 2 von Meta: 4.096 Token

Ja, vielleicht,... aber. Die Nachteile großer Kontextfenster sind erheblich. Z. B.: fehlende Präzision, sehr hoher Ressourcen- und Energieverbrauch, Risiko der Informationsredundanz, langsame Performance und mangelnde Flexibilität im Vergleich zu RAG-Modellen.

RAG-Modelle nutzen relevante Informationen effizienter, führen zu flüssigeren Gesprächen und einer intelligenteren Nutzung von Ressourcen. Sie sind schneller und können leichter in kleine Architekturen (Mobile Devices) integriert werden.

Hier zwei Links zu diesem Thema, die interessant sind:


Ilian Popov

IT Business Analyst | Freelance AI Consultant & Lecturer | Self-Taught Developer

1 Jahr

Overlap und überhaupt fixed chunk size ist bei Weitem nicht alles. Bei Interesse hätte ich da folgende Leseempfehlung (inkl. dort verlinktem YT-Video): Semantic Chunking https://docs.llamaindex.ai/en/stable/examples/node_parsers/semantic_chunking/

Detlev Gerhardt

KI-Strategie bis Umsetzung | TÜV-zertifizierter KI-Trainer | Keynotes & Workshops | 20+ Jahre Branchenexpertise | Ihr Wegbereiter für unternehmensspezifischen KI-Fortschritt 🚀

1 Jahr

Vielen Dank Alexander für die Erläuterungen. Aber hofft hat man viele Daten (= Hintergrundinfos) für einen Chatbot und da braucht man doch ein grosses Kontextfenster, oder? Bei GPT4 bin ich da schon mehrmals an die Grenzen gestossen.

Zum Anzeigen oder Hinzufügen von Kommentaren einloggen

Ebenfalls angesehen

Themen ansehen