RAG III verstehen: Fusion Retrieval und Reranking


Schauen Sie sich die vorherigen Artikel dieser Serie an:

  • RAG verstehen Teil I: Warum es benötigt wird

  • RAG verstehen Teil II: Wie klassisches RAG funktioniert

Nachdem wir bereits vorgestellt haben, was RAG ist, warum es im Kontext von Large Language Models (LLMs) wichtig ist und wie ein klassisches Retriever-Generator-System für RAG aussieht, untersucht der dritte Beitrag der Reihe „Understanding RAG“ einen verbesserten Ansatz Aufbau von RAG-Systemen: Fusionsrückgewinnung.

Bevor wir tiefer eintauchen, lohnt es sich, noch einmal kurz auf das grundlegende RAG-Schema zurückzukommen, das wir in Teil II dieser Serie untersucht haben.

Fusionsabruf erklärt

Fusion-Retrieval-Ansätze umfassen die Fusion oder Aggregation mehrerer Informationsflüsse während der Retrieval-Phase eines RAG-Systems. Denken Sie daran, dass während der Abrufphase der Retriever – eine Informationsabfrage-Engine – die ursprüngliche Benutzeranfrage für das LLM aufnimmt, sie in eine numerische Vektordarstellung kodiert und diese verwendet, um in einer umfangreichen Wissensdatenbank nach Dokumenten zu suchen, die stark mit der Anfrage übereinstimmen. Anschließend wird die ursprüngliche Abfrage um zusätzliche Kontextinformationen erweitert, die sich aus den abgerufenen Dokumenten ergeben, und schließlich wird die erweiterte Eingabe an den LLM gesendet, der eine Antwort generiert.

Durch die Anwendung von Fusionsschemata in der Abrufphase kann der zusätzlich zur ursprünglichen Abfrage hinzugefügte Kontext kohärenter und kontextbezogener werden, wodurch die vom LLM generierte endgültige Antwort weiter verbessert wird. Fusion Retrieval nutzt das Wissen aus mehreren abgerufenen Dokumenten (Suchergebnissen) und kombiniert es in einem aussagekräftigeren und genaueren Kontext. Das uns bereits bekannte grundlegende RAG-Schema kann jedoch auch mehrere Dokumente aus der Wissensdatenbank abrufen, nicht unbedingt nur eines. Was ist also der Unterschied zwischen den beiden Ansätzen?

Der Hauptunterschied zwischen klassischem RAG und Fusion Retrieval liegt darin, wie die mehreren abgerufenen Dokumente verarbeitet und in die endgültige Antwort integriert werden. Im klassischen RAG werden die Inhalte der abgerufenen Dokumente einfach verkettet oder allenfalls extraktiv zusammengefasst und dann als zusätzlicher Kontext in das LLM eingespeist, um die Antwort zu generieren. Es werden keine fortgeschrittenen Fusionstechniken angewendet. Mittlerweile werden beim Fusion Retrieval speziellere Mechanismen verwendet, um relevante Informationen über mehrere Dokumente hinweg zu kombinieren. Dieser Fusionsprozess kann entweder im Augmentationsstadium (Abrufstadium) oder sogar im Generierungsstadium stattfinden.

  • Fusion in der Erweiterungsphase besteht aus der Anwendung von Techniken zum Neuordnen, Filtern oder Kombinieren mehrerer Dokumente, bevor sie an den Generator übergeben werden. Zwei Beispiele hierfür sind das Neuranking, bei dem Dokumente nach Relevanz bewertet und sortiert werden, bevor sie zusammen mit der Benutzeraufforderung in das Modell eingespeist werden, und die Aggregation, bei der die relevantesten Informationen erfasst werden aus jedem Dokument werden in einem einzigen Kontext zusammengeführt. Die Aggregation wird durch klassische Informationsabrufmethoden wie TF-IDF (Term Frequency – Inverse Document Frequency), Operationen auf Einbettungen usw. angewendet.
  • Bei der Fusion in der Generierungsphase verarbeitet der LLM (der Generator) jedes abgerufene Dokument unabhängig – einschließlich der Benutzeraufforderung – und fusioniert die Informationen mehrerer Verarbeitungsjobs während der Generierung der endgültigen Antwort. Im Großen und Ganzen wird die Augmentationsphase in RAG Teil der Generierungsphase. Eine gängige Methode in dieser Kategorie ist Fusion-in-Decoder (FiD), die es dem LLM ermöglicht, jedes abgerufene Dokument separat zu verarbeiten und dann seine Erkenntnisse zu kombinieren, während die endgültige Antwort generiert wird. Der FiD-Ansatz wird in diesem Dokument ausführlich beschrieben.

Reranking ist einer der einfachsten und zugleich effektivsten Fusionsansätze, um Informationen aus mehreren abgerufenen Quellen sinnvoll zu kombinieren. Im nächsten Abschnitt wird kurz erklärt, wie es funktioniert:

So funktioniert das Reranking

Bei einem Reranking-Prozess wird der anfängliche Satz von Dokumenten, die vom Retriever abgerufen wurden, neu geordnet, um die Relevanz für die Benutzerabfrage zu verbessern, wodurch die Bedürfnisse des Benutzers besser berücksichtigt und die Gesamtqualität der Ausgabe verbessert wird. Der Retriever übergibt die abgerufenen Dokumente an eine algorithmische Komponente namens ranker, die die abgerufenen Ergebnisse anhand von Kriterien wie erlernten Benutzerpräferenzen neu bewertet und eine Sortierung der Dokumente anwendet, um die Relevanz der präsentierten Ergebnisse zu maximieren an diesen bestimmten Benutzer. Mechanismen wie die gewichtete Durchschnittsbildung oder andere Formen der Bewertung werden verwendet, um die Dokumente an den höchsten Positionen des Rankings zu kombinieren und zu priorisieren, sodass Inhalte aus Dokumenten, die ganz oben stehen, mit größerer Wahrscheinlichkeit Teil des endgültigen, kombinierten Kontexts werden als Inhalte aus Dokumenten Dokumente werden auf niedrigeren Plätzen eingestuft.

Das folgende Diagramm veranschaulicht den Reranking-Mechanismus:

Lassen Sie uns ein Beispiel beschreiben, um die Neubewertung im Kontext des Tourismus in Ostasien besser zu verstehen. Stellen Sie sich einen Reisenden vor, der ein RAG-System nach „Top-Reisezielen für Naturliebhaber in Asien“ abfragt. Ein erstes Abrufsystem könnte eine Liste von Dokumenten zurückgeben, darunter allgemeine Reiseführer, Artikel über beliebte asiatische Städte und Empfehlungen für Naturparks. Ein Reranking-Modell, möglicherweise unter Verwendung zusätzlicher reisespezifischer Präferenzen und Kontextdaten (wie bevorzugte Aktivitäten, zuvor gemochte Aktivitäten oder frühere Reiseziele), kann diese Dokumente jedoch neu ordnen, um den für diesen Benutzer relevantesten Inhalt zu priorisieren. Es könnte ruhige Nationalparks, weniger bekannte Wanderwege und umweltfreundliche Touren hervorheben, die möglicherweise nicht ganz oben auf der Vorschlagsliste aller stehen, und so naturliebenden Touristen wie unserem Ziel Ergebnisse liefern, die „direkt auf den Punkt“ kommen Benutzer.

Zusammenfassend lässt sich sagen, dass beim Reranking mehrere abgerufene Dokumente auf der Grundlage zusätzlicher Benutzerrelevanzkriterien neu organisiert werden, um den Prozess der Inhaltsextraktion auf die Dokumente zu konzentrieren, die an erster Stelle stehen, und dadurch die Relevanz nachfolgend generierter Antworten zu verbessern.

Verwandte Artikel