Eine sanfte Einführung in die Textzusammenfassung


Unter Textzusammenfassung versteht man das Problem, eine kurze, genaue und flüssige Zusammenfassung eines längeren Textdokuments zu erstellen.

Automatische Textzusammenfassungsmethoden sind dringend erforderlich, um die ständig wachsende Menge an online verfügbaren Textdaten zu bewältigen und sowohl relevante Informationen besser zu finden als auch relevante Informationen schneller zu konsumieren.

In diesem Beitrag entdecken Sie das Problem der Textzusammenfassung bei der Verarbeitung natürlicher Sprache.

Nachdem Sie diesen Beitrag gelesen haben, wissen Sie:

  • Warum Textzusammenfassungen wichtig sind, insbesondere angesichts der Fülle an Texten, die im Internet verfügbar sind.
  • Beispiele für Textzusammenfassungen, denen Sie jeden Tag begegnen können.
  • Die Anwendung und das Versprechen von Deep-Learning-Methoden zur automatischen Textzusammenfassung.

Starten Sie Ihr Projekt mit meinem neuen Buch „Deep Learning for Natural Language Processing“, einschließlich Schritt-für-Schritt-Anleitungen und den Python-Quellcode-Dateien für alle Beispiele.

Fangen wir an.

Überblick

Dieser Beitrag ist in 5 Teile unterteilt; sie sind:

  1. Textzusammenfassung
  2. Was ist automatische Textzusammenfassung?
  3. Beispiele für Textzusammenfassungen
  4. So fassen Sie Text zusammen
  5. Deep Learning zur Textzusammenfassung

Textzusammenfassung

Es gibt eine enorme Menge an Textmaterial und es werden täglich mehr.

Denken Sie an das Internet, das aus Webseiten, Nachrichtenartikeln, Statusaktualisierungen, Blogs und vielem mehr besteht. Die Daten sind unstrukturiert und das Beste, was wir zur Navigation tun können, ist, die Suche zu verwenden und die Ergebnisse zu überfliegen.

Es besteht ein großer Bedarf, einen Großteil dieser Textdaten auf kürzere, fokussierte Zusammenfassungen zu reduzieren, die die wichtigsten Details erfassen, damit wir effektiver darin navigieren und prüfen können, ob die größeren Dokumente die gesuchten Informationen enthalten.

Textinformationen in Form digitaler Dokumente sammeln sich schnell zu riesigen Datenmengen an. Die meisten dieser großen Dokumentenmengen sind unstrukturiert: Sie unterliegen keinen Einschränkungen und wurden nicht in herkömmlichen Datenbanken organisiert. Die Bearbeitung von Dokumenten ist daher eine oberflächliche Aufgabe, vor allem aufgrund fehlender Standards.

— Seite xix, Automatische Textzusammenfassung, 2014.

Wir können unmöglich manuell Zusammenfassungen des gesamten Textes erstellen; Es besteht ein großer Bedarf an automatischen Methoden.

In ihrem 2014 erschienenen Buch zu diesem Thema mit dem Titel „Automatic Text Summarization“ nennen die Autoren sechs Gründe, warum wir automatische Textzusammenfassungstools benötigen.

  1. Zusammenfassungen verkürzen die Lesezeit.
  2. Bei der Recherche von Dokumenten erleichtern Zusammenfassungen den Auswahlprozess.
  3. Automatische Zusammenfassung verbessert die Effektivität der Indexierung.
  4. Automatische Zusammenfassungsalgorithmen sind weniger voreingenommen als menschliche Zusammenfassungsersteller.
  5. Personalisierte Zusammenfassungen sind in Frage-Antwort-Systemen nützlich, da sie personalisierte Informationen bereitstellen.
  6. Die Verwendung automatischer oder halbautomatischer Zusammenfassungssysteme ermöglicht kommerzielle abstrakte Dienste, um die Anzahl der Texte zu erhöhen, die sie verarbeiten können.

— Seiten 4-5, Automatische Textzusammenfassung, 2014.

Nachdem wir nun wissen, dass wir automatische Textzusammenfassungen benötigen, wollen wir besser definieren, was wir unter Textzusammenfassung verstehen.

Was ist automatische Textzusammenfassung?

Bei der automatischen Textzusammenfassung, oder einfach nur Textzusammenfassung, wird eine kurze und zusammenhängende Version eines längeren Dokuments erstellt.

Bei der Textzusammenfassung handelt es sich um den Prozess der Destillation der wichtigsten Informationen aus einer Quelle (oder Quellen), um eine gekürzte Version für einen bestimmten Benutzer (oder Benutzer) und eine bestimmte Aufgabe (oder Aufgaben) zu erstellen.

— Seite 1, Fortschritte in der automatischen Textzusammenfassung, 1999.

Wir (Menschen) sind in der Regel gut in dieser Art von Aufgabe, da es darum geht, zunächst die Bedeutung des Quelldokuments zu verstehen und dann die Bedeutung zu destillieren und wichtige Details in der neuen Beschreibung zu erfassen.

Das Ziel der automatischen Erstellung von Textzusammenfassungen besteht daher darin, dass die resultierenden Zusammenfassungen genauso gut sind wie die von Menschen verfassten.

Das Ideal der automatischen Zusammenfassungsarbeit besteht darin, Techniken zu entwickeln, mit denen eine Maschine Zusammenfassungen erstellen kann, die von Menschen erstellte Zusammenfassungen erfolgreich imitieren.

— Seite 2, Innovative Techniken zur Dokumentenzusammenfassung: Revolutionierung des Wissensverständnisses, 2014.

Es reicht nicht aus, nur Wörter und Phrasen zu generieren, die den Kern des Quelldokuments wiedergeben. Die Zusammenfassung sollte korrekt sein und sich wie ein neues eigenständiges Dokument flüssig lesen lassen.

Bei der automatischen Textzusammenfassung geht es darum, eine prägnante und flüssige Zusammenfassung zu erstellen und gleichzeitig den Inhalt wichtiger Informationen und die Gesamtbedeutung zu bewahren

— Textzusammenfassungstechniken: Eine kurze Umfrage, 2017.

Als nächstes wollen wir dieses Verständnis anhand einiger Beispiele konkretisieren.

Beispiele für Textzusammenfassungen

Es gibt viele Gründe und Verwendungszwecke für eine Zusammenfassung eines größeren Dokuments.

Ein Beispiel, das mir sofort in den Sinn kommt, ist die Erstellung einer prägnanten Zusammenfassung eines langen Nachrichtenartikels, aber es gibt noch viel mehr Fälle von Textzusammenfassungen, auf die wir jeden Tag stoßen können.

In ihrem 1999 erschienenen Buch zu diesem Thema mit dem Titel „Advances in Automatic Text Summarization“ stellen die Autoren eine nützliche Liste alltäglicher Beispiele für die Textzusammenfassung bereit.

  • Schlagzeilen (aus aller Welt)
  • Gliederungen (Notizen für Studierende)
  • Protokoll (einer Sitzung)
  • Vorschauen (von Filmen)
  • Synopsen (Seifenopernauflistungen)
  • Rezensionen (zu einem Buch, einer CD, einem Film usw.)
  • Zusammenfassungen (TV-Guide)
  • Biografie (Lebensläufe, Nachrufe)
  • Abkürzungen (Shakespeare für Kinder)
  • Bulletins (Wettervorhersagen/Börsenberichte)
  • O-Töne (Politiker zu einem aktuellen Thema)
  • Geschichten (Chronologien herausragender Ereignisse)

— Seite 1, Fortschritte in der automatischen Textzusammenfassung, 1999.

Es ist klar, dass wir Zusammenfassungen häufiger lesen und verwenden, als wir zunächst glauben.

So fassen Sie Text zusammen

Es gibt zwei Hauptansätze zur Zusammenfassung von Textdokumenten; sie sind:

1. Extraktive Methoden.
2. Abstraktive Methoden.

Die verschiedenen Dimensionen der Textzusammenfassung können allgemein nach Eingabetyp (einzelnes oder mehrere Dokumente), Zweck (generisch, domänenspezifisch oder abfragebasiert) und Ausgabetyp (extraktiv oder abstrakt) kategorisiert werden.

– Ein Überblick über Ansätze zur automatischen Textzusammenfassung, 2016.

Bei der extraktiven Textzusammenfassung werden Phrasen und Sätze aus dem Quelldokument ausgewählt, um die neue Zusammenfassung zu erstellen. Zu den Techniken gehört die Einstufung der Relevanz von Phrasen, um nur diejenigen auszuwählen, die für die Bedeutung der Quelle am relevantesten sind.

Bei der abstrakten Textzusammenfassung werden völlig neue Phrasen und Sätze generiert, um die Bedeutung des Quelldokuments zu erfassen. Dies ist zwar ein anspruchsvollerer Ansatz, aber letztendlich auch der Ansatz, den Menschen nutzen. Bei klassischen Methoden werden Inhalte aus dem Quelldokument ausgewählt und komprimiert.

… gibt es zwei unterschiedliche Ansätze zur automatischen Zusammenfassung: Extraktion und Abstraktion. Extraktive Zusammenfassungsmethoden funktionieren, indem sie wichtige Abschnitte des Textes identifizieren und wörtlich generieren. […] Abstraktive Zusammenfassungsmethoden zielen darauf ab, wichtiges Material auf neue Weise zu produzieren. Mit anderen Worten: Sie interpretieren und untersuchen den Text mithilfe fortschrittlicher Techniken der natürlichen Sprache, um einen neuen, kürzeren Text zu erstellen, der die wichtigsten Informationen aus dem Originaltext vermittelt

— Textzusammenfassungstechniken: Eine kurze Umfrage, 2017.

Klassischerweise sind die erfolgreichsten Textzusammenfassungsmethoden extraktiv, da dies ein einfacherer Ansatz ist, aber abstrakte Ansätze bergen die Hoffnung auf allgemeinere Lösungen für das Problem.

Deep Learning zur Textzusammenfassung

Kürzlich haben Deep-Learning-Methoden vielversprechende Ergebnisse für die Textzusammenfassung gezeigt.

Es wurden Ansätze vorgeschlagen, die von der Anwendung von Deep-Learning-Methoden für die automatische maschinelle Übersetzung inspiriert sind, insbesondere indem das Problem der Textzusammenfassung als ein Sequenz-zu-Sequenz-Lernproblem formuliert wurde.

Bei der abstrakten Textzusammenfassung geht es darum, eine Überschrift oder eine kurze Zusammenfassung bestehend aus wenigen Sätzen zu erstellen, die die wichtigsten Ideen eines Artikels oder einer Passage erfasst. […] Diese Aufgabe kann natürlich auch so umgesetzt werden, dass eine Eingabesequenz von Wörtern in einem Quelldokument einer Zielsequenz von Wörtern zugeordnet wird, die als Zusammenfassung bezeichnet wird.

– Abstrakte Textzusammenfassung mithilfe von Sequenz-zu-Sequenz-RNNs und darüber hinaus, 2016.

Diese Deep-Learning-Ansätze zur automatischen Textzusammenfassung können als abstrakte Methoden betrachtet werden und generieren eine völlig neue Beschreibung, indem sie ein für die Quelldokumente spezifisches Sprachgenerierungsmodell erlernen.

… der jüngste Erfolg von Sequenz-zu-Sequenz-Modellen, bei denen rekurrente neuronale Netze (RNNs) Text sowohl lesen als auch frei erzeugen, hat eine abstrakte Zusammenfassung möglich gemacht

– Auf den Punkt kommen: Zusammenfassung mit Pointer-Generator-Netzwerken, 2017.

Die Ergebnisse von Deep-Learning-Methoden sind im Vergleich zu extraktiven Methoden noch nicht auf dem neuesten Stand, dennoch wurden beeindruckende Ergebnisse bei eingeschränkten Problemen wie der Generierung von Schlagzeilen für Nachrichtenartikel erzielt, die mit anderen abstrakten Methoden konkurrieren oder diese übertreffen.

Das Versprechen des Ansatzes besteht darin, dass die Modelle ohne spezielle Datenaufbereitung oder Untermodelle durchgängig trainiert werden können und dass die Modelle vollständig datengesteuert sind, ohne dass spezielles Vokabular oder fachmännisch vorverarbeitete Quelldokumente vorbereitet werden müssen.

… wir schlagen einen vollständig datengesteuerten Ansatz zur abstrakten Satzzusammenfassung vor. […] Das Modell ist strukturell einfach, kann leicht durchgängig trainiert werden und lässt sich auf eine große Menge an Trainingsdaten skalieren.

– Ein neuronales Aufmerksamkeitsmodell für die Zusammenfassung abstrakter Sätze, 2015

Weiterführende Literatur

In diesem Abschnitt finden Sie weitere Ressourcen zum Thema, wenn Sie tiefer gehen möchten.

Textzusammenfassungspapiere

  • Ein Überblick über Ansätze zur automatischen Textzusammenfassung, 2016.
  • Ein Übersichtsartikel zur Textzusammenfassung, 2016.
  • Textzusammenfassungstechniken: Eine kurze Umfrage, 2017.

Papiere zur Zusammenfassung von Deep-Learning-Texten

  • Ein neuronales Aufmerksamkeitsmodell für die Zusammenfassung abstrakter Sätze, 2015
  • Abstrakte Textzusammenfassung mithilfe von Sequenz-zu-Sequenz-RNNs und darüber hinaus, 2016.
  • Auf den Punkt kommen: Zusammenfassung mit Pointer-Generator-Netzwerken, 2017.

Bücher

  • Fortschritte in der automatischen Textzusammenfassung, 1999.
  • Automatische Textzusammenfassung, 2014.
  • Innovative Techniken zur Dokumentenzusammenfassung: Revolutionierung des Wissensverständnisses, 2014.

Artikel

  • Automatische Zusammenfassung
  • Textzusammenfassung mit TensorFlow, 2016
  • Wurde Deep Learning (erfolgreich) auf die automatische Textzusammenfassung angewendet?
  • Zähmung wiederkehrender neuronaler Netze für eine bessere Zusammenfassung, 2017.
  • Deep Learning zur Textzusammenfassung

Zusammenfassung

In diesem Beitrag haben Sie das Problem der Textzusammenfassung bei der Verarbeitung natürlicher Sprache entdeckt.

Konkret haben Sie gelernt:

  • Warum Textzusammenfassungen wichtig sind, insbesondere angesichts der Fülle an Texten, die im Internet verfügbar sind.
  • Beispiele für Textzusammenfassungen, denen Sie jeden Tag begegnen können.
  • Die Anwendung und das Versprechen von Deep-Learning-Methoden zur automatischen Textzusammenfassung.

Haben Sie Fragen?
Stellen Sie Ihre Fragen in den Kommentaren unten und ich werde mein Bestes tun, um sie zu beantworten.

Verwandte Artikel