Encoder-Decoder-Deep-Learning-Modelle für die Textzusammenfassung
Bei der Textzusammenfassung geht es darum, aus größeren Textdokumenten kurze, genaue und flüssige Zusammenfassungen zu erstellen.
In jüngster Zeit haben sich Deep-Learning-Methoden bei der abstrakten Herangehensweise an die Textzusammenfassung als wirksam erwiesen.
In diesem Beitrag entdecken Sie drei verschiedene Modelle, die auf der effektiven Encoder-Decoder-Architektur aufbauen, die für die Sequenz-zu-Sequenz-Vorhersage in der maschinellen Übersetzung entwickelt wurde.
Nachdem Sie diesen Beitrag gelesen haben, wissen Sie:
- Das Facebook AI Research-Modell, das das Encoder-Decoder-Modell mit einem Convolutional Neural Network Encoder verwendet.
- Das IBM Watson-Modell, das das Encoder-Decoder-Modell mit zeigender und hierarchischer Aufmerksamkeit verwendet.
- Das Stanford/Google-Modell, das das Encoder-Decoder-Modell mit Pointing und Coverage verwendet.
Starten Sie Ihr Projekt mit meinem neuen Buch „Deep Learning for Natural Language Processing“, einschließlich Schritt-für-Schritt-Anleitungen und den Python-Quellcode-Dateien für alle Beispiele.
Fangen wir an.
Modellübersicht
Wir werden uns drei verschiedene Modelle zur Textzusammenfassung ansehen, die nach den Organisationen benannt sind, mit denen die Autoren der Modelle zum Zeitpunkt des Verfassens dieses Artikels verbunden waren:
- Facebook-Modell
- IBM-Modell
- Google-Modell
Facebook-Modell
Dieser Ansatz wurde von Alexander Rush et al. beschrieben. von Facebook AI Research (FAIR) in ihrem 2015 erschienenen Artikel „A Neural Attention Model for Abstractive Sentence Summarization“.
Das Modell wurde für die Satzzusammenfassung entwickelt, insbesondere:
Bei einem gegebenen Eingabesatz besteht das Ziel darin, eine komprimierte Zusammenfassung zu erstellen. […] Ein Summierer nimmt x als Eingabe und gibt einen verkürzten Satz y der Länge N < M aus. Wir gehen davon aus, dass die Wörter in der Zusammenfassung ebenfalls aus demselben Vokabular stammen
Dies ist ein einfacheres Problem als beispielsweise die vollständige Zusammenfassung eines Dokuments.
Der Ansatz folgt dem allgemeinen Ansatz der neuronalen maschinellen Übersetzung mit einem Encoder und einem Decoder. Es werden drei verschiedene Kodierungen untersucht:
- Bag-of-Words-Encoder. Der Eingabesatz wird mithilfe eines Bag-of-Words-Modells codiert, wobei Informationen zur Wortreihenfolge verworfen werden.
- Faltungsencoder. Es wird eine Worteinbettungsdarstellung verwendet, gefolgt von zeitverzögerten Faltungsschichten über Wörter hinweg und Pooling-Schichten.
- Aufmerksamkeitsbasierter Encoder. Eine Worteinbettungsdarstellung wird mit einem einfachen Aufmerksamkeitsmechanismus über einem Kontextvektor verwendet und bietet eine Art weiche Ausrichtung zwischen Eingabesatz und Ausgabezusammenfassung.
Bei der Generierung von Textzusammenfassungen kommt dann eine Strahlsuche zum Einsatz, die dem Ansatz bei der maschinellen Übersetzung nicht unähnlich ist.
Das Modell wurde anhand des Standarddatensatzes DUC-2014 evaluiert, der die Erstellung von Zusammenfassungen mit etwa 14 Wörtern für 500 Nachrichtenartikel umfasst.
Die Daten für diese Aufgabe bestehen aus 500 Nachrichtenartikeln der Dienste „New York Times“ und „Associated Press Wire“, jeweils gepaart mit 4 verschiedenen, von Menschen erstellten Referenzzusammenfassungen (keine eigentlichen Schlagzeilen), begrenzt auf 75 Byte.
Das Modell wurde auch anhand des Gigaword-Datensatzes von etwa 9,5 Millionen Nachrichtenartikeln ausgewertet, wobei anhand des ersten Satzes des Nachrichtenartikels eine Schlagzeile generiert wurde.
Zu beiden Problemen wurden Ergebnisse unter Verwendung der ROUGE-1-, ROUGE-2- und ROUGE-L-Maßnahmen gemeldet, und es wurde gezeigt, dass das abgestimmte System mit dem DUC-2004-Datensatz Ergebnisse auf dem neuesten Stand der Technik erzielt.
Das Modell zeigt erhebliche Leistungssteigerungen bei der DUC-2004-Freigabeaufgabe im Vergleich zu mehreren starken Basislinien.
IBM-Modell
Dieser Ansatz wurde von Ramesh Nallapati et al. beschrieben. von IBM Watson in ihrem 2016 erschienenen Artikel „Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond“.
Der Ansatz basiert auf dem rekurrenten neuronalen Encoder-Decoder-Netzwerk mit Aufmerksamkeit, das für die maschinelle Übersetzung entwickelt wurde.
Unser Basismodell entspricht dem neuronalen maschinellen Übersetzungsmodell, das in Bahdanau et al. verwendet wurde. (2014). Der Encoder besteht aus einem bidirektionalen GRU-RNN (Chung et al., 2014), während der Decoder aus einem unidirektionalen GRU-RNN mit der gleichen Hidden-State-Größe wie der Encoder und einem Aufmerksamkeitsmechanismus über der Quelle besteht -versteckte Zustände und eine Soft-Max-Ebene über dem Zielvokabular, um Wörter zu generieren.
Zusätzlich zu einer Worteinbettung für getaggte Wortarten und diskretisierte TF- und IDF-Merkmale wird eine Worteinbettung für Eingabewörter verwendet. Diese umfassendere Eingabedarstellung wurde entwickelt, um dem Modell eine bessere Leistung bei der Identifizierung wichtiger Konzepte und Entitäten im Quelltext zu verleihen.
Das Modell verwendet außerdem einen erlernten Schaltermechanismus, um zu entscheiden, ob ein Ausgabewort generiert werden soll oder auf ein Wort in der Eingabesequenz verwiesen werden soll, das für die Verarbeitung seltener und niederfrequenter Wörter konzipiert ist.
… der Decoder ist mit einem „Schalter“ ausgestattet, der bei jedem Zeitschritt zwischen der Verwendung des Generators oder eines Zeigers entscheidet. Wenn der Schalter eingeschaltet ist, erzeugt der Decoder auf normale Weise ein Wort aus seinem Zielvokabular. Wenn der Schalter jedoch ausgeschaltet ist, generiert der Decoder stattdessen einen Zeiger auf eine der Wortpositionen in der Quelle.
Schließlich ist das Modell insofern hierarchisch, als der Aufmerksamkeitsmechanismus sowohl auf Wortebene als auch auf Satzebene auf die codierten Eingabedaten wirkt.
Insgesamt 6 Varianten des Ansatzes wurden anhand des DUC-2003/2004-Datensatzes und des Gigaword-Datensatzes evaluiert, die beide zur Evaluierung des Facebook-Modells verwendet wurden.
Das Modell wurde auch anhand eines neuen Korpus von Nachrichtenartikeln der Websites CNN und Daily Mail evaluiert.
Der IBM-Ansatz erzielte im Vergleich zum Facebook-Ansatz und anderen beeindruckende Ergebnisse bei den Standarddatensätzen.
… wir wenden den Aufmerksamkeits-Encoder-Decoder für die Aufgabe der abstrakten Zusammenfassung mit sehr vielversprechenden Ergebnissen an und übertreffen die Ergebnisse auf dem neuesten Stand der Technik bei zwei verschiedenen Datensätzen deutlich.
Google-Modell
Dieser Ansatz wurde von Abigail See et al. beschrieben. von Stanford in ihrem Artikel „Get To The Point: Summarization with Pointer-Generator Networks“ aus dem Jahr 2017.
Ein besserer Name wäre vielleicht „Stanford-Modell“, aber ich versuche, diese Arbeit mit dem Beitrag des Co-Autors Peter Liu (von Google Brain) aus dem Jahr 2016 mit dem Titel „Textzusammenfassung mit TensorFlow“ im Google Research Blog in Verbindung zu bringen.
In ihrem Blogbeitrag schreiben Peter Liu et al. bei Google Brain stellt ein TensorFlow-Modell vor, das das für die maschinelle Übersetzung verwendete Encoder-Decoder-Modell direkt anwendet, um Zusammenfassungen kurzer Sätze für den Gigaword-Datensatz zu generieren. Sie behaupten, die Ergebnisse des Modells seien besser als auf dem neuesten Stand der Technik, obwohl außer einem mit dem Code bereitgestellten Textdokument keine formelle Beschreibung der Ergebnisse vorgelegt wird.
In ihrer Arbeit schreiben Abigail See et al. beschreiben zwei Hauptmängel der Deep-Learning-Ansätze zur abstrakten Textzusammenfassung: Sie produzieren sachliche Fehler und sie wiederholen sich.
Obwohl diese Systeme vielversprechend sind, zeigen sie unerwünschtes Verhalten, wie z. B. die ungenaue Wiedergabe sachlicher Details, die Unfähigkeit, mit Wörtern außerhalb des Wortschatzes (OOV) umzugehen, und Wiederholungen
Ihr Ansatz ist auf die Zusammenfassung mehrerer Sätze statt auf die Zusammenfassung einzelner Sätze ausgelegt und wird auf den CNN/Daily Mail-Datensatz angewendet, der zur Demonstration des IBM-Modells verwendet wird. Artikel in diesem Datensatz bestehen im Durchschnitt aus etwa 39 Sätzen.
Es wird ein grundlegendes Encoder-Decoder-Modell mit Worteinbettung, bidirektionalen LSTMs für die Eingabe und Aufmerksamkeit verwendet. Es wird eine Erweiterung untersucht, die das Zeigen auf Wörter in den Eingabedaten verwendet, um Wörter außerhalb des Vokabulars anzusprechen, ähnlich dem im IBM-Modell verwendeten Ansatz. Schließlich wird ein Abdeckungsmechanismus verwendet, um Wiederholungen in der Ausgabe zu reduzieren.
Die Ergebnisse werden mithilfe der ROUGE- und METEOR-Scores gemeldet und zeigen eine hochmoderne Leistung im Vergleich zu anderen abstrakten Methoden und Scores, die extraktive Modelle in Frage stellen.
Unser Zeigergeneratormodell mit Abdeckung verbessert die ROUGE- und METEOR-Werte weiter und übertrifft das beste [im Vergleich] abstrakte Modell überzeugend …
Die Ergebnisse zeigen, dass das grundlegende Seq-to-Seq-Modell (Encoder-Decoder mit Aufmerksamkeit) verwendet werden kann, aber keine konkurrenzfähigen Ergebnisse liefert, was den Nutzen ihrer Erweiterungen des Ansatzes zeigt.
Wir stellen fest, dass unsere beiden Basismodelle in Bezug auf ROUGE und METEOR eine schlechte Leistung erbringen, und tatsächlich scheint die größere Vokabulargröße (150 KB) nicht zu helfen. … Sachliche Details werden häufig falsch wiedergegeben, wobei häufig ein ungewöhnliches (aber im Wortschatz enthaltenes) Wort durch eine gebräuchlichere Alternative ersetzt wird.
Weiterführende Literatur
In diesem Abschnitt finden Sie weitere Ressourcen zum Thema, wenn Sie tiefer in die Materie eintauchen möchten.
- Ein neuronales Aufmerksamkeitsmodell für die Zusammenfassung abstrakter Sätze (siehe Code), 2015.
- Abstrakte Textzusammenfassung mithilfe von Sequenz-zu-Sequenz-RNNs und darüber hinaus, 2016.
- Get To The Point: Summarization with Pointer-Generator Networks (siehe Code), 2017.
- Textzusammenfassung mit TensorFlow (siehe Code), 2016
- Zähmung wiederkehrender neuronaler Netze für eine bessere Zusammenfassung, 2017.
Zusammenfassung
In diesem Beitrag haben Sie Deep-Learning-Modelle für die Textzusammenfassung entdeckt.
Konkret haben Sie gelernt:
- Das Facebook AI Research-Modell, das ein Encoder-Decoder-Modell mit einem Convolutional Neural Network Encoder verwendet.
- Das IBM Watson-Modell, das das Encoder-Decoder-Modell mit zeigender und hierarchischer Aufmerksamkeit verwendet.
- Das Stanford/Google-Modell, das das Encoder-Decoder-Modell mit Pointing und Coverage verwendet.
Haben Sie Fragen?
Stellen Sie Ihre Fragen in den Kommentaren unten und ich werde mein Bestes tun, um sie zu beantworten.