Könnte die Google-Passagenindizierung BERT nutzen?
Veröffentlicht: 2020-11-19Es ist 12 Monate her, seit Google ein neues Update namens BERT in der Produktionssuche angekündigt hat, und es sollte keine Überraschung sein, dass das jüngste Search On-Ereignis, das fast am Vorabend des ersten Geburtstags von BERT in der Produktion stattfand, so viel Gerede über große Fortschritte und Durchbrüche bei der Verwendung von AI und enthielt BERT im vergangenen Jahr.
Ein Rückblick darauf, was BERT ist
Zusammenfassend ist das Google BERT-Update vom Oktober 2019 ein Update für maschinelles Lernen, das Google dabei helfen soll, Abfragen und Inhalte besser zu verstehen, und die Nuancen in polysemischen Wörtern durch ein besseres Verständnis der „Wortbedeutung“ (Kontext) eindeutig macht. Das erste Update betraf nur 10% der englischen Abfragen sowie Snippets in den Gebieten, in denen sie erschienen.
Wichtig ist, dass das erste Update der BERT-Suche in erster Linie der Begriffsklärung sowie der Textextraktion und -zusammenfassung in vorgestellten Snippets diente. Der Begriff der Begriffsklärung galt hauptsächlich für Sätze und Phrasen.

Innerhalb eines Monats nach der Ankündigung der Produktionssuche von BERT begann die Einführung in vielen weiteren Ländern, obwohl immer noch nur 10% der Anfragen in allen Regionen betroffen waren.
Die Ankündigung vom Oktober 2019 sorgte zunächst für Aufsehen in der SEO-Welt, nicht zuletzt, weil laut Google bei der Ankündigung von BERT das Update den „größten Sprung nach vorne in den letzten fünf Jahren und einen der größten Sprünge nach vorne in der Geschichte darstellte der Suche. "
Dies war eindeutig die wichtigste Ankündigung seit RankBrain und keine Übertreibung - und das nicht nur für die Welt der Websuche. Die Entwicklungen im Zusammenhang mit BERT in den letzten 12 Monaten auf dem Gebiet des Verständnisses natürlicher Sprache (ein halbes Jahrhundert altes Studiengebiet) hatten das Lernen in einem Jahr wohl mehr vorangebracht als die vorherigen fünfzig zusammen.
Der Grund dafür war ein weiteres BERT - eine wissenschaftliche Arbeit von Google-Forschern Devlin et al. Aus dem Jahr 2018 mit dem Titel „BERT: Pre-Training von tiefen bidirektionalen Transformatoren für das Sprachverständnis“. Beachten Sie, dass ich hier auf mehrere wissenschaftliche Arbeiten verweisen werde. Eine Liste der Quellen und Ressourcen finden Sie am Ende dieses Artikels
BERT (das Papier) wurde später für andere Mitglieder der Community des maschinellen Lernens als Open-Source-Lösung bereitgestellt und trug zweifellos maßgeblich zum dramatischen Fortschritt des Verständnisses der Computerlinguistik in der Welt bei.
Die Grundidee von BERT besteht darin, ein bidirektionales Pre-Training für ein Kontextfenster von Wörtern aus einer großen Textsammlung (En Wikipedia und BookCorpus) zu verwenden, wobei ein Transformator-Aufmerksamkeitsmechanismus verwendet wird, um alle Wörter links und links zu sehen rechts von einem Ziel in einem verschiebbaren Kontextfenster gleichzeitig für einen größeren Kontext.
Nach dem Training kann BERT als Grundlage verwendet und dann auf andere detailliertere Aufgaben abgestimmt werden, wobei der Schwerpunkt der Forschung auf dem nachgelagerten Verständnis natürlicher Fragen sowie auf Fragen und Antworten liegt.
Ein Beispiel für die Klarheit des 'Kontextfensters' für 'Wortbedeutung'
Da der Umfang eines Kontextfensters ein wichtiges Konzept ist, habe ich ein Beispiel zur Veranschaulichung gegeben:
Wenn ein Kontextfenster 10 Wörter lang ist und sich das Zielwort an Position 6 in einem verschiebbaren „Kontextfenster“ von 10 Wörtern befindet, kann BERT nicht nur die Wörter 1-5 links, sondern auch die Wörter 7-10 rechts sehen Gleichzeitig werden die Wortpaare der Aufmerksamkeit quadratisch verwendet.
Dies ist ein großer Fortschritt. Frühere Modelle waren unidirektional, dh sie konnten nur die Wörter 1-5 links sehen, aber nicht 7-10, bis sie diese Wörter im Schiebefenster erreichten. Die Verwendung dieser bidirektionalen Natur und die gleichzeitige Aufmerksamkeit bieten einen vollständigen Kontext für ein bestimmtes Wort (natürlich innerhalb der Grenzen der Länge des Fensters).
Zum Beispiel wird das Wort "Bank" anders verstanden, wenn die anderen Wörter im Kontextfenster auch "Fluss" oder "Geld" enthalten. Die gleichzeitig vorkommenden Wörter im Kontextfenster ergänzen die Bedeutung und plötzlich wird „Bank“ als „Finanzbank“ oder „Flussufer“ verstanden.
Zurück zur Ankündigung des Google BERT-Updates vom Oktober 2019
Die Ankündigung der Produktionssuche vom 25. Oktober 2019 folgte einem hektischen BERT-Jahr in der Sprachforschungsgemeinschaft.
In der Zeit zwischen 2018 und 2019 erschienen alle Arten von Sesamstraßen-Charakteren mit dem Namen BERT-Modelle, einschließlich ERNIE, aus Baidu. Facebook und Microsoft waren auch damit beschäftigt, BERT-ähnliche Modelle zu entwickeln und BERT in jeder Runde zu verbessern. Facebook behauptete, sein ROBERTA-Modell sei einfach eine robuster trainierte Version von BERT. (Microsoft sagt, dass es BERT in Bing seit April 2019 verwendet,)
Big-Tech-KI-Teams haben sich in verschiedenen Bestenlisten für maschinell lernende Sprachaufgaben gegenseitig übersprungen, darunter SQuAD (Stanford Question and Answer Dataset), GLUE (Evaluation des allgemeinen Sprachverständnisses) und RACE (Reading Comprehension from Evaluations). im Laufe der Zeit die Benchmarks für das Verständnis der menschlichen Sprache zu übertreffen.
Aber was ist mit 2020?
Während die SEO-Welt in Bezug auf das Thema BERT (bis zu diesem Monat) in letzter Zeit ruhiger war, hat sich die Begeisterung für die Welt des tiefen Lernens und der Verarbeitung natürlicher Sprachen rund um BERT im Jahr 2020 eher beschleunigt als verringert.
Die Entwicklungen im Bereich der KI und des Verständnisses natürlicher Sprachen für 2019/2020 sollten SEOs unbedingt wieder zu ihrem BERT-Stalking-Spiel machen. Insbesondere angesichts der Entwicklungen in dieser Woche, insbesondere nach Ankündigungen der Online-Veranstaltung Search On von Google.
BERT bedeutet nicht immer "BERT"
Ein wichtiger Hinweis, bevor wir fortfahren:
"BERT-like" - ein beschreibender Begriff für die Vorschulung eines großen unbeschrifteten Textmodells zu "Sprache" und die anschließende Verwendung des Transferlernens über Transformatortechnologien zur Feinabstimmung von Modellen unter Verwendung einer Reihe detaillierterer Aufgaben.
Während das Google-Update für 2019 als BERT bezeichnet wurde, war es eher ein Verweis auf eine Methodik, die jetzt in Teilen der Suche und im Bereich der maschinellen Lernsprache insgesamt verwendet wird, als ein einziges algorithmisches Update pro Wort, seit BERT und BERT-ähnlich, sogar im Jahr 2019 wurde in der Welt des maschinellen Lernens fast als Adjektiv bekannt.
Zurück zu Googles KI in Suchankündigungen
"Mit den jüngsten Fortschritten in der KI machen wir größere Fortschritte bei der Verbesserung von Google als in den letzten zehn Jahren. Daher ist es für Sie noch einfacher, genau das zu finden, wonach Sie suchen", sagte Prabhakar Raghavan während des aktuelles Search On-Ereignis.
Und er übertreibt nicht, da Google in Kürze einige aufregende neue Funktionen für die Suche vorstellte, darunter Verbesserungen an Rechtschreibalgorithmen, Konversationsagenten, Bildtechnologie und Brummen für Google Assistant.
Gute Nachrichten auch im Bereich der BERT-Nutzung. Eine enorme Zunahme der Nutzung von nur 10% der Anfragen auf fast jede Anfrage auf Englisch.
"Heute freuen wir uns, Ihnen mitteilen zu können, dass BERT jetzt in fast jeder Anfrage auf Englisch verwendet wird, damit Sie qualitativ hochwertigere Ergebnisse für Ihre Fragen erhalten."
(Prabhakar Raghavan, 2020)
Passage-Indizierung
Abgesehen von den Nachrichten zur Erweiterung der BERT-Nutzung hat eine weitere Ankündigung die SEO-Welt in Raserei versetzt.
Das Thema "Passage-Indizierung", bei dem Google bestimmte Passagen aus Teilen von Seiten und Dokumenten als Antwort auf einige Fragen bewertet und anzeigt.
Googles Raghavan erklärt:
„Sehr spezifische Suchanfragen können am schwierigsten zu finden sein, da manchmal der einzelne Satz, der Ihre Frage beantwortet, tief in einer Webseite vergraben ist. Wir haben kürzlich einen Durchbruch im Ranking erzielt und können jetzt nicht nur Webseiten, sondern auch einzelne Passagen der Seiten indizieren. Durch ein besseres Verständnis der Relevanz bestimmter Passagen, nicht nur der Gesamtseite, können wir die Informationen finden, nach denen Sie suchen. Diese Technologie wird 7 Prozent der Suchanfragen in allen Sprachen verbessern, wenn wir sie weltweit einführen. “
(Prabhakar, 2020)
Ein Beispiel wurde bereitgestellt, um die Auswirkungen der bevorstehenden Änderung zu veranschaulichen.

„Mit unserer neuen Technologie können wir wichtige Passagen auf einer Webseite besser identifizieren und verstehen. Dies hilft uns dabei, Inhalte zu veröffentlichen, die ansonsten möglicherweise nicht als relevant angesehen werden, wenn eine Seite nur als Ganzes betrachtet wird… “, erklärte Google letzte Woche.
Mit anderen Worten, eine gute Antwort kann durchaus in einer einzelnen Passage oder einem Absatz in einem ansonsten breiten Themendokument oder einer zufälligen Klappentext-Seite ohne großen Fokus gefunden werden. Betrachten Sie zum Beispiel die vielen Blog-Beiträge und Meinungsbeiträge, von denen es viele mit viel irrelevantem Inhalt oder gemischten Themen in einem noch weitgehend unstrukturierten und ungleichen Netz mit immer mehr Inhalten gibt.
Es heißt Passage-Indizierung, aber nicht so, wie wir es kennen
Die Ankündigung der „Passage-Indizierung“ sorgte in der SEO-Community für einige Verwirrung, da mehrere die Änderung zunächst als „Indizierung“ interpretierten.
Eine natürliche Annahme, die zu treffen ist, da der Name "Indizierung von Passagen" impliziert ... ähm ... "Passage" und "Indizierung".
Natürlich stellten einige SEOs die Frage, ob einzelne Passagen anstelle einzelner Seiten zum Index hinzugefügt würden, aber dies scheint nicht der Fall zu sein, da Google klargestellt hat, dass sich das bevorstehende Update tatsächlich eher auf ein Passagenranking-Problem als auf ein Indexierungsproblem bezieht.
"Wir haben kürzlich einen Durchbruch im Ranking erzielt und können jetzt nicht nur Webseiten, sondern auch einzelne Passagen der Seiten indizieren", erklärte Raghavan. "Wenn wir die Relevanz bestimmter Passagen und nicht nur der Gesamtseite besser verstehen, können wir die Informationen finden, nach denen Sie suchen."
Bei dieser Änderung geht es eher um das Ranking als um die Indizierung per say.
Was könnten diese Durchbrüche sein und wohin geht das?
Während nur 7% der Abfragen beim ersten Roll-out betroffen sein werden, könnte eine weitere Erweiterung dieses neuen Indexierungssystems für Passagen viel größere Konnotationen haben, als man zunächst vermuten könnte.
Ohne Übertreibung werden Sie sich bewusst, dass diese Änderung, obwohl sie zunächst relativ unbedeutend ist (da sie immerhin nur 7% der Anfragen betrifft), das Potenzial hat, sich tatsächlich zu ändern, sobald Sie beginnen, die Literatur des letzten Jahres in der Forschung in natürlicher Sprache zu erforschen Wie das Suchranking in Zukunft insgesamt funktioniert.
Wir werden uns ansehen, was diese Entwicklungen sind und was als nächstes kommen könnte.
Die Passage-Indizierung hängt wahrscheinlich mit BERT + mehreren anderen Freunden zusammen… plus weiteren neuen Durchbrüchen
Hoffentlich wird mehr klar, wenn wir die Landschaft unten erkunden, da wir tiefer gehen und zu BERT zurückkehren müssen, den Fortschritten in der NLP-KI in Bezug auf große Entwicklungen, die eng mit BERT verbunden sind, und in der Ranking-Forschungswelt im letzten Jahr.
Die folgenden Informationen stammen größtenteils aus aktuellen Forschungsarbeiten und Konferenzberichten (einschließlich Recherchen von Google-Suchingenieuren, entweder vor der Arbeit bei Google oder während der Arbeit bei Google) in der Welt des Informationsabrufs (deren grundlegendes Feld die Websuche ist) ).
Wo auf ein Papier verwiesen wird, habe ich den Autor und das Jahr hinzugefügt, obwohl dies ein Online-Artikel ist, um die Wahrnehmung von Rhetorik zu vermeiden. Dies zeigt auch deutlicher einige der großen Veränderungen, die mit der Angabe eines Zeitplans und Fortschritts vor und bis 2019 und 2020 eingetreten sind.
Big BERT ist überall
Seit der Ankündigung im Oktober 2019 hat BERT ÜBERALL in den verschiedenen Bestenlisten der Deep-Learning-Forschungsbranche vertreten. Und nicht nur BERT, sondern viele BERT-ähnliche Modelle, die auf einer BERT-ähnlichen Transformatorarchitektur aufbauen oder diese verwenden.
Es gibt jedoch ein Problem.
BERT- und BERT-ähnliche Modelle sind zwar sehr beeindruckend, aber in der Regel unglaublich rechenintensiv und daher finanziell teuer in der Ausbildung. Sie werden in Produktionsumgebungen in vollem Umfang in großem Maßstab eingesetzt, was die Version 2018 von BERT zu einer unrealistischen Option für die kommerzielle Suche in großem Maßstab macht Motoren.
Der Hauptgrund dafür ist, dass BERT mit Transformatortechnologie arbeitet, die auf einem Selbstaufmerksamkeitsmechanismus beruht, sodass jedes Wort Kontext erhalten kann, wenn es gleichzeitig die Wörter um sich herum sieht.
"Im Fall eines Textes mit 100.000 Wörtern würde dies die Bewertung von 100.000 x 100.000 Wortpaaren oder 10 Milliarden Paaren für jeden Schritt erfordern", so Google in diesem Jahr. Diese Transformatorsysteme in der BERT-Welt sind allgegenwärtig, jedoch ist dieses quadratische Abhängigkeitsproblem mit dem Aufmerksamkeitsmechanismus in BERT bekannt.
Einfacher ausgedrückt: Je mehr Wörter zu einer Sequenz hinzugefügt werden, desto mehr Wortkombinationen müssen während des Trainings auf einmal konzentriert werden, um einen vollständigen Kontext eines Wortes zu erhalten.
Das Problem ist jedoch, dass „größer ist definitiv besser“, wenn es um das Training dieser Modelle geht.
Tatsächlich bestätigt sogar Jacob Devlin, einer der ursprünglichen BERT-Autoren in dieser Präsentation auf Google BERT, den Effekt der Modellgröße mit einem Folienspruch. "Große Models helfen sehr."
Große BERT-Modelle scheinen die SOTA-Benchmarks (State of the Art) meist nur deshalb zu verbessern, weil sie größer sind als frühere Konkurrenten. Fast wie bei „Skyscraper SEO“, von dem wir wissen, dass es darum geht, zu identifizieren, was ein Konkurrent bereits hat, und „einen anderen Boden auf (Dimension oder Feature) zu werfen“, um zu schlagen, indem man einfach etwas Größeres oder Besseres tut. Auf die gleiche Weise wurden immer größere BERT-ähnliche Modelle entwickelt, indem lediglich mehr Parameter hinzugefügt und mehr Daten trainiert wurden, um frühere Modelle zu schlagen.
Riesige Modelle kommen von großen Unternehmen
Das beeindruckendste dieser riesigen Modelle (dh diejenigen, die SOTA (State of the Art) in den verschiedenen Bestenlisten für maschinelles Lernen schlagen, ist in der Regel die Arbeit von Forschungsteams der großen Technologieunternehmen, vor allem von Microsoft (MT-DNN, Turing-NLG), Google (BERT, T5, XLNet), Facebook (RoBERTa), Baidu (ERNIE) und Open AI (GPT, GPT-2, GPT-3).
Das Turing-NLG von Microsoft hat kürzlich alle Vorgängermodelle als 17-Milliarden-Parameter-Sprachmodell in den Schatten gestellt. Es wird in Bings Autosuggest und anderen Suchfunktionen verwendet. Die Anzahl der Parameter ist in der folgenden Abbildung dargestellt und zeigt Turing-NLG im Vergleich zu einigen anderen Industriemodellen.

GPT-3
Selbst 17 Milliarden Parameter sind im Vergleich zu OpenAIs 175 Milliarden Parametersprachenmodell GPT-3 nichts.
Wer kann das sensationelle Guardian-Zeitungsstück vom September 2020 über GPT-3 mit dem Titel „Dieser gesamte Artikel wurde von einem Roboter geschrieben? Hast du schon Angst, Mensch? “
In Wirklichkeit war dies lediglich eine massive Vorhersage des nächsten Satzes, aber für den Laien, der sich der Entwicklungen im Bereich der natürlichen Sprache nicht bewusst ist, ist es kein Wunder, dass dieser Artikel auf eine solche Kerfuffle stieß.
Google T5
Der im Februar 2020 veröffentlichte T5 (Text-to-Text Transfer Transformer) von Google (ein neueres transformatorbasiertes Sprachmodell als BERT) hatte lediglich 11 Milliarden Parameter.
Dies geschah, obwohl es von einem Google-Forschungsteam für eine Textsammlung vorab geschult wurde, die aus einem riesigen Webcrawl von Petabyte von Milliarden von Webseiten aus dem Jahr 2011 von The Common Crawl besteht und aufgrund der vier Cs treffend den Namen C4 trägt der Name 'Colossal Clean Crawled Corpus, aufgrund seiner Größe.

Aber mit großen und beeindruckenden Modellen gehen Kosten einher.
BERT's sind teuer (finanziell und rechnerisch)
Die erstaunlichen Kosten für die Ausbildung von SOTA AI-Modellen
In einem Artikel mit dem Titel „Die erstaunlichen Kosten für die Schulung von SOTA-KI-Modellen (State of the Art)“ untersuchte Synced Review die wahrscheinlichen Kosten für die Schulung einiger neuerer SOTA NLP-KI-Modelle mit Zahlen zwischen Hunderten pro Stunde (und Schulungsmöglichkeiten) dauern viele Stunden), bis Hunderttausende Gesamtkosten, um ein Modell zu trainieren.
Diese Kosten wurden viel diskutiert, aber es ist allgemein anerkannt, dass die damit verbundenen Kosten ungeachtet der Genauigkeit von Schätzungen Dritter erpresserisch sind
Elliot Turner, Gründer von AlchemyAPI (von IBM Watson übernommen), vermutete, dass die Kosten für die Schulung von XLNet (Yang et al., 2019) , einer kombinierten Arbeit zwischen dem Google Brain-Team und Carnegie Mellon, die im Januar 2020 veröffentlicht wurde, bei 245.000 USD lagen.


Dies löste eine ziemliche Diskussion auf Twitter aus, bis zu dem Punkt, an dem sogar Jeff Dean von Google AI mit einem Tweet einschaltete, um den Offset zu veranschaulichen, den Google in Form von erneuerbarer Energie beitrug:

Und hier lag das Problem und wahrscheinlich, warum BERT trotz der territorialen Ausweitung beim Produktionsstart im Jahr 2019 nur bei 10% der Anfragen von Google verwendet wurde.
BERT-ähnliche Modelle auf Produktionsebene waren sowohl aus rechnerischer als auch aus finanzieller Sicht enorm teuer.
Herausforderungen mit Langforminhalten und BERT-ähnlichen Modellen
Einschränkungen des Transformators
Es gibt noch eine weitere Herausforderung bei der praktischen Skalierung von BERT-ähnlichen Modellen, die sich auf die Länge der verfügbaren Sequenzen bezieht, um den Wortkontext aufrechtzuerhalten. Vieles davon hängt davon ab, wie groß das Kontextfenster in der Transformatorarchitektur ist.
Die Größe des Fensters eines Transformators im Kontext eines Wortes ist entscheidend, da „Kontext“ nur Wörter im Rahmen dieses Fensters berücksichtigen kann.
Willkommen "Reformer"
Um die verfügbare Größe der Transformator-Kontextfenster im Januar 2020 zu verbessern, hat Google "Reformer: The Efficient Transformer" gestartet.
Aus einem VentureBeat-Artikel von Anfang 2020 mit dem Titel Googles AI Language Model Reformer kann die Gesamtheit von Romanen verarbeiten : „… Transformer ist keineswegs perfekt - die Ausweitung auf größere Kontexte macht seine Grenzen deutlich. Anwendungen, die große Fenster verwenden, haben einen Speicherbedarf von Gigabyte bis Terabyte. Dies bedeutet, dass Modelle nur wenige Textabschnitte aufnehmen oder kurze Musikstücke generieren können. Aus diesem Grund hat Google heute Reformer eingeführt, eine Weiterentwicklung von Transformer, die für Kontextfenster mit bis zu 1 Million Wörtern ausgelegt ist. “
Google erklärte in einem Blogbeitrag in diesem Jahr den grundlegenden Mangel an Transformatoren in Bezug auf ein Kontextfenster: „Die Kraft von Transformer beruht auf der Aufmerksamkeit , dem Prozess, bei dem alle möglichen Wortpaare innerhalb des Kontextfensters berücksichtigt werden, um die Zusammenhänge zwischen ihnen zu verstehen . Im Fall eines Textes mit 100.000 Wörtern würde dies eine Bewertung von 100.000 x 100.000 Wortpaaren oder 10 Milliarden Paaren für jeden Schritt erfordern, was unpraktisch ist. “
Jeff Dean, Chef der Google-KI, sagte, dass ein größerer Kontext ein Hauptschwerpunkt der zukünftigen Arbeit von Google sein würde. "Wir möchten immer noch in der Lage sein, viel mehr kontextbezogene Modelle zu erstellen", sagte er. „Wie im Moment funktionieren BERT und andere Modelle gut mit Hunderten von Wörtern, aber nicht mit 10.000 Wörtern als Kontext. Das ist also eine interessante Richtung “, sagte Dean im Dezember gegenüber VentureBeat.
Google erkennt auch die allgemeine Schwäche der aktuellen Ranking-Systeme (auch abgesehen von transformator- oder reformerbasierten Modellen) in Bezug auf längere Inhalte in seinen nachfolgenden Klärungs-Tweets über die neue Entwicklung der Passagenindizierung in der vergangenen Woche an:
„In der Regel bewerten wir den gesamten Inhalt einer Webseite, um festzustellen, ob er für eine Abfrage relevant ist. Aber manchmal können Webseiten sehr lang sein oder sich auf mehrere Themen beziehen, was dazu führen kann, dass Teile einer Seite für bestimmte Abfragen relevant sind… “, sagte das Unternehmen.
Die rechnerischen Einschränkungen für BERT liegen derzeit bei 512 Token, sodass BERT-ähnliche Modelle nur für Passagen durchführbar sind.
BERT war 2018/2019 für die Massenproduktion nicht realisierbar
Obwohl BERT ein „nice to have“ gewesen sein mag, war es in der Realität im Format 2018/2019 unrealistisch als Lösung, um das Verständnis der natürlichen Sprache in großem Maßstab und das vollständige Ranking bei der Websuche zu unterstützen, und wurde wirklich nur am häufigsten verwendet nuanciert von Abfragen mit mehreren Bedeutungen in Sätzen und Phrasen und sicherlich nicht in irgendeiner Größenordnung.
Aber es sind nicht alle schlechten Nachrichten für BERT
In den Jahren 2019 und 2020 gab es einige große Fortschritte, die darauf abzielten, Technologien vom Typ BERT viel nützlicher zu machen als ein beeindruckendes „nice to have“.
Das Problem des langen Dokumentinhalts wird bereits angesprochen
Big Bird, Longformer und ClusterFormer
Da der Großteil der Leistungsprobleme in dieser quadratischen Abhängigkeit von Transformatoren und deren Auswirkungen auf Leistung und Kosten zu liegen scheint, versuchen neuere Arbeiten, diese quadratische Abhängigkeit in eine lineare umzuwandeln, wobei die wichtigste davon Longformer: The Long Document Transformer ist (Beltagy, 2020) und Googles Big Bird (Zaheer et al., 2020) .
In der Zusammenfassung des Big Bird-Papiers heißt es: „Die vorgeschlagene spärliche Aufmerksamkeit kann Sequenzen mit einer Länge von bis zu 8x von dem verarbeiten, was bisher mit ähnlicher Hardware möglich war. Aufgrund der Fähigkeit, längere Kontexte zu verarbeiten, verbessert BigBird die Leistung bei verschiedenen NLP-Aufgaben wie der Beantwortung und Zusammenfassung von Fragen drastisch. “
Um nicht übertroffen zu werden, präsentierten Microsoft-Forscher (Wang et al., 2020) Mitte Oktober ihr Papier zu Cluster-Former. Das Cluster-Former-Modell ist SOTA in Googles Rangliste für lange Fragen zu natürlichen Fragen. Beide Modelle versuchen auch, die Einschränkungen mit Inhalten in Langform zu beheben.

Und jetzt denken 'Darsteller' über Transformatoren nach
Ebenfalls kürzlich (Oktober 2020) wurde eine kombinierte Arbeit zwischen Google, Cambridge, DeepMind und dem Alan Turing Institute veröffentlicht, um die Effizienz- und Skalierungsprobleme der Transformatorarchitektur insgesamt in einem Artikel mit dem Titel „Aufmerksamkeit mit Darstellern neu denken “ (Choromanski et al.) Zu behandeln , 2020) und schlägt eine vollständige Überarbeitung der grundlegenden Funktionsweise des Aufmerksamkeitsmechanismus vor, um die Kosten für Modelle vom Typ Transformator zu senken.
Synced Review berichtete darüber am 2. Oktober 2020.

Aber dies sind alles sehr, sehr neue Arbeiten, und wahrscheinlich viel zu neu, um (vorerst) einen unmittelbaren Einfluss auf die Situation der Passagenindizierung zu haben. Daher sind sie „wahrscheinlich“ nicht die Durchbrüche, auf die Google bei der Ankündigung der Indizierung von Passagen Bezug genommen hat .
Es wird sicherlich eine Verzögerung zwischen Langform-Inhaltsmodellen wie Big Bird und ClusterFormer und signifikanten Verbesserungen bei Langdokumenten für BERT et al. Bei der Produktionssuche geben.
Derzeit scheinen Forscher und Suchmaschinen in natürlicher Sprache mit kürzeren Sequenzen als mit Inhalten in Langform (z. B. Passagen) arbeiten zu müssen.
Also zurück zur aktuellen Situation.
Adressierung ungelöster Bereiche von NLP-Modellen
Ein Großteil des Fokus in den Jahren 2019 und 2020 scheint auf der Lösung ungelöster Bereiche von NLP-Modellen gelegen zu haben, auf die Jacob Devlin in seinem zuvor erwähnten Vortrag Bezug genommen hat. Diese sind:
- Modelle, die die gesamten Schulungskosten im Vergleich zur Genauigkeit moderner Hardware minimieren.
- Modelle, die sehr parametereffizient sind (z. B. für die mobile Bereitstellung).
- Modelle, die Wissen / Kontext im latenten Raum darstellen.
- Modelle, die strukturierte Daten darstellen (z. B. Wissensgraph).
- Modelle, die Vision und Sprache gemeinsam repräsentieren.
Während in mehreren Bereichen rund um BERT in der Liste und insbesondere in Wissensgraphen gearbeitet wurde, sollten wir im Fokus dieses Artikels weiterhin die von Devlin aufgeführten Schulungskosten und Parametereffizienzpunkte untersuchen.
BERT effizienter und nützlicher machen
Der erste Punkt auf Devlins Liste hat gute Fortschritte erzielt, und es wurden zahlreiche Forschungsarbeiten durchgeführt, um Modelle zu erstellen, die wirtschaftlicher und möglicherweise in einer Produktionsumgebung realisierbar sind.
Effizientere Modelle
Während im Jahr 2020 eine Welle großer Modelle aufgetreten ist, ist in der Forschungsgemeinschaft fast gleichzeitig eine Welle effizienterer, destillierter BERT-ähnlicher Modelle aufgetreten, die darauf abzielen, die Effektivitätserhaltung zu maximieren und gleichzeitig die mit der Effizienz verbundenen Kosten zu senken.
DistilBERT, ALBERT, TinyBERT und ELECTRA: Minimaler Verlust für maximalen Gewinn
Wichtige Beispiele für Effizienzverbesserungen sind DistilBERT von Hugging Face, AlBERT von Google (ein kleines BERT) und TinyBERT (ein BERT-Modell vom Typ Lehrer / Schüler, bei dem Wissen von einem BERT eines großen Lehrers auf ein BERT eines kleinen Schülers (TinyBERT) übertragen wird. Google hat auch ELECTRA eingeführt. Dabei wurde eine andere Art von Maskentechnologie verwendet, um die Leistung erheblich zu verbessern und gleichzeitig den größten Teil der Wirksamkeit aufrechtzuerhalten.
Laut Google AI entspricht „ELECTRA der Leistung von RoBERTa und XLNet beim GLUE-Benchmark für das Verständnis der natürlichen Sprache, wenn weniger als 1/4 ihrer Daten verwendet werden, und erzielt beim SQuAD-Benchmark für die Beantwortung von Fragen die neuesten Ergebnisse. Diese Verbesserungen resultieren aus der Verwendung effizienterer Methoden als dem Maskieren von 15% der Wörter beim Trainieren eines BERT-Modells, was sehr rechenintensiv ist. “
Jede der oben genannten Anpassungen ist viel effizienter als das ursprüngliche BERT-Modell mit einem minimalen Verlust an Wirksamkeit.
Eine "Armee" von Forschungsingenieuren und kostenlosen Daten
Ein weiterer Schub für den Fortschritt ist die Form einer ganzen Forschungsgemeinschaft, die sich erneut der Herausforderung (im wahrsten Sinne des Wortes) stellt, das Verständnis der Maschinensprache zu verbessern.
Aber willige Teilnehmer benötigen Daten, um bessere Modelle zu trainieren.
Wie Devlin in seinem Vortrag feststellte, glaubt er, dass "kurzfristige Verbesserungen bei NLP hauptsächlich darin bestehen werden," freie "Daten geschickt zu nutzen."
Zwar gibt es immer mehr Quellen für zahlreiche kostenlose Datensätze, die Datenwissenschaftler beispielsweise nutzen können (denken Sie an Kaggle, das Google 2017 erworben hat). Die wohl größte Community von Datenwissenschaftlern mit Millionen registrierter Benutzer, die an Wettbewerben für maschinelles Lernen teilnehmen. Daten vom Typ "reale Welt" für die "reale" Forschung in natürlicher Sprache, die auf dem realen alltäglichen Web und insbesondere auf Abfragen basieren, jedoch weniger.
Trotzdem wachsen die Quellen für „freie“ Daten in natürlicher Sprache, und obwohl es inzwischen mehrere gibt, stammen viele der Daten, die der Forschungsgemeinschaft in natürlicher Sprache zur Verfügung gestellt werden, von Suchmaschinen, um die Forschung voranzutreiben.
MSMARCO (Microsoft)
Seit 2016 sind MSMARCO-Datensätze eine der vorherrschenden Trainingsübungen für die Feinabstimmung von Modellen.
Microsoft MSMARCO war ursprünglich ein Datensatz mit 100.000 Fragen und Antworten von echten anonymisierten Bing-Suchmaschinen und Anfragen von Cortana-Assistenten, wurde jedoch um das Zehnfache auf über 1.000.000 Fragen und Antworten erweitert. Darüber hinaus wurden die Funktionen von MSMARCO um zusätzliche Schulungsaufgaben erweitert, die über das allgemeine Verständnis der natürlichen Sprache sowie Fragen- und Antwortaufgaben hinausgehen.
Google natürliche Fragen (Google)
Wie MSMARCO verfügt Google über einen eigenen Frage- und Antwortdatensatz in natürlicher Sprache, der aus echten Nutzeranfragen an die Google-Suchmaschine sowie einer Rangliste und zu erledigenden Aufgaben mit dem Namen "Google Natural Questions" besteht.
„Die Fragen bestehen aus echten anonymisierten, aggregierten Anfragen an die Google-Suchmaschine. Einfache Heuristiken werden verwendet, um Fragen aus dem Abfragestream zu filtern. Daher sind die Fragen insofern „natürlich“, als sie echte Fragen von Menschen darstellen, die nach Informationen suchen. “
(Kwiatkowski et al., 2019)
Bei Google Natural Questions müssen Forscher ihre Modelle trainieren, um die gesamte Seite zu lesen, bevor sie in einem einzigen Absatz von Wikipedia sowohl eine lange als auch eine kurze Antwort finden. (Visualisierung unten)



TensorFlow C4-Datensatz - Colossal Clean Crawl
Ein neuerer Datensatz ist C4 (Colossal Clean Crawl of Common Crawl), der bereits bei der Einführung von T5 erwähnt wurde. Während das ursprüngliche BERT-Sprachtraining 2,5 Milliarden Wörter der englischen Wikipedia und des BookCorpus (800 Millionen Wörter) umfasste, ist die Sprache aus Wikipedia nicht repräsentativ für die alltägliche natürliche Sprache, da weit weniger des Webs aus derselben halbstrukturierten, gut strukturierten Sprache besteht. verknüpfte Struktur. C4 bringt das Pre-Training über die natürliche Sprache der realen Welt zu etwas, das der Realität viel ähnlicher ist, und wurde verwendet, um das T5-Modell von Google vorab zu trainieren.
Der C4 Clean Colossal Crawl-Datensatz besteht aus einem „kolossalen“ Petabyte-Crawl von Milliarden Seiten von The Common Crawl (riesige Beispiele des „echten Webs“ seit 2011), das von Boilerplate (Schimpfwörter, Javascript-Benachrichtigungen, Code und andere solche Ablenkungen, um "Lärm" zu entfernen). Wieder wurde der Datensatz nach der Reinigung zur Verfügung gestellt, damit andere davon lernen können.
Viel NLP-Forschung hat auf Passagen und Ranking umgestellt
Das Abrufen und Ranking von Passagen ist in den letzten Jahren zu einem der beliebtesten Forschungsbereiche geworden.
Das Abrufen von Teilen von Dokumenten, das Abrufen von AKA-Passagen oder das Abrufen von Unterdokumenten beim Abrufen von Informationen ist als solches nicht neu. Siehe das Bild unten eines Beispielpatents für ein System zum Abrufen von Unterdokumenten von Informationen aus dem Jahr 1999. (Evans, 1999)

Wir können auch IR-Forschungsarbeiten aus dem Jahr 2008 und früher zum Thema Passage-Ranking finden, zum Beispiel „Neueinstufung von Suchergebnissen mithilfe von Document-Passage-Diagrammen“ (Bendersky et al., 2008) , und es wird sicherlich noch viel mehr geben.
Wir können auch sehen, dass das Abrufen von Passagen Anfang 2018 mit Videos auf YouTube ein aktives Forschungsgebiet war:

Sie werden alle "Funktionen für das Passage-Ranking" im obigen Screenshot sehen, obwohl sie sehr stark auf "Zählungen" von Entitäten, n-Gramm, Abfragewörtern (Schlüsselwörtern) und Wörtern, Wörtern, Wörtern basieren. Schlüsselwörter überall.
Aber das war im Juni 2018, also könnte es einen großen Unterschied zwischen den Gewichten der Merkmale geben, die im Juni 2018 und jetzt wichtig waren.
… Und das war vor BERT.
BERT hat einen großen Beitrag zur Begeisterung für die Passage-Ranking-Forschung geleistet, wahrscheinlich aufgrund der oben genannten Probleme mit der Ineffizienz und Längenbeschränkungen der Transformatorarchitektur von BERt.
„Wie wir bereits ausführlich besprochen haben, hat BERT aus mehreren Gründen Probleme mit Eingabesequenzen, die länger als 512 Token sind. Die naheliegende Lösung besteht natürlich darin, Texte in Passagen aufzuteilen. “ (Lin et al., 2020)
Es gibt aber noch einen weiteren Grund, warum das Passage-Ranking für Forscher mit BERT zu einer beliebten Aktivität für maschinelles Lernen geworden ist.
MSMARCOs Passage Ranking Aufgabe und Rangliste
Seit Oktober 2018 ist eine Passage-Ranking-Aufgabe auf MS MARCO und der zugehörigen Rangliste vorhanden, die eine große Anzahl von Beiträgen von Sprachforschern angezogen hat, darunter auch von großen Technologieunternehmen wie Facebook, Google, Baidu und Microsoft.

In der Tat, erst in der vergangenen Woche, als MS MARCO auf Twitter bekannt gab, dass sie ihre Rangliste für Fragen- und Antwortaufgaben bald zurückziehen würden, da in diesem Bereich derzeit nur begrenzte Fortschritte erzielt wurden, und betonten, dass sie die Passage-Ranking-Aufgabe beibehalten würden, da dies der Schwerpunkt war war jetzt.

In der MS MARCO Passage Ranking Task wird ein Datensatz von 8,8 Millionen Passagen bereitgestellt.
Laut der MS MARCO Website:
„Die Kontextpassagen, aus denen die Antworten im Datensatz abgeleitet werden, werden mit der fortschrittlichsten Version der Bing-Suchmaschine aus echten Webdokumenten extrahiert. Die Antworten auf die Fragen werden von Menschen generiert, wenn sie die Antwort zusammenfassen könnten. “
Die Passage-Ranking-Aufgabe ist in zwei Teile unterteilt.
- Neueinstufung der Passage: Bei einem Kandidaten mit den 1000 besten Passagen, die von BM25 abgerufen wurden, wird die Passage nach Relevanz neu eingestuft.
- Passage Full Ranking: Bei einem Korpus von 8,8 Millionen Passagen wird ein Kandidat mit den besten 1000 Passagen nach Relevanz sortiert.
Einige der Durchbrüche
Und das bringt uns nun gut dahin, wo die Durchbrüche im Ranking liegen könnten, auf die Google in der vergangenen Woche in Search On verwiesen hat.
Es ist wahrscheinlich nicht nur das Passagenranking selbst, auf das sich Google bezieht, sondern auch Durchbrüche im Passagenranking und andere „neuartige“ Erkenntnisse, die als Nebenprodukt vieler Aktivitäten im Bereich der Passagenabfrage entdeckt wurden, sowie neue Innovationen aus Diese Forschung kombiniert mit aktuellen Google-Ranking-Ansätzen (z. B. Learning to Rank (LeToR) mit TensorFlow zum Beispiel) sowie zahlreichen Entwicklungen innerhalb der eigenen Forschungsteams, die vom Passage-Ranking getrennt sind, und den Branchenverbesserungen bei der KI insgesamt.
Zum Beispiel ROBERTA (robuster geschultes BERT) und ELECTRA (Google, 2020) mit seiner effizienteren Maskierungstechnik. Es gibt noch andere große Durchbrüche, auf die wir in Kürze zurückkommen werden.
Auf die gleiche Weise sprang die Forschungsgemeinschaft mit Fragen und Antworten und dem Verständnis der natürlichen Sprache insgesamt an Bord, wobei iterative Verbesserungen zu BERT und Freunden führten. Daher liegt der Schwerpunkt jetzt auch auf der Verbesserung der Effizienz und Effektivität des Rankings, wobei ein besonderer Schwerpunkt auf Passagen liegt.
Passagen sind immerhin kleiner und unterliegen den Einschränkungen von BERT, da es einfach ist, ein längeres Dokument in mehrere Teile zu zerlegen.
Und es sieht so aus, als ob es sehr bedeutende Entwicklungen gibt.
Um den Fortschritt besser zu verstehen, müssen wir uns ansehen, wie Ranking-Systeme insgesamt als Industriestandard funktionieren, da es nicht ganz so einfach ist wie ein einzelner Abruf aus dem Index, wie es scheint.
Zweistufiges Ranking-System
In der zweistufigen Rangfolge gibt es zuerst eine vollständige Rangfolge (die anfängliche Rangfolge aller Dokumente) und dann eine erneute Rangfolge (die zweite Stufe nur einer Auswahl von Top-Ergebnissen aus der ersten Stufe).
Beim Abrufen von Informationen (und bei der Websuche) geht es beim zweistufigen Ranking zunächst darum, eine große Sammlung von Dokumenten mithilfe eines einfachen, klassischen Abrufalgorithmus wie BM25 oder eines Abfrageerweiterungsalgorithmus, eines Algorithmus zum Erlernen des Rankings oder eines einfachen Klassifikators abzurufen Ansatz.
Eine zweite Stufe wird dann mit größerer Präzision und mehr Ressourcen über eine Liste der am besten abgerufenen Ergebnisse der ersten Stufe ausgeführt, wahrscheinlich unter Verwendung eines neuronalen Neueinstufers.
Wir müssen nicht weit durch die Forschungsliteratur gehen, um viele Bestätigungen von zweistufigen (oder mehrstufigen) Rangsystemen als Industriestandard zu finden.
"Suchmaschinen auf dem neuesten Stand der Technik verwenden Ranking-Pipelines, bei denen eine effiziente erste Stufe eine Abfrage verwendet, um einen ersten Satz von Dokumenten aus der Dokumentensammlung abzurufen, und ein oder mehrere Algorithmen für die Neubewertung das Ranking verbessern und bereinigen."
(Dai, 2019)
„Das zweistufige Ranking von Dokumenten, bei dem der erste Abruf mit einer klassischen Methode zum Abrufen von Informationen erfolgt, gefolgt von einem Modell für das neuronale Re-Ranking, ist der neue Standard. Die beste Leistung wird erzielt, wenn transformatorbasierte Modelle als Neueinstufung verwendet werden, z. B. BERT. “
(Sekulic et al., 2020)
"Vor dem zweistufigen Lernen wurde das Ranking eines Dokumentensatzes häufig mit einer klassischen und einfachen unbeaufsichtigten Wortsackmethode wie BM25 aus der Sammlung abgerufen."
(Dang, Bendersky & Croft, 2013)
Beachten Sie, dass BM25 für Best Match 25-Algorithmus steht und häufig gegenüber dem viel diskutierten TF: IDF bevorzugt wird. Es wird so genannt, weil es der 25. Versuch eines bestimmten Algorithmus vom Typ Rang war, der für die Aufgabe der Zeit am besten geeignet war ( Trivia).
Obwohl wir nicht sicher sein können, ob Google und andere Suchmaschinen BM25 verwenden, bietet ElasticSearch für Interessenten einen guten Überblick über den BM25-Algorithmus. Es wird jedoch immer noch in vielen zum Teil relevanten Vorlesungen zum Abrufen von Informationen gelehrt.
Bei der Produktionssuche handelt es sich wahrscheinlich um etwas viel Fortgeschritteneres als nur BM25 insgesamt, aber wahrscheinlich werden die fortgeschritteneren und teureren Ressourcen eher in der zweiten Stufe als beim ersten Abruf verwendet. Frederic Dubut von Bing bestätigte, dass Bing LambdaMART verwendet, einen Learning To Rank-Algorithmus in einem Großteil seiner Suchmaschine (obwohl er nicht kommentierte, ob dies in der ersten oder zweiten Stufe des Rankings oder in allen Ranking-Stufen war). Von Forschern von Google verfasste Artikel besagen: "LambdaRank oder seine baumbasierte Variante LambdaMART war einer der effektivsten Algorithmen, um Ranking-Metriken in das Lernverfahren einzubeziehen." (Wang et al., 2018)
Der Hauptpunkt ist, dass es aufgrund von mehr Ressourcen (Kapazität / Finanzen) wahrscheinlich leistungsfähiger ist als Systeme, die in der Forschung verwendet werden. Die Prinzipien (und grundlegenden Algorithmen) bleiben jedoch dieselben.
Eine Einschränkung ist, dass einige kommerzielle Suchmaschinen möglicherweise auch "mehrstufige" neuronale Modelle verwenden.
In Bezug auf mehrstufige Ranking-Pipelines schrieben Nogueria et al. 2019: „Zu den bekannten Produktionsbereitstellungen gehören die Bing-Websuchmaschine (Pedersen, 2010) sowie die E-Commerce-Suchmaschine von Alibaba.“
Sie fügten hinzu und erklärten weiter: „Obwohl die meisten neuronalen Ranking-Modelle heutzutage oft beschönigt werden. . . sind tatsächlich neu eingestufte Modelle in dem Sinne, dass sie über die Ausgabe einer Liste von Kandidatendokumenten arbeiten, die typischerweise durch eine "Bag of Words" -Abfrage erzeugt werden. Daher wird beim Abrufen von Dokumenten mit neuronalen Modellen bereits heute eine mehrstufige Rangfolge verwendet, wenn auch eine verarmte Form mit nur einer neuen Rangfolge. “
Die zweistufige Indizierung ist keine zweistufige Rangfolge
Eine weitere Klarstellung. Wir kennen die zweistufige Indizierung / das Rendern und Google hat zahlreiche Informationen zur zweistufigen Indizierungssituation bereitgestellt. Dies ist jedoch weder ein zweistufiges Ranking noch eine zweistufige Indizierung.
Das zweistufige Ranking ist völlig unterschiedlich.
Erste Stufe der zweistufigen Rangliste: vollständige Rangliste
In Two Stage Learning to Rank (Dang et al., 2013) wird eine Liste von Dokumenten zunächst anhand eines erlernten „Modells der Relevanz“ eingestuft, das eine Reihe von Funktionen und Abfrageerweiterungen enthält. Anschließend wird das Modell darauf trainiert, auf dieser Grundlage Dokumente abzurufen. Modell der Relevanz “in den ersten Rückrufphasen.
In der ersten Phase des zweistufigen Rankings geht es wirklich darum, so viele potenziell relevante Seiten wie möglich abzurufen. Diese erste Stufe erweitert wahrscheinlich etwas wie BM25, einen auf tf (Termhäufigkeit) basierenden Ansatz, mit verschiedenen Begriffen zur Abfrageerweiterung und möglicherweise Klassifizierungsmerkmalen, da laut Vang et al., 2013, „es besser ist, beim ersten Abrufen mehr Dokumente abzurufen um zu vermeiden, dass in der zweiten Phase wichtige und hochrelevante Dokumente fehlen. “ (Vang et al., 2013) .
Zum Thema „Ranking lernen“ und Erweiterung des Abfragesatzes um die Erweiterung von Abfragen schreiben Vang et al. "Es wird angenommen, dass dieses erweiterte Abfragemodell einfache Bag-of-Word-Algorithmen wie BM25 deutlich übertrifft, da mehr Dokumente in den ersten Rückruf der ersten Phase einbezogen werden." (Vang et al., 2013).
Zweistufiges Ranking für das Abrufen von Informationen
Zum Thema „Lernen zu ranken“:
„Wir lernen zunächst eine Ranking-Funktion über die gesamte Abrufsammlung unter Verwendung einer begrenzten Anzahl von Textfunktionen, einschließlich gewichteter Phrasen, Ähnlichkeiten und Erweiterungsbegriffe. Diese Funktion wird dann verwendet, um die bestmögliche Teilmenge von Dokumenten abzurufen, über die das endgültige Modell unter Verwendung eines größeren Satzes von abfrage- und dokumentabhängigen Funktionen trainiert wird. “
(Vang et al., 2013)
Obwohl das Papier von 2013 älter ist, ist dies umso mehr ein Grund, warum sich die Fortschritte verbessert haben werden, da das zweistufige System immer noch „der Industriestandard“ ist.
Zweite Stufe der zweistufigen Rangliste: Neueinstufung
Aus dieser Liste der abgerufenen Dokumente wird ein zweiter Durchgang für eine bestimmte Top-X-Anzahl von Dokumenten durchgeführt, die aus der Liste der abgerufenen Dokumente als Top-K bezeichnet wird, und mithilfe maschineller Lerntechniken auf Präzision abgestimmt. In Informationsabrufpapieren wird häufig der Begriff P @ K (Präzision bei K) angezeigt, der sich auf die Genauigkeitsstufen im oberen K gegenüber einem relevanten „Goldstandard“ oder einer „Grundwahrheit“ bezieht (K ist eine Zahl, z P @ 10 würde die Anzahl der genauen Ergebnisse bedeuten, die beurteilt werden, um den Informationsbedarf des Benutzers in Bezug auf eine Abfrage in den Top 10 der abgerufenen Ergebnisse zu erfüllen.
Eine gute Erklärung für Bewertungsmetriken wie P @ K (und eine Reihe anderer) finden Sie in dieser Vorlesungsfolie zum Abrufen von Informationen.
In der zweiten Stufe des zweistufigen Rankings ist Präzision viel wichtiger und es werden viel mehr Ressourcen aufgewendet, während möglicherweise weitere relevante Maßnahmen hinzugefügt werden, um das Gold in den oberen Rängen wirklich zu trennen.
Die Wichtigkeit einer genaueren Rangfolge der Dokumente, die für die Aufnahme in Stufe 2 ausgewählt wurden, ist entscheidend, und die Genauigkeit der hochrangigen Ergebnisse ist umso wichtiger, als die Wahrscheinlichkeit hoch ist, dass diese Ergebnisse von Suchmaschinenbenutzern gesehen werden.
Wie das Sprichwort sagt, "schauen nur SEOs über Seite zwei der Suchergebnisse hinaus".
In „Zweistufiges Lernen, um Informationen abzurufen“ sagen Dang et al.:
„Zur Laufzeit wird das Stage A-Modell als Antwort auf Benutzeranfragen erneut verwendet, um einen kleinen Satz hochrangiger Dokumente abzurufen, die dann vom Stage B-Modell neu eingestuft werden. Schließlich werden dem Benutzer die neu eingestuften Ergebnisse präsentiert. “
(Dang et al., 2013)
Zusammenfassend sind Effizienz und Effektivität zusammen der Haupttreiber für zweistufige Ranking-Prozesse. Verwenden Sie die rechenintensivsten Ressourcen für die wichtigsten Dokumente, um eine höhere Genauigkeit zu erzielen, da dies am wichtigsten ist. Das vollständige Ranking ist die erste Stufe mit der erneuten Einstufung als zweite Stufe für Verbesserungen des Top-K, das aus der vollständigen Sammlung abgerufen wurde.
Abgesehen davon ist es wahrscheinlich auch der Grund, warum Danny Sullivan von Google in einem Mai-Tweet sagte: "Wenn Sie unter den Top 10 sind, machen Sie die Dinge richtig."
Da die Top 10 wahrscheinlich der wichtigste Teil von Top-K in den neu eingestuften „Präzisionsstufen“ sind, wurden für diese Ergebnisse maximale Funktionen und präzises „Lernen“ durchgeführt.
Die Verbesserung der zweiten Stufe des Rankings (Präzision) stand im Mittelpunkt
Angesichts der Bedeutung der zweiten Stufe des Rankings für die Präzision konzentriert sich der Großteil der Forschung zu Ranking-Verbesserungen auf diese Stufe - die Reranking-Stufe.
Nutzen Sie BERT vorerst am besten
Wir wissen, dass BERT im Format 2018/2019 begrenzt war. Nicht zuletzt nach Einschränkungen der Sequenzlänge / des Kontextfensters sowie nach Kosten, obwohl kleinere Modelle angezeigt werden.
Wie kann man BERT zu etwas Besserem als einem „nice to have“ machen, das sich nur mit den nuanciertesten Disambiguierungsbedürfnissen bei der Websuche auf Satzebene befasst, und zu etwas, das in einer sinnvollen Funktion verwendbar ist? Etwas, mit dem viele Forscher auch an Bord springen könnten?
BERT wurde als Passage-Ranker und Re-Ranker umfunktioniert
Aha… BERT Als Passage-Ranker.
Noch einmal, um die Einschränkungen von BERT und die ideale aktuelle Verwendung zu verstärken: „BERT hat aus mehreren Gründen Probleme mit Eingabesequenzen, die länger als 512 Token sind. Die naheliegende Lösung besteht natürlich darin, Texte in Passagen aufzuteilen “, so Lin et al. In diesem Jahr.
Einer der größten Durchbrüche in Forschung und Entwicklung war die Umnutzung von BERT als Reranker, zunächst von Nogueria und Cho im Jahr 2019 in ihrer Arbeit „Passage Reranking with BERT“ und anderen.
Wie Dia, 2019, in einem Papier aus dem Jahr 2019 ausführt: „BERT hat viel Aufmerksamkeit für IR erhalten und sich hauptsächlich darauf konzentriert, es als Black-Box-Re-Ranking-Modell zur Vorhersage der Relevanz von Abfragedokumenten zu verwenden.“
Nogueira & Cho beschrieben in ihrem 2019 erschienenen Artikel „Passage Reranking with BERT“ eine einfache Neuimplementierung von BERT für die abfragebasierte Neueinstufung von Passagen. Unser System ist der Stand der Technik im TREC-CAR-Datensatz und der oberste Eintrag in der Rangliste der MS MARCO-Passage-Retrieval-Aufgabe und übertrifft den bisherigen Stand der Technik in MRR @ 10 um 27% (relativ). “
"Wir haben eine einfache Anpassung von BERT als einen Passagen-Re-Ranker beschrieben, der bei zwei verschiedenen Aufgaben, TREC-CAR und MS MARCO, zum Stand der Technik geworden ist."
Ich sprach mit Dr. Mohammad Aliannejadi, Autor mehrerer Artikel auf dem Gebiet des Informationsabrufs und Postdoktorand für Informationsabruf an der Universität Amsterdam, der sich mit natürlicher Sprache, mobiler Suche und Konversationssuche befasste.
"Im Moment ist BERT als Reranker praktischer, da das vollständige Ranking sehr schwierig und teuer ist", sagte Dr. Aliannejadi. "Und die Verbesserung der Effektivität rechtfertigt nicht den Effizienzverlust."
Er fuhr fort: "Man würde eine Menge Rechenressourcen benötigen, um mit BERT ein vollständiges Ranking durchzuführen."
BERT und Passagen
In der Folge gehört die Neueinstufung von Passagen (und zunehmend die Neueinstufung von Passagen mit BERT) zu den beliebtesten 2020-Themen der Welt der Informationsrecherche und der maschinellen Lernsprachenforschung und ist ein Bereich, in dem erhebliche Fortschritte erzielt werden, insbesondere in Kombination mit anderen Verbesserungen der KI-Forschung in Bezug auf Effizienz, Skalierbarkeit und zweistufige Ranking-Verbesserungen.
Passagen und BERT gehen (vorerst) Hand in Hand
Man muss sich nur das Inhaltsverzeichnis in Lin et al .s kürzlich veröffentlichtem Buch „Pretrained Transformers for Text Ranking: BERT und darüber hinaus“ (Lin et al., 2020) ansehen, um zu sehen, welche Auswirkungen das Ranking der Passagen auf die jüngste „Welt von BERT“ hat "Mit 291 Erwähnungen von Passagen, wie Juan Gonzalez Villa betonte:
Google Research und Passage Ranking / Reranking
Natürlich hat Google Research ein Team, das sich der Herausforderung angeschlossen hat, das Ranking und das Rankanking mit Passagen zu verbessern (Google TF-Ranking Team), das auf der Rangliste von MSMARCO mit einem iterativ verbesserten Modell (TFR-BERT) konkurriert und mehrmals überarbeitet wurde.

TFR-BERT basiert auf einem Artikel mit dem Titel „Lernen, mit BERT im TF-Ranking zu ranken“ (Han et al., 2020) , der im April veröffentlicht und im Juni 2020 überarbeitet wurde. „In diesem Artikel konzentrieren wir uns zum Ranking der Passagen und insbesondere zu den Aufgaben der MS MARCO-Passage zum vollständigen Ranking und zur Neubewertung “, schrieben die Autoren.
„… Wir schlagen das TFR-BERT-Framework für das Ranking von Dokumenten und Passagen vor. Es kombiniert die neuesten Entwicklungen sowohl aus vorgefertigten Sprachmodellen wie BERT als auch aus Ranking-Lernansätzen. Unsere Experimente zur MS MARCO-Passage-Ranking-Aufgabe zeigen ihre Wirksamkeit “, erklärten sie.
TFR-BERT - BERT-Ensemble-Modell - Googles BERT-Ensemble
Das neueste BERT'ish-Modell von Google Research hat sich zu einem Ensemble von BERTs und anderen kombinierten Ansätzen entwickelt - einer Kombination von Teilen anderer Modelle oder sogar verschiedenen vollständigen Modellen, Methoden und Verbesserungen, die in Gruppen zusammengefasst sind.
Viele BERTs als Passage Ranker und Reranker sind eigentlich "SuperBERTs"
Da ein Großteil des Codes im BERT-Forschungsbereich Open Source ist, einschließlich vieler Codes von großen Technologieunternehmen wie Google, Microsoft und Facebook, können diejenigen, die Verbesserungen wünschen, Ensemblemodelle erstellen, um „SuperBERT“ zu erstellen.
Im Jahr 2020 ist eine Welle solcher „SuperBERT“ -Modelle im Sprachmodellbereich und in den Bestenlisten aufgetaucht.
Die Verwendung von BERT auf diese Weise ist wahrscheinlich nicht mit der Verwendung von BERT vergleichbar, die nur in 10% der Abfragen verwendet wurde. Dies war wahrscheinlich für einfache Aufgaben wie die Begriffsklärung und die Bestimmung benannter Entitäten an sehr kurzen Textstücken und Sätzen gedacht, um den Unterschied zwischen zwei möglichen Bedeutungen in den Wörtern in Abfragen zu verstehen. Es gibt tatsächlich ein BERT namens SatzBERT aus einem Artikel mit dem Titel „Satz-BERT: Satzeinbettungen mit siamesischen BERT-Netzwerken“ (Reimers & Gurevych, 2019) , aber dies bedeutet nicht, dass SatzBERT in den 10% der 2019 genannten Abfragen verwendet wurde natürlich.
Der Hauptpunkt ist, dass das Passagenranking mit BERT vollständig neu verwendet wird, um einem Trainingssatz von Passagen in zwei Stufen kontextbezogene Bedeutungen hinzuzufügen. Vollständiges Ranking und erneutes Ranking, und wahrscheinlich ganz anders als die 10% -Implementierung in der Produktionssuche von 2019.
In Bezug auf „SuperBERTs“ bezeichnet ein Freund der SEO-Community (Arnout Hellemans) meinen Hund BERT als „SuperBERT“, daher schien es eine angemessene Ausrede zu sein, ein Bild von ihr hinzuzufügen.

Lernen, mit BERT im TF-Ranking zu ranken (han et al., 2020)
Han et al., 2020, erläutern die zusätzlichen Integrationen, die das ursprüngliche BERT- und TF-Ranking-Modell zu einem Ensemble führen, das ELECTRA und RoBERTa mit BERT- und TF-Ranking-Ansätzen kombiniert, und zwar in fünf verschiedenen Beiträgen zur Rangliste der MS MARCO-Passagen.
Das TF-Ranking wird als „TF-Ranking: Eine skalierbare TensorFlow-Bibliothek zum Lernen des Rankings “ beschrieben (Pasumarthi et al., 2019).
„In diesem Artikel wird ein Algorithmus für maschinelles Lernen für das (Neu-) Ranking von Dokumenten beschrieben, bei dem Abfragen und Dokumente zunächst mit BERT codiert werden. Darüber hinaus wird ein mit TF-Ranking (TFR) erstelltes LTR-Modell (Learning-to-Rank) erstellt angewendet, um die Ranking-Leistung weiter zu optimieren. Dieser Ansatz hat sich in einem öffentlichen MS MARCO-Benchmark als wirksam erwiesen. “
(Han et al., 2020)
„Um die jüngste Entwicklung vorgefertigter Sprachmodelle zu nutzen, haben wir kürzlich RoBERTa und ELECTRA integriert.“
(Han, Wang, Bendersky, Najork, 2020)
Während ELECTRA, wie Sie sich vielleicht erinnern, von Google veröffentlicht wurde, wurde RoBERTa von Facebook veröffentlicht.
Wir können aber auch ein zusätzliches erwähntes Element sowie RoBERTa, BERT, TF-Ranking und ELECTRA aus dem Papierextrakt sehen. Erwähnung von DeepCT.
Laut dem Artikel „Lernen, mit BERT im TF-Ranking zu ranken“:
„Die 5 Einreichungen von Googles TFR-BERT im MS MARCO Passage Ranking Leaderboard waren wie folgt:
- Einreichung Nr. 1 (Neueinstufung): TF-Rang + BERT (Softmax-Verlust, Listengröße 6, 200.000 Schritte)
- Submission # 2 (Re-Ranking): TF-Ranking + BERT (Ensemble aus punktweisen, paarweisen und listweisen Verlusten)
- Einreichung Nr. 3 (vollständige Rangliste): DeepCT Retrieval + TF-Ranking BERT Ensemble
- Einreichung Nr. 4 (Neueinstufung): TF-Ranglisten-Ensemble aus BERT, RoBERTa und ELECTRA
- Einreichung Nr. 5 (vollständige Rangliste): DeepCT + TF-Ranglisten-Ensemble aus BERT, RoBERTa und ELECTRA
Während die frühzeitige Einreichung lediglich BERT- und TF-Ranking (TensorFlow-Ranking) war und RoBERTa und ELECTRA später zu einer weiteren Ranglisteneinreichung hinzugefügt wurden, scheinen die größten Gewinne das Hinzufügen von DeepCT mit deutlichen Verbesserungen zwischen den Einsendungen 3 und 5 im Full Ranking Passage Ranking zu sein Aufgabe, obwohl Deep-CT in der Papierzusammenfassung nicht erwähnt wird.

Das SuperBERT-Ensemble-Modell von Google (entwickelt aus TFR-BERT) schneidet sowohl bei der Rangliste für das vollständige Ranking als auch bei der Rangliste der Durchgänge mit MS-Rangliste gut ab.
Sie können es hier (Oktober 2020) auf Position 5 im Bild unten mit dem Titel sehen:
DeepCT + TF-Ranking-Ensemble aus BERT, ROBERTA und ELECTRA (1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky und (1) Marc Najork - 1) Google Research, (2) Carnegie Mellon - Papier und Code
Beachten Sie auch, dass Dai ab April zu den Mitgliedern des Google TF-Ranking-Teams in der Rangliste hinzugefügt wurde, obwohl es nicht auf dem Originalpapier aufgeführt ist.

Wenn wir uns mit dem Artikel „Lernen, mit BERT im TF-Ranking zu ranken“ befassen, sehen wir Folgendes: „Wir haben festgestellt, dass DeepCT dazu beiträgt, die Neubewertung von BM25-Ergebnissen um ein Vielfaches zu verbessern, und eine weitere Kombination von Sowohl BM25- als auch DeepCT-Listen bringen zusätzliche Gewinne. “
Mit Blick auf die Modellrevisionen, die speziell DeepCT beinhalten, fahren Han et al fort: „Mit Submission # 3 haben wir zum 10. April 2020 die zweitbeste Gesamtleistung in der Rangliste erzielt. Mit der jüngsten Submission # 5 haben wir unsere vorherige weiter verbessert Leistung und erzielte am 8. Juni 2020 die drittbeste Leistung in der Rangliste (mit Dutzenden neuer Einreichungen in der Rangliste dazwischen) “
Es ist auch wichtig, sich daran zu erinnern, dass die Aufgabe "Vollständiges Ranking" und nicht die Aufgabe "ReRanking" stark verbessert wurde. Beachten Sie, dass beide Aufgaben des vollständigen Rankings DeepCT enthalten, die Aufgaben des ReRanking jedoch nicht.
- 5 - DeepCT + TF-Ranking-Ensemble von BERT, ROBERTA und ELECTRA (1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky und (1) Marc Najork - 1) Google Research, ( 2) Carnegie Mellon - Papier und Code. Vollständiges Ranking 2. Juni 2020
- 11 - DeepCT Retrieval + TF-Ranking BERT-Ensemble 1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky und (1) Marc Najork - (1) Google Research, (2) Carnegie Mellon Universitätspapier [Han, et al. '20] Code. Vollständiges Ranking 10. April 2020
- 14 - TF-Ranking-Ensemble aus BERT, ROBERTA und ELECTRA (1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky und (1) Marc Najork - 1) Google Research, (2) Carnegie Mellon - Papier und Code. ReRanking 2. Juni 2020
- 25 - TF-Ranking + BERT (Ensemble aus punktweisen, paarweisen und listweisen Verlusten) TF-Ranking-Team (Shuguang Han, Xuanhui Wang, Michael Bendersky und Marc Najork) von Google Research - Paper [Han, et al. '20] und [Code]. ReRanking 30. März 2020
DeepCT
DeepCT scheint eine geheime Soßenzutat zu sein, die für einige signifikante Gewinne in der schnellen Abfolge in der Rangliste der MS MARCO-Aufgaben für das Google TF-Ranking Research-Team verantwortlich ist. Denken Sie daran, dass sich die vollständige Rangfolge auf die erste Phase der zweistufigen Aufgabe bezieht.
Im Fall von MS MARCO ist dies die Rangfolge der 8,8 Millionen bereitgestellten Passagen, wobei die Neueinstufung in Bezug auf die Feinabstimmung der 1000 besten Ergebnisse erfolgt, die aus dieser ersten Stufe der ersten Rangliste stammen.
DeepCT ist also der Unterschied zum vollständigen Ranking der ersten Stufe, der ersten Stufe.
Was ist DeepCT und könnte es für mehr als nur Bestenlisten von Passagen von Bedeutung sein?
DeepCT steht für "Deep Contextualized Term Weighting Framework" und wurde in einem Artikel mit dem Titel "Context Aware Term Weighting For First Stage Passage Retrieval" vorgeschlagen. (Dai, 2020)
Der Erfinder von DeepCT, Dai, beschreibt das Framework wie folgt: „DeepCT, ein neuartiger kontextsensitiver Ansatz zur Gewichtung von Begriffen, der die Bedeutung von Begriffen für Abrufsysteme für Wörter in der ersten Stufe besser einschätzt.“
Aber das wird dem nicht wirklich gerecht, da DeepCT viel mehr beinhaltet, als man zunächst vermutet.
Größerer Kontext in Passagen, eine Alternative zu tf (Termfrequenz) und verbessertes Ranking der ersten Stufe mit DeepCT
Dai, der Erfinder von DeepCT, zeigt, dass DeepCT nicht nur die Ranking-Ergebnisse der ersten Stufe verbessert und den Begriffen in Passagen ein Kontextbewusstsein verleiht, sondern auch in Kombination mit dem BERT-Re-Ranker (in der zweiten Stufe) (Bert von Nogueria als Re-Ranker umfunktioniert) und Cho, 2019) ist sehr effektiv, um sowohl die Präzision der "absichtlich ausgerichteten" Ranking-Ergebnisse für Passagen in Verbindung mit der Effizienz zu verbessern, als auch das Potenzial für eine Skalierung auf Produktionsumgebungen ohne wesentliche Änderungen an vorhandenen Architekturen aufzuzeigen.
In der Tat scheint DeepCT sehr effektiv bei der Indizierung von Passagen zu sein, was ein Ranking-Prozess ist, aber im Fall von DeepCT handelt es sich um ein „Index“ -Element, aber nicht so, wie wir es im SEO-Bereich kennen (und Artikel zum Thema DeepCT beziehen sich auf Passagen Indizierung).
Im Moment ist die Verwendung von DeepCT auf die Standard-BERT 512-Token beschränkt, aber das ist ideal für Passagen, und Passagen sind sowieso Teile von Dokumenten, da sie wirklich nur zerhackte Dokumente sind. Daher werden normale Dokumente zu einer Gruppe von Passagen mit Sequenzen, die normalerweise innerhalb der 512-Token-Bereichsbeschränkungen von BERT liegen.
Um Lins Zitat von früher zu wiederholen: „Wie wir bereits ausführlich besprochen haben, hat BERT aus mehreren Gründen Probleme mit Eingabesequenzen, die länger als 512 Token sind. Die naheliegende Lösung besteht natürlich darin, Texte in Passagen aufzuteilen. “
Warum ist DeepCT so wichtig?
Während DeepCT derzeit innerhalb der Beschränkungen der 512-Token-Beschränkungen von BERT und damit der Passagen begrenzt ist, könnte DeepCT einen ranghohen „Durchbruch“ darstellen.
Wichtig ist, dass DeepCT nicht nur versucht, eine kontextsensitive Passage-Ranking-Lösung bereitzustellen, sondern auch einige langjährige branchenweite Probleme beim Abrufen von Informationen im Zusammenhang mit seit langem etablierten Ranking- und Retrieval-Modellen und -Systemen zu lösen. Diese Entwicklungen könnten weit über den begrenzten Fokus von DeepCT und das Update der Passagenindizierung hinausgehen, mit dem wir uns heute befassen, insbesondere da andere Verbesserungen in Bezug auf Effizienz- und Kontextfenster in BERT-ähnlichen Systemen und Transformatoren in Angriff genommen werden.
Das Problem mit der Termfrequenz (tf) in Passagen
Das erste Problem, das DeepCT ansprechen möchte, betrifft die Verwendung von tf (Termhäufigkeit) in Ranking-Systemen der ersten Stufe.
Dai betont: „Suchmaschinen auf dem neuesten Stand der Technik verwenden Ranking-Pipelines, bei denen eine effiziente erste Stufe eine Abfrage zum Abrufen eines ersten Satzes von Dokumenten verwendet, und einen oder mehrere Algorithmen zum erneuten Ranking, um das Ranking zu verbessern und zu bereinigen. Typischerweise ist der Ranker der ersten Stufe ein Abrufmodell mit vielen Wörtern, das die Termhäufigkeit (tf) verwendet, um die dokumentenspezifische Bedeutung von Begriffen zu bestimmen. Tf gibt jedoch nicht notwendigerweise an, ob ein Begriff für die Bedeutung des Dokuments wesentlich ist, insbesondere wenn die Häufigkeitsverteilung flach ist, z. B. Passagen. Im Wesentlichen ignoriert tf die Wechselwirkungen zwischen einem Begriff und seinem Textkontext, was für die Schätzung dokumentenspezifischer Begriffsgewichte von entscheidender Bedeutung ist. “
Dai schlägt vor, dass ein Wort „häufig sein“ in einem bestimmten Abschnitt nicht „relevant sein“ bedeutet, während gleichzeitig die grundlegende Rolle bestätigt wird, die Bag-of-Word-Ansätze im Erbe gespielt haben, und gleichzeitig die Mängel aktueller Systeme hervorgehoben werden.
„Die Wortsack spielt in modernen Suchmaschinen aufgrund ihrer Effizienz und Fähigkeit, detaillierte Term-Matching-Signale zu erzeugen, eine grundlegende Rolle“, sagt Dai. „Die meisten wortreichen Darstellungen und Abrufmodelle verwenden Termgewichte basierend auf der Termhäufigkeit (tf), z. B. tf.idf und BM25. Häufig zu sein führt jedoch nicht unbedingt zu einer semantischen Bedeutung. Um zentrale Wörter in einem Text zu identifizieren, müssen auch die Bedeutung jedes Wortes und die Rolle, die es in einem bestimmten Kontext spielt, berücksichtigt werden. “
Dai beschreibt frequenzbasierte Termgewichte als „grobes Werkzeug“ (obwohl sie ein großer Erfolg waren), da tf nicht zwischen Wörtern unterscheidet, die für die gesamte Textbedeutung von zentraler Bedeutung sind, und Wörtern, die dies nicht sind, insbesondere in Passagen und Sätze und schlägt vor, die Bedeutung des Wortes im Kontext des Textinhalts als „kritisches Problem“ zu verstehen.
„Frequenzbasierte Termgewichte waren ein großer Erfolg, aber sie sind ein grobes Werkzeug“, schrieben Dai und Callan im Jahr 2019. „Die Termhäufigkeit gibt nicht unbedingt an, ob ein Begriff für die Bedeutung des Textes wichtig oder von zentraler Bedeutung ist, insbesondere wenn Die Häufigkeitsverteilung ist flach, wie in Sätzen und kurzen Passagen. “
Dai bemerkte weiter: "Um die Wichtigkeit eines Wortes in einem bestimmten Text abzuschätzen, besteht das kritischste Problem darin, Merkmale zu generieren, die die Beziehungen eines Wortes zum Textkontext charakterisieren."
Das Problem mit mehrstufigen Ranking-Systemen
Das zweite Problem betrifft die Effizienz und den Rechenaufwand in Ranking-Systemen der ersten Stufe, und anschließend konzentriert sich der Schwerpunkt der Deep-Learning-Forschung auf die Neueinstufung (Feinabstimmung, zweite oder spätere Stufe des Rankings bei mehrstufigen Ranking-Systeme) in jüngster Zeit aufgrund von Rechenaufwand beim Deep Learning und nicht aufgrund des vollständigen Rankings (der ersten Stufe).
"Die meisten Ranker der ersten Stufe sind ältere, aber effiziente Bag-of-Word-Abrufmodelle, die Termfrequenzsignale verwenden, und ein Großteil der Forschungsarbeiten zum Ranking konzentrierte sich auf die späteren Stufen des Rankings - die Feinabstimmungsstufen." sagte Dai im Jahr 2019.
Dai schlägt vor, dass die mit dem Ranking der ersten Stufe verbundenen rechnerischen (und anschließend finanziellen) Kosten die Verwendung von komplexem Deep Learning einschränken, was andernfalls den „Mangel an zentraler“ Konzentration auf Begriffe in Bezug auf anderen umgebenden Text in Passagen (Wortkontext) überwinden könnte.
„Frequenzsignale für klassische Begriffe können nicht sagen, ob der Text um einen Begriff zentriert ist, oder erwähnen diesen Begriff nur, wenn ein Thema diskutiert wird. Dieses Problem ist besonders schwierig in der ersten Phase des vollständigen Sammlungsrankings, in der komplexe Funktionen und Modelle zu teuer sind, um angewendet zu werden “, schrieb Dai.
Wir wissen, dass Verbesserungen in der ersten Stufe des Rankings ein Hauptgrund für die in „Zweistufiges Lernen zum Ranking beim Abrufen von Informationen“ durchgeführten Untersuchungen waren. Selbst dann erkennen sie an, dass sich die überwiegende Mehrheit der Untersuchungen zum Ranking in der zweiten Stufe befindet (Neueinstufung, daher war ihre Arbeitsmotivation darauf ausgelegt, die erste Stufe mit einer besseren Anfangsausbeute zu verbessern, indem beispielsweise Abfrageerweiterungstechniken für eine bessere Feinabstimmung verwendet wurden (Vang et al , 2013) .
Es gibt wahrscheinlich viele andere, die versucht haben, diese Verbesserungen des Rankings in der ersten Stufe ebenfalls weiter anzugehen, aber der Hauptfokus lag sicherlich auf der zweiten Stufe aus den oben genannten Gründen, um die Bedeutung der hochrangigen Top-K-Ergebniswahrscheinlichkeit in Kombination zu berücksichtigen mit rechnerischem / finanziellem Aufwand.
Dieser Fokus auf die Ergebnisse der zweiten Stufe wurde auch dann fortgesetzt, als BERT als Passage umfunktioniert wurde und die Forscher begeistert waren, dem BERT-Neueinstufungspfad für Passagen zu folgen.
Verbesserung der ersten Stufe des Rankings UND Gewinnung des Wortkontexts auch in Passagen
DeepCT versucht, Fortschritte zu erzielen, um beide Probleme gleichzeitig zu lösen.
Verbesserungen des Rankings der ersten Stufe mit DeepCT
Dais Arbeit mit DeepCT konzentriert sich auf die erste Phase des Abrufs und unterstützt gleichzeitig die nachgelagerten Neueinstufungsphasen erheblich.
„Der größte Teil der früheren neuronalen IR-Forschung, einschließlich der jüngsten Forschung zur Nutzung von BERT für IR, konzentrierte sich aufgrund der Komplexität neuronaler Modelle auf die Neueinstufung von Phasen. Unsere Arbeit bietet die Möglichkeit, vorhandene Ranglisten der ersten Stufe zu verbessern. Genauere Rankings von Dokumenten der ersten Stufe bieten bessere Kandidaten für ein nachgeschaltetes Re-Ranking, was die End-to-End-Genauigkeit und / oder -Effizienz verbessert. “
„Obwohl große Fortschritte bei der Entwicklung besserer neuronaler Ranking-Modelle für IR erzielt wurden, beschränkt die Komplexität der Berechnungen diese Modelle häufig auf die Phase des Re-Rankings. DeepCT überträgt erfolgreich die Fähigkeit zum Verstehen von Text aus einem tiefen neuronalen Netzwerk in einfache Signale, die von Ranking-Systemen im Frühstadium effizient genutzt werden können und deren Leistung steigern. “
(Dia, 2020)
Eine neue Alternative zur Termfrequenz mit BERT - tfDeepCT
In dieser ersten Phase des Rankings konzentriert sich Dai auch darauf, Wörter in Passagen kontextueller besser zu verstehen als nur ihre Anzahl (tf).
Dai schlägt eine Alternative zur Häufigkeit von Terminen mit einem Teil des Deep Contextualized Term Weighting Frameworks mit dem Namen „tfDeepCT“ vor.
Anstatt nur die Häufigkeit von Begriffen zu zählen, identifiziert tfDeepCT eine tiefe kontextbezogene Bedeutung und einen Kontext für die Wörter in einer Passage.
Unter Verwendung von BERT-Darstellungen weist DeepCT Wörtern eine Wichtigkeitsbewertung zu, die auf ihrer Zentralität und Wichtigkeit für das Thema basiert, wenn ihr Kontext in einer Passage gegeben ist. DeepCT weist wichtigen Begriffen ein höheres Gewicht zu und unterdrückt Begriffe von geringer Bedeutung oder außerhalb des Themas in der Passage.
Diese Gewichte werden dann einem gewöhnlichen invertierten Index zugewiesen, ohne dass neue Beiträge hinzugefügt werden, sondern mit einem Ersatz für tf namens tfDeepCT (die gewichteten Begriffe basieren auf ihrer kontextuellen Bedeutung in einer Passage, wie dies von der Transformator-Aufmerksamkeitsarchitektur von BERT angenommen wird).
DeepCT-Index
Dies nennt man DeepCT-Index.
„TfDeepCT wird verwendet, um das ursprüngliche tf im invertierten Index zu ersetzen. Der neue Index, DeepCT-Index, kann von gängigen Bag-of-Word-Abrufmodellen wie BM25 oder Abfragewahrscheinlichkeitsmodellen durchsucht werden. Es wird erwartet, dass das kontextsensitive Termgewicht tfDeepCT die Abrufmodelle auf zentrale Begriffe in der Passage verzerrt und verhindert, dass Passagen außerhalb des Themas abgerufen werden. Der Hauptunterschied zwischen dem DeepCT-Index und einem typischen invertierten Index besteht darin, dass der Begriff Gewicht auf tfDeepCT anstelle von tf basiert. Diese Berechnung erfolgt offline. “
(Dai, 2020)
WICHTIG - Dies bedeutet nicht, dass dies eine neue Dokumentindizierungssituation ist. Bei der Indizierung von Passagen geht es um das Ranking von Passagen. In Bezug auf die bevorstehende Indexierung von Passagen insgesamt hat Google klargestellt, dass die bevorstehenden Änderungen der Indizierung von Passagen sich auf eine Änderung des Rankings und nicht auf eine Änderung der Indexierung von Dokumenten beziehen. Passagen werden nicht separat sowie anstelle von Dokumenten gemäß den jüngsten Klarstellungen von Google indiziert.
DeepCT-Index (falls verwendet) scheint vorzuschlagen, einfach alternative Rangfolgengewichte zum vorhandenen Index hinzuzufügen, die jedoch tf durch tfDeepCT für Passagen ersetzen.
Dai macht in der Literatur zu DeepCT auch deutlich, dass „keine neuen Posting-Listen erstellt werden“.
Bezieht sich aber auch auf die Verwendung von DeepCT für die Indizierung von Passagen: „Abschnitt 3 beschreibt das Deep Contextualized Term Weighting Framework (DeepCT), dessen Verwendung für die Indizierung von Passagen (DeepCT-Index).“
WICHTIG - Ich möchte dies einschränken, indem ich sage, dass DeepCT-Index ein zentrales Element des DeepCT-Frameworks in der Literatur ist. Google Research hat die Verwendung von DeepCT in seinem Forschungsbericht "Lernen, mit BERT im TF-Ranking zu ranken" sowohl im Abschnitt "Danksagungen" als auch im gesamten Artikel anerkannt.
"Wir möchten Zhuyun Dai von der Carnegie Mellon University für die freundliche Weitergabe ihrer DeepCT-Abrufergebnisse danken."
( Han et al., 2020)
DeepCT ist auch Teil der aktuellen Einreichungen von Forschungsmodellen für das vollständige Ranking, die derzeit in der Rangliste der MS MARCO-Passage-Rankings eingereicht werden.
Dies bedeutet jedoch nicht, dass es in Produktion ist oder sein wird. Aber es ist vielversprechend und weist eine neue und interessante Richtung auf, nicht nur für die Verwendung von BERT mit Passage-Ranking für eine bessere kontextbezogene Suche, sondern auch für eine effizientere und effektivere „kontextsensitive“, insgesamt verbesserte Suche, da es bei Implementierung wahrscheinlich führen wird zu weitaus größere Ressourcen in großem Maßstab, die für das gesamte End-End-End-Ranking-System verwendet werden.
Dies gilt umso mehr, als in letzter Zeit signifikante Ergebnisse in den Bestenlisten der Passagen erzielt wurden und die Ergebnisse in den von Dai vorgelegten Beiträgen zum DeepCT-Framework veröffentlicht wurden. Der Erfinder von DeepCT hat sich nun auch dem Google TF-Ranking-Team angeschlossen und ist in den kürzlich eingereichten Modellen in den Ranglisten der MS MARCO-Passagen aufgeführt.
Einige der früheren Herausforderungen, die DeepCT in den Ergebnissen sowohl im aktuellen TFR-BERT-Forschungsmodell als auch in Dais Arbeiten zu bewältigen scheint, könnten als „Durchbruch im Ranking“ angesehen werden.
Erinnern Sie sich an das Search On-Ereignis von Google in der vergangenen Woche, als Prabhakar Raghavan von Google die Passage-Indizierung ankündigte und sagte: "Wir haben kürzlich einen Durchbruch im Ranking erzielt."
DeepCT klingt so, als ob es vielleicht ein bedeutender Durchbruch im Ranking sein könnte.
Wie funktioniert DeepCT?
Anstatt die Termhäufigkeit in der ersten Phase des Abrufens / Rankings von Informationen zu verwenden, scheint DeepCT vorzuschlagen, die Termhäufigkeit (TF) durch tfDeepCT zu ersetzen. Mit DeepCT wird die kontextbezogene Bedeutung des Wortes als Alternative zum einfachen Zählen der Häufigkeit identifiziert, mit der ein Schlüsselwort in einer Passage erwähnt wird, wobei tief kontextualisierte Darstellungen durch BERT-Transformatoren verwendet werden.
Wichtige Wörter im Kontext werden stärker gewichtet, selbst wenn sie weniger erwähnt werden, und eine Wichtigkeitsbewertung wird angesichts des Kontextes des Wortes in einem Absatz oder einem bestimmten Kontext zugewiesen, da Wörter zu unterschiedlichen Zeiten und in unterschiedlichen Szenarien unterschiedliche Bedeutungen haben. Wichtigere Wörter für die Passage und das Thema (zentrale Begriffe) werden mit einer höheren Wichtigkeitsbewertung bewertet, während weniger wichtige Wörter eine niedrigere Bewertung erhalten und / oder vollständig unterdrückt werden, wenn sie nicht zum Thema gehören oder nichts zur Wichtigkeit von beitragen Der Durchgang.
Es wird eine starke Tendenz zu Wörtern erzeugt, die "themenbezogen" sind, wobei "nicht themenbezogene" Wörter unterdrückt werden.
Um Ludwig Wittgenstein 1953 zu zitieren: „Die Bedeutung eines Wortes ist seine Verwendung in der Sprache.“
Obwohl ich dem folgenden Inhalt einige Kommentare hinzugefügt habe, wollte ich die Bedeutungen in den technischen Erklärungen von DeepCT aufgrund meines begrenzten Verständnisses für das neue und komplexe Thema von DeepCT nicht verzerren, daher sind DeepCT-Erklärungen in erster Linie Zitate aus Dais Artikel .
DeepCT, tfDeepCT und DeepCT-Index
Die grundlegenden Teile von DeepCT scheinen zu sein:
- tfDeepCT - Eine Alternative zur Termfrequenz, die tf durch tfDeepCT ersetzt
- DeepCT-Index - Alternative Gewichte, die einem Originalindex ohne zusätzliche Buchungen hinzugefügt wurden. Die Gewichtung erfolgt offline und erhöht daher die Latenz der Online-Nutzung von Suchmaschinen nicht
- DeepCT-Query - Eine aktualisierte Bag-of- Word-Abfrage , die mithilfe der Deep-Context-Funktionen von BERT angepasst wurde, um wichtige Begriffe in einem bestimmten Textkontext oder Abfragekontext zu identifizieren.
Laut Dia:
„Wir entwickeln einen neuartigen DeepCT-Index, der Begriffe in passagenlangen Dokumenten offline gewichtet und indiziert. Es trainiert ein DeepCT-Modell, um vorherzusagen, ob ein Passage-Term wahrscheinlich in relevanten Abfragen vorkommt. Das trainierte Modell wird auf jede Passage in der Sammlung angewendet. Dieser Inferenzschritt ist abfrageunabhängig und kann während der Indizierung offline ausgeführt werden. Die kontextbasierten Passagenbegriffsgewichte werden auf tf-ähnliche Ganzzahlen skaliert, die in einem gewöhnlichen invertierten Index gespeichert sind, der von gängigen Abrufmodellen der ersten Stufe effizient durchsucht werden kann. “
„Die Analyse zeigt den Hauptvorteil von DeepCT gegenüber klassischen Ansätzen zur Gewichtung von Begriffen: DeepCT findet die zentralsten Wörter in einem Text, auch wenn sie nur einmal erwähnt werden. Nicht zentrale Wörter werden unterdrückt, auch wenn sie im Text häufig erwähnt werden. Ein solches Verhalten ist in früheren Gewichtungsansätzen ungewöhnlich. Wir betrachten DeepCT als einen ermutigenden Schritt von „Frequenzen“ zu „Bedeutungen“.
(Dia, 2020)
Dai hebt die neuartige Natur und Wirksamkeit von DeepCT hervor:
„Die Analyse zeigt, dass der Hauptvorteil von DeepCT in der Fähigkeit besteht, zwischen Schlüsselbegriffen und anderen häufigen, aber nicht zentralen Begriffen zu unterscheiden.“… „DeepCT-Index betont einige zentrale Begriffe aggressiv und unterdrückt die anderen.“
„Bei Anwendung auf Passagen erzeugt DeepCT-Index Termgewichte, die zum Abrufen von Passagen in einem normalen invertierten Index gespeichert werden können. Bei Anwendung auf Abfragetext generiert DeepCT-Query eine gewichtete Abfrage mit vielen Wörtern. Beide Arten von Termgewichten können direkt von typischen Abrufalgorithmen der ersten Stufe verwendet werden. Dies ist neu, da die meisten auf einem tiefen neuronalen Netzwerk basierenden Ranking-Modelle höhere Rechenkosten haben und daher auf Ranker im späteren Stadium beschränkt sind. ”
„In diesem Artikel wird ein neuartiger Ansatz vorgestellt, mit dem DeepCT zur Offline-Indexzeit ausgeführt wird, sodass es in der ersten Phase des Abrufs verwendet werden kann, wenn Effizienz entscheidend ist. Unser Ansatz wendet DeepCT auf jede Passage im Korpus an und speichert die kontextsensitiven Termgewichte in einem gewöhnlichen invertierten Index, um tf zu ersetzen. Der Index kann mithilfe gängiger Wortsack-Abrufmodelle wie BM25 oder statistischer Abfragewahrscheinlichkeitsmodelle effizient durchsucht werden. “
(Dai, 2020)
Um die Effizienz von DeepCT, tfDeepCT und DeepCT-Index hervorzuheben
„Es werden keine neuen Buchungslisten erstellt, sodass die Abfragelatenz nicht länger wird. Im Gegenteil, ein Nebeneffekt… ist, dass tfDeepCT einiger Begriffe negativ wird, was als eine Form der Indexbereinigung angesehen werden kann. “
(Dai, 2020)
Der DeepCT-Index könnte das neuronale Ranking praktisch „Ende-zu-Ende ?“ Machen.
Es scheint Rechenaufwand zu geben, selbst wenn BERT in der Phase des erneuten Rankings verwendet wird, und die verursachten Latenzprobleme sind ein erheblicher Engpass bei der Verwendung in großem Maßstab in Produktionsumgebungen. Dai betont den enormen Vorteil, die erste Stufe mit DeepCT zu verbessern und dadurch die Belastung in der Neueinstufungsphase zu verringern.
Der Hauptpunkt ist, dass die Verbesserung der ersten Stufe das Potenzial hat, sowohl die erste als auch die zweite Stufe dramatisch zu verbessern. In der Tat könnte eine stark verbesserte erste Stufe den Bedarf an zweiten und mehrstufigen Stufen drastisch reduzieren, behauptet Dai und vergleicht die Leistung von DeepCT mit einem Standard-BM25-Ranglistensystem der ersten Stufe.
„Der hohe Rechenaufwand für tiefe neuronale Re-Ranker ist eines der größten Probleme bei der Übernahme in Online-Dienste. Nogueira et al. berichteten, dass das Hinzufügen eines BERT-Re-Rankers mit einer Re-Ranking-Tiefe von 1000 zu einer 10-mal höheren Latenzzeit für ein BM25-Ranking der ersten Stufe führt, selbst wenn GPUs oder TPUs verwendet werden. DeepCT-Index reduziert die Tiefe der Neueinstufung um das 5-fache bis 10-fache, wodurch tiefe neuronale Neu-Ranglisten in latenz- / ressourcensensitiven Systemen praktisch sind. “
(Dai, 2019)
Diese Entwicklung ist darauf zurückzuführen, dass DeepCT dem Suchsystem keine Latenz hinzufügt, da per se nichts weiter hinzugefügt wird.
„DeepCT-Index erhöht die Latenz des Suchsystems nicht. Der Hauptunterschied zwischen dem DeepCT-Index und einem typischen invertierten Index besteht darin, dass der Begriff Wichtigkeitsgewicht auf TFDeepCT anstelle von TF basiert. “
(Dai, 2020)
DeepCT-Ergebnisse
Dai betont die ungewöhnlichen Ergebnisse, die mit DeepCT und insbesondere als Alternative zu Termfrequenzmessungen erzielt wurden, die seit vielen Jahren verwendet werden, und macht geltend, dass die von DeepCT dargestellten Ergebnisse deutlich zeigen, dass andere Termbedeutungssignale über die Laufzeit hinaus erzeugt werden können Frequenz.
„In früheren Untersuchungen ist es ungewöhnlich, dass eine Nicht-tf-Term-Gewichtungsmethode solche wesentlich besseren Rankings generiert. Diese Ergebnisse zeigen, dass tf nicht mehr ausreicht und dass mit einem tiefen Verständnis der Dokumente bessere Term-Wichtigkeitssignale erzeugt werden können. “
(Dai, 2020)
DeepCT ist jedoch nicht nur für das Ranking der ersten Stufe beeindruckend, sondern die verbesserten Ergebnisse der ersten Stufe führen natürlich zu besseren Rankings der zweiten Stufe, während die zentralen Bedeutungen in Passagen mithilfe von tfDeepCT und DeepCT-Index ermittelt werden.
„Experimentelle Ergebnisse zeigen, dass DeepCT die Genauigkeit gängiger Abrufalgorithmen der ersten Stufe um bis zu 40% verbessert. Das Ausführen von BM25 auf DeepCT-Index kann genauso effektiv sein wie mehrere frühere Ranker auf dem neuesten Stand der Technik, die zur Abfragezeit langsame Deep-Learning-Modelle ausführen müssen. Das durch DeepCT-Index ermöglichte Ranking mit höherer Qualität verbessert den Kompromiss zwischen Genauigkeit und Effizienz für spätere Ranglisten. Die Analyse zeigt, dass DeepCT die zentralen Wörter in einem Text finden kann, auch wenn sie nur einmal erwähnt werden. Wir betrachten DeepCT als einen ermutigenden Schritt von „Frequenzen“ zu „Bedeutungen“.
(Dai, 2020)
Hier sind einige der Ergebnisse der Fähigkeiten aus den DeepCT-Experimenten als kontextbezogener Ranker der ersten Stufe, der aus verschiedenen Teilen der DeepCT-Papiere (Dai, 2020) zusammengestellt wurde :
- Ein BM25-Abruf im DeepCT-Index kann 25% genauer sein als klassische tf-basierte Indizes und genauer als einige weit verbreitete mehrstufige Abrufsysteme.
- Diese Ergebnisse zeigen, dass es möglich ist, einige Pipeline-Ranking-Systeme durch einen einstufigen Abruf mit DeepCT-Index zu ersetzen.
- Ein einstufiger BM25-Abruf aus dem DeepCT-Index war besser als mehrere neu eingestufte Pipelines
- Es ist genauer als funktionsbasiertes LeToR (Learning to Rank), ein in modernen Suchmaschinen weit verbreiteter Reranking-Ansatz
- Das verbesserte Ranking der ersten Stufe kommt der Effektivität und Effizienz der nachgeschalteten Re-Ranker weiter zugute.
- Der DeepCT-Index reduziert die Neueinstufungstiefe um das 5fache bis 10fache, wodurch tiefe neuronale Neueinstufungen in latenz- / ressourcensensitiven Systemen praktisch sind
- Das Ranking mit DeepCt in der ersten Phase lieferte einem Reranker relevantere Passagen für ein besseres End-to-End-Ranking.
- DeepCT hatte in allen Tiefen einen höheren Rückruf, was bedeutet, dass ein Ranking von DeepCT einem Reranker relevantere Passagen lieferte.
- Für BERT ReRanker ermöglichte DeepCT eine ähnliche Genauigkeit mit viel weniger Passagen. Dies bedeutet, dass der Reranker 5-10 × effizienter sein kann. Zusammenfassend
- DeepCT setzt relevante Passagen an die Spitze, so dass nachgeschaltete Reranker mit viel kleineren Kandidatensätzen eine ähnliche oder höhere Genauigkeit erzielen können, was zu geringeren Rechenkosten in der Abrufpipeline führt
Ein Durchbruch im Ranking der ersten Stufe unter Verwendung des Wortkontexts und nicht nur der Häufigkeit von Keywords oder ähnlichem?
Die mit DeepCT erzielten Ergebnisse könnten als „Durchbruch im Ranking“ angesehen werden. Sicherlich stellt DeepCT einen Schritt in Richtung einer Verbesserung des „End-to-End-Rankings“ dar (wenn auch im Moment für Passagen) und könnte sicherlich als Fortschritt angesehen werden, insbesondere in Verbindung mit einem Durchbruch bei der Identifizierung der kontextuellen Bedeutungen unter Verwendung von Deep-Learning-Darstellungen mit die Möglichkeit, den aktuellen tf-Begriffen einfach Gewichte hinzuzufügen und durch tfDeepCT zu ersetzen?
Und Dai scheint die Dinge in ihren Behauptungen durcheinander zu bringen und zu sagen, dass tf nicht mehr ausreicht und es Zeit für einen erneuten Blick auf die aktuellen Systeme der alten Zeit ist:
Sie macht geltend, dass die Termfrequenz nicht mehr ausreiche.
„Die Ergebnisse dieses Papiers zeigen, dass tf nicht mehr ausreicht. Angesichts der jüngsten Fortschritte bei Deep Learning und NLP ist es an der Zeit, die Indexer und Abrufmodelle zu überdenken, um neue tiefe und effiziente Ranker der ersten Stufe aufzubauen. “
(Dai, 2020)
Und fasst ihren Fall wie folgt zusammen:
„Das durch DeepCT-Index ermöglichte Ranking mit höherer Qualität verbessert den Kompromiss zwischen Genauigkeit und Effizienz für spätere Ranglisten. Ein hochmoderner BERT-basierter Re-Ranker erzielte eine ähnliche Genauigkeit mit 5 × weniger Kandidatendokumenten, was solche rechenintensiven Re-Ranker in latenz- / ressourcensensitiven Systemen praktischer macht. Obwohl große Fortschritte bei der Entwicklung besserer neuronaler Ranking-Modelle für IR erzielt wurden, beschränkt die Komplexität der Berechnungen diese Modelle häufig auf die Phase des Re-Rankings. DeepCT überträgt erfolgreich die Fähigkeit zum Verstehen von Text aus einem tiefen neuronalen Netzwerk in einfache Signale, die von Ranking-Systemen im Frühstadium effizient genutzt werden können und deren Leistung steigern. Die Analyse zeigt den Hauptvorteil von DeepCT gegenüber klassischen Ansätzen zur Gewichtung von Begriffen: DeepCT findet die zentralsten Wörter in einem Text, auch wenn sie nur einmal erwähnt werden. Nicht zentrale Wörter werden unterdrückt, auch wenn sie im Text häufig erwähnt werden. Ein solches Verhalten ist in früheren Gewichtungsansätzen ungewöhnlich. Wir betrachten DeepCT als einen ermutigenden Schritt von „Frequenzen“ zu „Bedeutungen“.
„Es gibt viele frühere Untersuchungen zur Gewichtung von Passagen, aber es war nicht klar, wie die Syntax und Semantik eines Wortes in bestimmten Passagen effektiv modelliert werden kann. Unsere Ergebnisse zeigen, dass ein tiefes, kontextualisiertes neuronales Sprachmodell einige der gewünschten Eigenschaften erfassen und zur Erzeugung effektiver Termgewichte für die Indizierung von Passagen verwendet werden kann. Ein BM25-Abruf im DeepCT-Index kann 25% genauer sein als klassische tf-basierte Indizes und genauer als einige weit verbreitete mehrstufige Abrufsysteme. Das verbesserte Ranking der ersten Stufe kommt der Effektivität und Effizienz der nachgeschalteten Re-Ranker weiter zugute. “
(Dai, 2020)
Zurück zur Ankündigung der Passage-Indizierung von Google
Lassen Sie uns einfach die Schlüsselbotschaft von Google während des Search On-Ereignisses zur Indizierung von Passagen erneut betrachten: „Mit unserer neuen Technologie können wir wichtige Passagen auf einer Webseite besser identifizieren und verstehen. Dies hilft uns dabei, Inhalte zu veröffentlichen, die ansonsten möglicherweise nicht als relevant angesehen werden, wenn eine Seite nur als Ganzes betrachtet wird. “
Was sich ähnlich anhört wie Dai: „Eine neuartige Verwendung von DeepCT besteht darin, Begriffe zu identifizieren, die für die Bedeutung einer Passage oder eines passagenlangen Dokuments von zentraler Bedeutung sind, um effizient und effektiv Passagen / Kurzdokumente abzurufen.“
Zurück zum Search On-Ereignis: „Diese Änderung bedeutet nicht, dass wir einzelne Passagen unabhängig von Seiten indizieren. Wir indizieren immer noch Seiten und berücksichtigen Informationen über ganze Seiten für das Ranking. Jetzt können wir aber auch Passagen von Seiten als zusätzlichen Ranking-Faktor betrachten… “
Dies kann dies sein (jedoch auf demselben Index), als gewichteter kontextbezogener Ranking-Faktor, der auf Passageebene innerhalb des aktuellen Dokumentindex angewendet wird.
Denken Sie daran, Dai, 2020, macht deutlich, dass im DeepCT-Index keine weiteren Buchungen erstellt werden. Am Index ändert sich nichts, aber möglicherweise werden mit BERT verschiedene kontextbezogene Kennzahlen hinzugefügt, und möglicherweise fügt tfDeepCT diesen Kontext hinzu. (Hinweis: Ich habe keinen Beweis dafür, der über die Literatur und die aktuellen TFR-BERT-Modellbeiträge hinausgeht.)
„In diesem Artikel wird auch ein neuartiger Ansatz vorgestellt, mit dem DeepCT zur Offline-Indexzeit ausgeführt wird, sodass es für den Abruf in der ersten Phase verwendet werden kann, bei dem Effizienz entscheidend ist. Unser Ansatz wendet DeepCT auf jede Passage im Korpus an und speichert die kontextsensitiven Termgewichte in einem gewöhnlichen invertierten Index, um tf zu ersetzen. Der Index kann mithilfe gängiger Wortsack-Abrufmodelle wie BM25 oder statistischer Abfragewahrscheinlichkeitsmodelle effizient durchsucht werden. “
(Dai, 2019)
Welche Bedeutung könnte DeepCT für die Indizierung von Passagen haben?
Wenn DeepCT verwendet würde, könnte dies bedeuten, dass diese „Anzahl der Schlüsselwörter“ und „einige der Anzahl der x, y und z“ in den Funktionen, auf die im Video 2018 zum Abrufen von Passagen Bezug genommen wird, möglicherweise nicht ganz so wichtig sind wie SEOs Wenn DeepCT später in diesem Jahr eingeführt wird, da DeepCT (falls es verwendet wird) einen anderen Ansatz als in YouTube-Videos ab 2018 beim Abrufen von Passagen verfolgen wird.
Ich meine im Ernst, wie viele Entitäten und Schlüsselwörter könnte man überhaupt in eine Textpassage einfügen, ohne dass es sich um Spam handelt?
Das heißt nicht, dass die Dinge von 2018 nicht wichtig sind, da auch Arbeiten mit BERT und Wissensdatenbanken durchgeführt werden, die sich auswirken könnten, und darüber hinaus die Arbeit an T5 von Google untersucht hat, ob Modelle wie BERT das Wissen in seinen Parametern von einfach a erweitern können großes Crawlen des Webs. Ebenso einige andere Arbeiten von Dai in HDCT (Dai, 2019), die einen weiteren Rahmen für das Abrufen und Indizieren von Passagen darstellen. Dort scheint Dai den Positionen der Passagen in einem Dokument Gewicht zu verleihen, und auch der Passage, die in einem Dokument als die „beste“ angesehen wird. Titel und Inlinks werden auch in HDCT als wichtige Indikatoren angesehen.
Google hat sich jedoch nicht dafür entschieden, HDCT in das eingereichte TFR-BERT aufzunehmen, und ich vermute (Meinung), dass es mit dem Potenzial für Spam in Modellen zusammenhängt, die lediglich die Anzahl der Inlinks und Keywords in Seitentiteln gewichten. Aber das ist nur meine Meinung.
Wenn DeepCT verwendet wird, geht es wirklich darum, eine reichhaltige Tiefe an überzeugenden und maßgeblichen Inhalten mit Fokus und Struktur in Abschnitten auf einer Seite bereitzustellen. Die semantischen Überschriften und der Seitentitel werden wahrscheinlich auch helfen, aber schließlich kann man mit diesen Funktionen nur so viel tun, um sich von Mitbewerbern abzuheben.
Ein weiterer Punkt
Sie werden auch feststellen, dass sich viele der 2018-Videos zum Abrufen von Passagen mit dem Thema „Factoid Search“ befassen, das nicht mit „Open Domain-Antworten“ identisch ist, die länger, weniger einfach zu beantworten und viel nuancierter sind .
Die Antworten auf faktoide Fragen sind in Wissensdatenbanken leicht zu finden, verglichen mit nuancierten komplexen Open-Domain-Fragen wie der im Beispiel zur Indexierung von Passagen von Google. Diese Art von Fragen erfordert das Verständnis des wahren Kontextes jeder Arbeit und wird wahrscheinlich nur von kontextbezogenen Begriffsverständnismodellen wie BERT beantwortet, die erst Ende 2018 überhaupt erst aufgetaucht sind. Die Beantwortung komplexerer Open-Domain-Fragen könnte die 7% der Anfragen ausmachen, die als Ausgangspunkt während des Search On-Ereignisses genannt werden, da dies nicht hoch ist.

Wenn DeepCT (oder zukünftige Iterationen von DeepCT) im Ranking von Produktionssuchpassagen verwendet wird, könnte dies das Potenzial haben, das Ranking der ersten Stufe erheblich zu verbessern und das Ranking der zweiten Stufe insgesamt in Suchmaschinen zu verbessern (insbesondere wie bei allen Dingen) aufgebaut und von der Forschungswelt weiter verbessert).
DeepCT oder Innovationen, die DeepCT ähneln, könnten auch die geheime Sauce sein, die Suchmaschinen wirklich von „Keyword Count (tf)“ beim Abrufen in der ersten Phase zu einem viel besseren Verständnis der Wortbedeutung führt. Anfangs in Passagen, aber dann ... wer weiß?
Wir haben bereits von den Effizienzproblemen gehört, die mit dem Ranking der ersten Stufe verbunden sind, und von der Notwendigkeit, Deep Learning erst in den späteren Phasen als Neueinstufung zu verwenden, aber die Dinge könnten sich bald ändern. Darüber hinaus verlassen sich Suchmaschinen seit vielen Jahren auf Rankings der ersten Stufe, die Systeme wie die Häufigkeit von Begriffen beinhalten, und dies könnte sich bald ändern.
Das heißt nicht, dass eine Passage oder ein Dokument ohne ein einziges relevantes Wort leicht eingestuft werden kann, da dies „wahrscheinlich“ nicht der Fall ist, obwohl wir jetzt wissen, dass nicht nur Wörter auf einer Seite einen Mehrwert bieten.
BERT überall
Obwohl wir jetzt wissen, dass BERT in fast allen Abfragen verwendet wird, könnte die Verwendung von BERT für die Indizierung von Passagen und die anfänglichen 7% der Abfragen in Zukunft immer häufiger vorkommen, wenn und wann die Indizierung von Passagen zunimmt und sich stärker auswirkt Anfragen.
BERT überall wäre wahrscheinlich eine Voraussetzung, wenn DeepCT verwendet würde, um die tfDeepCT-Einbettungen im Index zu erstellen.
Allerdings werden BERT und andere neuronale Netze bei sehr kurzen oder Navigationsabfragen wahrscheinlich sowieso nicht immer benötigt.
Schließlich ist für die Abfrage „rote Schuhe“ oder „ASOS-Kleider“ nicht viel natürliches Sprachverständnis erforderlich, da die Absicht normalerweise ziemlich klar ist, abgesehen davon, ob für die Abfrage andere Medien als einfache zehn blaue Links (z. B. Bilder) erforderlich sind ).
Wie bereits erwähnt, befindet sich DeepCT möglicherweise nicht einmal im Produktionsmix
Zu diesem Zeitpunkt ist Google möglicherweise einfach zufrieden mit BERT als Neueinstufung bei langen Open-Domain-Fragen und nicht bei faktoiden Fragen, die leichter zu beantworten sind. Dies scheint jedoch seit der Passage kein „Durchbruch im Ranking“ zu sein Das Ranking gibt es schon seit geraumer Zeit, obwohl das Element des Rankings relativ neu ist.
Selbst ohne DeepCT ist es angesichts der überwältigenden Verwendung von BERT und BERT-ähnlichen Systemen bei der Neueinstufung von Passagen „wahrscheinlich“ Teil des bevorstehenden Passagen-Updates.
Also, wohin als nächstes und warum nur 7% der Anfragen?
Wir wissen also, dass BERT zumindest teilweise für 10% der Abfragen verwendet wurde, und es befand sich wahrscheinlich aufgrund der Rechenkosten in der zweiten Stufe des Rankings (Re-Ranking) und wahrscheinlich nur bei den nuanciertesten Abfragen wahrscheinlich nicht als Passage-Re-Ranker oder Ranker, sondern als Disambiguierungs-Task-Tool auf Satzebene und als Textzusammenfassung (vorgestellte Ausschnitte).
Wir wissen, dass neuronale Ranking-Ansätze mit BERT und anderen tiefen neuronalen Netzen zu rechenintensiv waren, um in der ersten Phase der Suche in der Suchbranche ausgeführt zu werden, und dass die Anzahl der Token, mit denen BERT arbeiten kann, begrenzt war - 512 Token. Aber 2020 war ein großes Jahr, und die Entwicklungen zur Skalierung der Aufmerksamkeitssysteme für maschinelles Lernen in natürlicher Sprache umfassten Innovationen wie Big Bird, Reformer, Performers und ELECTRA plus T5, um die Grenzen des Transferlernens zu testen und große Fortschritte zu erzielen. Und das sind nur Projekte, an denen Google in gewisser Weise beteiligt ist. Ganz zu schweigen von den anderen großen Tech-Suchfirmen.
Während ein Großteil dieser Arbeit sehr neu ist, ist ein Jahr im AI NLP-Forschungsbereich eine lange Zeit. Erwarten Sie daher bis zu diesem Zeitpunkt im nächsten Jahr große Veränderungen.

Unabhängig davon, ob DeepCT in der bevorstehenden Indexierungsfunktion für Produktionssuchpassagen verwendet wird, ist es sehr wahrscheinlich, dass BERT einen starken Zusammenhang mit der Änderung hat, da BERT (und seine Freunde) in den letzten 12 Monaten überwiegend als Passage-Reranker eingesetzt wurden oder so.
Passagen mit ihrer begrenzten Anzahl von Token können, wenn sie als eigenständige Teile betrachtet werden, naturgemäß die Wirksamkeit von Schlüsselwörtern allein ohne kontextbezogene Darstellung einschränken, und sicherlich wäre eine mit Schlüsselwörtern gefüllte Passage, um dies zu überwinden, eher ein Rückschritt als eine Abkehr von der schlüsselwortähnlichen Sprache versuchen Suchmaschinen, sich von weg zu entfernen.
Durch die Verwendung der Kontextdarstellungen zum Verständnis der Wortbedeutung in einem bestimmten Kontext wird die Absichtserkennung von Suchenden erheblich verbessert.
Während BERT derzeit in langen Dokumenten Einschränkungen unterliegt, scheinen Passagen ein idealer Ausgangspunkt für eine neue Suche zur Erkennung von Absichten zu sein. Dies ist insbesondere dann der Fall, wenn Suchmaschinen beginnen, das Wissen von Abfragen und Verbindungen zu Wissensdatenbanken und Repositorys außerhalb der Standardsuche zu erweitern, und in diesem Bereich viel Arbeit geleistet wird.
Was bedeutet das für SEOs?
Wie Sie sich vielleicht erinnern, das Frederic Dubut von Bing-Video von Anfang 2020 und denken Sie daran, dass Bing BERT seit letztem April verwendet und auch behauptet, etwas BERT wie überall in seinen Suchmaschinensystemen zu verwenden. Bing hat möglicherweise nicht den gleichen Marktanteil bei der Suche wie Google, verfügt jedoch über ein beeindruckendes Forschungsteam zum Verständnis natürlicher Sprachen, das in seinem Bereich sehr geschätzt wird.
Frederic sagte, es sei Zeit für SEOs, sich auf absichtliche Forschungspraktiken zu konzentrieren, aber ich glaube nicht, dass dies bedeutete, dass wir Wörter nicht berücksichtigen sollten, da Sprache schließlich auf Wörtern basiert. Selbst DeepCT behauptet nicht, Absichten ohne Worte verstehen zu können. Aber Frederic riet SEOs vielleicht, sich von den Keyword-ähnlichen Ansätzen „x Anzahl der Keyword-Erwähnungen auf einer Seite“ zu entfernen und sich mehr darauf auszurichten, die Absichten hinter den Informationsbedürfnissen wirklich zu verstehen.
Struktur und Fokus im Inhalt waren jedoch IMMER von Bedeutung, und dies nie mehr als jetzt, wenn die Klarheit des Kontexts beim Schreiben noch wichtiger wird, und Unterthemen in einem langen Dokument als Ganzes werden ein wichtiger Teil davon sein, da Passagen dies tun werden wahrscheinlich sind diese langen Dokumente in Teile geschnitten.
Klare Abschnittsüberschriften und der Fokus, um einen Informationsbedarf in jeder Phase zu decken, werden zweifellos immer nützlich sein, obwohl dies nicht unbedingt eine SEO-Sache ist. Ich würde diese falschen Blog-Posts mit wenig aktueller Zentralität sicherlich noch einmal besuchen und sie verbessern, um als ersten Ratschlag einen weiteren Mehrwert zu schaffen.
Außerdem gibt es die Verwendung von <section> in html5 nicht ohne Grund.
Die Mozilla Foundation bietet ein hervorragendes Beispiel für die Verwendung dieses eigenständigen Abschnitts-Markups und des kombinierten Inhalts.
Verlassen Sie sich auch nicht nur auf Rangverfolger, um die Absicht zu verstehen. Die SERPs und die Arten von Websites sowie der Inhalt in ihnen sind zweifellos das beste Maß dafür, worüber Sie in Ihren Passagen sprechen sollten, um den Informationsbedarf zu decken. Es ist nicht immer das, was Sie erwarten.
Diese Entwicklungen mit BERT überall (und Passagen, wenn BERT und DeepCT verwendet werden) verstärken dies weiter.
Wie Prabhakar Raghavan von Google sagte: "Dies ist nur der Anfang."
Er ist nicht falsch.
Während BERT derzeit in langen Dokumenten Einschränkungen unterliegt, scheinen Passagen ein idealer Ausgangspunkt für eine neue Suche mit der Absichtserkennung zu sein. Dies ist insbesondere dann der Fall, wenn Suchmaschinen beginnen, das Wissen von Abfragen und Verbindungen zu Wissensdatenbanken und Repositorys außerhalb der Standardsuche zu erweitern, und derzeit in diesem Bereich viel Arbeit geleistet wird.
Aber das ist für einen anderen Artikel.