Google geçiş dizini oluşturma BERT'den yararlanıyor olabilir mi?
Yayınlanan: 2020-11-19Google'ın üretim aramasında BERT adlı yeni bir güncelleme duyurmasının üzerinden 12 ay geçti ve BERT'nin üretiminin ilk doğum gününün hemen hemen arifesine düşen, büyük ilerleme ve yapay zeka kullanan atılımlar hakkında çok fazla konuşma içeren son Search On etkinliğinin sürpriz olmaması gerekir. Geçen yıl içinde BERT.
BERT'nin ne olduğuna dair bir özet
Özetlemek gerekirse, Google BERT Ekim 2019 güncellemesi, Google'ın sorguları ve içeriği daha iyi anlamasına yardımcı olduğu iddia edilen ve “kelimenin anlamını” (bağlam) daha iyi anlayarak çok anlamlı kelimelerdeki nüansı ortadan kaldıran bir makine öğrenimi güncellemesidir. İlk güncelleme, İngilizce sorguların sadece% 10'unu ve göründükleri bölgelerdeki öne çıkan snippet'leri etkiledi.
Önemlisi, bu ilk BERT arama güncellemesi öncelikle belirsizliği giderme ve ayrıca öne çıkan snippet'lerde metin çıkarma ve özetleme içindi. Netleştirme yönü çoğunlukla cümlelere ve cümlelere uygulanır.

BERT'in üretim arama duyurusundan sonraki yaklaşık bir ay içinde, tüm bölgelerdeki sorguların yalnızca% 10'unu etkilemesine rağmen, daha birçok ülkede kullanıma sunulmaya başlandı.
Başlangıçta Ekim 2019 duyurusu SEO dünyasında epey heyecan uyandırdı, çünkü Google'a göre, BERT'i duyururken güncelleme "son beş yıldaki en büyük ilerlemeyi ve tarihteki en büyük sıçramalardan birini temsil ediyordu. arama. "
Bu, RankBrain'den bu yana en önemli duyuruydu ve abartı yoktu - ve sadece web araması dünyası için değil. Doğal dil anlayışı alanında (yarım asırlık bir çalışma alanı) önceki 12 ay boyunca BERT ile ilgili gelişmeler, tartışmalı bir şekilde, öğrenmeleri bir yıl içinde önceki elliden daha fazla ileriye taşıdı.
Bunun nedeni, Google araştırmacıları Devlin ve diğerleri tarafından "BERT: Dil Anlamak için Derin Çift Yönlü Transformatörlerin Ön Eğitimi" başlıklı 2018 akademik makalesi olan başka bir BERT idi. Not, burada birkaç akademik makaleye atıfta bulunacağım. Bu makalenin sonunda bir kaynak ve kaynak listesi bulacaksınız.
BERT (makale) daha sonra makine öğrenimi topluluğundaki diğer kişilerin üzerine inşa etmesi için açık kaynaklı oldu ve tartışmasız dünyanın dramatik hesaplamalı dilbilim anlayışının ilerlemesine önemli bir katkıda bulundu.
BERT'in temel fikri, soldaki ve soldaki tüm kelimeleri görmek için bir transformatör "dikkat" mekanizması kullanan geniş bir metin koleksiyonundan (En Wikipedia ve BookCorpus) kelimelerin bağlam penceresinde iki yönlü ön eğitim kullanmasıdır. daha büyük bağlam için aynı anda kayan bağlam penceresinde bir hedefin sağına.
BERT bir kez eğitildikten sonra bir temel olarak kullanılabilir ve daha sonra diğer daha ayrıntılı görevler üzerinde ince ayar yapılabilir, çoğu araştırma aşağı akış doğal dil anlayışına, sorulara ve cevaplara odaklanır.
'Kelimenin anlamı' için 'bağlam penceresinin' netliğine bir örnek
Bir bağlam penceresinin kapsamı önemli bir kavram olduğundan, örnekleme için bir örnek verdim:
Bir bağlam penceresi 10 kelime uzunluğundaysa ve hedef kelime 10 kelimelik kayan bir "bağlam penceresi" içinde konum 6'da ise, BERT yalnızca soldaki 1-5 kelimelerini değil, aynı zamanda sağdaki 7-10 kelimelerini de görebilir. aynı zamanda dikkati kuadratik olarak "kelime çiftleri" kullanarak kullanmak.
Bu büyük bir gelişme. Önceki modeller tek yönlüdür, yani yalnızca soldaki 1-5 kelimelerini görebiliyorlardı, ancak sürgülü pencerede bu kelimelere ulaşana kadar 7-10'u göremiyorlardı. Bu çift yönlü doğayı kullanmak ve aynı anda dikkat, belirli bir kelime için tam bağlam sağlar (elbette pencerenin uzunluğunun kısıtlamaları dahilinde).
Örneğin, bağlam penceresindeki diğer kelimeler de "nehir" veya "para" içeriyorsa "banka" kelimesi farklı anlaşılır. Bağlam penceresinde birlikte geçen sözcükler anlama katkıda bulunur ve aniden "banka" bir "finans bankası" veya "nehir kıyısı" olarak anlaşılır.
Ekim 2019 Google BERT güncelleme duyurusuna geri dön
25 Ekim 2019, üretim arama duyurusu, dil araştırma topluluğunda çılgınca BERT odaklı bir yılı takip etti.
2018-2019 arasındaki dönemde Baidu'dan ERNIE de dahil olmak üzere BERT tipi modeller adlı Susam Sokağı karakterinin her türü ortaya çıktı. Facebook ve Microsoft ayrıca BERT benzeri modeller oluşturmakla ve her fırsatta BERT'i geliştirmekle meşguldü. Facebook, ROBERTA modelinin BERT'nin daha sağlam bir şekilde eğitilmiş bir versiyonu olduğunu iddia etti. (Microsoft, Nisan 2019'dan beri Bing'de BERT kullandığını söylüyor)
Büyük teknoloji yapay zeka ekipleri, aralarında en popüler olanları SQuAD (Stanford Soru ve Cevap Veri Kümesi), GLUE (Genel Dil Anlama Değerlendirmesi) ve RACE (Değerlendirmelerden Okuduğunu Anlama) olmak üzere çeşitli makine öğrenimi dili görev liderlik tablolarında birbirlerine sıçradı; insan dilini anlama kriterlerini geçtikçe yenmek.
Peki 2020 ne olacak?
SEO dünyası BERT konusunda (bu aya kadar) son zamanlarda daha sessizken, BERT çevresindeki derin öğrenme ve doğal dil işleme dünyasındaki coşku 2020'de azalmak yerine hızlandı.
2019 / 2020'nin yapay zeka ve doğal dil anlayışındaki gelişmeler kesinlikle SEO'ları BERT takip oyunlarını bir kez daha yapmalıdır. Özellikle bu haftaki gelişmelerin ışığında, özellikle Google'ın Search On çevrimiçi etkinliğinden yapılan duyuruların ardından.
BERT her zaman 'BERT' anlamına gelmez
Devam etmeden önce önemli bir not:
"BERT benzeri" - büyük bir etiketsiz metin modelini "dil" üzerine önceden eğitmek ve daha sonra bir dizi daha ayrıntılı görevler kullanarak modellere ince ayar yapmak için transformatör teknolojileri aracılığıyla aktarım öğrenmeyi kullanmak için açıklayıcı bir terim.
2019 Google güncellemesi BERT olarak adlandırılırken, BERT ve BERT benzeri 2019'dan bu yana, muhtemelen tek bir algoritmik güncellemeden ziyade, aramanın bazı kısımlarında ve genel olarak makine öğrenimi dili alanında kullanılan bir metodolojiye bir referanstı. makine öğrenimi dili dünyasında neredeyse bir sıfat olarak tanınıyordu.
Arama duyurularında Google'ın yapay zekasına geri dönün
Prabhakar Raghavan, "Yapay zeka alanındaki son gelişmelerle, Google'da son on yılda gördüğümüzden daha büyük adımlar atıyoruz, bu nedenle tam olarak aradığınızı bulmanız daha da kolay" dedi. son Aramada Etkinliği.
Google, yanlış yazım algoritmalarında iyileştirmeler, konuşma aracıları, görüntü teknolojisi ve Google Asistan'da uğultu dahil olmak üzere yakında aramaya çıkacak bazı heyecan verici yeni özellikleri ortaya çıkardığı için abartmıyordu.
BERT kullanım cephesinde de büyük haber. Sorguların yalnızca% 10'undan İngilizce'deki neredeyse her sorguya kadar kullanımda büyük bir artış.
"Bugün, BERT'in artık İngilizce'deki neredeyse her sorguda kullanıldığını ve sorularınız için daha kaliteli sonuçlar almanıza yardımcı olduğunu paylaşmaktan heyecan duyuyoruz."
(Prabhakar Raghavan, 2020)
Geçiş indeksleme
BERT kullanım genişleme haberlerinin yanı sıra, özellikle bir başka duyuru, SEO dünyasını çılgınlığa sürükledi.
Google'ın bazı sorgulara yanıt olarak sayfaların ve belgelerin bölümlerinden belirli bölümleri sıralayıp göstereceği "Geçiş Dizini Oluşturma" konusu.
Google'dan Raghavan açıklıyor:
"Çok özel aramalar doğru olması en zor olanı olabilir, çünkü bazen sorunuzu yanıtlayan tek cümle bir web sayfasının derinliklerine gömülmüş olabilir. Son zamanlarda sıralamada bir atılım yaptık ve artık sadece web sayfalarını değil, sayfalardan tek tek bölümleri de indeksleyebiliyoruz. Yalnızca sayfanın genelini değil, belirli pasajların alaka düzeyini daha iyi anlayarak, aradığınız o samanlıkta iğne bilgisini bulabiliriz. Bu teknoloji, biz onu dünya çapında kullanıma sunduğumuz için tüm dillerdeki arama sorgularının yüzde 7'sini iyileştirecek. "
(Prabhakar, 2020)
Önümüzdeki değişikliğin etkisini göstermek için bir örnek verilmiştir.

Yeni teknolojimizle, bir web sayfasındaki önemli bölümleri daha iyi tanımlayıp anlayabileceğiz. Bu, başka türlü bir sayfayı bir bütün olarak değerlendirirken alakalı olarak görülemeyecek içeriği ortaya çıkarmamıza yardımcı olacak…. ”Google geçen hafta açıkladı.
Başka bir deyişle, iyi bir yanıt, başka türlü geniş bir konu belgesinde tek bir pasajda veya paragrafta veya çok fazla odaklanmadan rastgele bir tanıtım sayfasında bulunabilir. Örneğin hala büyük ölçüde yapılandırılmamış ve sürekli artan içeriğe sahip farklı bir ağda pek çok alakasız içeriğe veya karışık konulara sahip birçok blog gönderisini ve fikir parçasını düşünün.
Buna geçiş dizini oluşturma denir, ancak bildiğimiz gibi değil
"Geçiş indeksleme" duyurusu, SEO topluluğunda, değişikliğin başlangıçta "indeksleme" olarak yorumlanmasıyla bazı karışıklıklara neden oldu.
"Geçiş indeksleme" adı ... erm ... "geçiş" ve "indeksleme" anlamına geldiğinden, yapılması gereken doğal bir varsayım.
Doğal olarak bazı SEO'lar tek tek sayfalardan ziyade dizine tek tek pasajların eklenip eklenmeyeceğini sorguladılar, ancak öyle görünüyor ki, Google gelecek güncellemenin aslında bir indeksleme sorunundan ziyade bir geçiş sıralaması sorunuyla ilgili olduğunu açıkladı.
Raghavan, "Son zamanlarda sıralamada bir atılım yaptık ve artık sadece web sayfalarını değil, sayfalardaki tek tek bölümleri de indeksleyebiliyoruz," dedi. "Yalnızca sayfanın genelini değil, belirli bölümlerin alaka düzeyini daha iyi anlayarak, aradığınız o samanlıkta iğne içeren bilgileri bulabiliriz."
Bu değişiklik, endekslemeden ziyade sıralamayla ilgilidir.
Bu buluşlar neler olabilir ve bu nereye gidiyor?
İlk sunumda sorguların sadece% 7'si etkilenecek olsa da, bu yeni geçiş indeksleme sisteminin daha fazla genişletilmesi, ilk şüphelendiğinden çok daha büyük çağrışımlara sahip olabilir.
Abartmadan, doğal dil araştırmalarında geçen yıla ait literatürü keşfetmeye başladığınızda, bu değişikliğin farkına varırsınız, ancak ilk başta görece önemsiz olsa da (çünkü sonuçta sorguların yalnızca% 7'sini etkileyecektir), gerçekten değişme potansiyeline sahip olabilir. Arama sıralaması genel olarak nasıl çalışır?
Bu gelişmelerin ne olduğuna ve bundan sonra ne olabileceğine bakacağız.
Pasaj indeksleme muhtemelen BERT + diğer birkaç arkadaşla ilgilidir… ayrıca daha fazla yeni buluş
Daha derine inmemiz ve BERT'e geri dönmemiz gerektiğinden, aşağıdaki manzarayı keşfettikçe daha net hale geleceğini umuyoruz, BERT ile yakından ilgili büyük gelişmeler etrafında NLP AI'daki ilerlemeler ve geçen yılki sıralama araştırma dünyasında.
Aşağıdaki bilgiler çoğunlukla bilgi alma dünyasında (web aramasının bir parçası olduğu temel alan), son araştırma makaleleri ve konferans tutanaklarından (Google'da çalışmadan önce veya Google'da çalışırken Google arama mühendisleri tarafından yapılan araştırmalar dahil) elde edilmiştir. ).
Bir makaleye atıfta bulunulduğunda, retorik algısını önlemek için yazarı ve yılı, bunun çevrimiçi bir makale olmasına rağmen ekledim. Bu aynı zamanda, 2019 ve 2020'ye kadar ve sonrasında bir tür zaman çizelgesi ve ilerlemenin göstergesiyle meydana gelen bazı büyük değişiklikleri daha açık bir şekilde göstermektedir.
Her yerde büyük BERT'ler
Ekim 2019 duyurusundan bu yana, BERT HER YERDE çeşitli derin öğrenme araştırma sektörü liderlik tablolarında yer aldı. Ve sadece BERT değil, BERT benzeri bir transformatör mimarisi üzerine uzanan veya kullanan birçok BERT benzeri model.
Ancak bir sorun var.
BERT ve BERT benzeri modeller, çok etkileyici olsalar da, tipik olarak hesaplama açısından inanılmaz derecede pahalıdır ve bu nedenle, eğitilmesi finansal olarak pahalıdır ve üretim ortamlarına ölçekli olarak tam sıralamaya dahil edilir, bu da BERT'nin 2018 sürümünü büyük ölçekli ticari aramalarda gerçekçi olmayan bir seçenek haline getirir. motorlar.
Bunun ana nedeni, BERT'in kendi kendine dikkat mekanizmasına dayanan bir transformatör teknolojisi üzerinde çalışmasıdır, böylece her kelime, etrafındaki kelimeleri aynı anda görerek bağlam kazanabilir.
Bu yıl Google başına "100.000 kelimelik bir metin söz konusu olduğunda, bu, 100.000 x 100K kelime çiftinin veya her adım için 10 milyar çiftin değerlendirilmesini gerektirecektir". BERT dünyasındaki bu transformatör sistemleri her yerde yaygınlaşmaktadır, ancak BERT'deki dikkat mekanizmasıyla bu ikinci dereceden bağımlılık sorunu iyi bilinmektedir.
Daha basit bir ifadeyle: Bir diziye ne kadar çok kelime eklenirse, bir kelimenin tam bağlamını elde etmek için eğitim sırasında o kadar fazla kelime kombinasyonuna aynı anda odaklanılması gerekir.
Ancak konu bu modellerin eğitilmesi olduğunda "daha büyük, kesinlikle daha iyidir".
Nitekim, Google BERT'deki bu sunumda orijinal BERT yazarlarından biri olan Jacob Devlin bile model boyutunun etkisini bir slaytla onaylıyor; "Büyük modeller çok yardımcı oluyor."
Büyük BERT tipi modeller, çoğunlukla önceki yarışmacılardan daha büyük oldukları için SOTA (State of the Art) kıyaslamalarını iyileştiriyor gibi görünüyordu. Neredeyse bildiğimiz "Gökdelen SEO" gibi, bir rakibin halihazırda neye sahip olduğunu belirlemek ve "daha büyük veya daha iyi bir şey yaparak yenmek için" başka bir zemin (boyut veya özellik) atmak "ile ilgilidir. Aynı şekilde, daha büyük ve daha büyük BERT benzeri modeller, yalnızca önceki modelleri yenmek için daha fazla parametre ekleyerek ve daha fazla veri üzerinde eğitim alarak geliştirildi.
Büyük modeller büyük şirketlerden geliyor
Bu devasa modellerden en etkileyici olanı (yani, çeşitli makine öğrenimi liderlik tablolarında SOTA'yı (State of the Art) geçenler, büyük teknoloji şirketlerindeki araştırma ekiplerinin ve özellikle Microsoft'un (MT-DNN, Turing-NLG), Google (BERT, T5, XLNet), Facebook (RoBERTa), Baidu (ERNIE) ve Açık AI (GPT, GPT-2, GPT-3).
Microsoft'un Turing-NLG'si yakın zamanda önceki tüm modelleri 17 milyar parametreli bir dil modeli olarak geride bıraktı. Bing'in otomatik önerisinde ve diğer arama özelliklerinde kullanılır. Parametrelerin sayısı aşağıdaki resimde gösterilmektedir ve bazı diğer endüstri modellerine kıyasla Turing-NLG'yi göstermektedir.

GPT-3
OpenAI'nin 175 milyar parametre dili modeli GPT-3 ile karşılaştırıldığında 17 milyar parametre bile hiçbir şey değildir.
GPT-3 ile ilgili sansasyonelleştirilmiş Eylül 2020 Guardian gazetesinin “Bu makalenin tamamı bir robot tarafından yazılmıştır. Yine de korktun mu? "
Gerçekte, bu sadece büyük ölçekte bir sonraki cümle tahminiydi, ancak doğal dil uzayında devam etmekte olan gelişmelerden habersiz olan meslekten olmayan kişi için, bu makalenin böyle bir aksaklıkla karşılanmasına şaşmamalı.
Google T5
Google'ın Şubat 2020'de piyasaya sürülen T5'i (Metinden Metne Transfer Transformatörü) (BERT'den daha yeni bir transformatör tabanlı dil modeli) yalnızca 11 milyar parametreye sahipti.
Bu, bir Google araştırma ekibi tarafından The Common Crawl'dan 2011'e kadar uzanan petabaytlarca web sayfasından oluşan büyük bir web taramasından oluşan bir metin koleksiyonu üzerine önceden eğitilmiş olmasına rağmen ve içindeki dört C'den dolayı uygun bir şekilde C4 olarak adlandırılmıştı. adı 'Colossal Clean Crawled Corpus, boyutu nedeniyle.

Ancak büyük ve etkileyici modellerle maliyet gelir.
BERT'ler pahalıdır (finansal ve sayısal olarak)
SOTA AI modellerini eğitmenin şaşırtıcı maliyeti
"SOTA (Son Teknoloji) Yapay Zeka Modelleri Eğitiminin Şaşırtıcı Maliyeti" başlıklı bir makalede, Senkronize İnceleme daha yeni SOTA NLP yapay zeka modellerinden bazılarının saatte yüzlerce (ve eğitim olabilir) arasında değişen rakamlarla eğitilmesiyle ilgili olası maliyetleri araştırdı bir modeli eğitmenin toplam maliyeti yüz binlere kadar sürer.
Bu maliyetler pek çok tartışmanın konusu olmuştur, ancak üçüncü taraf tahminlerinin doğruluğuna bakılmaksızın yaygın olarak kabul edilmektedir, ilgili maliyetler haraçtır
AlchemyAPI'nin (IBM Watson tarafından satın alındı) kurucusu Elliot Turner, Google Brain ekibi ile Carnegie Mellon arasında Ocak 2020'de piyasaya sürülen birleşik bir çalışma olan XLNet'i (Yang ve diğerleri, 2019) eğitmenin maliyetinin 245.000 $ civarında olduğunu tahmin etti.


Bu, Google AI'dan Jeff Dean'in bile Google'ın yenilenebilir enerji biçiminde katkıda bulunduğu dengeyi göstermek için bir Tweetle girdiği noktaya kadar Twitter'da oldukça tartışma yarattı:

Ve burada sorunu yalanladı ve muhtemelen BERT, bölgesel genişlemeye rağmen 2019'daki üretim lansmanında Google tarafından sorguların yalnızca% 10'unda kullanıldı.
Üretim seviyesi BERT benzeri modeller hem hesaplama hem de finansal açıdan çok pahalıydı.
Uzun biçimli içerik ve BERT benzeri modellerle ilgili zorluklar
Trafo sınırlamaları
BERT benzeri modellerin pratik olarak ölçeklendirilmesiyle ilgili başka bir zorluk daha var ve bu, kelimenin bağlamını korumak için mevcut dizilerin uzunluğu ile ilgilidir. Bunun çoğu, bağlam penceresinin transformatör mimarisinde ne kadar büyük olduğuna bağlıdır.
Bir kelimenin bağlamının bir transformatör penceresinin boyutu çok önemlidir çünkü "bağlam" yalnızca o pencerenin kapsamındaki kelimeleri dikkate alabilir.
Hoşgeldin "reformer"
Google, Ocak 2020'de mevcut trafo bağlam pencerelerinin boyutunu iyileştirmeye yardımcı olmak için "Reformer: The Efficient Transformer" ı başlattı.
2020'nin başlarında Googles Yapay Zeka Dil Modeli Reformer'ı Romanların Bütünlüğünü İşleyebilir başlıklı bir VentureBeat makalesinden: “… Transformer kesinlikle mükemmel değildir - onu daha geniş bağlamlara genişletmek, sınırlamalarını ortaya çıkarır . Büyük pencereler kullanan uygulamaların boyut olarak gigabayttan terabaytlara kadar değişen bellek gereksinimleri vardır, bu da modellerin yalnızca birkaç paragraflık metin alabileceği veya kısa müzik parçaları oluşturabileceği anlamına gelir. İşte bu nedenle Google bugün, 1 milyon kelimeye kadar bağlam pencerelerini işlemek için tasarlanmış bir Transformer evrimi olan Reformer'ı tanıttı. "
Google, bu yıl bir blog yayınında bir bağlam penceresine açısından transformatörlerin temel açığı açıkladı: “Transformer gücü dikkatine gelen bir şey bu bağlam pencere içinde kelimelerin olası tüm çiftleri dikkate süreçtir aralarındaki bağlantıları anlamak . Bu nedenle, 100.000 kelimelik bir metin söz konusu olduğunda, bu, 100.000 x 100K kelime çiftinin veya her adım için 10 milyar çiftin değerlendirilmesini gerektirir ki bu pratik değildir. "
Google AI başkanı Jeff Dean, daha geniş bağlamın Google'ın ileriye dönük çalışmalarının ana odak noktası olacağını söyledi. "Yine de çok daha bağlamsal modeller yapabilmeyi istiyoruz," dedi. "Şu anda olduğu gibi BERT ve diğer modeller yüzlerce kelime üzerinde iyi çalışıyor, ancak bağlam olarak 10.000 kelimede değil. Dean, Aralık ayında VentureBeat'e verdiği demeçte, bu [ilginç bir yön].
Google ayrıca, geçtiğimiz haftaki yeni geçiş indeksleme gelişimiyle ilgili takip eden açıklama tweetlerinde, genel olarak mevcut sıralama sistemlerindeki (transformatör veya reformer tabanlı modeller dışında bile), daha uzun içerikle ilgili zayıflığı kabul ediyor:
"Genellikle, bir sorguyla alakalı olup olmadığını belirlemek için bir web sayfasındaki tüm içeriği değerlendiririz. Ancak bazen web sayfaları çok uzun olabilir veya birden çok konuda olabilir ve bu da bir sayfanın bölümlerinin belirli sorgularla ne kadar alakalı olduğunu sulandırabilir… ”dedi.
BERT'deki hesaplama sınırlamaları şu anda 512 jetondur ve BERT benzeri modelleri pasajlardan daha uzun hiçbir şey için olanaksız hale getirir.
BERT, 2018 / 2019'da büyük ölçekli üretim için uygun değildi
Dolayısıyla, BERT, 2018/2019 biçiminde "olması güzel" olsa da, büyük ölçekli doğal dil anlayışına ve web aramasında tam sıralamaya yardımcı olacak bir çözüm olarak gerçekçi değildi ve gerçekten yalnızca en çok Cümlelerde ve ifadelerde birden çok anlama sahip ve kesinlikle herhangi bir ölçekte olmayan sorgularda nüanslı.
Ama BERT için tüm kötü haberler değil
2019 ve 2020 boyunca, BERT tipi teknolojileri etkileyici bir "sahip olmak güzel" den çok daha kullanışlı hale getirmeyi amaçlayan bazı büyük adımlar atıldı.
Uzun belge içeriği sorunu halihazırda ele alınmaktadır
Big Bird, Longformer ve ClusterFormer
Performansla ilgili sorunların çoğu, transformatörlerde bu ikinci dereceden bağımlılık ve bunun performans ve maliyet üzerindeki etkisi etrafında göründüğünden, daha yeni çalışmalar, bu ikinci dereceden bağımlılığı doğrusal hale getirmeyi amaçlamaktadır ve aralarında en belirgin olanı Longformer: The Long Document Transformer (Beltagy, 2020) ve Google'ın Big Bird (Zaheer ve diğerleri, 2020) .
Big Bird makalesinin özeti şu şekildedir: “Önerilen seyrek dikkat, benzer donanım kullanılarak daha önce mümkün olanın 8 katına kadar uzunluktaki dizileri idare edebilir. Daha uzun bağlamla başa çıkma yeteneğinin bir sonucu olarak BigBird, soru yanıtlama ve özetleme gibi çeşitli NLP görevlerinde performansı önemli ölçüde iyileştiriyor. "
Microsoft araştırmacıları (Wang ve diğerleri, 2020), aşılmaması için Ekim ortasında Cluster-Former konulu makalelerini sundular. Küme-Eski modeli, Google'ın Doğal Sorular "Uzun Cevap" Liderlik Tablosundaki SOTA'dır. Bu modellerin her ikisi de uzun biçimli içerikle ilgili sınırlamaları gidermeye çalışır.

Ve şimdi 'sanatçılar', transformatörler üzerinde yeniden düşünmeyi sağlıyor
Ayrıca çok yakın bir zamanda (Ekim 2020), Google, Cambridge, DeepMind ve Alan Turing Enstitüsü arasında birleşik bir çalışma, genel olarak transformatör mimarisiyle ilgili verimlilik ve ölçek sorunlarını ele almak için "Rethinking Attention with Performers" (Choromanski et al. , 2020) , trafo tipi modellerin maliyetlerini azaltmak için tasarlanan dikkat mekanizmasının temel çalışma şekline tam bir yeniden ziyaret öneriyor.
Senkronize İnceleme, 2 Ekim 2020'de bu konuda rapor edildi.

Ancak bunların hepsi çok, çok yeni çalışmalar ve muhtemelen pasaj indeksleme durumu üzerinde (şimdilik) çok yakın bir etkiye sahip olmak için çok yeni, bu yüzden "muhtemelen" Google'ın pasaj indekslemeyi duyururken bahsettiği buluşlar değiller .
Big Bird ve ClusterFormer gibi uzun form içerik modelleri ile üretim aramasında BERT ve diğerleri gibi uzun belgelerde önemli iyileştirmeler arasında kesinlikle bir gecikme olacaktır.
Bu nedenle, şimdilik doğal dil araştırmacıları ve arama motorları, uzun form içeriklerinden (örneğin pasajlar) daha kısa dizilerle çalışmak zorunda kalmış gibi görünüyor.
Yani mevcut duruma geri dönelim.
NLP modellerinin çözülmemiş alanlarını ele almak
2019 ve 2020'deki odak noktalarının çoğu, Jacob Devlin'in daha önce bahsettiğim sunumunda değindiği NLP modellerinin çözülmemiş alanlarına değiniyor gibi görünüyor. Bunlar:
- Modern donanımda doğruluk karşısında toplam eğitim maliyetini en aza indiren modeller.
- Parametre açısından çok verimli olan modeller (örneğin, mobil dağıtım için).
- Gizli uzayda bilgi / bağlamı temsil eden modeller.
- Yapılandırılmış verileri temsil eden modeller (örneğin bilgi grafiği).
- Vizyon ve dili birlikte temsil eden modeller.
Listede BERT ile ilgili birçok alanda ve özellikle bilgi grafiklerinde çalışmalar varken, bu makalenin odak noktası için Devlin'in ayrıntılı olarak belirtilen eğitim maliyetlerini ve parametre verimlilik noktalarını keşfetmeye devam etmeliyiz.
BERT'yi daha verimli ve kullanışlı hale getirmek
Devlin'in listesindeki ilk öğe, daha ekonomik olarak kullanılabilen ve muhtemelen bir üretim ortamında uygulanabilir modeller yaratmaya adanmış birçok araştırma ile iyi bir ilerleme kaydetti.
Daha verimli modeller
2020'de bir büyük model dalgası ortaya çıkmış olsa da, araştırma topluluğu arasında neredeyse eşzamanlı olarak daha verimli, damıtılmış BERT benzeri modellerden oluşan bir dalga ortaya çıkarken, etkinlik korumayı en üst düzeye çıkarmayı ve aynı zamanda verimlilikle ilişkili masrafları azaltmayı amaçladı.
DistilBERT, ALBERT, TinyBERT ve ELECTRA: Maksimum kazanç için minimum kayıp
Verimlilik iyileştirmelerinin önemli örnekleri arasında Hugging Face's DistilBERT, Google'ın AlBERT (bir lite BERT) ve TinyBERT (bilginin büyük bir öğretmen BERT'den küçük bir öğrenci BERT'ye (TinyBERT) aktarıldığı bir öğretmen / öğrenci tipi BERT modeli bulunmaktadır. Google, ELECTRA'yı da tanıttı, Verimliliğin çoğunu tekrar korurken performansı önemli ölçüde artırmak için farklı türde bir maske teknolojisi kullandı.
Google AI'ya göre, "ELECTRA, işlemlerinin 1 / 4'ünden daha azını kullanırken, GLUE doğal dil anlama karşılaştırmasında RoBERTa ve XLNet'in performansını eşleştiriyor ve SQuAD soru cevaplama karşılaştırmasında son teknoloji ürünü sonuçlar elde ediyor. Bu iyileştirmeler, hesaplama açısından çok pahalı olan bir BERT modeli eğitirken kelimelerin% 15'ini maskelemekten daha verimli yöntemler kullanmanın bir sonucudur. "
Yukarıda bahsedilen uyarlamaların her biri, etkililikte minimum kayıp ile orijinal BERT modelinden çok daha verimlidir.
Araştırma mühendisleri ve ücretsiz verilerden oluşan bir 'ordu'
İlerlemenin bir başka desteği de, makine dili anlayışını geliştirmede yer alan (kelimenin tam anlamıyla) zorlukları bir kez daha üstlenen bütün bir araştırma topluluğu biçiminde geliyor.
Ancak istekli katılımcıların daha iyi modeller eğitmek için verilere ihtiyacı vardır.
Devlin'in sunumunda belirttiği gibi, "NLP'deki kısa vadeli iyileştirmelerin çoğunlukla 'ücretsiz' verileri akıllıca kullanmakla ilgili olacağına inanıyor."
Veri bilimcilerin kullanabileceği (Kaggle'ın 2017'de Google tarafından satın alındığını düşünün), etrafta bol miktarda ücretsiz veri seti için artan kaynaklar varken; muhtemelen makine öğrenimi yarışmalarına katılan milyonlarca kayıtlı kullanıcıya sahip en büyük veri bilimci topluluğu). Bununla birlikte, gerçek gündelik ağa ve özellikle sorgulara dayanan "gerçek" doğal dil araştırması için "gerçek dünya" türü veriler, daha az.
Bununla birlikte, "özgür" doğal dil verilerinin kaynakları artmaktadır ve şu anda birkaç tane varken, doğal dil araştırma topluluğuna hediye edilen verilerin çoğu, araştırmayı teşvik etmek için arama motorlarından gelmektedir.
MSMARCO (Microsoft)
2016'dan beri MSMARCO veri kümeleri, ince ayar modelleri için baskın eğitim uygulamalarından biri olmuştur.
Microsoft'un MSMARCO'su, başlangıçta gerçek anonimleştirilmiş Bing arama motorlarından ve Cortana asistanı sorgu gönderimlerinden 100.000 soru ve yanıttan oluşan bir veri kümesiydi, ancak 1.000.000'den fazla soru ve yanıta on kat genişletildi. Ayrıca, MSMARCO'nun özellikleri, genel doğal dil anlayışının ve soru-cevap görevlerinin ötesine geçen ek eğitim görevlerini içerecek şekilde genişletilmiştir.
Google'ın doğal soruları (Google)
MSMARCO gibi, Google'ın da, Google'ın arama motoruna gerçek kullanıcı sorgularından oluşan kendi doğal dilde soru ve yanıt veri kümesinin yanı sıra, "Google Doğal Sorular" adı verilen bir lider panosu ve üstlenilmesi gereken görevler vardır.
"Sorular, Google arama motoruna gönderilen gerçek anonimleştirilmiş, toplu sorgulardan oluşur. Sorgu akışındaki soruları filtrelemek için basit buluşsal yöntemler kullanılır. Bu nedenle sorular, bilgi arayan insanlardan gelen gerçek soruları temsil ettikleri için "doğaldır". "
(Kwiatkowski ve diğerleri, 2019)
Google Natural Questions'da araştırmacılar, Wikipedia'dan tek bir paragrafta hem uzun bir yanıt hem de kısa bir yanıt bulmadan önce modellerini tüm sayfayı okuyacak şekilde eğitmelidir. (aşağıdaki görselleştirme)



TensorFlow C4 veri kümesi - Muazzam Temiz Tarama
Daha yeni bir veri kümesi, daha önce T5'i tanıtırken bahsedilen C4'tür (Colossal Clean Crawl of Common Crawl). Orijinal BERT'in dil ön eğitimi İngilizce Wikipedia ve BookCorpus'un 2,5 milyar kelimesi (800 milyon kelime) üzerindeyken, Wikipedia'dan gelen dil günlük doğal dili temsil etmemektedir çünkü web'in çok daha azı aynı yarı-yapılandırılmış iyi- bağlantılı yapı. C4, ön eğitimi gerçek dünya doğal dili aracılığıyla gerçeğe çok daha benzer bir şeye götürür ve Google'ın T5 modelini önceden eğitmek için kullanılır.
C4 Clean Colossal Crawl Veri Kümesi, The Common Crawl'un milyarlarca sayfalık "devasa" petabayt boyutunda taramasından (2011'den beri "gerçek web" in büyük örnekleri) oluşur, şablondan (küfür, javascript bildirimleri, kod “gürültüyü” ortadan kaldırmak için bu tür diğer dikkat dağıtıcı unsurlar). Yine, veri seti temizlendikten sonra başkalarının öğrenmesi için kullanılabilir hale getirildi.
NLP araştırmalarının çoğu pasajlara ve sıralamaya geçti
Geçit bulma ve sıralama, son birkaç yıldır en gözde araştırma alanlarından biri haline geldi.
Bilgi erişiminde belgelerin parçalarının geri alınması, AKA geçişi geri alınması veya alt belge alımı yeni bir şey değil. 1999 yılındaki eski bir bilgi erişim alt belge alma sistemi patentinin aşağıdaki resmine bakın. (Evans, 1999)

Ayrıca geçiş sıralaması konusunda 2008 ve daha önceki yıllara ait IR araştırma makalelerini de bulabiliriz, örneğin, "Belge Geçişi Grafiklerini Kullanarak Arama Sonuçlarını Yeniden Sıralama" (Bendersky ve diğerleri, 2008) ve kesinlikle çok daha fazlası olacaktır.
Ayrıca, 2018'in başlarında YouTube'daki videolarla pasaj alma işleminin aktif bir araştırma alanı olduğunu görebiliriz:

Yukarıdaki ekran görüntüsünde "Geçiş Sıralaması için Özellikler" in tümünün, varlıkların, n-gramların, sorgu kelimelerinin (anahtar kelimelerin) ve kelimelerin, kelimelerin, kelimelerin "sayılarına" dayandığını göreceksiniz. Anahtar kelimeler her yerde.
Ancak bu Haziran 2018'deydi, bu nedenle Haziran 2018 ile şimdi önemli olan özelliklerin ağırlıkları arasında çok fazla fark olabilir.
… Ve bu BERT'den önceydi.
BERT, geçiş sıralaması araştırma coşkusuna büyük bir katkı sağlamıştır ve muhtemelen BERt'in trafo mimarisinin verimsizliği ve uzunluk kısıtlamaları ile ilgili yukarıda belirtilen sorunlar nedeniyle.
"Daha önce kapsamlı olarak tartıştığımız gibi, BERT çeşitli nedenlerden dolayı 512 jetondan daha uzun girdi dizileriyle sorun yaşıyor. Elbette bariz çözüm, metinleri bölümlere ayırmaktır. " (Lin vd, 2020)
Ancak geçiş sıralamasının BERT'li araştırmacılar için popüler bir makine öğrenimi etkinliği haline gelmesinin başka bir nedeni daha var.
MSMARCO'nun Geçiş Sıralaması Görevi ve Liderlik Tablosu
Ekim 2018'den bu yana MS MARCO ve ilgili liderlik tablosunda bir Geçiş Sıralaması görevi mevcut ve Facebook, Google, Baidu ve Microsoft gibi büyük teknoloji şirketlerinde olanlar da dahil olmak üzere dil araştırmacılarından çok sayıda giriş aldı.

Gerçekten de, MS MARCO'nun Twitter'da duyurduğu gibi, sadece geçen hafta, Soru ve Cevaplama görev liderlik tablosunu yakında kullanımdan kaldıracaklarını çünkü şu anda bu alanda sınırlı ilerleme kaydedildi ve Odak noktası orası olduğu için Geçiş Sıralaması görevini yerinde tutacaklarını vurguladı. şimdi oldu.

MS MARCO Geçiş Sıralaması Görevinde 8,8 milyon geçişlik bir veri kümesi sağlanır.
MS MARCO Web Sitesine göre:
Veri kümesindeki yanıtların türetildiği bağlam pasajları, Bing arama motorunun en gelişmiş sürümü kullanılarak gerçek web belgelerinden çıkarılır. Sorguların cevapları, eğer cevabı özetleyebilirlerse, insanlar tarafından üretilir. "
Geçiş Sıralaması Görevi iki bölüme ayrılmıştır.
- Geçiş Yeniden Sıralaması: BM25 tarafından alındığı şekliyle en iyi 1000 pasaj adaya verildiğinde, geçişi alaka düzeyine göre yeniden sıralayın.
- Geçiş Tam Sıralaması: 8,8 milyon pasajlık bir külliyat verildiğinde, alaka düzeyine göre sıralanmış en iyi 1000 pasajı oluşturur.
Bazı atılımlar
Ve bu şimdi bizi, geçtiğimiz hafta Google tarafından Arama'da referans gösterilen sıralamadaki atılımların nerede olabileceğine güzel bir şekilde getiriyor.
Google'ın atıfta bulunduğu dönüm noktası muhtemelen sadece pasaj sıralaması değil, daha ziyade pasaj sıralamasındaki atılımlar ve pasaj geri alma araştırma alanındaki birçok etkinliğin yan ürünü olarak keşfedilen diğer "yeni" bulgular ve ayrıca bu araştırma, sıralamaya yönelik mevcut Google yaklaşımlarıyla (örneğin TensorFlow ile Sıralamaya Öğrenme (LeToR)), ayrıca kendi araştırma ekiplerinde özel olarak geçiş sıralamasından ayrı birçok geliştirme ve genel olarak AI'daki sektör iyileştirmeleriyle birleştirildi.
Örneğin, ROBERTA (daha sağlam eğitimli BERT) ve daha verimli maskeleme tekniği ile ELECTRA (Google, 2020) . Kısa bir süre sonra değineceğimiz başka büyük atılımlar da var.
Araştırma topluluğu, BERT ve arkadaşlarla sonuçlanan yinelemeli iyileştirmelerle birlikte, genel olarak soru ve cevaplama ve doğal dil anlayışı ile aynı şekilde gemiye atladı, bu yüzden şimdi de büyük odak, pasajlara özel bir vurgu yaparak sıralamadaki verimliliği ve etkinliği artırmaya odaklanıyor.
Daha uzun bir belgeyi birkaç parçaya bölmek kolay olduğundan, pasajlar sonuçta daha küçüktür ve BERT'in kısıtlamaları dahilinde.
Ve çok önemli gelişmeler var gibi görünüyor.
İlerlemeyi daha iyi anlamak için, sıralama sistemlerinin genel olarak bir endüstri standardı olarak nasıl çalıştığına bakmamız gerekiyor, çünkü bu, endeksten tek bir getirme kadar basit değil.
İki aşamalı sıralama sistemi
İki aşamalı sıralamada, önce tam sıralama (tüm belgelerin ilk sıralaması) ve ardından yeniden sıralama (ilk aşamadaki en iyi sonuçların yalnızca bir seçiminin ikinci aşaması) vardır.
Bilgi erişiminde (ve web aramasında), iki aşamalı sıralama, öncelikle BM25 gibi basit, klasik bir geri alma algoritması veya bir sorgu genişletme algoritması, sıralamayı öğrenme algoritması veya basit bir sınıflandırıcı kullanarak geniş bir belge koleksiyonunu almakla ilgilidir. yaklaşmak.
Daha sonra ikinci bir aşama, muhtemelen bir sinirsel yeniden sıralayıcı kullanılarak, ilk aşamadan en çok alınan sonuçların bir listesi üzerinden daha büyük bir hassasiyetle ve daha fazla kaynakla gerçekleştirilir.
Bir endüstri standardı olarak iki (veya çok aşamalı) aşama sıralama sisteminin pek çok onayını bulmak için araştırma literatüründe çok ileri gitmemize gerek yok.
"Son teknoloji ürünü arama motorları, verimli bir birinci aşamanın, belge koleksiyonundan ilk belge kümesini almak için bir sorgu kullandığı ve bir veya daha fazla yeniden sıralama algoritmasının sıralamayı iyileştirip azalttığı sıralama ardışık düzenleri kullanır."
(Dai, 2019)
“İlk erişimin klasik bir bilgi erişim yöntemiyle yapıldığı ve ardından sinirsel yeniden sıralama modelinin izlediği iki aşamalı belge sıralaması yeni standarttır. En iyi performans, yeniden sıralayıcı olarak transformatör tabanlı modeller kullanılarak elde edilir, örneğin, BERT. "
(Sekulic vd, 2020)
"Bir belge setini sıralamayı iki aşamalı öğrenmeden önce, genellikle koleksiyondan BM25 gibi klasik ve basit, denetimsiz bir kelime torbası yöntemi kullanılarak alınırdı."
(Dang, Bendersky ve Croft, 2013)
BM25'in En İyi Eşleşme 25 Algoritması anlamına geldiğini ve genellikle TF: IDF hakkında çok konuşulanlara tercih edildiğini ve o zamanın görevi için en iyi eşleşme olan belirli bir sıralama türü algoritmasında 25. girişim olduğu için bu şekilde adlandırıldığını unutmayın ( önemsiz şeyler).
Google ve diğer arama motorlarının elbette, herhangi bir kapasitede BM25'i kullandığından emin olamasak da, ElasticSearch öğrenmek isteyenler için BM25 algoritmasına iyi bir genel bakış sağlar. Bununla birlikte, bir dereceye kadar bu kadar ilgili birçok bilgi edinme dersinde hala öğretilmektedir.
Üretim araştırması durumunda, muhtemelen genel olarak basitçe BM25'ten çok daha gelişmiş bir şeydir, ancak muhtemelen ilk getirme yerine ikinci aşamada daha gelişmiş ve pahalı kaynaklar kullanılır. Bing'den Frederic Dubut, Bing'in arama motorunun çoğunda bir Sıralamayı Öğrenme algoritması olan LambdaMART'ı kullandığını doğruladı (bunun birinci aşamada mı yoksa ikinci aşamada mı yoksa tüm sıralama aşamalarında mı olduğu konusunda yorum yapmadı). Google'dan araştırmacılar tarafından yazılan makaleler: "LambdaRank veya ağaç tabanlı varyantı LambdaMART, öğrenme prosedürüne sıralama metriklerini dahil eden en etkili algoritmalardan biri oldu." (Wang ve diğerleri, 2018)
Ana nokta, daha fazla kaynak (kapasite / finansal) nedeniyle araştırmada kullanılan sistemlerden muhtemelen daha güçlü olmasıdır, ancak ilkeler (ve temel algoritmalar) aynı kalır.
Bir uyarı, bazı ticari arama motorlarının "çok aşamalı" sıralı sinir modelleri kullanıyor olabileceğidir.
Çok aşamalı sıralama ardışık düzenlerine atıfta bulunan Nogueria ve diğerleri, 2019'da şunları yazdı: "Bilinen üretim dağıtımları arasında Bing web arama motoru (Pedersen, 2010) ve Alibaba'nın e-ticaret arama motoru yer alıyor."
Ek olarak, “Çoğu zaman gözden kaçırılsa da, günümüzde çoğu sinirsel sıralama modeli. . . aslında, tipik olarak bir "kelime torbası" sorgusuyla üretilen aday belgelerin bir listesinin çıktısı üzerinde işlem görmeleri anlamında yeniden sıralama modelidir. Bu nedenle, yalnızca tek bir yeniden sıralama aşamasıyla yoksullaştırılmış bir form olsa da, günümüzde nöral modellerle belge erişimi zaten çok aşamalı derecelendirmeyi kullanıyor. "
İki aşamalı indeksleme, iki aşamalı sıralama değildir
Daha fazla açıklama. İki aşamalı indeksleme / oluşturmayı biliyoruz ve Google iki aşamalı indeksleme durumu hakkında pek çok bilgi sağladı, ancak bu iki aşamalı sıralama veya iki aşamalı indeksleme değil.
İki aşamalı sıralama tamamen farklıdır.
İki aşamalı sıralamanın ilk aşaması: tam sıralama
Sıralamaya Kadar İki Aşamalı Öğrenmede (Dang ve diğerleri, 2013) , bir belge listesi önce bir dizi özellik ve sorgu genişletmeleri içeren öğrenilmiş bir "uygunluk modeline" göre sıralanır, ardından model belgeleri buna göre geri çağırmak için eğitilir. ilk geri çağırma aşamalarında alaka modeli ”.
İki aşamalı sıralamanın ilk aşaması, gerçekten mümkün olduğunca çok sayıda potansiyel olarak alakalı sayfayı almakla ilgilidir. Bu ilk aşama, çeşitli sorgu genişletme terimleri ve belki de sınıflandırma özellikleriyle tf (terim sıklığı) tabanlı bir yaklaşım olan BM25 gibi bir şeyi genişletir, çünkü Vang ve diğerlerine göre, 2013, "ilk erişimde daha fazla belge almak daha iyidir, bu nedenle ikinci aşamada önemli ve son derece alakalı belgeleri kaçırmamak için. " (Vang ve diğerleri, 2013) .
"Sıralamayı Öğrenmek" ve sorgu kümesini sorgu genişletmeyi içerecek şekilde genişletmek konusunda Vang ve diğerleri şunları yazıyor; "Bu genişletilmiş sorgu modelinin, ilk ilk aşamada geri çağırmaya daha fazla belge eklenmesi nedeniyle BM25 gibi basit kelime torbası algoritmalarından önemli ölçüde daha iyi performans gösterdiği düşünülüyor." (Vang ve diğerleri, 2013).
Bilgiye erişim için sıralamayı iki aşamalı öğrenme
"Sıralamayı Öğrenmek" hakkında:
“Öncelikle, ağırlıklı ifadeler, yakınlıklar ve genişletme terimleri dahil olmak üzere sınırlı bir metinsel özellik kümesini kullanarak tüm erişim koleksiyonunda bir sıralama işlevi öğreniyoruz. Bu işlev daha sonra, son modelin daha büyük bir sorgu ve belgeye bağlı özellik kümesi kullanılarak eğitildiği olası en iyi belge alt kümesini almak için kullanılır. "
(Vang ve diğerleri, 2013)
2013 raporu daha eski olmasına rağmen, iki aşamalı sistem hala 'endüstri standardı' olduğundan, ilerlemenin bu konuda gelişmesinin daha fazla nedeni.
İki aşamalı sıralamanın ikinci aşaması: Yeniden sıralama
Bu alınan belgeler listesinden, alınan belge listesinde ilk K olarak bilinen ve makine öğrenimi teknikleri kullanılarak hassaslık için ince ayar yapılan, belirtilen ilk X sayıda belge üzerinde ikinci bir geçiş gerçekleştirilir. Bilgi erişim kağıtlarında sık sık P @ K (K'da Kesinlik) terimini görürsünüz; bu terim, alaka düzeyinin "altın standardı" ya da "temel gerçeği" karşısında üst K'deki hassasiyet seviyelerini ifade eder (K bir sayıdır, ör. P @ 10, alınan en iyi 10 sonuç içindeki bir sorgu ile ilgili olarak kullanıcının bilgi ihtiyaçlarını karşıladığına karar verilen doğru sonuçların sayısı anlamına gelir).
P @ K gibi değerlendirme ölçütlerinin iyi bir açıklaması (ve başka birkaç tane de vardır) bu bilgi erişim ders slaytında verilmiştir.
İki aşamalı sıralamanın ikinci aşaması, kesinliğin çok daha önemli olduğu ve çok daha fazla kaynağın harcandığı, aynı zamanda muhtemelen altını üst sıralarda gerçekten ayırmak için daha fazla uygunluk ölçüsü eklediği yerdir.
2. aşamaya dahil edilmek üzere seçilen belgelerin daha kesin bir şekilde sıralanmasının önemi anahtardır ve yüksek dereceli sonuçlarda kesinlik, daha da önemlisi, çünkü bu sonuçların arama motoru kullanıcıları tarafından görülme olasılığı yüksektir.
Atasözü giderken, "yalnızca SEO'lar arama sonuçlarının ikinci sayfasının ötesine bakar".
"Bilgi Erişimi Sıralamasında İki Aşamalı Öğrenme" de Dang ve diğerleri şunları söylüyor:
"Çalışma zamanında, kullanıcı sorgularına yanıt olarak, Aşama A modeli, daha sonra Aşama B modeline göre yeniden sıralanan küçük bir dizi yüksek dereceli belgeyi almak için yeniden kullanılır. Son olarak, yeniden derecelendirilen sonuçlar kullanıcıya sunulur ”
(Dang ve diğerleri, 2013)
Özetlemek gerekirse, verimlilik ve etkililik, iki aşamalı sıralama süreci için ana itici güçtür. Daha fazla hassasiyet elde etmek için en önemli belgelerdeki hesaplama açısından en pahalı kaynakları kullanın, çünkü en önemli olan yer orasıdır. Tam sıralama, tüm koleksiyondan alınan en iyi K'deki iyileştirmeler için ikinci aşama olarak yeniden sıralama ile birinci aşamadır.
Bir kenara, Google'ın Danny Sullivan'ın mayıs tweet'inde "İlk 10 içindeyseniz işleri doğru yapıyorsunuz" demesinin nedeni muhtemelen budur.
İlk 10, muhtemelen yeniden sıralanan “kesinlik” aşamalarında İlk-K'nin en önemli parçası olduğundan ve bu sonuçlar için maksimum özellikler ve hassas 'öğrenme' gerçekleştirilecektir.
Sıralamanın ikinci aşamasını (kesinlik) iyileştirmek odak noktası olmuştur
Hassasiyet için sıralamanın ikinci aşamasının önemi göz önüne alındığında, sıralama iyileştirmelerine yönelik araştırmaların çoğu bu aşamaya odaklanır - yeniden sıralama aşaması.
Şimdilik BERT'i EN İYİ şekilde kullanmak
BERT'in 2018/2019 formatında sınırlı olduğunu biliyoruz. Daha küçük modellerin ortaya çıkmasına rağmen, sıra uzunluğu / bağlam penceresi sınırlamaları ve aynı zamanda masraf açısından değil.
BERT, yalnızca cümle düzeyinde web aramasında en nüanslı belirsizliği giderme ihtiyaçlarıyla ilgilenen ve anlamlı bir kapasitede kullanılabilir bir şeye dönüştürülen "olması güzel" den daha iyi bir şey nasıl yapılır? Pek çok araştırmacının da gemiye atlayabileceği bir şey?
BERT, geçiş sıralayıcı ve yeniden sıralayıcı olarak yeniden tasarlandı
Aha… BERT Bir geçiş sıralayıcı olarak.
BERT'nin sınırlamalarını ve ideal akım kullanımını güçlendirmek için bir kez daha: “BERT, çeşitli nedenlerden dolayı 512 jetondan daha uzun girdi dizileriyle sorun yaşıyor. Elbette bariz çözüm, metinleri bölümlere ayırmaktır ”diyor Lin ve diğerleri bu yıl.
Araştırma ve geliştirmenin en büyük çığır açan alanlarından biri, BERT'nin ilk olarak 2019'da Nogueria ve Cho tarafından "Passage Reranking with BERT" ve daha sonra diğer makalelerinde yeniden düzenleyici olarak yeniden tasarlanması olmuştur.
Dia, 2019'un bir 2019 makalesinde belirttiği gibi: "BERT, IR için büyük ilgi gördü ve esas olarak onu sorgu-belge alaka düzeyini tahmin etmek için kara kutu yeniden sıralama modeli olarak kullanmaya odaklandı."
Nogueira & Cho, 2019 tarihli "Passage Reranking with BERT" makalelerinde, "sorguya dayalı pasaj yeniden sıralama için BERT'nin basit bir yeniden uygulanmasını açıkladıklarını" söyledi. Sistemimiz, TREC-CAR veri kümesinde son teknoloji ürünüdür ve MS MARCO geçiş alma görevinin lider panosunda en üstteki giriş olup, MRR @ 10'da önceki son teknolojiden% 27 (göreceli) daha iyi performans gösterir. "
"BERT'nin basit bir uyarlamasını, TREC-CAR ve MS MARCO olmak üzere iki farklı görevde son teknoloji haline gelen bir geçiş yeniden sıralayıcı olarak tanımladık."
Bilgi edinme alanında birkaç makalenin yazarı ve Amsterdam Üniversitesi'nde Bilgi Edinme alanında doktora sonrası araştırmacı olan Dr. Mohammad Aliannejadi ile doğal dili, mobil arama ve diyaloğa dayalı aramayı keşfettim.
Dr Aliannejadi, "Şu anda, bir yeniden sıraya koyucu olarak BERT daha pratik, çünkü tam sıralama çok zor ve pahalı" dedi. "Ve verimlilikteki iyileştirmeler, verimlilik kaybını haklı çıkarmaz."
"BERT kullanarak tam sıralama çalıştırmak için çok sayıda hesaplama kaynağına ihtiyaç vardır."
BERT ve pasajlar
Daha sonra, pasajın yeniden sıralanması (ve BERT ile giderek daha fazla geçiş yeniden sıralaması), şu anda bilgi edinme ve makine öğrenimi dili araştırma dünyasının en sevilen 2020 konuları arasındadır ve özellikle diğerleriyle birleştirildiğinde önemli ilerlemenin kaydedildiği bir alandır. Verimlilik, ölçek ve iki aşamalı sıralama iyileştirmeleri etrafında AI araştırma iyileştirmeleri.
Geçitler ve BERT (şimdilik) el ele gidiyor
Geçtiğimiz zamanlardaki "BERT dünyası" üzerindeki etkiyi görmek için Lin ve arkadaşlarının yakın zamanda yayınlanan "Metin Sıralaması için Önceden Eğitilmiş Transformatörler: BERT ve Ötesi" (Lin ve diğerleri, 2020) kitabındaki içindekiler tablosuna bakmak yeterlidir. , ”291 pasajdan bahseden Juan Gonzalez Villa'nın belirttiği gibi:

Google araştırma ve geçiş sıralaması / yeniden sıralama
Doğal olarak, Google Research, MSMARCO'nun liderlik tablosunda, yinelemeli olarak gelişen bir modelle (TFR-BERT) rekabet eden pasajlarla sıralamayı ve yeniden sıralamayı iyileştirme mücadelesine katılan bir ekibe (Google TF Sıralama Ekibi) sahip ve birkaç kez revize etti.
TFR-BERT, Nisan ayında yayınlanan ve en son revizyonu Haziran 2020'de olan "TF Sıralamasında BERT ile Sıralamaya Öğrenme" (Han ve diğerleri, 2020) başlıklı bir makaleye dayanmaktadır. "Bu yazıda odaklanıyoruz. yazarlar, geçiş sıralaması ve özellikle MS MARCO pasajının tam sıralama ve yeniden sıralama görevleri konusunda ”diye yazdı.
“… Belge ve geçiş sıralaması için TFR-BERT çerçevesini öneriyoruz. Hem BERT gibi önceden eğitilmiş dil modellerinden hem de sıralamaya göre öğrenme yaklaşımlarından en son gelişmeleri birleştirir. MS MARCO geçiş sıralaması görevi üzerindeki deneylerimiz, etkinliğini göstermektedir ”diye açıkladılar.
TFR-BERT - BERT-ensemble modeli - Google'ın BERT topluluğu
Google Research'ün en yeni BERT'ish modeli, BERT'ler ve diğer karma yaklaşımlardan oluşan bir topluluk haline geldi - diğer modellerin parçalarının ve hatta gruplandırılmış farklı tam modellerin, yöntemlerin ve geliştirmelerin bir kombinasyonu.
Geçiş sıralayıcıları ve yeniden sıralayıcılar olarak birçok BERT, aslında 'SuperBERT'tir
BERT araştırma alanındaki kodun çoğu açık kaynak olduğundan, Google, Microsoft ve Facebook gibi büyük teknoloji şirketlerinin çoğu da dahil olmak üzere, iyileştirme arayanlar "SuperBERT" yapmak için topluluk modelleri oluşturabilirler.
2020, dil modeli alanında ve liderlik tablolarında bu tür "SuperBERT" modellerinin ortaya çıktığını gördü.
BERT'in bu şekilde kullanılması, muhtemelen sorguların sadece% 10'unda kullanılan BERT'e benzemiyor. Bu muhtemelen, sorgulardaki kelimelerdeki iki olası anlam arasındaki farkı anlamak için çok kısa metin ve cümlelerde belirsizliği giderme ve adlandırılmış varlık belirleme gibi basit görevler içindi. Aslında "Cümle-BERT: Siyam BERT Ağlarını Kullanarak Cümle Gömmeleri " (Reimers & Gurevych, 2019) başlıklı bir makaleden CümleBERT adında bir BERT var, ancak bu, 2019'da bahsedilen sorguların% 10'unda CümleBERT'in kullanıldığı anlamına gelmez elbette.
Ana nokta, BERT ile geçiş sıralaması, BERT'in iki aşamalı eğitim pasajlarına bağlamsal anlamlar eklemek için tamamen yeniden tasarlanmış olmasıdır. Tam sıralama ve ardından yeniden sıralama ve muhtemelen kullanım açısından 2019'daki üretim aramasındaki% 10 uygulamadan oldukça farklı.
"SuperBERTs" konusunda bir SEO topluluğu arkadaşı (Arnout Hellemans) köpeğim BERT'den "SuperBERT" olarak bahsetti, bu yüzden onun bir resmini eklemek için uygun bir bahane gibi görünüyordu.

TF Sıralamasında BERT ile Sıralamaya Öğrenme (han et al, 2020)
Han ve arkadaşları, 2020, orijinal BERT ve TF-Ranking modelini, ELECTRA ve RoBERTa ile BERT ve TF-Ranking yaklaşımlarını MS MARCO geçiş sıralaması lider panosuna beş farklı sunum yoluyla birleştiren bir topluluğa götüren ek entegrasyonları açıklıyor.
TF Sıralaması, "TF Sıralaması: Sıralamaya Kadar Öğrenme için Ölçeklenebilir Bir TensorFlow Kitaplığı" olarak tanımlanır (Pasumarthi ve diğerleri, 2019)
"Bu makale, sorguların ve belgelerin ilk olarak BERT kullanılarak kodlandığı belge (yeniden) sıralaması için bir makine öğrenimi algoritmasını açıklar ve bunun da ötesinde, TF Sıralaması (TFR) ile oluşturulmuş bir sıralamaya öğrenme (LTR) modeli sıralama performansını daha da optimize etmek için uygulanır. Bu yaklaşımın, halka açık bir MS MARCO karşılaştırmasında etkili olduğu kanıtlandı. "
(Han vd, 2020)
"Önceden eğitilmiş dil modellerinin son zamanlarda geliştirilmesinden yararlanmak için, yakın zamanda RoBERTa ve ELECTRA'yı entegre ettik."
(Han, Wang, Bendersky, Najork, 2020)
ELECTRA, hatırlayacağınız üzere Google tarafından yayınlanırken, RoBERTa Facebook tarafından yayınlandı.
Ancak kağıt ekstresinden RoBERTa, BERT, TF-Ranking ve ELECTRA'nın yanı sıra bahsedilen ek bir unsur da görebiliriz. DeepCT'den bahseder.
"TF Sıralamasında BERT ile Sıralamayı Öğrenin" belgesine göre:
"Google'ın TFR-BERT'inin MS MARCO Passage Ranking Leaderboard'a 5 Başvurusu aşağıdaki gibiydi:
- Gönderi # 1 (yeniden sıralama): TF Sıralaması + BERT (Softmax Kaybı, Liste boyutu 6, 200.000 adım)
- Gönderi # 2 (yeniden sıralama): TF Sıralaması + BERT (Noktasal, ikili ve liste halinde kayıplar topluluğu)
- Başvuru # 3 (tam sıralama): DeepCT Retrieval + TF-Ranking BERT Ensemble
- Gönderi # 4 (yeniden sıralama): BERT, RoBERTa ve ELECTRA'nın TF Sıralaması Topluluğu
- Başvuru # 5 (tam sıralama): DeepCT + TF-Ranking Ensemble of BERT, RoBERTa ve ELECTRA
Erken gönderim sadece BERT ve TF Sıralaması (TensorFlow Sıralaması) iken, RoBERTa ve ELECTRA daha sonra başka bir liderlik tablosu sunumuna eklenmişken, en büyük kazanç, Tam Sıralamada Geçiş Sıralamasında 3 ve 5 numaralı gönderimler arasında keskin iyileştirmelerle DeepCT'nin eklenmesi gibi görünüyor. görev, Deep-CT'den kağıt soyutta bahsedilmemesine rağmen.

Google'ın SuperBERT topluluk modeli (TFR-BERT'den geliştirildi) MS MARCO'da hem tam sıralama hem de geçiş sıralaması sıralaması sıralamasında iyi performans gösteriyor.
Şu anda burada (Ekim 2020) aşağıdaki resimde 5. konumda görebilirsiniz:
DeepCT + TF-Ranking Ensemble of BERT, ROBERTA and ELECTRA (1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky and (1) Marc Najork - 1) Google Research, (2) Carnegie Mellon - Kağıt ve Kod
Ayrıca, orijinal belgede listelenmemiş olmasına rağmen Dai'nin Nisan ayından itibaren liderlik tablosu sunumunda Google TF Sıralaması ekip üyelerine eklendiğini unutmayın.

“TF Sıralamasında BERT ile Sıralamaya Öğrenme” makalesinin geneline baktığımızda şunları görüyoruz: “DeepCT'nin, BM25 sonuçlarının büyük bir marjla ve diğer bir kombinasyonla yeniden sıralanmasına yardımcı olduğunu keşfettik. hem BM25 hem de DeepCT yeniden sıralanmış listeleri ek kazançlar getiriyor. "
Özellikle DeepCT'yi içeren model revizyonlarına baktığımızda, Han ve diğerleri devam ediyor: "Gönderim # 3 ile, 10 Nisan 2020 itibariyle liderlik tablosunda en iyi ikinci genel performansı elde ettik. Son Gönderim # 5 ile, önceki performans ve 8 Haziran 2020 itibarıyla liderlik tablosunda üçüncü en iyi performansı elde etti (arada onlarca yeni lider panosu gönderimi ile) ”
Ayrıca, keskin iyileştirmelerin Yeniden Sıralama görevinden ziyade Tam Sıralama görevinde olduğunu hatırlamak önemlidir. Her iki Tam Sıralama görevinin de DeepCT içerdiğini ancak Yeniden Sıralama görevlerinin içermediğini unutmayın.
- 5 - BERT, ROBERTA ve ELECTRA'nın DeepCT + TF Sıralaması Topluluğu (1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky ve (1) Marc Najork - 1) Google Araştırması, ( 2) Carnegie Mellon - Kağıt ve Kod. Tam Sıralama 2 Haziran 2020
- 11 - DeepCT Retrieval + TF-Ranking BERT Ensemble 1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky ve (1) Marc Najork - (1) Google Research, (2) Carnegie Mellon Üniversite - Kağıt [Han, et al. '20] Kod. Tam Sıralama 10 Nisan 2020
- 14 - BERT, ROBERTA ve ELECTRA'nın TF Sıralaması Topluluğu (1) Shuguang Han, (2) Zhuyun Dai, (1) Xuanhui Wang, (1) Michael Bendersky ve (1) Marc Najork - 1) Google Araştırması, (2) Carnegie Mellon - Kağıt ve Kod. ReRanking Haziran 2, 2020
- 25 - TF-Ranking + BERT (Noktasal, ikili ve listwise kayıplar topluluğu) TF-Ranking takımı (Shuguang Han, Xuanhui Wang, Michael Bendersky ve Marc Najork) Google Research - Paper [Han, et al. '20] ve [Kod]. 30 Mart 2020
DeepCT
DeepCT, Google TF Sıralaması Araştırma ekibi için MS MARCO tam sıralama görev liderlik tablosunda arka arkaya hızlı bir şekilde elde edilen bazı önemli kazanımlardan sorumlu gizli bir sos bileşeni gibi görünüyor. Tam sıralama aşamasını hatırlayın, iki aşamalı görevin ilk aşamasıyla ilgilidir.
MS MARCO söz konusu olduğunda, verilen 8,8 milyon pasajın sıralamasıdır ve bu ilk sıralama aşamasından alınan en iyi 1000 sonuca ince ayar yapılmasına ilişkin yeniden sıralama vardır.
Yani DeepCT, buradaki ilk aşama tam sıralama arasındaki fark, ki bu ilk aşama.
Öyleyse, DeepCT nedir ve geçiş sıralaması liderlik tablolarından daha fazlası için önemli olabilir mi?
DeepCT, "Derin Bağlamsal Terim Ağırlıklandırma Çerçevesi" anlamına gelir ve "İlk Aşama Geçiş Erişimi İçin Bağlama Duyarlı Terim Ağırlıklandırma" başlıklı bir makalede önerilmiştir. (Dai, 2020)
DeepCT'nin Mucidi Dai, çerçeveyi şu şekilde tanımlıyor: "İlk aşama kelime torbası erişim sistemleri için terim önemini daha iyi tahmin eden yeni bir bağlama duyarlı terim ağırlıklandırma yaklaşımı olan DeepCT."
Ancak bu, DeepCT'de ilk şüphelilerden çok daha fazlası olduğu için gerçekten adaleti sağlamıyor.
Pasajlarda daha geniş bağlam, tf'ye (terim sıklığı) bir alternatif ve DeepCT ile geliştirilmiş ilk aşama sıralaması
DeepCT'nin mucidi olan Dai, DeepCT'nin yalnızca ilk aşama sıralama sonuçlarını iyileştirdiğini ve pasajlardaki terimlere bağlam farkındalığı kattığını değil, aynı zamanda BERT Yeniden Sıralayıcı (ikinci aşamada) (Bert, Nogueria tarafından yeniden sıralayıcı olarak yeniden tasarlandı. ve Cho, 2019), hem geçişler için "amaca uygun" sıralama sonuçlarında kesinliği iyileştirmede, verimlilikle birleştiğinde çok etkilidir ve mevcut mimarilerde çok fazla değişiklik yapılmadan üretim ortamlarında ölçek potansiyeli gösterir.
Aslında, DeepCT, bir sıralama süreci olan geçiş indekslemede çok etkili görünüyor, ancak DeepCT'nin durumunda, bir "indeks" öğesi var, ancak SEO alanında bildiğimiz gibi değil (ve DeepCT konusundaki makaleler referans pasajı yapıyor indeksleme).
Şu anda DeepCT'nin kullanımı, varsayılan BERT 512 jetonlarıyla sınırlıdır, ancak bu, geçişler için idealdir ve geçişler, gerçekte sadece parçalanmış belgeler oldukları için yine de belgelerin parçalarıdır. Bu nedenle, normal belgeler, BERT'nin 512 simge kapsamı sınırlamaları içinde genellikle çok iyi sıralı bir geçiş grubu haline gelir.
Lin'in daha önceki sözlerini tekrarlamak gerekirse: “Daha önce kapsamlı olarak tartıştığımız gibi, BERT birkaç nedenden dolayı 512 jetondan daha uzun girdi dizileriyle sorun yaşıyor. Elbette bariz çözüm, metinleri bölümlere ayırmaktır. "
DeepCT neden bu kadar önemlidir?
DeepCT şu anda BERT'nin 512 belirteç sınırlaması ve bu nedenle geçişlerin kısıtlamaları dahilinde sınırlı olsa da, DeepCT bir sıralama "atılımı" oluşturabilir.
Daha da önemlisi, DeepCT yalnızca bağlama duyarlı bir geçiş sıralama çözümü sağlamayı amaçlamakla kalmaz, aynı zamanda uzun süredir yerleşik olan sıralama ve geri alma modelleri ve sistemleri etrafında uzun süredir devam eden bazı endüstri çapında bilgi erişim sorunlarını ele almaya başlar. Bu gelişmeler, DeepCT'nin sınırlı odak noktasının ve bugün ilgilendiğimiz geçiş indeksleme güncellemesinin çok ötesine geçebilir, özellikle BERT benzeri sistemlerde ve transformatörlerde verimlilik ve bağlam pencereleri ile ilgili diğer iyileştirmeler ele alınmaya başlanırken.
Pasajlarda terim frekansı (tf) ile ilgili problem
DeepCT'nin ele almaya çalıştığı ilk konu, birinci aşama sıralama sistemlerinde tf'nin (terim frekansı) kullanımı ile ilgilidir.
Dai'nin belirttiği gibi: “Son teknoloji ürünü arama motorları, verimli bir ilk aşamanın, ilk belge kümesini getirmek için bir sorgu kullandığı ve sıralamayı iyileştirmek ve kısaltmak için bir veya daha fazla yeniden sıralama algoritmasını kullandığı sıralama ardışık düzenleri kullanır. Tipik olarak ilk aşama sıralayıcı, terimlerin belgeye özel önemini belirlemek için terim sıklığını (tf) kullanan bir kelime torbası alma modelidir. Bununla birlikte, tf, özellikle frekans dağılımı düz olduğunda, örneğin pasajlarda bir terimin belgenin anlamı için gerekli olup olmadığını göstermez. Temelde tf, bir terim ile metin bağlamı arasındaki etkileşimleri göz ardı eder ve bu, belgeye özgü terim ağırlıklarını tahmin etmenin anahtarıdır. "
Dai, "sık olma" kelimesinin belirli bir pasaj içeriğinde "alakalı olmak" anlamına gelmediğini öne sürerken, aynı zamanda kelime torbası yaklaşımlarının mirastaki temel rolünü onaylar ve aynı zamanda mevcut sistemlerin eksikliklerini vurgular.
Dai, "Kelime torbası, verimliliği ve ayrıntılı terim eşleştirme sinyalleri üretme yeteneği nedeniyle modern arama motorlarında temel bir rol oynuyor" diyor. "Kelime torbası temsillerinin ve erişim modellerinin çoğu, terim sıklığına (tf) dayalı terim ağırlıklarını kullanır, örneğin tf.idf ve BM25. Bununla birlikte, sık olmak, semantik olarak önemli olmaya yol açmaz. Bir metindeki merkezi kelimeleri belirlemek, her kelimenin anlamını ve belirli bir bağlamda oynadığı rolü dikkate almayı da gerektirir. "
Dai, frekansa dayalı terim ağırlıklarını "kaba bir araç" olarak tanımlar (büyük bir başarıya sahip olsalar da), çünkü tf, genel metin anlamının merkezinde olan kelimeler ile olmayan kelimeler arasında, özellikle de pasajlarda ve cümleleri oluşturur ve metin içeriği bağlamında kelimenin anlamını "kritik bir sorun" olarak anlama ihtiyacını önerir.
Dai ve Callan 2019'da şunları yazdı: "Frekans temelli terim ağırlıkları büyük bir başarı oldu, ancak bunlar kaba bir araçtır". "Terim sıklığı, bir terimin metnin anlamı için önemli mi yoksa merkezi mi olduğunu, özellikle frekans dağılımı, cümlelerde ve kısa pasajlarda olduğu gibi düzdür "
Dai ayrıca, "Belirli bir metindeki bir kelimenin önemini tahmin etmek için en kritik sorun, bir kelimenin metin bağlamıyla ilişkilerini karakterize eden özellikler oluşturmaktır." Dedi.
Çok aşamalı sıralama sistemleriyle ilgili sorun
İkinci problem, birinci aşama sıralama sistemlerindeki verimlilikler ve hesaplama maliyetleri ile ilgilidir ve daha sonra derin öğrenme araştırmasının odağı yeniden sıralamaya (çok aşamalı durumda ince ayar, ikinci veya sonraki aşamalar) yoğunlaşmaktadır. sıralama sistemleri), son zamanlarda, derin öğrenmedeki hesaplama masrafları nedeniyle, tam sıralamadan (ilk ilk aşama).
"İlk aşama sıralayıcılarının çoğu, terim frekans sinyallerini kullanan eski ama etkili kelime torbası alma modelleridir ve sıralamayla ilgili araştırma çalışmalarının çoğu, sıralamanın sonraki aşamalarına - ince ayar aşamalarına odaklanmıştır." Dai 2019'da dedi.
Dai, birinci aşama sıralaması ile ilişkili hesaplama (ve daha sonra finansal) maliyetlerin, aksi takdirde pasajlardaki diğer çevreleyen metinlerle (kelimenin bağlamı) ilgili terimler üzerindeki "merkezi noksanlığın" üstesinden gelebilecek karmaşık derin öğrenmenin kullanımını sınırladığını öne sürer.
“Klasik terim frekans sinyalleri, metnin bir terim etrafında ortalanıp ortalanmadığını veya bazı konuları tartışırken bu terimden bahsedip bahsetmediğini söyleyemez. Bu sorun, karmaşık özelliklerin ve modellerin uygulanamayacak kadar pahalı olduğu birinci aşama tam koleksiyon sıralamasında özellikle zordur ”diye yazdı Dai.
Sıralamanın ilk aşamasındaki iyileştirmelerin, "Bilgi Erişimde Sıralamaya Yönelik İki Aşamalı Öğrenme" de gerçekleştirilen araştırmanın temel mantığı olduğunu biliyoruz. O zaman bile sıralamayla ilgili araştırmaların büyük çoğunluğunun ikinci aşamada olduğunu kabul ederler (yeniden sıralama, bu nedenle iş motivasyonları, daha iyi ince ayar için sorgu genişletme tekniklerini kullanarak daha iyi bir başlangıç verimi ile ilk aşamayı iyileştirmek için tasarlanmıştır (Vang ve ark. , 2013) .
Bu ilk aşama sıralaması iyileştirmelerini daha fazla ele almaya çalışan birçok kişi olabilir, ancak birincil odak, yukarıda belirtilen nedenlerden ötürü, yüksek dereceli ilk K sonuçlarının görülme olasılığının önemi etrafında kesinlikle ikinci aşamadaydı. hesaplamalı / finansal gider ile.
İkinci aşama sonuçlarına olan bu odaklanma, BERT bir geçiş olarak yeniden tasarlandığı ve araştırmacılar, pasajlar için BERT yeniden sıralama yolunu izlemeye hevesli olduğu halde devam etti.
Sıralamanın ilk aşamasını iyileştirmek VE pasajlarda da kelimenin bağlamını kazanmak
DeepCT, bu sorunların her ikisini de aynı anda çözmek için adımlar atmaya çalışır.
DeepCT ile birinci aşama sıralama iyileştirmeleri
Dai'nin DeepCT ile çalışması, geri çağırmanın ilk aşamasına odaklanırken aynı zamanda aşağı akış yeniden sıralama aşamalarına önemli ölçüde yardımcı olur.
IR için BERT'den yararlanma üzerine yapılan son araştırmalar da dahil olmak üzere önceki nöral IR araştırmalarının çoğu, nöral modellerin karmaşıklığından dolayı yeniden sıralama aşamalarına odaklandı. Çalışmamız, mevcut birinci aşama sıralayıcıları geliştirme yeteneği ekler. Daha doğru ilk aşama belge sıralaması, uçtan uca doğruluğu ve / veya verimliliği artıran aşağı akış yeniden sıralama için daha iyi adaylar sağlar. "
IR için daha iyi nöral sıralama modelleri geliştirmeye yönelik çok ilerleme kaydedilmiş olsa da, hesaplama karmaşıklığı genellikle bu modelleri yeniden sıralama aşamasına sınırlar. DeepCT, metni anlama yeteneğini derin bir sinir ağından, erken aşama sıralama sistemleri tarafından verimli bir şekilde tüketilebilen ve performanslarını artırabilen basit sinyallere başarıyla aktarıyor. "
(Dia, 2020)
BERT kullanarak terim frekansına yeni bir alternatif - tfDeepCT
Sıralamanın bu ilk aşamasında Dai, pasajlardaki kelimelerin yalnızca sayılarından (tf) daha bağlamsal anlayışına doğru ilerlemeye de odaklanır.
Dai, "tfDeepCT" adlı Derin Bağlamsal Terim Ağırlıklandırma Çerçevesinin bir parçasıyla tf terimi sıklığına bir alternatif önerir.
Sadece terim sıklığını saymak yerine, tfDeepCT bir pasajdaki kelimeler için derin bir bağlamsal anlam ve bağlam tanımlar.
DeepCT, BERT temsillerini kullanarak, kelimelere merkeziyetlerine ve bir pasajda bağlamları verilen konunun önemine göre bir önem puanı atar. DeepCT, önemli terimlere daha yüksek bir ağırlık verir ve pasajdaki düşük önemi veya konu dışı terimleri bastırır.
Bu ağırlıklar daha sonra yeni gönderi eklenmemiş, ancak tfDeepCT adı verilen bir tf yerine (BERT'nin trafo dikkat mimarisi tarafından kabul edilen bir pasajdaki bağlamsal önemlerine dayanan ağırlıklı terimler) ile sıradan ters çevrilmiş bir dizine atanır.
DeepCT-Endeksi
Buna DeepCT-Index denir.
"TfDeepCT, ters çevrilmiş dizindeki orijinal tf'yi değiştirmek için kullanılır. Yeni dizin, DeepCT-Index, BM25 gibi ana kelime torbası alma modelleri veya sorgu olasılığı modelleri tarafından aranabilir. Bağlama duyarlı terim ağırlık tfDeepCT'nin erişim modellerini pasajdaki merkezi terimlere saptırması ve konu dışı pasajların alınmasını engellemesi beklenir. DeepCT-Index ile tipik bir ters çevrilmiş indeks arasındaki temel fark, ağırlık teriminin tf yerine tfDeepCT'ye dayalı olmasıdır. Bu hesaplama çevrimdışı yapılır. "
(Dai, 2020)
ÖNEMLİ - Bu, bunun yeni bir belge indeksleme durumu olduğu anlamına gelmez. Geçiş indeksleme, geçiş sıralaması ile ilgilidir. Genel olarak gelecek pasaj indeksleme konusunda Google, ilerideki yeni pasaj indeksleme değişikliklerinin bir sıralama değişikliği ile ilgili olduğunu ve dokümanlardaki bir indeksleme değişikliği ile ilgili olmadığını açıkça belirtti. Google'ın son açıklamalarına göre pasajlar belgelerin yanı sıra veya bunların yerine ayrı ayrı dizine eklenmeyecek.
DeepCT-Index (kullanılıyorsa), mevcut dizine basitçe alternatif sıralama ağırlıkları eklemeyi öneriyor gibi görünmektedir, ancak bu, pasajlar için tf'yi tfDeepCT ile değiştirir.
Dai ayrıca DeepCT ile ilgili literatürde "Yeni gönderi listeleri oluşturulmadığını" açıkça ortaya koyuyor.
Ancak, geçiş indeksleme için DeepCT'nin kullanımına da atıfta bulunur: "Bölüm 3, Derin Bağlamsal Terim Ağırlıklandırma çerçevesini (DeepCT), geçiş indeksleme için kullanımını (DeepCT-Index) açıklar.
ÖNEMLİ - DeepCT-Index'in literatürdeki DeepCT çerçevesinin merkezi bir parçası olduğunu söyleyerek bunu belirtmek isterim. Google Research, DeepCT'nin hem teşekkür bölümünde hem de makale boyunca "TF Sıralamasında BERT ile Sıralamayı Öğrenmek" adlı araştırma makalesinde kullanıldığını kabul etti.
"DeepCT geri alma sonuçlarını nazikçe paylaştığı için Carnegie Mellon Üniversitesi'nden Zhuyun Dai'ye teşekkür ederiz."
( Han vd, 2020)
DeepCT ayrıca şu anda MS MARCO geçiş sıralaması liderlik tablosuna sunulan tam sıralama için mevcut araştırma modeli sunumlarının bir parçasıdır.
Ancak, üretimde olduğu ve olmayacağı anlamına gelmez. ancak umut vaat ediyor ve yeni ve ilginç bir yön gösteriyor, yalnızca daha fazla bağlamsal arama için geçiş sıralamasıyla BERT kullanımı için değil, aynı zamanda daha verimli ve etkili "bağlama duyarlı" genel olarak geliştirilmiş arama için değil, uygulanırsa büyük olasılıkla tüm uç-uç sıralama sisteminde kullanılan ölçekte çok daha büyük kaynaklar.
Son zamanlarda geçiş sıralaması liderlik tablolarında alınan önemli sonuçlar ve Dai tarafından DeepCT Çerçevesi çerçevesinde sunulan makalelerde bildirilen sonuçlar göz önüne alındığında daha da fazlası. DeepCT'nin mucidi artık Google TF-Ranking ekibine katıldı ve MS MARCO geçiş sıralaması liderlik tablolarında son zamanlarda sunulan modellerin listesinde yer alıyor.
Hem mevcut TFR-BERT araştırma modelinde hem de Dai'nin makalelerindeki sonuçlarda DeepCT tarafından üstesinden gelinmiş gibi görünen bazı eski zorluklar "sıralamada bir atılım" olarak görülebilir.
Geçen haftaki Search On etkinliğinden, Google'ın Prabhakar Raghavan'ın "geçiş indekslemeyi" duyurup "Yakın zamanda sıralamada bir atılım yaptık" dediği anı hatırlayın.
DeepCT türü, belki de sıralamada oldukça önemli bir atılım olabilir gibi görünüyor.
Peki DeepCT nasıl çalışır?
DeepCT, bilgi erişiminin / sıralamasının ilk aşamasında terim sıklığını kullanmak yerine, terim sıklığını (TF) tfDeepCT ile değiştirmeyi önermektedir. DeepCT ile, kelimenin bağlamsal anlamı, BERT transformatörleri aracılığıyla derin bağlamsal temsiller kullanılarak bir pasajda bir anahtar kelimenin kaç kez bahsedildiğini basitçe saymaya alternatif olarak tanımlanır.
Bağlamdaki önemli kelimeler, daha az bahsedilse bile daha fazla ağırlıklandırılır ve kelimelerin farklı zamanlarda ve farklı senaryolarda farklı anlamları olduğundan, bir paragrafta veya belirli bağlamda kelimenin bağlamına göre bir önem puanı verilir. Pasaj ve konuyla ilgili daha önemli kelimeler (merkezi terimler) daha yüksek önem puanı ile puanlanırken, daha az önemli olan kelimelere daha düşük bir puan verilir ve / veya konu dışındaysa veya konuya hiçbir katkı sağlamazsa tamamen bastırılır. geçit.
"Konu dışı" kelimelerin baskılanmasıyla "konu üzerine" olan kelimelere karşı güçlü bir önyargı oluşturulur.
1953'te Ludwig Wittgenstein'dan alıntı yapacak olursak, "Bir kelimenin anlamı, dildeki kullanımıdır."
Takip edilecek içeriğe bazı yorumlar eklenmiş olsa da, DeepCT'nin yeni ve karmaşık konusu hakkındaki sınırlı anlayışım nedeniyle DeepCT'nin teknik açıklamalarındaki anlamları çarpıtmak istemedim, bu nedenle öncelikle DeepCT açıklamaları Dai'nin makalesinden alıntılar. .
DeepCT, tfDeepCT ve DeepCT-Index
DeepCT'nin temel bölümleri şöyle görünüyor:
- tfDeepCT - tf'yi tfDeepCT ile değiştiren terim frekansına bir alternatif
- DeepCT-Index - Ek kayıt olmadan orijinal bir dizine eklenen alternatif ağırlıklar. Ağırlıklandırma çevrimdışı olarak gerçekleştirilir ve bu nedenle, arama motorunun çevrimiçi kullanımına herhangi bir gecikme katmaz.
- DeepCT-Query - Belirli bir metin bağlamında veya sorgu bağlamında önemli terimleri tanımlamak için BERT'nin derin bağlamsal özellikleri kullanılarak uyarlanmış güncellenmiş bir kelime torbası sorgusu.
Dia'ya göre:
“Çevrim dışı geçiş süresi uzunluğundaki belgelerde terimleri tartan ve indeksleyen yeni bir DeepCT-Index geliştiriyoruz. Bir geçiş teriminin ilgili sorgularda görünüp görünmeyeceğini tahmin etmek için bir DeepCT modeli eğitir. Eğitilen model, koleksiyondaki her parçaya uygulanır. Bu çıkarım adımı sorgudan bağımsızdır ve indeksleme sırasında çevrimdışı yapılmasına izin verir. Bağlam tabanlı geçiş terimi ağırlıkları, yaygın birinci aşama alma modelleri tarafından verimli bir şekilde aranabilen sıradan bir ters çevrilmiş dizinde saklanan tf benzeri tam sayılara ölçeklenir "
“Analiz, DeepCT'nin klasik terim ağırlıklandırma yaklaşımlarına göre temel avantajını gösteriyor: DeepCT, yalnızca bir kez bahsedilse bile bir metindeki en merkezi kelimeleri bulur. Metinde sıkça bahsedilse bile merkezi olmayan kelimeler bastırılır. Bu tür davranışlar, önceki dönem ağırlıklandırma yaklaşımlarında nadirdir. DeepCT'yi "frekanslardan" "anlamlara" doğru cesaret verici bir adım olarak görüyoruz.
(Dia, 2020)
Dai, DeepCT'nin yeni doğasını ve etkinliğini vurgulamaktadır:
"Analizler gösteriyor ki, DeepCT'nin temel avantajı, anahtar terimler ile diğer sık fakat merkezi olmayan terimler arasında ayrım yapabilme yeteneği." ... "DeepCT-Endeksi agresif bir şekilde birkaç merkezi terimi vurguluyor ve diğerlerini bastırıyor."
"Geçişlere uygulandığında, DeepCT-Index, geçiş erişimi için sıradan ters çevrilmiş bir dizinde saklanabilen terim ağırlıkları üretir. Sorgu metnine uygulandığında, DeepCT-Query ağırlıklı bir kelime torbası sorgusu oluşturur. Ağırlık terimlerinin her iki türü de doğrudan tipik birinci aşama erişim algoritmaları tarafından kullanılabilir. Bu yenidir çünkü derin sinir ağı tabanlı sıralama modellerinin çoğu daha yüksek hesaplama maliyetine sahiptir ve bu nedenle sonraki aşama sıralayıcılarla sınırlıdır. "
“Bu makale, DeepCT'yi çevrimdışı indeks zamanında çalıştıran yeni bir yaklaşım sunarak, onu verimliliğin çok önemli olduğu ilk aşama erişimde kullanmayı mümkün kılıyor. Yaklaşımımız, derlemedeki her pasaj için DeepCT uygular ve bağlama duyarlı terim ağırlıklarını tf'nin yerini alacak sıradan ters çevrilmiş bir dizinde saklar. Dizin, BM25 gibi yaygın kelime torbası alma modelleri veya istatistiksel sorgu olasılığı modelleri kullanılarak verimli bir şekilde aranabilir. "
(Dai, 2020)
DeepCT, tfDeepCT ve DeepCT-Index'in verimliliğini vurgulamak için
"Yeni kayıt listeleri oluşturulmaz, bu nedenle sorgu gecikmesi daha uzun olmaz. Aksine, bir yan etki… bazı terimlerin tfDeepCT'sinin negatif hale gelmesidir, bu da bir dizin budama biçimi olarak görülebilir. "
(Dai, 2020)
DeepCT-Index, sinirsel sıralamayı "uçtan uca" pratik hale getirebilir mi?
BERT'yi yeniden sıralama aşamasında kullanırken bile hesaplama masrafı gibi görünüyor ve neden olduğu gecikme sorunları, bunları üretim ortamlarında ölçekli olarak kullanmak için önemli bir darboğaz oluşturuyor. Dai, DeepCT ile ilk aşamayı iyileştirmenin ve böylece yeniden sıralama aşamasındaki yükü azaltmanın büyük faydasını vurguluyor.
Esas nokta, ilk aşamayı iyileştirmenin hem ilk aşamayı hem de ikinci aşamayı önemli ölçüde iyileştirme potansiyeline sahip olmasıdır. Gerçekten de, büyük ölçüde iyileştirilmiş ilk aşama, ikinci aşamalara ve çok aşamalara olan ihtiyacı önemli ölçüde azaltabilir, Dai iddia ediyor ve DeepCT'nin performansını standart bir BM25 birinci aşama sıralama sistemiyle karşılaştırıyor.
“Derin nöral tabanlı yeniden sıralayıcıların yüksek hesaplama maliyeti, onları çevrimiçi hizmetlerde benimsemeyle ilgili en büyük endişelerden biri. Nogueira vd. 1000 yeniden sıralama derinliğine sahip bir BERT Re-Ranker eklemenin, GPU'lar veya TPU'lar kullanıldığında bile BM25 birinci aşama sıralamasında 10 kat daha fazla gecikme getirdiğini bildirdi. DeepCT-Index, yeniden sıralama derinliğini 5 × ila 10 × azaltır ve derin sinir tabanlı yeniden sıralayıcıları gecikme / kaynak duyarlı sistemlerde pratik hale getirir ”
(Dai, 2019)
Bu gelişme, DeepCT'nin arama sistemine herhangi bir gecikme eklememesinin bir sonucudur, çünkü söz başına daha fazla hiçbir şey eklenmez.
DeepCT-Index, arama sistemine gecikme eklemiyor. DeepCT-Index ile tipik ters çevrilmiş indeks arasındaki temel fark, önem ağırlığı teriminin TF yerine TFDeepCT'ye dayalı olmasıdır. "
(Dai, 2020)
DeepCT sonuçları
Dai, DeepCT kullanılarak elde edilen alışılmadık sonuçları ve özellikle yıllardır kullanımda olan terim frekans ölçümlerine alternatif olarak vurguluyor ve DeepCT tarafından gösterilen sonuçların diğer terim önem sinyallerinin vade ötesinde üretilebileceğini açıkça göstermesini sağlıyor. Sıklık.
“Daha önceki araştırmalarda tf olmayan bir terim ağırlıklandırma yönteminin böylesine önemli ölçüde daha iyi sıralamalar üretmesi nadirdir. Bu sonuçlar, tf'nin artık yeterli olmadığını ve daha iyi terim önem sinyallerinin derin belge anlayışıyla üretilebileceğini gösteriyor. "
(Dai, 2020)
Ancak, DeepCT yalnızca birinci aşama sıralaması için etkileyici olmakla kalmaz, aynı zamanda iyileştirilmiş ilk aşama sonuçları doğal olarak daha iyi ikinci aşama sıralamalarına doğru ilerlerken, aynı zamanda tfDeepCT ve DeepCT-Index kullanan pasajlarda merkezi anlamları bulur.
"Deneysel sonuçlar, DeepCT'nin popüler birinci aşama erişim algoritmalarının doğruluğunu% 40'a kadar artırdığını gösteriyor. BM25'i DeepCT-Index üzerinde çalıştırmak, sorgu zamanında yavaş derin öğrenme modellerini çalıştırması gereken önceki son teknoloji ürünü sıralayıcılar kadar etkili olabilir. DeepCT-Index'in sağladığı yüksek kaliteli sıralama, sonraki aşamadaki yeniden sıralayıcılar için doğruluk / verimlilik ödünleşimini iyileştirir. Analiz, DeepCT'nin bir metindeki merkezi kelimeleri, yalnızca bir kez bahsedilse bile bulabildiğini göstermektedir. DeepCT'yi "frekanslardan" "anlamlara" doğru cesaret verici bir adım olarak görüyoruz.
(Dai, 2020)
DeepCT (Dai, 2020) makalelerinin çeşitli bölümlerinden derlenen, bağlamsal farkındalığa sahip birinci aşama sıralayıcı olarak DeepCT deneylerinden elde edilen yeteneklerden bazıları şunlardır:
- DeepCT-Index üzerinde bir BM25 alımı, klasik tf tabanlı dizinlerden% 25 daha doğru olabilir ve yaygın olarak kullanılan bazı çok aşamalı erişim sistemlerinden daha doğrudur.
- Bu sonuçlar, bazı ardışık düzenlenmiş sıralama sistemlerini DeepCT-Index kullanılarak tek aşamalı erişimle değiştirmenin mümkün olduğunu göstermektedir.
- DeepCT-Index'ten tek aşamalı bir BM25 alımı, birkaç yeniden sıralama ardışık düzeninden daha iyiydi
- Modern arama motorlarında yaygın olarak kullanılan bir yeniden sıralama yaklaşımı olan özellik tabanlı LeToR'dan (Sıralamayı Öğrenme) daha doğrudur.
- İyileştirilmiş ilk aşama sıralaması, alt düzey yeniden sıralayıcıların etkinliğine ve verimliliğine daha fazla fayda sağlar.
- DeepCT-Index, yeniden sıralama derinliğini 5 × ila 10 × azaltarak derin sinir tabanlı yeniden sıralayıcıları gecikme / kaynak duyarlı sistemlerde pratik hale getirir
- İlk aşamada DeepCt ile sıralama, uçtan uca sıralamanın daha iyi olması için bir yeniden sıralayıcıya daha alakalı pasajlar sağladı.
- DeepCT'nin tüm derinliklerde daha yüksek geri çağırma özelliği vardı, bu da DeepCT'den alınan bir sıralamanın, bir yeniden sıralayıcıya daha alakalı geçişler sağladığı anlamına geliyordu.
- BERT ReRanker için DeepCT, çok daha az geçiş kullanarak benzer doğruluk elde etmesini sağladı… yani yeniden sıralayıcı 5-10 kat daha verimli olabilir. Özetle
- DeepCT, ilgili pasajları en üste koyar, böylece aşağı akış yeniden sıralayıcılar çok daha küçük aday setlerle benzer veya daha yüksek doğruluk elde edebilir ve bu da geri alma işlem hattında daha düşük hesaplama maliyetine yol açar.
Yalnızca anahtar kelime sıklıkları veya benzerleri yerine kelimenin bağlamını kullanan ilk aşama sıralamasında bir atılım mı?
DeepCT ile elde edilen sonuçlar "sıralamada bir atılım" olarak görülebilir. Kuşkusuz DeepCT, "uçtan uca sıralamada" (şu anda pasajlar için de olsa) iyileşmeye doğru bir adımı temsil eder ve özellikle derin öğrenme temsillerini kullanarak bağlamsal anlamları belirlemede bir atılımla birleştiğinde kesinlikle bir ilerleme olarak görülebilir. mevcut tf terimlerine basitçe ağırlık ekleme ve bunları tfDeepCT ile değiştirme yeteneği?
Ve Dai, tf'nin artık yeterli olmadığını ve mevcut eski sistemlere bir yeniden bakma zamanının geldiğini söyleyerek, iddialarında her şeyi sarsıyor gibi görünüyor:
Sıklık teriminin artık yeterli olmadığını iddia ediyor.
“Bu makalenin sonuçları tf'nin artık yeterli olmadığını gösteriyor. Derin öğrenme ve NLP'deki son gelişmelerle birlikte, yeni derin ve verimli ilk aşama sıralayıcıları oluşturmak için dizin oluşturucuları ve geri alma modellerini yeniden gözden geçirmenin zamanı geldi. "
(Dai, 2020)
Ve durumunu şu şekilde özetliyor:
"DeepCT-Index'in sağladığı yüksek kaliteli sıralama, sonraki aşamadaki yeniden sıralayıcılar için doğruluk / verimlilik ödünleşimini iyileştiriyor. Son teknoloji ürünü BERT tabanlı bir yeniden sıralayıcı, 5 kat daha az aday belgeyle benzer doğruluk elde etti ve bu tür hesaplama yoğun yeniden sıralayıcıları gecikme / kaynak duyarlı sistemlerde daha pratik hale getirdi. IR için daha iyi nöral sıralama modelleri geliştirmeye yönelik çok ilerleme kaydedilmiş olsa da, hesaplama karmaşıklığı genellikle bu modelleri yeniden sıralama aşamasına sınırlar. DeepCT, metni anlama yeteneğini derin bir sinir ağından, erken aşama sıralama sistemleri tarafından verimli bir şekilde tüketilebilen ve performanslarını artırabilen basit sinyallere başarıyla aktarır. Analiz, DeepCT'nin klasik terim ağırlıklandırma yaklaşımlarına göre temel avantajını gösterir: DeepCT, yalnızca bir kez bahsedilse bile bir metindeki en merkezi kelimeleri bulur. Metinde sıkça bahsedilse bile merkezi olmayan kelimeler bastırılır. Bu tür davranışlar, önceki dönem ağırlıklandırma yaklaşımlarında nadirdir. DeepCT'yi "frekanslardan" "anlamlara" doğru cesaret verici bir adım olarak görüyoruz.
“Geçiş terimlerinin ağırlıklandırılması hakkında daha önce çok sayıda araştırma var, ancak belirli pasajlarda bir kelimenin sözdizimi ve anlambiliminin nasıl etkili bir şekilde modelleneceği net değil. Sonuçlarımız, derin, bağlamsallaştırılmış bir sinir dili modelinin istenen özelliklerin bazılarını yakalayabildiğini ve geçiş indekslemesi için etkili terim ağırlıkları oluşturmak için kullanılabileceğini göstermektedir. DeepCT-Index üzerinde bir BM25 alımı, klasik tf tabanlı dizinlerden% 25 daha doğru olabilir ve yaygın olarak kullanılan bazı çok aşamalı erişim sistemlerinden daha doğrudur. İyileştirilmiş ilk aşama sıralaması, alt düzey yeniden sıralayıcıların etkililiğine ve verimliliğine daha fazla fayda sağlıyor. "
(Dai, 2020)
Google'ın geçiş indeksleme duyurusuna geri dön
Geçit indekslemeyle ilgili Search On etkinliği sırasında Google'ın verdiği ana mesajı tekrar gözden geçirelim: " Yeni teknolojimizle , bir web sayfasındaki önemli pasajları daha iyi tanımlayıp anlayabileceğiz. Bu, başka türlü bir sayfayı yalnızca bir bütün olarak değerlendirirken alakalı olarak görülmeyecek içeriği ortaya çıkarmamıza yardımcı olacaktır ...
Kulağa Dai'ye benzeyen: "DeepCT'nin yeni bir kullanımı, etkili ve etkili geçiş / kısa belge erişimi için bir pasajın veya pasaj uzunluğundaki bir belgenin anlamında merkezi olan terimleri belirlemektir."
Ara olayına geri dönün: "Bu değişiklik, sayfalardan bağımsız olarak pasajları indekslediğimiz anlamına gelmez. Hâlâ sayfaları indeksliyoruz ve sıralama için sayfaların tamamı hakkındaki bilgileri değerlendiriyoruz. Ancak artık sayfalardaki bölümleri ek bir sıralama faktörü olarak da değerlendirebiliriz…. ”
Geçerli belge dizini içinde bir geçiş düzeyinde uygulanan ağırlıklı bağlamsal sıralama faktörü olarak bu (ancak aynı dizinde) olabilir.
Unutmayın, 2020 Dai, DeepCT-Index'te başka ilan oluşturulmadığını açıkça ortaya koyuyor. Dizinde hiçbir şey değişmez, ancak belki BERT kullanılarak farklı bağlamsal ölçüler eklenir ve belki tfDeepCT bu bağlamı ekler. (Not, literatür ve mevcut TFR-BERT modeli sunumları dışında bununla ilgili bir kanıtım yok) :
“Bu makale aynı zamanda DeepCT'yi çevrimdışı indeks zamanında çalıştıran yeni bir yaklaşım sunarak, onu verimliliğin çok önemli olduğu ilk aşama erişimde kullanmayı mümkün kılıyor. Yaklaşımımız, derlemedeki her pasaj için DeepCT uygular ve bağlama duyarlı terim ağırlıklarını tf'nin yerini alacak sıradan ters çevrilmiş bir dizinde saklar. Dizin, BM25 gibi yaygın kelime torbası alma modelleri veya istatistiksel sorgu olasılığı modelleri kullanılarak verimli bir şekilde aranabilir. "
(Dai, 2019)
DeepCT'nin geçiş indekslemedeki önemi ne olabilir?
Peki, DeepCT kullanılmışsa, bu sadece 2018 videosunda geçiş alma ile ilgili özelliklerde belirtilen "anahtar kelime sayıları" ve "x, y ve z'nin bazı sayıları" anlamına gelebilir, SEO'lar kadar önemli olmayabilir. DeepCT'den (kullanılıyorsa) bu yıl geçtikten sonra pasaj indekslemenin piyasaya sürüldüğünde, pasaj alma konusunda 2018'deki YouTube videolarına farklı bir yaklaşım getirebileceğini umuyoruz.
Demek istediğim, cidden, spam olmadan bir metin içinde bir pasaja kaç varlık ve anahtar kelime girebilir ki?
Bu, 2018'deki şeylerin önemli olmadığı anlamına gelmez, çünkü BERT ve bilgi tabanları ile ilgili etkileyebilecek çalışmalar da vardır ve dahası Google'ın T5 üzerindeki çalışması, BERT gibi modellerin parametrelerindeki bilgiyi basitçe bir büyük web taraması. Aynı şekilde, geçiş geri getirme ve indeksleme için başka bir çerçeve olan HDCT'de (Dai, 2019) Dai'nin başka bir çalışması da var. Orada Dai, bir belgedeki pasajların konumlarına ağırlık veriyor gibi görünüyor ve ayrıca pasaj da bir belgede "en iyi" olarak kabul ediliyor. HDCT'de de başlıklar ve inlinkler önem göstergeleri olarak görülmektedir.
Ancak Google, gönderdikleri TFR-BERT'ye HDCT'yi dahil etmeyi seçmedi ve bunun, sayfa başlıklarındaki kaç inlink ve anahtar kelimeyle terimleri ağırlıklandıran modellerde spam potansiyeli ile ilgili olduğundan şüpheleniyorum (görüş). Ama bu sadece benim fikrim.
DeepCT kullanılırsa, gerçekten bir sayfadaki bölümlerde odaklanma ve yapı ile zengin bir çekici ve yetkili içerik derinliği sağlamakla ilgili olacaktır. Anlamsal başlıklar ve sayfa başlığı da elbette yardımcı olacaktır, ancak sonuçta bu özelliklerle kendini rakiplerinden ayırmak için yapılabilecek çok şey var.
Bir başka nokta
Ayrıca, geçiş alma ile ilgili 2018 videolarının çoğunun, "açık alan yanıtları" ile aynı olmayan, daha uzun, yanıt vermek için daha az basit ve çok daha incelikli olan "Factoid Search" konusu etrafında olduğunu fark edeceksiniz. .
Factoid soruların yanıtları, Google tarafından sağlanan pasaj indeksleme örneğindeki gibi, nüanslı karmaşık açık alanlı sorulara kıyasla bilgi tabanlarında bulmak kolaydır. Bu tür sorular, her bir çalışmanın gerçek bağlamının anlaşılmasını gerektirir ve muhtemelen yalnızca ilk etapta 2018'in sonlarına kadar görünmeyen BERT gibi bağlamsal terim anlayış modelleriyle karşılanmıştır. Daha karmaşık açık alan sorularını yanıtlamak, Arama Etkinliği sırasında başlangıç noktası olarak belirtilen sorguların% 7'sini oluşturabilir, çünkü bu yüksek değildir.

DeepCT (veya DeepCT'nin gelecekteki yinelemeleri), üretim arama geçiş sıralamasında kullanılırsa, arama motorlarında birinci aşama sıralamasına büyük verimlilik getirme ve genel olarak ikinci aşama sıralamasını iyileştirme potansiyeline sahip olabilir (özellikle, her şeyde olduğu gibi) araştırma dünyası tarafından daha da geliştirildi).
DeepCT veya DeepCT'ye benzer yenilikler, arama motorlarını ilk aşamada gerçekten “anahtar kelime sayımlarından (tf)” sözcüğün anlamını çok daha fazla anlama yeteneğine götüren gizli sos olabilir. Başlangıçta pasajlarda, ama sonra… kim bilir?
İlk aşama sıralamasıyla ilgili verimlilik sorunlarını ve daha sonraki aşamalarda yeniden sıralama olarak yalnızca derin öğrenmeyi kullanma ihtiyacını zaten duyduk, ancak işler değişmek üzere olabilir. Ayrıca, arama motorları, birçok literatüre göre uzun yıllar terim sıklığı gibi sistemleri içeren ilk aşama sıralamalarına güvenmiştir ve bu da değişmek üzere olabilir.
Bu, bir pasaj veya tek bir alakalı kelime içermeyen bir belge kolayca sıralanacak demek değildir, çünkü "muhtemelen" olmayacaktır, ancak artık bir sayfadaki değer katan kelimelerin sadece kelimeler olmadığını biliyoruz.
BERT her yerde
Artık BERT'in neredeyse tüm sorgularda kullanıldığını bilsek de, geçiş indekslemesi için BERT kullanımı ve sorguların ilk% 7'si daha yaygın olabilir ve gelecekte, geçiş indeksleme daha fazla etki için genişlerse ve ne zaman genişler. sorguları.
Endekste tfDeepCT yerleştirmelerini oluşturmak için DeepCT kullanılmış olsaydı, her yerde BERT muhtemelen bir ön koşul olurdu.
Bununla birlikte, BERT ve diğer sinir ağlarına muhtemelen çok kısa veya navigasyonel sorgularda her zaman ihtiyaç duyulmaz.
Sonuçta "kırmızı ayakkabılar" veya "ASOS elbiseleri" sorgusu için çok fazla doğal dil anlayışı gerekli değildir, çünkü sorgunun farklı medyadan basit on mavi bağlantıya (ör. Resimler ).
Ancak, belirtildiği gibi, DeepCT üretim karışımında bile olmayabilir
Ancak bu aşamada Google, yanıtlaması daha kolay olan, ancak bu, aslında "sıralamada bir atılım" gibi hissettirmeyen, uzun açık alanlı sorularda yeniden sıralayıcı olarak BERT'den yeterince mutlu olabilir. Yeniden sıralama öğesi oldukça yeni olsa da, sıralama epey bir süredir ortalıkta.
Her halükarda, DeepCT olmasa bile, BERT ve BERT benzeri sistemlerin pasaj yeniden sıralamasında ezici kullanımı göz önüne alındığında, bu gelecek pasaj güncellemesinin "muhtemelen" bir parçası olacaktır.
Öyleyse, sırada nereye ve neden sorguların sadece% 7'si?
Dolayısıyla, BERT'nin en azından kısmen sorguların% 10'unda kullanıldığını biliyoruz ve muhtemelen hesaplama maliyetleri nedeniyle sıralamanın ikinci aşamasındaydı (yeniden sıralama) ve muhtemelen yalnızca en nüanslı sorgularda ve muhtemelen pasaj yeniden sıralayıcı veya sıralayıcı olarak değil, cümle düzeyinde belirsizliği giderme görev aracı ve metin özetleme (öne çıkan snippet'ler) olarak.
BERT ve diğer derin sinir ağları ile nöral sıralama yaklaşımlarının, arama endüstrisinde aramanın ilk aşamasında çalıştırılamayacak kadar hesaplama açısından çok pahalı olduğunu ve BERT'nin çalışabileceği token sayısında sınırlamalar olduğunu biliyoruz - 512 jeton. Ancak 2020 büyük bir yıl oldu ve doğal dil makine öğrenimi dikkat sistemlerini ölçeklendirmeye yönelik gelişmeler, aktarım öğrenmelerinin sınırlamalarını test etmek için Big Bird, Reformer, Performers ve ELECTRA plus T5 gibi yenilikleri içeriyor ve bu da muazzam ilerlemeler yaratıyor. Ve bunlar, Google'ın belirli bir kapasiteyle dahil olduğu projeler. Diğer büyük teknoloji arama şirketlerinden bahsetmeye bile gerek yok.
Bu çalışmanın çoğu çok yeni olsa da, AI NLP araştırma alanında bir yıl uzun bir süredir, bu nedenle önümüzdeki yıl bu zamana kadar büyük değişiklikler bekleyin.

DeepCT'nin gelecek üretim arama geçiş indeksleme özelliğinde kullanılıp kullanılmadığına bakılmaksızın, BERT'nin (ve arkadaşlarının) geçtiğimiz 12 ayın araştırmasında pasaj ranteri olarak ezici kullanımı göz önüne alındığında, BERT'nin değişimle güçlü bir bağlantısı olması muhtemeldir. ya da öylesine.
Sınırlı sayıda jetonları olan pasajlar, bağımsız parçalar olarak alınırlarsa, doğaları gereği, bağlamsal temsil olmaksızın tek başına anahtar kelimelerin etkinliğini sınırlandırabilir ve kesinlikle, bunun üstesinden gelmek için anahtar kelime doldurulmuş bir geçiş, daha ziyade geriye doğru bir adım olacaktır. arama motorları anahtar kelimeye özgü dilden uzaklaşmaktan çok uzaklaşmaya çalışıyor.
Belirli bir bağlamda kelimenin anlamını anlamak için bağlamsal temsilleri kullanarak, arayanların niyet tespiti büyük ölçüde geliştirildi.
Halihazırda uzun belgelerde BERT için sınırlamalar varken, pasajlar yeni bir niyet tespitine dayalı aramaya başlamak için ideal bir yer gibi görünüyor. Bu özellikle, arama motorları sorgulardan ve bağlantılardan bilgi tabanlarına ve standart aramanın dışındaki bilgi havuzlarına kadar "Bilgiyi Artırmaya" başladığında ve bu alanda çok iş olduğu zaman böyledir.
Bu SEO'lar için ne anlama geliyor?
Hatırlayacağınız gibi, 2020'nin başlarından itibaren Frederic Dubut of Bing videosu ve Bing'in geçen Nisan ayından beri BERT kullandığını ve ayrıca arama motoru sistemlerinde her yerde BERT gibi bir şey kullandığını iddia ettiğini hatırlayın. Bing, Google ile aynı arama pazar payına sahip olmasa da, kendi alanlarında saygı duyulan etkileyici bir doğal dili anlama araştırma ekibine sahiptir.
Frederic, SEO'ların niyet araştırma uygulamalarına odaklanma zamanının geldiğini söyledi, ancak bunun kelimeleri dikkate almamamız gerektiği anlamına geldiğine inanmıyorum, çünkü sonuçta dil kelimeler üzerine inşa edilmiştir. DeepCT bile niyeti kelimeler olmadan anlayabileceğini iddia etmez. Ancak Frederic, belki de SEO'lara anahtar kelime türündeki "bir sayfada x sayıda anahtar kelimeden bahsediliyor" yaklaşımlarından uzaklaşmalarını ve bilgi ihtiyaçlarının ardındaki amacı gerçekten anlamaya giderek daha fazla uyum sağlamalarını tavsiye ediyordu.
Bununla birlikte, içeriğin yapısı ve odak noktası HER ZAMAN önemli olmuştur ve bağlamsal netliğin yazılı olarak daha da önemli olacağı şu andan daha fazla değildir, ayrıca uzun bir belge boyunca bir bütün olarak alt konular bunun önemli bir parçası olacaktır çünkü pasajlar bu uzun belgeler muhtemelen parçalara bölünmüş olabilir.
Her aşamada bir bilgi ihtiyacını karşılamak için net bölüm başlıkları ve odaklanma, bu mutlaka bir SEO 'şey' olmasa da, şüphesiz her zaman faydalı olacaktır. Bu sahte blog yayınlarını çok az bir konu merkezi ile yeniden gözden geçiriyor ve ilk tavsiye olarak daha fazla değer katacak şekilde iyileştiriyor olacağım.
Ayrıca, html5'te <section> kullanımı hiçbir sebepten yoksun değildir.
Mozilla Vakfı, bu 'bağımsız' bölüm işaretlemesinin ve içeriğin bir arada kullanımına harika bir örnek sağlar.
Ayrıca, amacı anlamak için sadece rütbe izleyicilerine güvenmeyin. SERP'ler ve sıralama türleri ve bunların içindeki içerik, şüphesiz, bilgi ihtiyaçlarını karşılamak için pasajlarınızda nelerden bahsetmeniz gerektiğinin en iyi ölçüsüdür. Her zaman beklediğiniz gibi değildir.
Her yerde BERT ile olan bu gelişmeler (ve BERT ve DeepCT kullanılıyorsa pasajlar), bunu daha da güçlendiriyor.
Google'dan Prabhakar Raghavan'ın dediği gibi, "Bu sadece başlangıç."
O yanlış değil.
Halihazırda uzun belgelerde BERT için sınırlamalar varken, pasajlar yeni bir 'niyet tespiti' yönlendirmeli aramaya başlamak için ideal bir yer gibi görünüyor. Bu özellikle, arama motorları sorgulardan ve bağlantılardan standart aramanın dışındaki bilgi tabanlarına ve depolara kadar 'Bilgiyi Artırmaya' başladığında ve bu alanda şu anda devam eden çok iş var.
Ama bu başka bir makale için.