Kako Google BERT Vs. Smith-ovi algoritmi delujejo skupaj - pregled Semalta




Google je nedavno izdal raziskovalno nalogo o njihovem novem NLP algoritmu SMITH. Ta članek je številne strokovnjake za SEO opozoril na spremembe, ki bi zahtevale povečanje ali zmanjšanje uvrstitve SERP. Kljub temu nas tukaj skrbi, kako se ta novi algoritem SMITH primerja z BERT?

V članku, ki ga je objavil Google, so trdili, da SMITH pri razumevanju dolgih iskalnih poizvedb in dolgih dokumentov prekaša BERT. Zaradi tega je SMITH tako zanimiv, da lahko razume odlomke v dokumentu, podobno kot BERT počne z besedami in stavki. Izboljšana funkcija SMITH-a omogoča enostavno razumevanje daljših dokumentov.

Preden pa nadaljujemo, vas moramo obvestiti, da SMITH trenutno ne deluje v Googlovih algoritmih. Če pa so naša ugibanja pravilna, se bodo sprožila skupaj z indeksiranjem prehodov ali pa bodo pred tem. Če se resnično želite naučiti, kako se uvrstiti na SEP, bi strojno učenje neizogibno potekalo vzporedno s tem zanimanjem.

Torej, nazaj k temi, ali bo BERT kmalu zamenjan? Ali ne bo večina spletnih dokumentov, ki so obsežni, zanesljivi in ​​zato dlje uspešni s storitvijo SMITH?

Skočimo naprej in poglejmo, kaj smo zaključili. SMITH zna brati trdne in tanke dokumente. Mislite na to kot na Bazuko. Lahko povzroči veliko škodo, saj lahko tudi odpre vrata.

Za začetek, zakaj BERT ali SMITH?

Pravo vprašanje tukaj je, zakaj bo iskalnik za zagotavljanje rezultatov iskanja zahteval Natural Learning Processing. Odgovor je preprost. Iskalniki zahtevajo NLP pri prehodu z nizov ali ključnih besed, ki razumejo iskalnik, na stvari ali spletne strani.

Kjer Google nima pojma, kaj vse je lahko na strani, razen ključnih besed, ali je indeksiranje vsebine sploh smiselno glede na iskalno poizvedbo. Zahvaljujoč NLP lahko Google razume kontekst znakov, vpisanih v njegovo iskalno poizvedbo.
Zahvaljujoč NLP lahko Google loči namene uporabnika, ko reče "obrežje reke" in "bančni račun". Kot nenaravno lahko razume tudi izjave, kot je "Caroline se je s prijatelji sprijaznila na pijačo, pijačo, pint, pivo, pivo ..."

Kot strokovnjaki na področju SEO moramo reči, da je razumevanje iskalnih poizvedb daleč daleč. Najboljši verjamejo, da je bilo v preteklosti pretirano težko najti prave članke na internetu.

Razumevanje BERT

BERT trenutno deluje kot najboljši model NLP, ki ga imamo za številne, če ne za večino aplikacij, zlasti ko gre za razumevanje zapletenih jezikovnih struktur. Mnogi menijo, da je prvi dvosmerni znak največji preskok v tem algoritmu. Namesto algoritma, ki bere od leve proti desni, lahko BERT besede razume tudi glede na njihov kontekst. Na ta način ne bi dalo rezultatov za posamezne besede, vpisane v poizvedbo, temveč indeksiralo spletne strani na podlagi skupnega pomena besed v iskalni poizvedbi.

Tu je primer za lažje razumevanje:

KAMION IMA LUČ.

Če bi si to izjavo razlagali od leve proti desni, bi po doseganju besede "svetloba" tovornjak uvrstili kot nekaj s svetlobo. To je zato, ker je tovornjak prišel pred luč v izjavi.

Če pa želimo stvari razvrstiti na tovornjake, lahko pustimo "luč", ker pred njo ne naletimo pred "tovornjak".

Izjavo je težko obravnavati samo v eno smer.

Poleg tega ima BERT še eno skrivno prednost, da je tako izjemen in omogoča učinkovito obdelavo jezika z nižjimi stroški virov v primerjavi s prejšnjimi modeli. To je res pomemben dejavnik, ki ga je treba upoštevati, ko ga želimo uporabiti za celoten splet.

Uporaba žetonov je še en razvoj, ki je spremljal BERT. V BERT je 30.000 žetonov in vsak od njih predstavlja skupno besedo z nekaj dodatnimi žetoni za znake in fragmente, če beseda obstaja zunaj 30.000.

BERT je s svojo zmožnostjo obdelave žetonov in transformatorjev razumel vsebino, kar ji je dalo tudi sposobnost ustreznega razumevanja stavkov.

Torej, če rečemo, "je gospodična šla na breg. Kasneje je sedela na reki in opazovala, kako reka teče".

BERT bo tem stavkom dodelil različne vrednosti, ker se nanašajo na dve različni stvari.

Razumevanje SMITHA

Nato pride SMITH, algoritem z boljšimi viri in številkami za obdelavo večjih dokumentov. BERT porabi približno 256 žetonov na dokument in ko preseže ta prag, postanejo stroški računalništva previsoki za optimalno delovanje. V nasprotju s tem lahko SMITH obdeluje do 2.248 žetonov na dokument. To je približno 8-krat večje število žetonov, ki jih uporablja BERT.

Da bi razumeli, zakaj se računski stroški zvišujejo v enem samem modelu NLP, moramo najprej razmisliti, kaj je potrebno za razumevanje stavka in odstavka. Pri obravnavi stavka je treba razumeti le en splošni koncept. Manj besed je medsebojno povezanih, zato je manj povezav med besedami in idejami, ki jih imajo v spominu.

Z izdelavo stavkov v odstavke se povezava med temi besedami močno pomnoži. Obdelava 8X besedila bo zahtevala veliko večkrat glede hitrosti in zmogljivosti optimizacije pomnilnika z istim modelom. Tukaj SMITH naredi vse razlike, tako da v bistvu serira in opravi veliko obdelave brez povezave. Zanimivo je, da je SMITH za pravilno delovanje BERT-a še vedno odvisen.

Tu je opis, kako SMITH v bistvu jemlje dokument:
  1. Najprej dokument razdeli na velikosti, ki jih je lažje upravljati.
  2. Nato vsak blok stavkov obdela posamezno.
  3. Nato transformator nauči kontekstualno predstavitev vsakega bloka, nato pa jih spremeni v predstavitev dokumenta.

Kako deluje SMITH?

Za usposabljanje modela SMITH se pri BERT učimo na dva načina:

Za treniranje BERT je beseda odstranjena iz stavka in na voljo bodo druge možnosti

BERT, ki je bolje usposobljen, je tisti, ki bo uspešneje izbral pravo možnost med ponujenimi možnostmi. Na primer, če BERT dobi stavek:

Srečni rjavi ------ je skočil čez ograjo.
  • Prva možnost - paradižnik.
  • Druga možnost - pes.
Bolje kot je BERT usposobljen, boljše so možnosti, da izbere pravo možnost, ki je druga možnost.

Ta metoda usposabljanja se uporablja tudi v SMITH-u.

SMITH je usposobljen za velike dokumente

Bolj kot je usposobljen SMITH, boljše so njegove možnosti za prepoznavanje izpuščenih stavkov. To je ista ideja z BERT, vendar drugačna aplikacija. Ta del je še posebej zanimiv, ker prikazuje svet z vsebinami, ustvarjenimi z Googlom, ki so združene v obzidane strani z rezultati iskanja. Uporabniki seveda lahko zapustijo, vendar ne, ker lahko Google na svoji strani z rezultati sestavi kratke in dolgoročne vsebine iz vseh najboljših virov.

Če dvomite, da se to dogaja, morate vedeti, da se je že začelo, in čeprav tega še niso obvladali, je začetek.

Je SMITH boljši od BERT-a?

Glede na vse, kar ste prebrali, je povsem naravno domnevati, da je SMITH boljši, pri mnogih nalogah pa res boljši. Toda razmislite, kako za trenutek uporabljate internet; katera vprašanja redno vnašate v iskalne poizvedbe?
  • "Kakšna je vremenska napoved za danes?"
  • "Navodila do restavracije".
Za odgovor na take iskalne poizvedbe je običajno potrebna kratka vsebina, pogosto z omejenimi in nezapletenimi podatki. SMITH bolj sodeluje pri razumevanju daljših in bolj zapletenih dokumentov ter dolgih in zapletenih iskalnih poizvedb.

To bo vključevalo sestavljanje več dokumentov in tem za ustvarjanje njihovih odgovorov. Določa, kako je mogoče vsebino razčleniti, kar Googlu omogoča, da ve, kaj je prav. Googlu bo pomagal razumeti, kako so strani vsebine povezane med seboj, in ponuja lestvico, na kateri se lahko povezave vrednotijo ​​med drugimi ugodnostmi.

S tem sklepamo, da sta BERT in SMITH pomembna in imata svoj edinstveni namen.

Zaključek

Medtem ko je SMITH bazooka, ga potrebujemo, da narišemo jasno sliko skupnih stvari. Pri virih stane več, ker opravlja večje delo, vendar pri tem istem delu stane veliko manj kot BERT.

BERT pomaga SMITH-u, da pomaga razumeti kratke poizvedbe in drobne dele vsebine. To pa je tako dolgo, dokler Google ne razvije novega algoritma NLP, ki bo nadomestil oba, nato pa bomo premaknili še en napredek v SEO.

Vas zanima SEO? Oglejte si naše druge članke na Semalt blog.

mass gmail