Deep Learning og fremtiden for søgemarketing

Mens SEO-markedet diskuterer, om der vil være en tilbagekaldelse fra linkløse algoritmer i Yandex eller ej, lad os tale om en sådan ting som dyb læring (og så sig ikke, at du ikke har hørt).

Hvorfor skal du vide om det? Fordi dyb læring er en revolution i maskinindlæring, der forekommer før vores øjne. Og i den nærmeste fremtid ændrer dyb læring efter anerkendelse både selve søgningen og rangordningen i naturlig præsentation og vores verden som helhed (ikke meget, ikke nok).

Så hvad er dyb læring? På russisk er dette udtryk endnu ikke afgjort, og oversætter det på forskellige måder. Jeg foretrækker oversættelsen af ​​"dyb læring" (snarere end "dyb"), som blev foreslået af Dmitry Vetrov, en af ​​de russiske specialister, som den vigtigste.

"Deep learning" er en slags maskinindlæring baseret på neurale netværk. I dag er brugen af ​​"dyb læring" baseret på talegenkendelsessystemer, anerkendelse af visuelle objekter (både statisk og bevægende) og endelig interaktionen mellem computersystemer med naturligt sprog og isolering af betydninger.

Det ser ud til, at alt er enkelt, alt er klart, og det ser ud til, ikke vedrører os. Men ... Men vi taler faktisk om en reel revolution i maskinindlæring. Det startede ikke i går, de generelle principper for "dyb læring" har eksisteret i lang tid. Men den egentlige udformning af dyb læring blev mulig i begyndelsen af ​​dette årti, da oprettelsen af ​​computernale netværk var betydeligt billigere. Og med en start fra ca. 2012 er der sket en reel boom forbundet med teknologierne med "dyb læring" i maskinindlæring. Ikke desto mindre er der stadig meget få specialister i "dybdeindlæring" i verden, og behovet for dem er meget højt. For eksempel blev algoritmen til genkendelse af mening i tekster skabt af næsten en person - Thomas Mikolov. På det tidspunkt arbejdede han hos Google, men næsten umiddelbart efter blev han "hooked up" af Facebook.

Ovenfor har jeg allerede sagt, at "dyb læring" er en slags maskinindlæring. Men det er ikke helt rigtigt. Klassisk maskinindlæring er udvinding af ny viden fra en stor mængde data, som en person indlæser i en maskine. En person formulerer reglerne for maskinindlæring (på grund af det såkaldte "træningssæt") og maskinfejlregel (eliminerer effekten af ​​den såkaldte "omskoling"). Men klassisk maskinindlæring har betydelige ulemper - data til behandling og eksempler på løsninger gives til maskinen af ​​mennesker. Med andre ord udfører en computer i klassisk maskinindlæring et stort antal opgaver, men udformer ikke disse opgaver uafhængigt. Begrebet "dyb læring" tyder på, at maskinen selv skaber en funktionel for sig selv, så vidt det er muligt på nuværende tidspunkt.

Begrebet "dybde" som anvendt til maskinindlæring involverer modellering af multi-level abstractions ("layers") og oversætter dem til data. Jo flere af disse "lag" ("dybder"), de mere yderst intellektuelle opgaver, det neurale netværk kan udføre. Samtidig udfører hun dem uden hjælp fra en person.

Faktisk er "dyb læring" det første og ret store skridt mod kunstig intelligens. Neurale netværk er systemer, der, mens det stadig er primitivt, kan at tænke, dvs. skabe nye opdagelser fra de data, de skabte for sig selv. Mekanismen for multi-level abstraktioner ("lag"), der anvendes i dybdeuddannelse, ligner meget læringsmekanismen hos en ung mand. Som barn lærer man først lydene, så individuelle ord og kun så sætninger - det "dybe" neurale netværk bevæger sig fra simple (overflade) abstraktioner til mere komplekse.

Revolution dyb læring

I løbet af 2012 og 2013 er Google roligt men rent faktisk opkøb af aktive virksomheder og nystartede inden for dyb læring. Blandt dem var begge forholdsvis store virksomheder (for eksempel prisen for den britiske DeepMind, ifølge eksperter på købstidspunktet for søgegiganten, varierede fra 400-500 millioner amerikanske dollars) og meget dværg - for eksempel DNNresearch, hvor Google arbejdede på tidspunktet for virksomhedens køb kun tre medarbejdere - Jeffrey Hinton og hans to kandidatstuderende.

Professor Hinton, professor ved University of Toronto, begyndte sin forskning inden for opbygning af neurale netværk tilbage i 80'erne i det sidste århundrede og er i dag den mest autoritative specialist i verden inden for dyb læring. Det er på Hinton's videnskabelige arbejde, at mange systemer baseret på "dyb læring" var baseret. I 2011 opretter Google sit første neurale netværk, kaldet Google Brain (det udvikles allerede som en kultdeling af Google X), og Hinton deltager i starten af ​​udviklingen af ​​det neurale netværk som en ansat konsulent og to år senere slutter teamet med sine kandidatstuderende Google Brain (uden at forlade din undervisning på University of Toronto).

Google Brains neurale netværk (i 2012 bestod det af 16.000 processorer) begynder at lære. Undervejs er løsningen af ​​anvendte problemer - for eksempel netop på grund af det neurale netværk, antallet af talekommandokendingsfejl i søgningen faldet med 25% - hun opdager et skab som en kat.

Bare ved at studere de millioner af billeder på Youtube-kanalen åbnede det kunstige neurale netværk katten. Faktisk er løsningen af ​​et sådant problem en ekstremt kompliceret ting, fordi det er vanskeligt at formalisere. Du kan oprette en algoritme, der genkender katte på bestemte typer fotos (med en lignende vinkel, med tilsvarende størrelser af objekter). Du kan oprette en algoritme, der vil tegne disse katte. Men hvordan man laver en algoritme, der genkender katte fra enhver vinkel, hvis han algoritmen ikke forstår hvad en kat er?

Det neurale netværk skulle have begyndt at forstå dette. Og hun lærte dette. Hun trænede sig selv, personen satte ikke en sådan opgave for hende.

Det er klart, at alt for tiden ikke er så rosenrødt. Det neurale netværk skelner kun katte i billeder i 15% af tilfældene. Nøjagtighed kan være meget højere, hvis netværket vil studere samme type materialer. Det er faktisk nøjagtigheden af ​​anerkendelse af katte af det neurale netværk er i øjeblikket meget værre end anerkendelsen af ​​katte med 4-5 flyvende børn. Men i modsætning til barnet lærte ingen det neurale netværk, ingen viste objekter med en kat og kalder dem. Netværket gav udtryk for selve katten.

Hvad sker der nu

I marts 2015 eksploderede en "atombombe" i SEO-verdenen - Google offentliggjorde en artikel med titlen "Videnbaseret tillid: Vurdering af webressourcernes pålidelighed". Utvivlsomt overdriver jeg, nyheden er faktisk gået ubemærket. Godt, for nogle dage blev de sociale ledere flau og skeptikerede - jeg undskylder for dette dumme ord, men jeg ved ikke, hvordan man ellers kan identificere buzziness på sociale fora og sociale netværk grupper. Der var ingen grænse for forargelsen ("Google sætter os på forsøg igen") og skepsis ("Intet kommer fra det, som Yasha med annullering af en reference"). Det er forståeligt i en rent videnskabelig artikel, at repræsentanter for Google annoncerede en ny rankingalgoritme, der ikke er baseret på dokumentets referencemyndighed, men om faktisk nøjagtighed. Hvis det er forenklet, kan essensen af ​​den nye algoritme udtrykkes af følgende maksimal: Et dokument med pålidelig faktologi, der ellers er ens, bør placeres højere end et dokument med upålidelig faktologi.

SEOs skepsis er generelt forståelig - de (som altid) for øje kun så hvad de ønskede at se. Og hovedspørgsmålet, der blev spurgt på forummet, lyder som dette: "Dette er hvad i helvede du alle vil gøre, det viser sig - nu skal vi oprette indhold, der vil citere fakta fra Wikipedia eller andre autoritative kilder, selvom de slet ikke er relevante på siden ? ".

Men faktum er, at den nye algoritme ikke kan fungere uden at forstå betydningen sagt på siden. At forstå betydningen af ​​skriftlig / voiced tekst på en side, snarere end at anerkende semantik, er, hvad der vil gøre søgningen uigenkendelig.

Hvordan vil "dyb læring" arbejde i søgning? Jeg vender mig til oplevelsen hos folk, der forstår dette meget bedre end mig. Dette er hvad Rand Fishkin siger i næste udgave af Whiteboard Friday (forresten er dette problem kaldt "Hvad betyder dybdeindlæring og maskinindlæring for fremtidig SEO?"):

"Det neurale netværk består af forskellige lag.Det første lag vil afsløre alle de forskellige funktioner i dokumentet.Det andet lag i det neurale netværk klassificerer typerne af disse funktioner.Dermed tager Google hensyn til alle mulige funktioner af enhver type websted og enhver type side for at bestemme hvilke nyttige signaler Generelt kan det udvindes her og nu? I dette tilfælde tager det neurale netværk hensyn til de akkumulerede data om brugeradfærd på alle sider på internettet (hvor den kan nås) for at forudsige resultater - om brugeren vil lide dette eller det pågældende dokument i problemet eller ej.

Men den grundlæggende idé er, at indkommende data i fremtiden ikke vil blive kontrolleret af mennesker. Maskinen selv vil forsøge at forstå indholdet på siden. Ja, det lyder underligt. Men snart, hvis du spørger en Google-ingeniør - er det for eksempel værd at fortsætte med at opbygge indgående links til webstedet? - han vil sandsynligvis svare dig: Jeg ved det ikke. De vil faktisk ikke længere vide præcis, hvilke signaler søgningsalgoritmen fremhæver for en bestemt forespørgsel og en bestemt type side. Kun maskinen vil vide dette, men det vil ikke være i stand til at forklare noget for nogen, fordi rangordningsalgoritmen konstant ændres som nye dokumenter vises på dette emne, og mange beregninger, der vil blive brugt af det neurale netværk, kommer fra et stort antal andre målinger.

"Deep learning" kommer

Revolutionen af ​​dyb læring er i virkeligheden bare begyndelsen. Men i dag neurale netværk med brug af "deep learning" funktion.

For eksempel opererer trafikovervågningstjenester på dyb indlæringsteknologier. Ja, Yandex.Proborks viser ikke kun det rigtige billede, men forsøger også at forudsige udseendet af trafikpropper, men uden dyb læring er en sådan forudsigelse umulig.

Google Voice Search og Apple Siri er drevet af "deep learning" -teknologier.

Googles influenza forudsigelsestjeneste arbejder på dyb indlæringsteknikker.

Genkendelsesalgoritmerne for mennesker i foto- og videobilleder, der uploades til Facebook dagligt, er baseret på dyb læringsteknologier.

At søge. Algoritmer til personliggørelse af søgeresultater er baseret på dybt lærende teknologier.

Vi går ind i en ny vidunderlig verden. Og de næste fem år vil være virkelig revolutionerende - ikke kun for søgemarketing, men også for menneskeheden som helhed. Meget snart ser vi alt sammen med vores egne øjne.

Efterlad Din Kommentar