Suurin osa uudesta syvä oppiminen mallit vapautetaan, erityisesti NLP: ssä , ovat hyvin, hyvin suuria: Niiden parametrit vaihtelevat satoista miljoonista tasoihin kymmeniä miljardeja .
Riittävän hyvä arkkitehtuuri, suurempi malli , sitä enemmän oppimiskykyä sillä on. Siksi näillä uusilla malleilla on valtava oppimiskyky ja niihin koulutetaan hyvin, hyvin suuret tietojoukot .
Tämän vuoksi he oppivat koko tietojoukkojen jakauman, joihin he ovat koulutettuja. Voidaan sanoa, että ne koodaavat pakattuja tietoja näistä tietojoukoista. Tämän ansiosta näitä malleja voidaan käyttää erittäin mielenkiintoisissa sovelluksissa - yleisimpiä siirtää oppimista . Siirto-oppiminen on valmiiksi koulutettujen mallien hienosäätöä mukautetuista tietojoukoista / tehtävistä , joka vaatii paljon vähemmän tietoa, ja mallit lähestyvät hyvin nopeasti verrattuna tyhjästä harjoitteluun.
Vaikka ennalta koulutettuja malleja käytetään myös tietokonenäkössä, tässä artikkelissa keskitytään niiden huipputekniikkaan luonnollisen kielen käsittely (NLP) -verkkotunnus. Muuntajan arkkitehtuuri on yleisin ja tehokkain arkkitehtuuri, jota näissä malleissa käytetään.
Siitä huolimatta BERT aloitti NLP-siirron oppimisen vallankumouksen, tutkimme GPT-2 ja T5 malleja. Nämä mallit on ennalta koulutettu - niiden hienosäätö tietyissä sovelluksissa johtaa paljon parempiin arviointitietoihin, mutta käytämme niitä alusta alkaen, ts. Ilman hienosäätöä.
GPT-2 aiheutti melko kiistan, kun se julkaistiin vuonna 2019. Koska se oli erittäin hyvä tekstin luomisessa , se houkutteli melko Media huomio ja herätti paljon kysymyksiä tekoälyn tulevaisuudesta.
Koulutettuna 40 Gt: n tekstidatana GPT-2 on a erittäin suuri malli joka sisältää a valtava määrä pakattua tietoa poikkileikkauksesta Internetistä.
GPT-2: lla on paljon mahdolliset käyttötapaukset . Sitä voidaan käyttää ennustamaan lauseen todennäköisyys. Tätä puolestaan voidaan käyttää tekstin automaattiseen korjaamiseen. Seuraavaksi sanan ennustusta voidaan käyttää suoraan rakentaa automaattisen täydennyksen komponentti IDE: lle (kuten Visual Studio Code tai PyCharm) koodin kirjoittamista varten yleinen tekstin kirjoittaminen . Käytämme sitä automaattiseen tekstin tuottamiseen, ja suurta tekstiryhmää voidaan käyttää luonnollisen kielen analysointiin.
Valmiiksi koulutetun mallin, kuten GPT-2, kyky luoda yhtenäistä tekstiä on erittäin vaikuttava. Voimme antaa sille etuliitteen tekstin ja pyytää sitä luomaan seuraavan sanan, lauseen tai lauseen.
Esimerkkitapauksena on tuotearvostelutietojoukon luominen sen selvittämiseksi, minkä tyyppisiä sanoja yleensä käytetään positiivisissa arvosteluissa verrattuna negatiivisiin arvosteluihin.
Katsotaanpa joitain esimerkkejä, alkaen siitä, mitä saamme, jos aloitamme positiivisella etuliitteellä 'Todella piti tästä elokuvasta!'
Näyte 1 | Rakastin hahmon tunteita jatkuvassa vaarassa ja kuinka nämä sisäiset pelot voittivat hitaasti nämä tapahtumat. Rakasti myös, että hän on niin keskittynyt selviytymään; jopa jonkin aikaa tuntui siltä, että jotain Batman v Supermanista ilmestyi aina uudestaan, koska tiesit aina, että vihollisesi esiintyy lopulta joka tapauksessa :) Lopullinen teema pysyi myös minussa ... Tarkoitan joo, heidän täytyi ... |
Näyte 2 | Se teki juuri sen, mitä halusin sen tekevän, vain hauskaa. Näyttelijät olivat mahtavia ja tarina on toistaiseksi järkevää nähtyään kaiken muun jo IMDB: ssä. Siellä on vihjeitä maanalaisessa kaupungissa olemisesta muinaisista ajoista lähtien heidän 'voimansa' (tai sen puutteen) takia, mutta ne eivät todellakaan kerro niin paljon ... Mielestäni se on enemmän kuin yksi iso mysteeri, sitten jotkut muut näkökohdat, jotka tulevat yhdessä kanssani toistaiseksi vaikka…. Sen oletetaan olevan… |
Kuten näette, sana arvostelu ei ollut missään etuliitteessä, mutta koska suurin osa arvosteluista on otsikoita, joita tarkastelun osa seuraa, tämä pakotti mallin sopeutumaan kyseiseen jakeluun. Huomaa myös viittaus Batman vastaan Superman .
Katsotaanpa toinen esimerkki. Elokuva-arvostelun sijaan yritämme luoda tuotearvostelun negatiivisella etuliitteellä 'Roskakorituote! Älä osta.'
Näyte 1 | Ja ÄLÄ yritä käyttää tätä lannoitteena puutarhoihisi tai nurmikollesi - se aiheuttaa vakavia vesivahinkoja, jos kalat ja linnut nauttivat siitä. Käytä varoen, koska on mahdollista, että torjunta-aineita saattaa esiintyä lemmikkieläinten ruoissa, joita on saatavana verkossa luomuruokakaupoissa, kuten liian hyviä nimiä, kuten Petsmart, PetSmart & Safeway. Kuinka myrkyllistä ruokahävikki on? Jätetuotteista voi tulla merkittäviä määriä - niin paljon, että jopa hyvin… |
Näyte 2 | Kukaan ei enää anna sinulle palan roskaa. Tee vain itsellesi ja yrityksellesi palvelus ja siivoa ennen kuin ostat sen muulla tavoin kuin säästää rahaa tai mukavuutta tulevaisuudessa. 1/2 oz: n pullon muovinen elintarvikepakkaus + 1 pakkaus # 1636370105702615 (P, 3 ml) 7 dollaria Osta nyt Voit ostaa nämä pullot kaikista vähittäismyymälöistä, mutta täältä saat ohjeet ... |
Jälleen etuliite voidaan päätellä tuotearvostelun otsikkona, joten malli alkaa tuottaa tekstiä kyseisen mallin mukaisesti. GPT-2 voi luoda minkä tahansa tyyppistä tekstiä.
TO Google Colabin muistikirja on valmis käytettäväksi kokeisiin, samoin kuin “Kirjoita muuntajalla” live-esittely .
Kyllä, koska GPT-2 on koulutettu verkossa, se 'tuntee' paljon inhimillistä tietoa, joka on julkaistu verkossa vuoteen 2019 asti. Se voi toimia myös asiayhteyteen liittyvissä kysymyksissä, mutta meidän on noudatettava nimenomaista muotoa ' Kysymys: X, Vastaus: ”ennen kuin annat sen yrittää suorittaa täydennystä. Mutta jos pakotamme mallin vastaamaan kysymykseemme, se voi antaa melko epämääräisen vastauksen. Tässä tapahtuu, kun yritetään pakottaa se vastaamaan avoimiin kysymyksiin testatakseen tietonsa:
Näyte 1 | Kysymys: Kuka keksi evoluutioteorian? Vastaus: Charles Darwin ehdotti evoluutioteoriaa ensimmäisen kerran vuonna 1859. |
Näyte 2 | Kysymys: Kuinka monta hampaita ihmisillä on? Vastaus: Ihmisillä on 21 hampaita. |
Kuten näemme, esikoulutettu malli antoi melko yksityiskohtaisen vastauksen ensimmäiseen kysymykseen. Toiseksi se yritti parhaansa, mutta se ei vertaa Google-hakuun.
On selvää, että GPT-2: lla on valtava potentiaali. Hienosäätämällä sitä, sitä voidaan käyttää yllä mainituissa esimerkeissä paljon suuremmalla tarkkuudella. Jopa arvioimamme ennalta koulutettu GPT-2 ei silti ole niin huono.
Googlen T5 on yksi tähän mennessä kehittyneimmistä luonnollisen kielen malleista. Se perustuu yleiseen Transformer-mallien aikaisempaan työhön. Toisin kuin BERT, jolla oli vain kooderilohkot, ja GPT-2, jolla oli vain dekooderilohkot, T5 käyttää molemmat .
GPT-2: n kouluttaminen 40 Gt: n tekstidataan oli jo vaikuttavaa, mutta T5 koulutettiin 7 Tt: n tietojoukolle . Vaikka se oli koulutettu hyvin, hyvin suurelle määrälle iteraatioita, se ei voinut käydä läpi koko tekstiä. Vaikka T5 pystyy tekstin luominen kuten GPT-2, käytämme sitä mielenkiintoisempiin yrityskäyttöön.
Aloitetaan yksinkertaisesta tehtävästä: tekstin yhteenveto . Niille Tekoälyn kehitysyritykset haluaa rakentaa sovelluksen, joka sisältää yhteenvedon uutisartikkelista, T5 soveltuu täydellisesti tehtävään. Esimerkiksi antaa Tämä artikkeli T5: lle, tässä on kolme erilaista yhteenvetoa:
V1 | Destiny 2: n seuraava kausi, joka alkaa 10. maaliskuuta, muokkaa miekkoja. heillä on latausenergiaa, jota käytetään sekä raskaisiin hyökkäyksiin että vartiointiin. Ystävänpäivän tapahtuma, karmiininpunainen päivä, tapahtuu myös tässä kuussa. |
V2 | bungie on paljastanut, että Destiny 2: n seuraava kausi muokkaa dramaattisesti miekkoja. studio on ollut enimmäkseen varma siitä, mitä kausi merkitsee. uudelleen ajattelu antaa miekkojen ohittaa osittain ai-vihollisten kilvet. |
V3 | Destiny 2: n seuraava kausi muokkaa miekkoja ja antaa heidän ohittaa vihollisten kilvet. kausi alkaa 10. maaliskuuta. voit pelata kohtaloa 2 purppurapäivinä, ystävänpäivän tapahtumana. |
Kuten näemme, se on tehnyt melko hienon työn artikkelin yhteenvedosta. Jokainen yhteenveto on myös erilainen kuin muut.
Yhteenveto esikoulutettujen mallien käytöstä tarjoaa valtavia mahdollisia sovelluksia. Yksi mielenkiintoinen käyttötapaus voisi olla yhteenvedon luominen jokaisesta artikkelista automaattisesti ja laittaa se aluksi lukijoille, jotka haluavat vain yhteenvedon. Se voitaisiin viedä pidemmälle mukauttamalla yhteenveto kullekin käyttäjälle . Esimerkiksi, jos joillakin käyttäjillä on pienempi sanasto, heille voidaan tarjota yhteenveto vähemmän monimutkaisista sanavalinnoista. Tämä on hyvin yksinkertainen esimerkki, mutta se osoittaa tämän mallin voiman.
Toinen mielenkiintoinen käyttötapaus voisi olla tällaisten yhteenvetojen käyttäminen verkkosivuston hakukoneoptimoinnissa. Vaikka T5 voidaan kouluttaa tuottamaan erittäin korkealaatuista hakukoneoptimointia automaattisesti, yhteenvedon käyttäminen voi auttaa alusta ilman mallin uudelleenkoulutusta.
T5: tä voidaan käyttää myös luetun ymmärtäminen esim. vastaamalla tietyn kontekstin kysymyksiin. Tällä sovelluksella on erittäin mielenkiintoisia käyttötapauksia, jotka näemme myöhemmin. Mutta aloitetaan muutama esimerkki:
Kysymys | Kuka keksi evoluutioteorian? |
Asiayhteys ( Encyclopædia Britannica ) | Fossiilisten luiden löytäminen suurista sukupuuttoon nisäkkäistä Argentiinassa ja lukuisien peippilajien havaitseminen Galapagos-saarilla olivat tapahtumia, joiden mielestä Darwinin kiinnostus lajien alkuperään herätettiin. Vuonna 1859 hän julkaisi Lajien alkuperän luonnollisen valinnan keinoin, tutkielman, jossa vahvistettiin evoluutioteoria ja mikä tärkeintä, luonnollisen valinnan rooli sen etenemisen määrittämisessä. |
Vastaus | Darwin |
Ei ole nimenomaista mainintaa siitä, että Darwin keksi teorian, mutta malli käytti olemassa olevaa tietämystään yhdessä jonkin kontekstin kanssa oikean johtopäätöksen tekemiseksi.
Entä hyvin pieni konteksti?
Kysymys | Minne menimme? |
Asiayhteys | Syntymäpäivänäni päätimme käydä Pakistanin pohjoisosissa. Se oli todella hauskaa. |
Vastaus | Pakistanin pohjoisosissa |
Okei, se oli melko helppoa. Entä filosofinen kysymys?
Kysymys | Mikä on elämän tarkoitus? |
Asiayhteys ( Wikipedia ) | Elämän tarkoitus sellaisena kuin sen havaitsemme, johtuu filosofisesta ja uskonnollisesta mietiskelystä ja olemassaoloa, sosiaalisia siteitä, tietoisuutta ja onnea koskevista tieteellisistä tutkimuksista. Mukana on myös monia muita asioita, kuten symbolinen merkitys, ontologia, arvo, tarkoitus, etiikka, hyvä ja paha, vapaa tahto, yhden tai useamman jumalan olemassaolo, käsitykset Jumalasta, sielusta ja kuolemanjälkeisestä elämästä. Tieteelliset panostukset keskittyvät ensisijaisesti siihen liittyvien empiiristen tosiseikkojen kuvaamiseen maailmankaikkeudesta, kontekstin ja parametrien tutkimiseen elämän 'miten' -tapahtumasta. |
Vastaus | filosofinen ja uskonnollinen mietiskely ja tieteelliset tutkimukset olemassaolosta, sosiaalisista siteistä, tajunnasta ja onnesta |
Vaikka tiedämme, että vastaus tähän kysymykseen on hyvin monimutkainen, T5 yritti löytää hyvin läheisen, mutta järkevän vastauksen. Maine!
Otetaanpa se eteenpäin. Esitämme muutaman kysymyksen käyttämällä aiemmin mainittua Engadget-artikkelia kontekstina.
Kysymys | Mitä tämä on? |
Vastaus | kohtalo 2 muokkaa dramaattisesti |
Kysymys | Milloin voimme odottaa tätä päivitystä? |
Vastaus | 10. maaliskuuta |
Kuten näette, T5: n asiayhteyteen vastaaminen on erittäin hyvä. Yksi yrityskäyttötapa voi olla kontekstuaalisen chatbotin rakentaminen verkkosivustoille, jotka vastaavat nykyisen sivun kannalta merkityksellisiin kyselyihin.
Toinen käyttötapaus voi olla tietojen etsiminen asiakirjoista, esim. Kysymysten esittäminen, esimerkiksi: 'Onko yrityksen kannettavan tietokoneen käyttäminen henkilökohtaiseen projektiin sopimusrikkomusta?' käyttämällä oikeudellista asiakirjaa kontekstina. Vaikka T5: llä on rajoituksensa, se soveltuu melko hyvin tämän tyyppiseen tehtävään.
Lukijat saattavat ihmetellä, Miksi et käyttäisi erikoismalleja jokaiseen tehtävään? Se on hyvä asia: Tarkkuus olisi paljon suurempi ja erikoistuneiden mallien käyttöönottokustannukset olisivat paljon pienemmät kuin T5: n ennalta koulutetun NLP-mallin. Mutta T5: n kauneus on juuri se, että se on 'yksi malli hallita kaikkia', ts. Voit käyttää yhtä ennalta koulutettua mallia melkein mihin tahansa NLP-tehtävään . Lisäksi haluamme käyttää näitä malleja heti laatikosta ilman uudelleenkoulutusta tai hienosäätöä. Joten kehittäjille, jotka luovat sovelluksen, joka sisältää yhteenvedon eri artikkeleista, sekä sovelluksen, joka vastaa asiayhteyteen vastaaviin kysymyksiin, sama T5-malli voi tehdä molemmat.
Tässä artikkelissa tutkimme ennalta koulutettuja malleja ja miten niitä voidaan käyttää alusta alkaen erilaisiin yrityskäyttöön. Aivan kuten klassista lajittelualgoritmia käytetään melkein kaikkialla lajitteluongelmissa, näitä ennalta koulutettuja malleja käytetään vakioalgoritmeina. On melko selvää, että tutkimme oli oikein naarmuuntuminen pintaan NLP-sovelluksista, ja näillä malleilla voidaan tehdä paljon enemmän.
Valmiiksi koulutetut syvällisen oppimisen mallit, kuten TyyliGAN-2 ja DeepLabv3 voi valtaa samalla tavalla tietokonenäön sovellukset . Toivottavasti pidit tästä artikkelista ja odotan mielelläni alla olevia kommentteja.
Esikoulutus on tekniikka, jossa datatutkijat kouluttavat malliarkkitehtuuria erittäin suurelle tietojoukolle. Tämä tuo malliin ennakkotietoa ja auttaa hienosäätämään mallia uudempiin tehtäviin. Esimerkiksi Resnet-50: n kouluttaminen ImageNetissä.
Koulutettu malli on tietokokonaisuuteen koulutettu malliarkkitehtuuri.
Jokainen syvällisen oppimisen malli on rakennettu käyttäen joukkoa peruskerroksia, jotka on yhdistetty eri tavoin. Näiden kerrosten yhteys luo tietyn malliarkkitehtuurin. Esimerkkejä arkkitehtuureista ovat ResNet, GPT-2 ja StyleGAN.
Syvä oppimiskerros on matemaattinen operaatio, joka muuntaa edellisen kerroksen lähdön seuraavan kerroksen tuloksi. Näihin matemaattisiin operaatioihin liittyy yleensä numeerisia parametreja, jotka opitaan koulutuksen aikana.
Syvän oppimismallin painot ovat luettelo kyseisen mallin kaikkien parametrien arvoista, jotka liittyvät kuhunkin sen kerrokseen.