SpaCy alternatīvas objektu ieguvei (NER)

SpaCy Entitāšu ieguvei

Pirmā spaCy versija tika izdota 2015. gadā, un tā ātri vien kļuva par standarta sistēmu uzņēmuma līmeņa būtņu ieguvei (pazīstama arī kā NER).

Ja jums ir nestrukturēts teksts (piemēram, no tīmekļa) un vēlaties no tā iegūt strukturētus datus, piemēram, datumus, vārdus, vietas utt., spaCy ir ļoti labs risinājums.

SpaCy ir interesants, jo ir pieejami vairāki iepriekš apmācīti modeļi aptuveni 20 valodās. (vairāk šeit). Tas nozīmē, ka jums nav obligāti jāapmāca savs modelis būtņu ieguvei. Tas nozīmē arī to, ka, ja vēlaties apmācīt savu modeli, varat sākt ar iepriekš apmācītu modeli, nevis sākt no nulles, kas var ietaupīt daudz laika.

SpaCy tiek uzskatīta par "ražošanas klases" ietvaru, jo tā ir ļoti ātra, uzticama un tai ir pievienota visaptveroša dokumentācija.

Tomēr, ja ar spaCy iepriekš apmācīto modeļu atbalstītajām noklusējuma vienībām nepietiek, jums būs jāstrādā pie "datu anotācijas" (pazīstama arī kā "datu marķēšana"), lai apmācītu savu modeli. Šis process ir ļoti laikietilpīgs, un daudzi uzņēmumu esību ieguves projekti šīs problēmas dēļ ir neveiksmīgi.

Pieņemsim, ka vēlaties iegūt amatu nosaukumus no teksta (piemēram, no CV vai uzņēmuma tīmekļa vietnes). Tā kā spaCy iepriekš apmācītie modeļi pēc noklusējuma neatbalsta šādu vienību, jums būs nepieciešams iemācīt spaCy atpazīt amatu nosaukumus. Jums būs jāizveido mācību datu kopa, kas satur vairākus tūkstošus amatu nosaukumu ieguves piemēru (un varbūt pat daudz vairāk!). Jūs varat izmantot tādu maksas anotēšanas programmatūru kā Prodigy (ko izveidojusi spaCy komanda), taču tas joprojām ir saistīts ar lielu cilvēku darbu. Patiesībā ir diezgan bieži sastopams, ka uzņēmumi uz vairākiem mēnešiem nolīgst vairākus darbuzņēmējus, lai veiktu datu anotācijas projektu. Šāds darbs ir tik atkārtots un garlaicīgs, ka iegūtajās datu kopās bieži vien ir daudz kļūdu...

Datu anotācijas piemērs

Apskatīsim, kādus alternatīvus risinājumus jūs varētu izmēģināt 2023. gadā!

Stanford CoreNLP

Stanford CoreNLP pirmā versija tika izdota 2013. gadā. Tā ir Java ietvarstruktūra (bet spaCy ir Python ietvarstruktūra), kas ļauj veikt būtņu ieguvi ar ļoti labiem rezultātiem.

Stanford CoreNLP arī piedāvā iepriekš apmācītus modeļus, bet mazāk nekā spaCy (vairāk šeit).

Šīs sistēmas precizitāte ir līdzīga spaCy, taču tā ir atkarīga no analizējamajiem datiem. Piemēram, Stanford CoreNLP sniedz labākus rezultātus, apstrādājot juridiskos datus. Tāpat ir vērts atzīmēt, ka dažas vienības tiek risinātas nedaudz atšķirīgi, salīdzinot ar spaCy (tas attiecas, piemēram, uz GPE vienību).

Runājot par veiktspēju, Stanford šķiet lēnāks nekā spaCy, kas var būt problēma, ja cenšaties sasniegt ļoti lielu caurlaides spēju.

Flair

Flair ir jaunāka Python ietvarstruktūra (izlaista 2018. gadā), kas balstīta uz PyTorch dziļās mācīšanās ietvarstruktūru.

Tā gūst lielu popularitāti, jo salīdzinājumā ar spaCy tā daudzās valodās sasniedz lielāku precizitāti. Ir ierosināti vairāki iepriekš apmācīti modeļi (vairāk šeit).

Tomēr šis precizitātes uzlabojums tiek panākts uz ātruma rēķina. Salīdzinot ar spaCy, jūsu caurlaides spēja būs daudz mazāka.

Ģeneratīvie mākslīgā intelekta modeļi (GPT-J, GPT-3...)

Pirms pāris gadiem sāka parādīties jauna veida mākslīgā intelekta modeļi - ģeneratīvie modeļi. Sākotnēji šie modeļi tika radīti teksta ģenerēšanai (uzrakstot teksta sākumu un ļaujot modelim ģenerēt pārējo), taču cilvēki ātri saprata, ka šie modeļi ir ļoti labi visdažādākajos dabiskās valodas apstrādes lietojuma gadījumos, tostarp būtību ieguvei.

Mūsdienās populārākie ģeneratīvie modeļi ir GPT-3, GPT-J, GPT-NeoX, T5 un Bloom. Visos šajos dziļās mācīšanās modeļos tiek izmantota Transformer arhitektūra, ko 2017. gadā izgudroja Google.

Šis jaunās paaudzes mākslīgā intelekta modelis ir ļoti smags un dārgs. Parasti tiem nepieciešama augstas klases aparatūra, kas balstīta uz vienu vai vairākiem GPU. Turklāt tie ir lēnāki par tādiem ietvariem kā spaCy. Taču, pateicoties šiem modeļiem, tagad ir iespējams iegūt jebkāda veida vienības, neapmācot specializētu modeli!

Jebkuras vienības iegūšana, neizveidojot īpašu modeli, ir iespējama, pateicoties mācīšanās ar dažiem kadriem. Šī metode ir saistīta ar ātru modeļa parādīšanu, ko vēlaties darīt, izpildot tikai dažus piemērus darbības laikā. Uzziniet vairāk par mācīšanos ar dažiem šāvieniem šeit.

Atgriežoties pie mūsu amatu nosaukumu iegūšanas piemēra, ja vēlaties iegūt amatu nosaukumus, izmantojot tādu modeli kā GPT-J, jums nebūs nepieciešams anotēt nekādus datus. Tas ļaus ietaupīt nedēļām vai mēnešiem ilgu cilvēka darbu. Un precizitāte, visticamāk, būs daudz augstāka nekā jebkuras vienības ieguve ar spaCy.

Skatiet mūsu rakstu par to, kā viegli veikt vienību ieguvi ar GPT modeļiem.

Secinājums

SpaCy ir lielisks dabiskās valodas apstrādes ietvars, ko šodien daudzi uzņēmumi izmanto ražošanā, lai veiktu būtību ieguves uzdevumus.

Tomēr spaCy un alternatīvas, piemēram, Stanford CoreNLP vai Flair, ir ierobežotas precizitātes ziņā, un, lai iegūtu jaunas entītijas, tām nepieciešams veikt garlaicīgu anotāciju. 2023. gadā būtību ieguvei bez anotācijas var izmantot vairākus alternatīvus modeļus, kas balstīti uz teksta ģenerēšanu, piemēram, GPT-J, GPT-NeoX, GPT-3... Šie jaunie modeļi patiešām palīdzēs aizvien vairāk uzņēmumiem gūt panākumus būtību ieguves projektos.

Ja vēlaties izmantot GPT-J un GPT-NeoX, nevilcinieties izmēģināt NLP Cloud API. (izmēģiniet to šeit)!

Juliette
NLP Cloud mārketinga vadītājs