John Doe is a Go developer at Google.
Runas daļu tagera mērķis ir piešķirt runas daļas katram teksta simbolam. Lielākoties marķieris ir vārds, bet tas var būt arī interpunkcijas zīme, piemēram, "," "." "." ";" utt. Galu galā POS tageris jums pateiks, vai simbols ir lietvārds, darbības vārds, īpašības vārds utt. Tā kā valodu struktūras dažādās valodās krasi atšķiras, labiem POS taggeriem ir jāpielāgojas katrai valodai. Dažas valodas ir daudz grūtāk analizējamas nekā citas.
Pieņemsim, ka jums ir šāds teikums:
John Doe is a Go developer at Google.
POS tageris atgriezīs šādu informāciju:
Atkarību analīze dabiskās valodas apstrādē (NLP) ir teikuma gramatiskās struktūras analīzes metode. Tā palīdz saprast, kā vārdi teikumā ir saistīti viens ar otru. Tas tiek panākts, nosakot atkarības starp vārdiem, būtībā atzīmējot, kā vārdi ir atkarīgi viens no otra, lai piešķirtu nozīmi.
Atkarību analīzes pamatideja ir konstruēt atkarību koku (vai grafiku), kurā mezgli attēlo teikuma vārdus, bet malas - attiecības starp šiem vārdiem. Katra atkarību koka mala ir apzīmēta ar gramatisko attiecību veidu, kas pastāv starp savienotajiem vārdiem, piemēram, subjekts, objekts, modifikators utt. Koka sakne parasti ir galvenais darbības vārds vai galvenais teikums, uz kuru attiecas pārējie vārdi.
Datu zinātnieki, kas nodarbojas ar dabiskās valodas apstrādi, savos pētījumos bieži vien ir ieinteresēti veikt runas daļu marķēšanu. Viņiem bieži vien ir nepieciešams arī automātiski analizēt atkarības (savienojumi, nominālie temati, determinatori...).
Atkarību analīze ir ļoti svarīga dažādiem NLP uzdevumiem, piemēram, mašīntulkošanai, informācijas ieguvei, jautājumu atbildēm un noskaņojuma analīzei, jo teikumu sintaktiskās struktūras izpratne var ievērojami uzlabot šo lietojumu precizitāti un efektivitāti. Atkarību analīze ļauj algoritmiem precīzāk uztvert teikumu nozīmi, saprotot, kā teikuma komponenti (subjekti, predikāti, objekti u. c.) ir saistīti.
NLP Cloud piedāvā Runas daļu marķēšanas un atkarību analīzes API, kas ļauj veikt šo darbību, pamatojoties uz spaCy un GiNZA. Runas daļu marķēšana un atkarību parsēšana nav resursu ietilpīgas, tāpēc atbildes laiks (latence), veicot tās no NLP Cloud API, ir ļoti mazs. To var veikt 15 dažādās valodās.
Lai iegūtu sīkāku informāciju, skatiet mūsu dokumentāciju par daļējas runas marķēšanu un atkarību analīzi. šeit.