Η τοκενικοποίηση αφορά τη διάσπαση ενός κειμένου σε μικρότερες οντότητες που ονομάζονται tokens. Τα token είναι διαφορετικά πράγματα ανάλογα με τον τύπο του tokenizer που χρησιμοποιείτε. Ένα σύμβολο μπορεί να είναι είτε μια λέξη, είτε ένας χαρακτήρας, είτε μια υπο-λέξη (για παράδειγμα, στην αγγλική λέξη "higher", υπάρχουν 2 υπολέξεις: "high" και "er"). Τα σημεία στίξης, όπως τα "!", "." και ";", μπορούν επίσης να είναι σημεία αναφοράς.
Η κωδικοποίηση είναι ένα θεμελιώδες βήμα σε κάθε λειτουργία επεξεργασίας φυσικής γλώσσας. Με δεδομένες τις διάφορες υπάρχουσες γλωσσικές δομές, η μαρκοποίηση είναι διαφορετική σε κάθε γλώσσα.
Η λεξιλογικοποίηση αφορά την εξαγωγή της βασικής μορφής μιας λέξης (συνήθως το είδος της εργασίας που θα μπορούσατε να βρείτε σε ένα λεξικό). Για παράδειγμα, το λήμμα της λέξης "apple" θα εξακολουθούσε να είναι "apple" αλλά το λήμμα της λέξης "is" θα ήταν "be".
Η λεγματοποίηση, όπως και η μαρκοποίηση, είναι ένα θεμελιώδες βήμα σε κάθε λειτουργία επεξεργασίας φυσικής γλώσσας. Δεδομένων των διαφόρων υφιστάμενων γλωσσικών δομών, η λημματοποίηση είναι διαφορετική σε κάθε γλώσσα.

Συνήθως δεν χρησιμοποιείτε μόνο τη λογοκρισία και τη λημματοποίηση, αλλά ως πρώτο βήμα σε ένα αγωγό επεξεργασίας φυσικής γλώσσας. Η επισημειοποίηση είναι συχνά μια δαπανηρή λειτουργία που μπορεί να επηρεάσει σημαντικά την απόδοση ενός μοντέλου επεξεργασίας φυσικής γλώσσας, επομένως η επιλογή του επισημειωτή είναι σημαντική.
Το NLP Cloud προτείνει ένα API tokenization και lemmatization που σας επιτρέπει να εκτελείτε tokenization και lemmatization out of the box, με βάση το spaCy και το GiNZA, με εξαιρετικές επιδόσεις. Το Tokenization και το lemmatization δεν είναι πολύ απαιτητικά σε πόρους, οπότε ο χρόνος απόκρισης (λανθάνουσα κατάσταση), κατά την εκτέλεσή τους από το API του NLP Cloud, είναι πολύ χαμηλός. Μπορείτε να το κάνετε σε 15 διαφορετικές γλώσσες.
Για περισσότερες λεπτομέρειες, ανατρέξτε στην τεκμηρίωσή μας σχετικά με την κωδικοποίηση και τη λημματοποίηση εδώ.