Etiquetador de parte de voz (etiquetador de PoS)

Un etiquetador de parte del discurso (PoS) es una herramienta de software que etiqueta palabras como una de varias categorías para identificar la función de la palabra en un idioma determinado. En el idioma inglés, las palabras se clasifican en una de las ocho o nueve partes del habla. Las categorías de parte del discurso incluyen sustantivo, verbo, artículo, adjetivo, preposición, pronombre, adverbio, conjunción e interjección.

Los etiquetadores de PoS usan algoritmos para etiquetar términos en cuerpos de texto. Estos etiquetadores crean categorías más complejas que las definidas como puntos de venta básicos, con etiquetas como “sustantivo-plural” o incluso etiquetas más complejas. La categorización de parte del discurso se enseña a los niños en edad escolar en la gramática inglesa, donde los niños realizan el etiquetado básico de PoS como parte de su educación.

Los etiquetadores de PoS categorizan términos en tipos de PoS por su posición relacional en una frase, relación con términos cercanos y por la definición de la palabra. Los etiquetadores de PoS se incluyen entre los que utilizan métodos estocásticos, los basados ​​en la probabilidad y los que se basan en reglas.

Uno de los primeros etiquetadores de PoS que se desarrolló fue el etiquetador E. Brill, una herramienta de etiquetado basada en reglas. E. Brill todavía se usa comúnmente en la actualidad. Otras herramientas que realizan el etiquetado de PoS incluyen Stanford Log-linear Part-Of-Speech Tagger, Tree Tagger y POS Tagger de Microsoft. El etiquetado de parte del discurso también se conoce como desambiguación de categorías de palabras o etiquetado gramatical.

El etiquetado de PoS se utiliza en el procesamiento del lenguaje natural (NLP) y la comprensión del lenguaje natural (NLU).