Blog
Procesamiento del Lenguaje Natural
- Publicado por: Rafael Fernandez
- Categoría: Natural Language Processing
El Procesamiento del Lenguaje Natural, o PNL (por sus siglas en inglés) para abreviar, es ampliamente definido como la manipulación automática del lenguaje natural, como el habla y el texto, por el software. El estudio del procesamiento del lenguaje natural existe desde hace más de 50 años y surgió del campo de la lingüística, en conjunto al auge de la informática. En este primer capítulo, descubriras qué es el procesamiento del lenguaje natural y por qué es tan importante conocerlo. Después de leer este capítulo, tú sabrás:
- ¿Qué es el lenguaje natural y en qué se diferencia de otros tipos de datos?
- ¿Qué es lo que hace que trabajar con lenguaje natural sea todo un reto?
- ¿De dónde proviene el campo de la PNL y cómo lo definen los practicantes modernos?
¿ Qué es el Lenguaje Natural?
El lenguaje natural se refiere a la forma en que nosotros, los humanos, nos comunicamos con los demás. Es decir, el habla y el texto. Estamos rodeados de texto. Piensa en la cantidad de texto que ves cada día:
- Señales
- Menús
- Correo electrónico
- SMS
- Páginas Web
- Libros
- Carteles
- y mucho, mucho más…
La lista es interminable. Ahora piensa en el habla. Podemos hablarnos, como especie, más de lo que escribimos. Incluso puede ser más fácil aprender a hablar que a escribir. Voz y texto son la forma en que nos comunicamos entre nosotros. Dada la importancia de este tipo de datos, debemos tener métodos para entender y razonar sobre el lenguaje natural, al igual que hacemos con otros tipos de datos.
El reto del lenguaje natural
El trabajo con datos en lenguaje natural aún no está resuelto. Ha sido estudiado por expertos durante medio siglo, y es realmente difícil de resolver.
El lenguaje natural es principalmente difícil porque es desordenado. Hay pocas reglas. Y sin embargo, podemos entendernos fácilmente la mayor parte del tiempo.
De la lingüística al Procesamiento del Lenguaje Natural
-
Lingüística
La lingüística es el estudio científico del lenguaje, incluyendo su gramática, semántica y fonética. La lingüística clásica implicaba la elaboración y evaluación de reglas del lenguaje. Se hicieron grandes progresos en los métodos formales para la sintaxis y la semántica, pero en su mayor parte, los problemas interesantes en la comprensión del lenguaje natural se resisten a los formalismos matemáticos limpios.
En términos generales, un lingüista es cualquier persona que estudia un idioma, pero tal vez más coloquialmente, un lingüista autodefinido puede estar más enfocado en estar en el campo e trabajo. Las matemáticas son la herramienta de la ciencia. Los matemáticos que trabajan en lenguaje natural pueden referirse a su estudio como lingüística matemática, centrándose exclusivamente en el uso de formalismos matemáticos discretos y teoría para el lenguaje natural (por ejemplo, lenguajes formales y teoría de autómatas).
-
Lingüística computacional
La lingüística computacional es el estudio moderno de la lingüística utilizando las herramientas de la informática. La lingüística de ayer puede ser el lingüista computacional de hoy en día, ya que el uso de herramientas computacionales y el pensamiento ha sobrepasado la mayoría de los campos de estudio.
Los datos grandes y los ordenadores rápidos significan que se pueden descubrir cosas nuevas y diferentes a partir de grandes conjuntos de datos de texto escribiendo y ejecutando software. En la década de 1990, los métodos estadísticos y el aprendizaje estadístico automático comenzaron a reemplazar, y eventualmente reemplazaron, los enfoques clásicos del lenguaje basados en reglas de arriba hacia abajo, principalmente debido a sus mejores resultados, velocidad y robustez. El enfoque estadístico del estudio del lenguaje natural domina ahora el campo puede definirlo.
-
Procesamiento estadístico del lenguaje natural
La lingüística computacional también se conoció con el nombre de proceso de lenguaje natural, o PNL, para reflejar el enfoque más ingenieril o empírico de los métodos estadísticos. El dominio estadístico del campo también lleva a menudo a que la PNL sea descrita como Procesamiento Estadístico del Lenguaje Natural, quizás para distanciarla de los métodos clásicos de la lingüística computacional.
La lingüística es un gran tema de estudio y, aunque el enfoque estadístico de la PNL ha mostrado un gran éxito en algunas áreas, todavía hay espacio y un gran beneficio de los métodos clásicos de arriba hacia abajo.
Procesamiento del lenguaje natural
Como profesionales del aprendizaje automático interesados en trabajar con datos de texto, nos preocupan las herramientas y métodos del campo del Procesamiento del Lenguaje Natural. Hemos visto el camino de la lingüística a la PNL en la sección anterior. Ahora, echemos un vistazo a cómo los investigadores y profesionales modernos definen de qué se trata la PNL. En tal vez uno de los libros de texto más conocidos escritos por los mejores investigadores en la materia, se refieren al tema como ciencia lingüística, permitiendo la discusión tanto de la lingüística clásica como de los métodos estadísticos modernos.
En su texto sobre el procesamiento aplicado del lenguaje natural, los autores y colaboradores de la popular biblioteca NLTK Python para PNL describen el campo ampliamente como el uso de computadoras para trabajar con datos de lenguaje natural.
El PNL estadístico ha dado otro giro y ahora está fuertemente enfocado en el uso de redes neuronales de aprendizaje profundo tanto para realizar inferencias sobre tareas específicas como para desarrollar sistemas robustos de extremo a extremo. En uno de los primeros libros de texto dedicados a este tema emergente, Yoav Goldberg define sucintamente la PNL como métodos automáticos que toman el lenguaje natural como entrada o producen el lenguaje natural como salida.
➡ Aprende de esto con mayor profundidad en nuestro curso:
Hola, como puedo acceder al contenido de este curso ?? no veo valores, tampoco videos ejemplo….
Gracias
Carlos
Hola Carlitosway, esta es la 1º clase del curso. Al final del post veras 2 botones 1 boton hacia la siguiente leccion y otro boton que te lleva al curso. Saludos!
Dónde me puedo inscribir en el curso?
Hola Isabel, estamos trabajando para mejorar el sistema de cursos. Ahora mismo no hace falta inscripcion (en un futuro si), el curso es gratis. Este post es la 1º leccion del curso y al final de esta lección veras 2 botones 1 boton hacia la siguiente leccion y otro boton que te lleva al indice del curso. Saludos!
hola una pregunta tengo mis datos en txt son datos que no estan estructurados, entiendo que para extraer caracteristicas uso tf-idf, bolsa de palabras, patrones por medio de un etiquetador, ngramas pero y despues? si extraigo todas esas caracteristicas ahora que hago? ? como los clasifico?
gracias
Hola Ana para clasificar hay muchas maneras eso depende de tu datos y que objetivos tengas en tu proyecto.
Hola, quisiera saber si este curso aún está disponible ya que al final de este post solo existe un botón, el cual redirige a la página anterior. Muchas gracias.