Blog
Qué es Deep Learning o Aprendizaje profundo
- Publicado por: Rafael Fernandez
- Categoría: Deep Learning

El Deep Learning o Aprendizaje profundo es un subcampo del machine learning o aprendizaje automático que se ocupa de algoritmos inspirados en la estructura y función del cerebro llamados redes neuronales artificiales.
El Deep Learning o Aprendizaje profundo (también conocido como aprendizaje estructurado profundo o aprendizaje jerárquico) es parte de una familia más amplia de métodos de machine learning o aprendizaje automático basados en representaciones de datos de aprendizaje, a diferencia de los algoritmos específicos de tareas. El aprendizaje puede ser supervisado, semisupervisado o no supervisado.
Los modelos de aprendizaje profundo están vagamente relacionados con el procesamiento de la información y los patrones de comunicación en un sistema nervioso biológico, tales como la codificación neuronal que intenta definir una relación entre varios estímulos y las respuestas neuronales asociadas en el cerebro.
Las arquitecturas de Deep Learning o Aprendizaje profundo como redes neuronales, redes de creencias profundas y redes neuronales recurrentes se han aplicado a campos como la visión por ordenador, el reconocimiento del habla, el procesamiento del lenguaje natural, el reconocimiento de audio, el filtrado de redes sociales, la traducción automática, la bioinformática y el diseño de fármacos, en los que han producido resultados comparables y, en algunos casos superiores al de los humanos.
Definición de Deep Learning o Aprendizaje profundo
El aprendizaje profundo es una clase de algoritmos de aprendizaje automático que:
- Utilizan una cascada de múltiples capas de unidades de procesamiento no lineales para la extracción y transformación de características. Cada capa sucesiva utiliza la salida de la capa anterior como entrada.
- Aprender de manera supervisada (por ejemplo, clasificación) y/o no supervisada (por ejemplo, análisis de patrones).
- Aprender múltiples niveles de representaciones que corresponden a diferentes niveles de abstracción; los niveles forman una jerarquía de conceptos.
Redes neurales artificiales
Las redes neuronales artificiales (RNA) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros de los animales. Estos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas mediante la consideración de ejemplos, generalmente sin programación específica de tareas. Por ejemplo, en el reconocimiento de imágenes, pueden aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que han sido etiquetadas manualmente como “gato” o “no gato” y usando los resultados analíticos para identificar gatos en otras imágenes.
Han encontrado la mayor parte de su uso en aplicaciones difíciles de expresar con un algoritmo tradicional de computadora usando programación basada en reglas.
Típicamente, las neuronas están organizadas en capas. Diferentes capas pueden realizar diferentes tipos de transformaciones en sus entradas. Las señales viajan desde la primera (entrada) hasta la última (salida) capa, posiblemente después de atravesar las capas varias veces.
El objetivo original del enfoque de la red neural era resolver los problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en emparejar habilidades mentales específicas, lo que llevó a desviaciones de la biología, como la retropropagación, o a pasar información en la dirección inversa y ajustar la red para reflejar esa información.
Las redes neuronales se han utilizado en una variedad de tareas, incluyendo visión por computador, reconocimiento de voz, traducción automática, filtrado de redes sociales, juegos de mesa y videojuegos y diagnóstico médico.
Aplicaciones del Deep Learning o Aprendizaje profundo
Reconocimiento automático del habla
El reconocimiento automático del habla a gran escala es el primer y más convincente caso exitoso de aprendizaje profundo. Las RNNs de LSTM pueden aprender tareas de “aprendizaje muy profundo” que implican intervalos de varios segundos con eventos de voz separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a unos 10 ms.
Todos los principales sistemas comerciales de reconocimiento de voz (por ejemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu e iFlyTek, y una gama de productos de reconocimiento de voz de Nuance, etc.) se basan en el aprendizaje profundo.
Reconocimiento de imagen
Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST. El MNIST se compone de dígitos manuscritos e incluye 60.000 ejemplos de formación y 10.000 ejemplos de exámenes. Al igual que con TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones.
El reconocimiento de imágenes basado en el aprendizaje profundo se ha convertido en “sobrehumano”, produciendo resultados más precisos que los concursantes humanos. Esto ocurrió por primera vez en 2011.
Vehículos entrenados para el aprendizaje profundo interpretan vistas de cámara de 360°. Otro ejemplo es el Novedoso Análisis de Dismorfología Facial (FDNA, por sus siglas en inglés) que se utiliza para analizar casos de malformaciones humanas conectadas a una gran base de datos de síndromes genéticos.
Procesamiento de artes visuales
Estrechamente relacionado con el progreso que se ha hecho en el reconocimiento de imágenes está la creciente aplicación de técnicas de aprendizaje profundo a varias tareas de arte visual. Los DNNs han demostrado ser capaces, por ejemplo, de: a) identificar el período de estilo de una pintura dada, b) “capturar” el estilo de una pintura dada y aplicarlo de una manera visualmente agradable a una fotografía arbitraria, y c) generar imágenes llamativas basadas en campos visuales aleatorios.
Procesamiento del lenguaje natural
Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. LSTM ayudó a mejorar la traducción automática y el modelado de idiomas.
Otras técnicas clave en este campo son el muestreo negativo y la inserción de palabras. La incrustación de palabras, como word2vec, puede considerarse como una capa de representación en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras del conjunto de datos; la posición se representa como un punto en un espacio vectorial. El uso de la incrustación de palabras como una capa de entrada de RNN permite que la red analice frases y frases utilizando una gramática vectorial de composición efectiva.
Google Translate (GT) utiliza una amplia red de memoria a corto plazo de extremo a extremo a largo plazo. La GNMT utiliza un método de traducción automática basado en ejemplos en el que el sistema “aprende de millones de ejemplos”. Traduce “frases enteras a la vez, en lugar de fragmentos. Google Translate soporta más de cien idiomas. La red codifica la “semántica de la oración en lugar de simplemente memorizar traducciones de frase a frase”. GT usa el inglés como intermedio entre la mayoría de los pares de idiomas.
Fiabilidad de los sistemas de infraestructura
Los desastres naturales pueden tener efectos catastróficos en la funcionalidad de los sistemas de infraestructura y causar graves pérdidas físicas y socioeconómicas. Dadas las limitaciones presupuestarias, es crucial optimizar las decisiones relativas a las prácticas de mitigación, preparación, respuesta y recuperación para estos sistemas. Esto requiere medios precisos y eficientes para evaluar la fiabilidad del sistema de infraestructura. Las redes neurales profundas han sido utilizadas para el análisis preciso, eficiente y acelerado de la confiabilidad del sistema de infraestructura.
Descubrimiento de fármacos y toxicología
Un gran porcentaje de los medicamentos candidatos no logran obtener la aprobación regulatoria. Estas fallas son causadas por una eficacia insuficiente (efecto sobre el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos imprevistos. La investigación ha explorado el uso del aprendizaje profundo para predecir el objetivo biomolecular, los efectos tóxicos y fuera de objetivo de los productos químicos ambientales en los nutrientes, los productos domésticos y los medicamentos.
AtomNet es un sistema de aprendizaje profundo para el diseño racional de medicamentos basado en estructuras. Se utilizó para predecir biomoléculas candidatas novedosas para objetivos de enfermedades como el virus Ébola y la esclerosis múltiple.
Gestión de la relación con el cliente
El aprendizaje de refuerzo profundo se ha utilizado para aproximar el valor de posibles acciones de marketing directo, definidas en términos de variables RFM. Se demostró que la función de valor estimado tiene una interpretación natural como valor de vida del cliente.
Sistemas de recomendación
Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas para un modelo de factores latentes para las recomendaciones musicales basadas en el contenido. Se ha aplicado el aprendizaje profundo Multiview para aprender las preferencias del usuario desde múltiples dominios. El modelo utiliza un enfoque híbrido de colaboración y basado en el contenido y mejora las recomendaciones en múltiples tareas.
Bioinformática
Se utilizó un autoencoder ANN en bioinformática, para predecir anotaciones de ontología génica y relaciones gen-función.
En informática médica, el aprendizaje profundo se utilizó para predecir la calidad del sueño basándose en los datos y las predicciones de complicaciones de salud a partir de los datos de la historia clínica electrónica. El aprendizaje profundo también ha mostrado eficacia en el cuidado de la salud.
Publicidad móvil
Encontrar la audiencia móvil adecuada para la publicidad móvil es siempre un reto, ya que muchos puntos de datos deben ser considerados y asimilados antes de que un segmento objetivo pueda ser creado y utilizado en la entrega de publicidad por cualquier servidor de publicidad. Se ha utilizado un profundo aprendizaje para interpretar grandes conjuntos de datos publicitarios de muchas dimensiones. Muchos puntos de datos se recogen durante el ciclo de solicitud/servicio/clic de publicidad en Internet. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.
Restauración de imágenes
El aprendizaje profundo se ha aplicado con éxito a problemas inversos como la eliminación de ruido, la superresolución y la pintura interior. Estas aplicaciones incluyen métodos de aprendizaje tales como “Campos de Contracción para la Restauración Efectiva de Imágenes” que se entrena en un conjunto de datos de imágenes, y Deep Image Prior, que se entrena en la imagen que necesita restauración.
Actividades comerciales Deep Learning o Aprendizaje profundo
Muchas organizaciones emplean el aprendizaje profundo para aplicaciones particulares. El laboratorio de Inteligencia Artificial de Facebook realiza tareas como etiquetar automáticamente las fotos subidas con los nombres de las personas que aparecen en ellas.
DeepMind Technologies de Google desarrolló un sistema capaz de aprender a jugar a los videojuegos Atari utilizando sólo píxeles como entrada de datos. En 2015 demostraron su sistema AlphaGo, que aprendió el juego de Go lo suficientemente bien como para vencer a un jugador profesional de Go. Google Translate utiliza un LSTM para traducir entre más de 100 idiomas.
En 2015, Blippar demostró una aplicación móvil de realidad aumentada que utiliza el aprendizaje profundo para reconocer objetos en tiempo real.
Resumen
En este post descubriste que el aprendizaje profundo son sólo redes neuronales muy grandes con muchos más datos, que requieren ordenadores más grandes.
Las técnicas más populares son:
- Redes multicapa de Perceptron.
- Redes neuronales convolucionales.
- Redes Neuronales Recurrentes de Larga Duración y Corta Memoria.
Espero que esto haya aclarado lo que es el aprendizaje profundo y cómo las definiciones principales y las aplicaciones encajan bajo un mismo paraguas.
Si tienes alguna pregunta sobre el aprendizaje profundo o sobre este post, haz tus preguntas en los comentarios de abajo y haré todo lo posible para responderlas.