Blog
34 preguntas y respuestas importantes de entrevista de Machine Learning
- Publicado por: Rafael Fernandez
- Categoría: Blog Machine Learning
Las preguntas que te mostramos a continuación sobre Machine Learning han sido formuladas a partir de criterios clave y te van a servir de mucho en una entrevista de Machine Learning. A cada pregunta podrás encontrarle su respuesta para que puedas estudiar y obtener buenos resultados durante una entrevista de trabajo o incluso para que te ayudes a habituarte a los conceptos básicos de Machine Learning.
El bias es un error motivado a la simplicidad en el algoritmo de aprendizaje que se está usando. Esto indica que el modelo se adaptará a sus datos, y esto dificulta lograr alta precisión predictiva, generalizando los conocimientos, desde la capacitación hasta el conjunto de pruebas.
Variance también es un error originado por la complejidad en el algoritmo de aprendizaje utilizando. Esto se debe a que el algoritmo es muy sensible a altos grados de variación en los datos de entrenamiento (training data), lo que puede llevar a que tu modelo se sobreajuste a los datos.
El supervisado necesita de entrenamiento de datos etiquetados. Ejemplo, para realizar una clasificación primero se debe etiquetar los datos a utilizar. En cambio, el no supervisado, no necesita etiquetar los datos de forma explícita.
El K-Nearest Neighbors es un algoritmo de clasificación supervisado , y el k-means clustering es un algoritmo no supervisado . Sus mecanismos tienen parecido al comienzo, lo que significa que para que K-Nearest Neighbors funcione es necesario contar con datos etiquetados. Entonces, la diferencia principal entre los dos, es que KNN requiere de puntos etiquetados, lo que hace que sea un aprendizaje supervisado, pero k-means no lo hace uso de puntos etiquetados, y por eso es un aprendizaje no supervisado.
La curva ROC es una representación gráfica del contraste entre tasas de verdaderos positivos y tasa de falsos positivos en diferentes umbrales. Consecuentemente se utiliza como un proxy para el compromiso entre sensibilidad del modelo que es un (verdaderos positivos) y frente a la caída posibilidad de que haga activar una falsa alarma o (falsos positivos).
Precision es conocida como el valor predictivo y positivo, es una medida de cantidad de positivos precisos que su modelo reclama en comparación con la cantidad de positivos que necesita realmente. Recall es llevar nuestros pensamientos hasta una situación que puede ser verdadera o imaginaria.
➡ ¿Quieres aprender Python Gratis y obtener un Certificado?,
Mejor Curso de Python para Principiantes:
El teorema de Bayes: es la base de una rama del machine learning el cual incluye, el clasificador Naive Bayes. El teorema de Bayes le da la probabilidad posterior a lo que conocemos como el conocimiento previo. Se expresa como la tasa verdadera positiva de una muestra de condición dividida por la suma de la tasa de falsos positivos de la población y la tasa verdadera positiva de una condición.
Supongamos que tienes un 60% de probabilidades de tener realmente la gripe después de una prueba de gripe, pero de las personas que tuvieron gripe, la prueba saldrá falsa el 50% del tiempo, y la población general solo tiene un 5% de probabilidades de tener la gripe. ¿Tendría realmente un 60% de probabilidades de tener gripe después de una prueba positiva? El teorema de Bayes dice que no. Entonces:
Tiene una (.6 * 0.05) (Tasa de Verdadero Positivo de una Muestra de Condición) / (.6 * 0.05) (Tasa de Verdadero Positivo de una Muestra de Condición) + (.5 * 0.95) (Tasa de Falsa Positiva de una Población) = 0.0594 lo que equivale a 5.94% de probabilidad de contraer gripe.
Naive Bayes es considerado "iluso" porque supone que es imposible verlo en datos de la vida real: la probabilidad condicional es calculada como el producto puro de las probabilidades individuales de los componentes. Esto quiere decir que la independencia absoluta de las características, es una condición que posiblemente no se vaya a cumplir en la vida real. Por ejemplo, en su uso si con Bayes se descubre que a una persona le gustan los pepinillos y los helados entonces posiblemente te recomiende 'ilusamente' un helado con pepinillos.
La regularización L1 es binario / disperso, la L2 tiende a propagar el error entre muchos términos. L1 corresponde a configurar un Laplaciano antes de los términos mientras que L2 pertenece a un Gaussiano anterior.
En el Tipo I, el error es un falso positivo, que significa asegurar que algo sucedió cuando no fue verdad, y el Tipo II el error es un falso negativo, que quiere decir que se afirma que no pasa nada cuando en realidad si sucede algo.
La transformada de Fourier es el método genérico que sirve para descomponer funciones genéricas en superposición de funciones simétricas.
El deep learning es un subconjunto del machine learning, se ocupa de las redes neuronales y cómo usar la propagación hacia atrás y principios de la neurociencia, para moldear con precisión conjuntos de datos sin etiquetar o semiestructurados. El deep learning es la representación de un algoritmo de aprendizaje no supervisado que obtiene representaciones de datos por medio del uso de redes neuronales.
Los modelos discriminatorios superarán a los modelos generativos en tareas de clasificación, porque aprende a distinguir entre distintas categorías de datos. El modelo generativo aprenderá categorías de datos.
Se debe prestar atención a los datos distribuidos aleatoriamente, que están intrínsecamente por orden cronológico.
Pruned significa podar y Tree significa arbol, entonces pruning es eliminar ramas con un poder predictivo débil para disminuir la complejidad del modelo y agrandar la precisión predictiva de un modelo de árbol de decisión. Está poda puede realizarse de abajo hacia arriba o a la inversa, con la finalidad de reducir errores y complejidad de costos.
La pregunta somete a prueba la comprensión sobre los matices de rendimiento del modelo de machine learning. Hay modelos que tienen mayor precisión pero pueden tener un mal desempeño en el poder predictivo, ¿qué significa eso?
Es decir, la precisión del modelo es un subconjunto del rendimiento del modelo, y por ello, puede ser engañoso.
En F1 la puntuación es la medida del rendimiento de un modelo o el promedio de la precisión y el recuerdo del mismo. Lo pudiese usar en pruebas de clasificación, donde los negativos verdaderos no tengan mucha importancia.
- Recolectando mayor cantidad de datos para igualar aquellos desequilibrios en el conjunto de datos que se puedan presentar.
- Repetir la operación de muestreo del grupo de datos, para verificar y corregir los desequilibrios.
- Probando un algoritmo distinto por completo en el conjunto de datos.
La idea es corregir un desequilibrio de datos, equilibrándolo.
La clasificación la usaría sobre la regresión si quieres que los resultados reflejen la pertenencia de puntos de los datos en su conjunto de datos. La clasificación origina valores discretos y conjuntos de datos para categorías totalmente estrictas
Las técnicas de conjunto pueden ser utilizadas en la optimización de un rendimiento predictivo, porque usan una combinación de algoritmos de aprendizaje, que el ajuste exagerado en los modelos y permiten que el modelo sea más fuerte.
Para evitar el exceso de ajuste hay tres métodos, los cuales son.
- Reduciendo la variance, para mantener el modelo más simple, así se pueden eliminar parte del ruido en los datos de entrenamiento, tomando en cuenta menos parámetros y variables.
- Utilizando técnicas de validación cruzada, como la de pliegues en k.
- Usando las técnicas de regularización, que penalizan algunos parámetros del modelo, una puede ser la LASSO.
Puedes usar medidas como la de la puntuación de F1, la precisión y la matriz de confusión. Lo que se necesita demostrar es que se tiene seguridad y comprensión de cómo se mide un modelo y la manera correcta de seleccionar las medidas correcta.
A través de la clasificación, la predicción, entre otras y mostrando con ejemplos y casos de uso.
Implica funciones que se habilitan en espacios de dimensiones superiores, sin hacer el cálculo de las coordenadas de los puntos dentro de la dimensión: las funciones del kernel pueden calcular los productos internos entre imágenes de los pares de datos, en un espacio característico. Dentro de la computación es menos costoso que el cálculo explícito de las coordenadas. Usar el truco del kernel permite aplicar algoritmos de forma efectiva en un espacio de dimensión alta con datos de menos dimensión.
Pueden ser reemplazarlos por otro valor. Para ello, se puede utilizar Pandas, que tiene dos métodos que son de utilidad: isnull () y dropna (), porque pueden ayudar a ubicar columnas de datos dañados o faltantes, para eliminar esos valores y para sustituirlos se puede utilizar el método filina (), para rellenar con 0.
Spark es una herramienta de big data muy solicitada en la actualidad, capaz de manejar grandes conjuntos de datos con velocidad.
Un array es una colección ordenada de objetos. En cambio linked list es una serie de objetos con punteros que dirigen cómo procesarlos en secuencia. Un array asume que cada elemento tiene el mismo tamaño, lo contrario de linked list, ya que, linked list puede crecer orgánicamente. Un array debe estar predefinida o redefinida para el crecimiento orgánico. Pero, arreglar una linked list implica cambiar los puntos directos, barajar una array es más complejo y requiere más memoria.
La tabla hash es la estructura de datos que origina una matriz asociativa. La cual puede tener una clave asignada, que permite el funcionamiento, se usa en casos como la indexación de bases de datos para ciertos valores.
Lo importante es como visualizar de manera correcta los datos y las preferencias personales que se tengan. Cuando se trata de herramientas, entre las más usadas están ggplot de R, Python's seaborn and matplotlib, y otras como Plot.ly y Tableau.
Investigando de manera profunda la empresa y su industria, en especial los impulsores de ingresos que tiene dicha empresa, y los diferentes usuarios que la empresa obtiene en el contexto donde se encuentra.
Desarrollando un modelo mejor de recomendación, sería una gran posibilidad para aumentar la retención de usuarios, aumentando así los ingresos a largo plazo.
Es una respuesta subjetiva porque muchas organizaciones contratan puestos de machine learning por la experiencia que se tenga en el campo, y publicar trabajos de investigación en coautoría o supervisados por expertos en el campo, pueden ser una ventaja para ser contratado o no.
Los apasionados por el machine learning realizan proyectos por su cuenta basándose en la gran cantidad de datos que hay. Y visitando espacios como Quandl, que ofrece datos económicos y financieros y datos de Kaggle, es otra fuente importante.
Google actualmente usa recaptcha, para captar datos etiquetados en algunas tiendas y señales de tráfico. De igual manera, se basa en datos de entrenamiento recopilados por Sebastian Thrun en GoogleX.