Blog
30 preguntas y respuestas de entrevista para un Data Analyst
- Publicado por: Rafael Fernandez
- Categoría: Blog
En este post vas a encontrar una serie de preguntas interesantes y muy útiles para todo aquel que vaya a tener una entrevista de Data Analyst. El data scientist está muy de moda puesto que depende de una de las tendencias más importantes actualmente como es el Big Data. Es importante que te prepares lo mejor posible y por ello, te dejamos estas preguntas y respuestas que son muy frecuentes durante una entrevista. Además, si eres novato también te van a servir para familiarizarte con el tema.
- Solventar los problemas relacionados con el negocio de clientes y realizar auditorías de los datos.
- Analizar resultados obtenidos e interpretar datos usando técnicas estadísticas y suministrar informes consecutivamente.
- Jerarquizar las necesidades del negocio y trabajar en colaboración con las necesidades de gestión e información.
- Conocer los nuevos procesos o áreas de oportunidades y mejoras, de ser necesario.
- Identificar, analizar e interpretar patrones en conjuntos con datos complejos.
- Obtener datos de fuentes primarias o secundarias y sostener bases de datos y sistemas de datos.
- Filtrar, revisar y limpiar los datos informes del ordenador.
- Ubicar los indicadores de rendimiento para corregir problemas de código
- Desarrollar la base de datos a través del desarrollo de un sistema de entrada determinando así el nivel de acceso del usuario.
- Poseer conocimientos concretos sobre paquetes de informes como Objects, Business, un lenguaje de programación XML, Javascript, bases de datos SQL, SQLite, etc.
- Capacidad para recolectar, analizar, organizar, y diseminar grandes datos de forma precisa.
- Tener conocimientos técnicos en el diseño, modelos, y minería de bases de datos, así como técnicas de segmentación.
- Conocimiento concretos de paquetes estadísticos como: Excel, SPSS, SAS, etc.
- Definir el problema
- Explorar los datos
- Preparar los datos
- Modelar los datos
- Validar datos
- Seguimiento
La limpieza de datos, trata de ubicar y quitar errores e inconsistencias de los datos con la finalidad de mejorar su calidad.
- Colocar los datos por atributos distintos.
- Cuando son grandes conjuntos de datos, limpiar paso a paso, para lograr una mejor calidad.
- Cuando el conjunto de datos es grande, divide en grupos más pequeños. Trabajando con menor cantidad de datos, aumenta la velocidad de iteración.
- Para realizar tareas de limpieza común, crear un conjunto de funciones que sean útiles/herramienta/script.
- También se pueden ordenar por frecuencia estimada y atacar los problemas comunes
- Analizar estadísticas de resumen en cada columna (desviación media estándar, y número de valores perdidos.
- Realizar registro de operaciones de limpieza con fechas.
Es un método descriptivo basado en la estadística, que se utiliza para revisar un conjunto de datos donde hay una o más variables independientes que van a definir un resultado.
- RapidMiner, NodeXL
- Tableau, KNIME,
- Google Search Operators
- OpenRefine, Google Fusion Tables,Wolfram Alpha's.
- Solver.
Perfiles de datos: esta centrado en analizar las instancias de atributos individuales. Suministra información sobre distintos atributos como, ocurrencia de valores nulos, valor discreto y su frecuencia, rango de valores tipo de datos, longitud, etc.
Minería de datos: Es el análisis de conglomerados, descubrimiento de secuencias, dependencias, detección de registros inusuales, mantenimiento de relaciones entre varios atributos, etc.
- Deficiencia en ortografía común.
- Entradas dobles.
- Valores incompletos e ilegales.
- Representaciones de valores que cambian.
- Descubrimientos de datos superpuestos.
Framework Hadoop y MapReduce
- Falta al azar
- Falta completamente al azar
- Falta que depende del valor perdido en si.
- Falta que depende de una variable de entrada inobservable.
En la imputación, el método KNN, determina la semejanza de dos atributos.
El método de data verification y el de data screening.
- Redactar un informe de validación que suministre información de los datos sospechosos. Se debe asentar en el informe los criterios de validación en la cual falló, la fecha y la hora en la cual ocurrió. La persona con experiencia debe revisar los datos sospechosos y determinar si son aceptados.
- Los datos que no sean válidos deben ser sustituidos por un código de validación.
- Para la revisión con los datos faltantes, se sugiere utilizar el método de eliminación, de imputación única, y los basados en modelos, etc.
- Reestructurar los esquemas para lograr la integración de los mismos.
- Identificar registros parecidos y unirlos en un registro único que tenga los atributos relevantes sin redundar.
El valor atípico término utilizado por analistas, para referirse a un valor que se ve muy lejano en una muestra. Puede ser univariante y multivariante.
El algoritmo de agrupación jerárquica es el que combina y divide los grupos que ya existen, de esta manera crean una estructura jerárquica que presenta el orden en el que se parten o fusionan los grupos.
K mean es el método de partición. Con este método os objetos se clasifican como pertenecientes a uno de los grupos K, los cuales son seleccionados a elegidos a priori.
En la notación K-mean, los clusters son con forma de esfera: y los puntos de datos en un cluster, están centrados alrededor del mismo. La varianza y extensión de los cluster es parecida, y cada punto de datos le pertenece al cluster, que tenga más cercano.
- Conocer sobre base de datos.
- Gestionar sobre base de datos.
- Realizar combinación de datos.
- Facultad para manipular datos.
- Capacidad para hacer análisis predictivos.
- Elaborar estadísticas descriptivas básicas.
- Capacidad para realizar modelos predictivos.
- Capacidad a realizar o elaborar análisis avanzados.
- Experiencia en el conocimiento y análisis de grandes datos.
- Capacidad en el análisis de datos no estructurados.
- Manejo del aprendizaje automático.
- Habilidades para realizar presentaciones como las de Insight.
- Diseñar informes.
Es un algoritmo utilizado para hacer un sistema de recomendación que se basa en datos relacionados con el usuario. Para el este proceso, lo más importante son los intereses de los usuarios, es decir, los elementos.
Herramientas usadas en Big Data:
- Hadoop
- Hive
- Pig
- Flume
- Mahout
- Sqoop
KPI: es una métrica relacionada con la combinación de hojas de cálculo, procesos de negocio, gráficos, o informes. KPI significa Key Performance Indicator,
Diseño de experimentos: es el proceso inicial usado para dividir datos, la muestra y configuración, para realizar el análisis estadístico.
Regla 80/20: explica que el 80 por ciento de sus ingresos es proveniente del 20 por ciento de los clientes.
Map- es un marco para reducir y procesar conjuntos de datos grandes, estos son divididos en subconjuntos, procesando cada subconjunto en un servidor distinto y luego se combinan resultados cada uno.
Es la agrupación de un método que sirve para clasificar datos. Este algoritmo de agrupamiento permite la división de un conjunto de datos en clusters o grupos naturales.
Las propiedades son:
- Iterativo
- Duro y blando (hard and soft)
- Disyuntiva
- Jerárquico o plano (flat)
- Método Bayesian
- Proceso de Markov
- Procesos espaciales y de cluster.
- Estadística de rangos, percentil, detección de valores atípicos.
- Técnicas de imputación
- Algoritmo Simplex
- Optmizacion matemática.
En los análisis de series temporales la salida de un proceso único puede ser predecible a través del análisis de datos anteriores con la colaboración de otros métodos como el método de regresión logarítmica (log-linear regression), el alisamiento exponencial (exponential smoothening), entre otros.
Consiste en coeficientes de autocorrelación, estimados y calculados para hacer una relación espacial diferente. Se utiliza para hacer un correlógrafo para datos basados en la distancia. Esto cuando los datos brutos estén expresados como distancia y no como valores en puntos individuales.
En la informática, el hash es una tabla o mapa de valores en claves. Es una estructura de datos que se usa para implementar un arreglo asociativo. Utiliza una función hash para calcular un índice en una matriz de ranuras, de allí se puede lograr el valor deseado.
Una colisión de hash tables es la que permite que dos datos no sean guardados en la misma ranura del array, esto ocurre cuando dos 'claves' distintas tienen el mismo valor.
Para evitar la colisión de hash tables, se puede utilizar el:
- Encadenamiento separado (separate chaining): que usa una estructura de datos para guardar o almacenar muchos ítems que contienen hash en una misma ranura.
- Direcciones abiertas (open addressing): usa una segunda función, para almacenar ítem en la ranura que consiga primeramente.
Es el proceso que permite sustituir datos que faltan por otros valores. Tipos de técnicas de imputación:
Imputación única:
- Cubierta caliente (hot-deck): El valor faltante se imputa desde un registro parecido, el cual se elige al azar, apoyándose en una tarjeta perforada.
- Imputación de cubiertas frías (cold deck): selecciona datos donantes, de otros conjuntos.
- Imputación media (mean imputation): Sustituir el valor guardado por la media de esa variable en otros casos.
- Imputación media (mean imputation): su finalidad es sustituir el valor que falta por valores pronosticados de una variable que se basa en otras.
- Regresión estocástica (stochastic regression): igual a la de regresión, pero suma la varianza de regresión media a la imputación de regresión.
Imputación múltiple:
- A diferencia de la imputacion unica, la imputacion multiple estima los valores multiples veces.
La imputación múltiple es la mas útil en caso de que no estén completos los datos al azar.
N-gram: es una secuencia continúa de n elementos de una voz o texto determinada. El N-gram, es un tipo de modelo de lenguaje probabilístico usado en la predicción del siguiente ítem en la secuencia en forma de un (n-1).
Los criterios son:
- Que se pueda consumir fácilmente.
- Los datos deben ser escalables.
- Proporcionar rendimiento predecible.
- Que se adapte a los cambios en los requisitos.
Hola Buenas noches les escribo para preguntarle la posibilidad si conocen de algún lugar donde hacer las pruebas técnicas. Saludos