Blog
Fases de un proyecto de Data Science
- Publicado por: Rafael Fernandez
- Categoría: Blog

El ciclo de vida de un proyecto es la secuencia de fases que atraviesa un proyecto desde su inicio hasta su cierre. El número y la secuencia del ciclo están determinados por la gestión y otros factores diversos, como las necesidades de la organización que participa en el proyecto, la naturaleza del proyecto y su aplicación. Las fases tienen un comienzo, un final y un punto de control definidos y están limitadas por el tiempo. El ciclo de vida del proyecto puede definirse y modificarse según las necesidades y aspectos de la organización. Aunque cada proyecto tiene un comienzo y un final definidos, los objetivos, resultados y actividades particulares varían ampliamente. El ciclo de vida proporciona el fundamento básico de las acciones que deben realizarse en el proyecto, independientemente de la labor concreta que se lleve a cabo. El ciclo de vida o las fases de un proyecto de Data Science son las siguientes:
Fases o Ciclo de vida de un proyecto de Data Science

Fase 1 – Objetivos del proyecto:
En esta fase se establece de forma clara el objetivo proyecto. A partir de este objetivo se define que se va a investigar, cómo la compañía se beneficia de ello, un calendario de ruta y los productos a entregar. Aquí se evalúa si se dispone de los recursos necesarios en términos de personas, tecnología, tiempo y datos para apoyar el proyecto. En esta fase, también debe enmarcar el problema empresarial y formular hipótesis iniciales para ponerlas a prueba. Antes de comenzar el proyecto, es importante entender las diversas especificaciones, requisitos, prioridades y presupuesto requerido con el objetivo de tener claro la viabilidad del proyecto.
Fase 2- Conocimiento y Preparación de datos:
El segundo paso es entender y preparar los datos. Usted ha declarado en el del proyecto qué datos necesita y dónde puede encontrarlos. En este paso te aseguras de que puedes utilizar los datos en tus programas, lo que significa comprobar la existencia, la calidad, el entendimiento y el acceso a los datos.
Los datos también pueden ser entregados por terceras compañías que van desde hojas de cálculo de Excel hasta diferentes tipos de bases de datos.
La recolección de datos es un proceso propenso a errores; en esta fase se mejora la calidad de los datos para su uso en etapas posteriores. Esta fase consta de tres subfases:
- La limpieza de datos elimina los valores falsos y las inconsistencias a través de las fuentes de datos
- La integración de los datos enriquece las fuentes de datos al combinar la información de múltiples fuentes de datos
- La transformación de los datos asegura que los datos estén en un adecuado formato para usar en sus modelos.
En esta fase, se requiere un marco analítico en la que se pueda realizar el análisis durante toda la duración del proyecto. Necesita explorar, preprocesar y acondicionar los datos antes de la modelización. Esto te ayudará a detectar los valores atípicos y establecer una relación entre las variables. En esta fase es muy importante entender los datos y realizar la limpieza de los mismos.
Fase 3- Exploración y Planificación del modelo:
Aquí, determinarás los métodos y técnicas para establecer las relaciones entre las variables. Estas relaciones establecerán la base de los algoritmos que se implementarán en la siguiente fase. En la exploración hay que comprender cómo interactúan las variables entre sí, la distribución de los datos, y si hay valores atípicos para su filtración. Aplicarás una exploración profunda de los datos (EDA) usando varias fórmulas matemáticas, estadísticas descriptivas, técnicas de modelado simples y herramientas de visualización.
Fase 4- Desarrollo del modelo:
En esta fase se utiliza el conocimiento sobre desarrollo de modelos y perspicacia sobre los datos que se han encontrado en los pasos anteriores para responder a la preguntas del objetivo del proyecto. Se deberán de analizar las variables intrínsecas del proyecto a partir de tus datos para evaluar las técnicas como la clasificación, la asociación y el agrupamiento para construir el modelo. Seleccionas una lista de algoritmos de estadística, machine learning, deep learning, procesado del lenguaje natural etc. ya que la construcción de un modelo es un proceso iterativo que implica la selección de las variables del modelo, la ejecución del modelo y el diagnóstico del modelo. Para terminar esta fase se evaluará los diferentes modelos desarrollados y optimizaremos los mejores modelos para validarlos como solución a los datos requeridos por el proyecto.
Fase 5 – Despliege e Informes:
En esta fase, usted entrega informes finales, resultados comparativos, sesiones informativas de los modelos desarrollados, código y documentos técnicos. Además, a veces también se implementa un proyecto piloto en un entorno de producción en tiempo real, el cual deberá ser evaluado para que cumpla con los requisitos y requerimientos del proyecto o cliente. Esto le proporcionará una clara imagen del rendimiento y otras limitaciones relacionadas a pequeña escala antes del despliegue completo.
Fase 6-Comunicar resultados:
Ahora es importante evaluar si se han logrado los objetivos planteados en la primera fase. Así pues, en la última fase, se identifican todos los hallazgos clave, se comunican a las partes interesadas y se determina si los resultados del proyecto son un éxito o un fracaso basándose en los criterios desarrollados en la fase 1. A veces necesitará automatizar la ejecución del proceso porque la empresa querrá utilizar los conocimientos obtenidos en el proyecto o permitir que un proceso de otro proyecto utilice el resultado de su modelo.