Blog
Librerías Python más utilizadas para el Análisis de Datos
- Publicado por: Rafael Fernandez
- Categoría: Analisis de datos Blog Nivel Intermedio Python
No hay comentarios
Python es uno de los lenguajes de programación más empleados en el campo del análisis de datos, por su versatilidad y sinfín de librerías adaptadas a dicho fin. En esta lección, te mostraremos todas las librerías que un buen científico de datos debe conocer obligatoriamente, conjuntamente con una pequeña explicación para que sepas dónde, cuándo y cómo utilizarlas. Para facilitar la comprensión, se han enumerado 15 librerías que se usan más comúnmente casi todos los días en la vida de un científico de datos.
Bibliotecas principales (No se puede sobrevivir sin ellas)
- NumPy: NumPy significa Pitón Numérico y es el paquete más fundamental sobre el que se construyen todas las bibliotecas científicas.
- Pandas: Pandas es la librería más utilizada y perfecta para el Data Wrangling. Permite realizar tareas de manipulación, agregación y visualización de datos de forma más sencilla.
- SciPy: SciPy es la biblioteca de software para operaciones científicas como Álgebra Lineal, Estadística, Optimización, etc. y está construida sobre la biblioteca NumPy.
Visualización de los datos
- Matplotlib: Matplotlib es la biblioteca más utilizada para crear visualizaciones de datos simples pero potentes.
- Plotly: Plotly es una maravillosa biblioteca de visualización de datos interactiva basada en la web. Para poder usar esta librería, tenemos que configurar una clave de API.
- Bokeh: Bokeh es otra gran biblioteca de visualización para aquellos que quieren visualizaciones interactivas.
- Seaborn: Seaborn es también una biblioteca de visualización muy útil, pero se utiliza principalmente para visualizar modelos estadísticos. Se basa en Matplotlib y depende en gran medida de ello.
Machine Learning
- SciKit-Learn: Si trabajas con Machine Learning, esta librería es una necesidad más que obligatoria para ti. Este paquete está construido sobre SciPy y depende en gran medida de SciPy para sus operaciones matemáticas.
- TensorFlow: Esta librería ha sido desarrollada por Google Developers y es la más utilizada en la formación de redes neuronales artificiales sobre grandes conjuntos de datos.
Procesamiento del lenguaje natural
- NLTK: NLTK significa Natural Language ToolKit. Como su nombre indica, se utiliza para el Procesamiento del Lenguaje Natural como etiquetado de texto, tokenización, clasificación, creación de corpus de palabras, etc.
Trabajar con una base de datos (acercarse a los datos almacenados en el RDBMS)
- DatabaseInterface: Esta librería nos permite conectarnos a varios sistemas de bases de datos de forma orientada a objetos.
- SQLAlchemy: Esta librería contiene la interfaz de Python para bases de datos relacionales y no relacionales.
Librerías para web Scrapping
- BeautifulSoup: BeautifulSoup es una librería de análisis que puede utilizar diferentes analizadores. Se utiliza para extraer datos de documentos HTML y XML. El inconveniente de esta librería es que es un poco lenta pero también puede manejar documentos bastante complejos y desordenados.
- lxml: Ixml es una de las mejores librerías que se puede utilizar para analizar documentos HTML y XML de una manera más fácil y rápida. El único inconveniente de esta biblioteca es que resulta difícil manejar documentos confusos. En tal caso, BeautifulSoup puede venir a rescatar.
- Scrapy: Esto no es sólo un analizador para documentos HTML y XML, sino que es básicamente un Crawler. Es un marco de trabajo completo de Web Scrapping.
Autor:Rafael Fernandez
Empezé estudiando Física aunque mas tarde me decanté por la Ingeniería. Después de hacer un master de Hidráulica (esp. Aero-hidrodinámica de Vehículos) comenzé el PhD en Ingeniería. Hoy en día me encuentro trabajando para la empresa ITK Engineering AG como ingeniero de desarrollo. Entre mi pasiones está el desarrollo e implementación de todo tipo de códigos en Python y otros lenguages.
Puedes visitar mi perfil en <a href="https://www.linkedin.com/in/rafaelfernandezperfil/">Linkedin.<a>