Data Science: Wrangling

Visión general

En este curso, parte de nuestro Programa de Certificado Profesional en Ciencia de Datos, cubrimos varios pasos estándar del proceso de gestión de datos, como importar datos a R, ordenar datos, procesamiento de cadenas, análisis HTML, trabajar con fechas y horas y minería de texto. Rara vez son necesarios todos estos pasos de disputa en un solo análisis, pero un científico de datos probablemente los enfrentará a todos en algún momento.

En muy raras ocasiones, los datos son fácilmente accesibles en un proyecto de ciencia de datos. Es más probable que los datos estén en un archivo, una base de datos o se extraigan de documentos como páginas web, tweets o PDF. En estos casos, el primer paso es importar los datos a R y ordenarlos, usando el paquete tidyverse. Los pasos que convierten los datos de su forma sin procesar a la forma ordenada se denominan disputa de datos.

Este proceso es un paso crítico para cualquier científico de datos. Saber cómo disputar y limpiar los datos le permitirá obtener información crítica que de otro modo estaría oculta.

INSCRÍBETE EN ESTE ENLACE

Dejar respuesta

Please enter your comment!
Please enter your name here

Información básica sobre protección de datos Ver más

  • Responsable los propietarios legales de editorialcomplutense.
  • Finalidad  Moderar los comentarios. Responder las consultas.
  • Legitimación Su consentimiento.
  • Destinatarios  contabo.
  • Derechos Acceder, rectificar y suprimir los datos.
  • Información Adicional Puede consultar la información detallada en la Política de Privacidad.