Capítulo 35 Introducción a las herramientas de productividad

En términos generales, no recomendamos utilizar enfoques de apuntar y hacer clic para el análisis de datos. En cambio, recomendamos lenguajes de script, como R, ya que son más flexibles y facilitan enormemente la reproducibilidad. Del mismo modo, recomendamos no utilizar enfoques de apuntar y hacer clic para organizar archivos y preparar documentos. En este capítulo, demostraremos enfoques alternativos. Específicamente, aprenderemos a usar herramientas disponibles de forma gratuita que, aunque al principio parezcan complicadas y no intuitivas, eventualmente los convertirán en científicos de datos mucho más eficientes y productivos.

Tres principios generales que motivan lo que aprendemos aquí son: 1) ser sistemáticos al organizar sus sistemas de archivos, 2) automatizar cuando posible y 3) minimizar el uso del mouse. A medida que se vuelvan más competentes en la codificación, encontrarán que: 1) querrán minimizar el tiempo que pasan recordando lo que nombraron un archivo o dónde lo colocaron, 2) si se encuentran repitiendo la misma tarea una y otra vez, probablemente hay una forma de automatizar y 3) cada vez que sus dedos abandonan el teclado, pierden productividad.

Un proyecto de análisis de datos no siempre es un set de datos y un script. Un desafío típico de análisis de datos puede involucrar varias partes, cada una con varios archivos de datos, incluyendo los archivos que contienen los scripts que usamos para analizar los datos. Mantener todo esto organizado puede ser retante. Aprenderemos a usar el Unix shell como herramienta para administrar archivos y directorios en sus sistemas informáticos. El uso de Unix les permitirá usar el teclado, en lugar del mouse, al crear carpetas (folders en inglés), moverse de un directorio a otro, además de mover, eliminar o cambiar el nombre de archivos. También ofrecemos sugerencias específicas sobre cómo mantener el sistema de archivos organizado.

El proceso de análisis de datos también es iterativo y adaptativo. Como resultado, estamos constantemente editando nuestros scripts e informes. En este capítulo, les presentamos el sistema de control de versiones Git, que es una herramienta poderosa para darle seguimiento a estos cambios. También les presentamos GitHub122, un servicio que les permite alojar y compartir su código. Les demostraremos cómo pueden utilizar este servicio para facilitar las colaboraciones. Recuerden que otro beneficio positivo de usar GitHub es que pueden mostrar fácilmente su trabajo a posibles empleadores.

Finalmente, aprendemos a escribir informes en R Markdown, lo que les permite incorporar texto y código en un solo documento. Vamos a demostrar cómo, utilizando el paquete knitr, podemos escribir informes reproducibles y estéticamente agradables ejecutando el análisis y generando el informe simultáneamente.

Arreglaremos todo esto utilizando el entorno de escritorio integrado RStudio123. A lo largo del capítulo vamos a construir un ejemplo usando los asesinatos con armas de fuego en EE.UU. El proyecto final, que incluye varios archivos y carpetas, se puede ver aquí: https://github.com/rairizarry/murders. Tengan en cuenta que uno de los archivos de ese proyecto es el informe final: https://github.com/rairizarry/murders/blob/master/report.md.