Reproduciendo un viaje a Mo'rea
En este blog vamos a hablar un poco sobre los desafíos de reproducir bases de datos de otras personas, y cuáles son los pasos que debemos seguir para llegar a los mismos resultados que llegaron nuestros compañeros. Para esta tarea usaremos las herramientas: DataPackage Creator para generar los paquetes de datos y Goodtables para validar dichos paquetes.
Tuve la suerte de trabajar en esta asignación con los espléndidos datos de mi compañera Lily Zhao, una científica marina que se encuentra trabajando su investigación desde la Universidad de Santa Bárbara, California alrededor de las actividades de las comunidades costeras. Lily trabaja con una nitidez increíble, ordenada y estructurada. Este tipo de consideraciones aportan enormemente al análisis de sus datos y también a la reproducibilidad de los mismos.
Mi viaje a través de los datos de Lily, me llevó a Mo’rea, Polinesia Francesa, desde donde ella, a través de diferentes herramientas, recopiló un total de 175 entrevistas entre residentes y también investigadores/as de la región.
Sus dataset se encuentra disponible de forma abierta en su repositorio de Github, el cual contiene datos geográficos y los resultados de sus entrevistas.
Para reproducir los datos de Lily, utilicé inicialmente el DataPackage Creator tool para cargar su información en bruto y así empezar a revisar las especificaciones de su data type creados de manera automática por la herramienta.
Luego de revisar que los datos estuvieran correctos en su formato y tipo, creé un nuevo paquete de datos, y un esquema en JSON que posteriormente validé en la herramienta Try Goodtables, para asegurarme que el contenido y la estructura de los datos fuera la correcta.
La potencia de estas herramientas permite maximizar el uso y reproducibilidad de los hallazgos.
*English bellow
Reproducing a trip to Mo'rea
In this blog we are going to talk a little bit about the challenges of reproducing other people's databases, and what are the steps we have to follow to reach the same results that our colleagues did. For this task we will use the tools: DataPackage Creator to generate the data packages and Goodtables to validate those packages.
I was fortunate to work on this assignment with the splendid data from my partner Lily Zhao, a marine scientist who is working on her research from the University of Santa Barbara, California on coastal community activities. Lily works with incredible clarity, order and structure. Such considerations contribute greatly to the analysis and reproducibility of her data.
My journey through Lily's data took me to Mo'rea, French Polynesia, from where she, through different tools, collected a total of 175 interviews among residents and also researchers in the region.
Her dataset is openly available in her Github repository, which contains geographic data and the results of her interviews.
To replicate Lily's data, I initially used the DataPackage Creator tool to load her raw information and started to review the data type specifications automatically created by the tool.
After checking that the data was correct in format and type, I created a new data package, and a JSON schema which I later validated in the Try Goodtables tool, to ensure that the content and structure of the data was correct.
The power of these tools allows to leverage the use and reproducibility of the research findings and results from others.