Validando datos un paquete a la vez

En la edición anterior de nuestros blogs, escribimos sobre cómo empaquetar datos y el proceso que conlleva poder organizar en un sólo contenedor los metadatos, el esquema de los datos y el CSV. El siguiente paso, es que podamos validar dichos datos, y para eso contamos con una tremenda herramienta: Try Goodtables y más abajo les explico Goodtables en su formato expandido.

¿Qué es Goodtables?

Goodtables es una herramienta Web gratuita, que también cuenta con librerías para Python (para aquellas personas que no tienen miedo de adentrarse en sus terminales), que te permite validar las fuentes de datos de manera automática para encontrar errores estructurales. También, si contás con un esquema de datos (si usaste el empaquetador de datos, vas a tener un esquema en JSON que podés guardar como documento) también se puede utilizar para contrarrestar y validar tu estructura.

*Si usaste Data Package creator, y quieres crear un documento de tu esquema, deberás copiar esto, hasta donde cierra fields y guardarlo como un formato JSON.

Selecting data for schema

Aquí puedes aprender más sobre esquemas JSON.

Goodtables en sí mismo tiene dos formatos, uno de validación para una base de datos, que sería Try Goodtables y otra versión que puede ser configurada con tu cuenta de Github, para validaciones automáticas y periódicas dentro de tus repositorios, esa sería Goodtables. Si algo llegase a cambiar en las bases de datos de tus repositorios, esta versión te daría las alertas.

Uploading data to Goodtables

Trabajando sobre Try Goodtables.

Pasitos para validar tus datos y demás yerbas aromáticas

Entrás a try.goodtables.io para hacer la prueba de una base de datos concreta. Tu base y tu esquema se pueden cargar como formato archivo, o también desde algún link dónde se encuentren alojados. Yo trabajé con la base de datos que vengo utilizando para el programa que se encuentra en mi repositorio de Github. Es una base de datos geográficos sobre clínicas de aborto descargada desde OpenStreetMap a través de OverpassTurbo.

Después es cuestión hacer clic en Validate para que la herramienta corra la validación de tus datos.

En caso de encontrar errores, se verá así:

Error con el esquema JSON

Falta de validación por errores con el esquema JSON.

En caso que tu base sea válida según tu esquema y viceversa, se verá así

Validación exitosa

Validación existosa de la base.

Si existe algún error en tus bases, siempre podés volver al Data Package Creator para revisar si existen incongruencias también entre tu esquema y tu base, y así revisar también las características y estructura de tu información. Goodtables es una herramienta muy poderosa, que nos permite contar contar con la posibilidad de validación constante y de forma simple para mantener nuestras bases de datos en condiciones óptimas, no sólo para nuestro trabajo, sino también para la reproducción y uso de los mismos por otras personas.

English Version: Validating data one package at a time

In the previous edition of our blogs, we wrote about how to package data and the process involved in being able to organize the metadata, the data schema and the CSV into a single container. The next step is to validate this data, and for that we have a tremendous tool: Try Goodtables and below I explain Goodtables in its expanded format.

What is Goodtables?

Goodtables is a free web tool, which also has libraries for Python (for those people who are not afraid to go into their terminals), which automatically allows you to validate your data sources to find structural errors in your dataset. Also, if you have a data schema (if you used the Data Package Creator, you will have a schema in JSON that you can save as a document) it can also be used to counteract and validate your structure.

If you used Data Package Creator, and you want to create a document from your schema, you must copy this, to where fields* closes and save it as a JSON format.

Selecting data for schema

You can find more here about JSON schemas.

Goodtables itself has two formats, one for database validation, which would be Try Goodtables and another version that can be configured with your Github account, for automatic and periodic validations within your repositories, that would be Goodtables. If something changes in the databases of your repository, this version will send you alerts of the changes and if they need to be revised.

Uploading data to Goodtables

Working on Try Goodtables.

Steps to validate your data and other herbs

You go to try.goodtables.io to test a particular database. Your database and your schema can be loaded as a file format, or from a link where they are hosted. I worked with the database I've been using for the program in my Github repository. It is a geographic database of abortion clinics downloaded from OpenStreetMap through OverpassTurbo.

You can then click on Validate to have the tool run the validation of your data.

If it finds any errors, it will look like this:

Error con el esquema JSON

Invalid datasets over a JSON schema error.

In case your database is valid according to your scheme and vice versa, it will look like this:

Validación exitosa

Successful validation of the dataset.

If there are any errors in your database, you can always return to the Data Package Creator to check for inconsistencies between your schema and your database, and to review the characteristics and structure of your data. Goodtables is a very powerful tool, which allows us to have the possibility of constant and simple validation to keep our databases in optimal conditions, not only for our work, but also for the reproduction and use of them by other people.

brush code-outline