Es importante utilizar
formatos estándar y abiertos, que aseguren el acceso a largo plazo a los datos.
Formatos de ficheros recomendados en función del tipo de datos que contienen:
- Bases de datos: XML, CSV
- Texto: TXT, ODT, RTF, XML
- Estadísticas: ASCII, DTA, POR, SAS, SAV
- Datos tabulados: CSV, TSV
- Geospaciales: SHP, DBF, GeoTIFF, NetCDF
- Vídeo: OGG, MP4
- Sonido: FLAC, WAV, AIFF, MP3
- Imágenes: TIFF, BMP
- Ficheros comprimidos: no se recomienda el uso de ficheros comprimidos
Para
más información sobre formatos recomendados en ficheros que contienen datos de investigación se puede consultar la tabla elaborada por el
UK Data Service Recommended Formats
El Gobierno de España ha elaborado una
guía centrada en los datos tabulares en archivos CSV (CSV, TSV, XLS, XLSX, etc.) por ser de los más usados en los datos de investigación. En ella se dan todas las indicaciones necesarias para trabajar con este tipo de archivos.
Tim Berners-Lee, miembro del World Wide Web Consortium (W3C), creador de la Web y posteriormente de los linked data, ha impulsado, mediante un esquema de desarrollo de 5 estrellas, la medición de en qué grado son abiertos y usables los datos que ofrece una institución.
1 estrella - se exige que el material esté disponible en la web (cualquier formato) bajo una licencia abierta.
2 estrellas - los datos deben estar disponibles como datos estructurados (por ejemplo, Excel en lugar de escanear la imagen de una tabla).
3 estrellas - los datos deben estar disponibles en un formato no propietario (por ejemplo, CSV en lugar de Excel).
4 estrellas -es necesario que los datos puedan ser identificados mediante una URI y que así estén integrados en la web. Una forma de representación de los datos en este nivel es RDF.
5 estrellas - vincular tus datos a los que otras personas o instituciones publican, de modo que se proporcione un contexto (LOD / Linked Open Data)