Qué son los datos de investigación
Por qué publicar los datos de investigación
Datos FAIR
Costes
La gestión de los datos de investigación siguiendo los principios FAIR puede conllevar costes económicos, que algunas agencias financiadoras contabilizan dentro del proyecto de investigación. Así en Horizonte Europa, como ya sucedía en H2020, los costes del Plan de Gestión de Datos son elegibles para reembolso.

Para ayudar a contabilizar y justificar estos gastos dentro del proyecto de investigación, se puede utilizar la herramienta de estimación de costes de gestión de datos de investigación desarrollada por OpenAIRE
 
 
Comisión Europea
Requerimientos nacionales
Requerimientos de revistas
Qué es un Plan de Gestión de datos
Objetivos del PGD
  • Asegurar la integridad de los datos
  • Preservar y difundir los datos
  • Evitar posibles pérdidas de datos
  • Validar y reutilizar los resultados obtenidos
  • Asegurar una diseminación más amplia e incrementar el impacto
Qué debe incluir un plan de gestión de datos
  • Qué datos se van a recoger, procesar y/o generar
  • Organización de los datos, arquitectura de los archivos, denominación de las carpetas y archivos
  • Qué metodología y estándares se van a aplicar para describir de forma estructurada y normalizada los datasets (metadatos descriptivos, administrativos, estructurales)
  • Protección de datos, derechos y acceso (para garantizar altos estándares éticos y cumplimiento de aspectos legales y regulatorios)
  • Preservación, compartir y licenciar (para ayudar a maximizar el alcance y el impacto de la investigación)
  • Almacenamiento y seguridad
  • Dónde se van a depositar

     
Antes de elaborar un PGD
Guía para redactar un PGD
Herramientas para crear un PGD
 DMP Online: herramienta desarrollada por el Digital Curation Center para crear paso a paso un PGD. Dispone de una plantilla para proyectos de H2020. Requiere registro.

 PAGODA: el Consorcio de Bibliotecas Madroño ha hecho una traducción al castellano de la herramienta DMP Online (de uso libre). Diferencia entre el PGD inicial, el PGD detallado y el PGD final.

 Pla de Gestió de Dades de Recerca: herramienta en línea, desarrollada por el Consorcio de Servicios de las Universidades Catalanas, basada en el modelo creado por el DCC (Digital Curation Centre, UK). Incluye ejemplos reales en el cuestionario para ayudar en la elaboración del Plan de Gestión de Datos.

 DMPTool: herramienta desarrollada por la Universidad de California. Permite compartir, editar y exportar el PGD cuando sea necesario. No dispone de plantilla para proyectos de H2020.

 Argos: herramienta online desarrollada por OpenAIRE para la creación, gestión, difusión de un PGD
Plantillas para crear un PGD
Formatos
Documentación
Compuesta por aquellos documentos que acompañan y describen los datos para que sean significativos.

Puede incluir la siguiente información:
  • El contexto en el que se han recopilado los datos.
  • Información sobre la metodología seguida en la creación y procesamiento de los datos.
  • Información sobre los archivos, como su estructura y las relaciones entre ellos.
  • Aclaraciones sobre la validación de los datos
  • Información sobre los cambios y distintas versiones
  • Información sobre las licencias y restricciones de uso
 
Para la correcta comprensión y utilización de los datos se recomienda la creación de un fichero Readme.txt, que aportará información sobre la autoría, metodología, breve descripción de los datos y derechos de uso. Se recomienda usar el inglés para lograr una mayor difusión.

Es necesario crear un fichero readme.txt para cada conjunto de datos y depositarlo con el resto de ficheros.

Un ejemplo de plantilla para la redacción del Readme.txt es la del repositorio de datos del Consorcio Madroño, e-cienciaDatos: Plantilla Readme.txt.
Carpetas y nombres de ficheros
Organizar y nombrar los archivos de manera coherente y lógica tendrá un impacto significativo en la capacidad para ubicarlos y comprender lo que contienen. Esto permitirá:
  • Diferenciar registros similares entre sí de un vistazo.
  • Facilitar el almacenamiento y la recuperación de registros.
  • Permitir a los usuarios examinar los nombres de los archivos de forma más eficaz y eficiente.
  • Simplificar la asignación de nombres a los archivos, al no tener que "repensar" el proceso en cada ocasión.
 
Organización de carpetas:
  • Ser consistente
  • Organizar las carpetas de manera lógica y sistemática.
  • Separar los trabajos finalizados de los en curso.
  • Separar los archivos de datos de la documentación
  • Considerar el nivel de jerarquía necesario. Se recomienda no establecer más de tres niveles de carpetas.
  • No guardar todos los ficheros. Se recomienda evaluarlos regularmente y eliminar los que no sean necesarios.
  • No incluir nombres de investigadores
 
Nombres y estructura de los ficheros:

Un buena nomenclatura de los ficheros indicará aspectos sobre el contenido, el estado y la versión, además de ayudar a su clasificación y ordenación.
  • Usar nombres de ficheros descriptivos, que sean únicos y que reflejen el contenido.
  • Evitar el uso de caracteres raros y de espacios ya que los sistemas operativos los interpretan de diferentes maneras.
  • Pueden incluirse guiones bajos para separar elementos.
  • Ir de lo general a lo específico.
  • Formatear las fechas de manera AAAAMMDD.
  • Se recomienda que sean cortos, sin que superen los 25 caracteres
  • Reflejar en los nombres los cambios y ediciones (por ejemplo filename_v02.xxx).
  • Cuando se pueda usar las extensiones de archivo para reflejar el software en el que se creó y el formato físico (por ejemplo, .doc, .xls, .mov, .tif).
Hay herramientas para renombrar en bloque múltiples ficheros:
 
Control de versiones
El control de versiones ayuda a saber con certeza qué versión de un archivo se está utilizando y a comunicar los cambios que se realizan en el mismo. Es una práctica recomendable ya que el paso del tiempo puede dificultar su localización.

Pautas:
  • Definir cuántas y qué versiones se van a conservar, cuanto tiempo y cómo se organizarán.
  • Identificar las versiones más importantes que deben ser guardadas.
  • Usar números ordinales para la cambios de versión mayores y decimales para cambios menores. Ejemplo: versión 1.1; versión 1.2; versión 2.1, versión 4.1, etc.
  • Evitar el uso de términos confusos como revisión, final, copia definitiva, etc.
  • Registrar los cambios en la data, no importa lo relevantes que sean en ese momento. Se recomienda usar autobackup  en lugar de guardar y archivar múltiples versiones. 
  • Sincronizar los archivos ubicados en distintas localizaciones de forma regular.
  • Se pueden borrar versiones antiguas pero asegurándose siempre de mantener la copia original.

Existen diferentes herramientas para el control de versiones:
  • Subversion (SVN): sistema centralizado en el que todos los ficheros y los datos históricos son almacenados en un repositorio central y en el que los desarrolladores suben los cambios a este servidor. Es de código abierto.
  • GIT: sistema distribuido en el que existe un repositorio central y copias de este repositorio en los diferentes equipos locales de los desarrolladores. Capaz de manejar de forma eficiente tanto proyectos pequeños como grandes.
Metadatos
Es necesario describir los datos para poder identificarlos y organizarlos. Esta descripción se hace a través de los metadatos, información estructurada que ayuda a entender los datos con detalle y facilita a otros investigadores encontrarlos, utilizarlos y citarlos correctamente. Se desarrollan durante todo el ciclo de vida de los datos.

Cada área de conocimiento tiene su estándar propio y sus herramientas. Un estándar de metadatos proporciona conjuntos de elementos de metadatos, que tienen un propósito específico. A cada elemento se le da un nombre y una definición, basados en reglas, sintaxis y un vocabulario controlado.
 
El Digital Curation Center (DCC) dispone de un directorio por disciplinas: para datos de investigación.

FAIRsharing - standards es una plataforma que permite conocer estándares de metadatos FAIR según cada disciplina.
Datos personales
Anonimización
Licencias de uso de datos
Cómo citar los datos
Buscar datos de investigación
Buscadores de repositorios
Buscadores de Datasets
Multidisciplinares
  • Zenodo: pensado para ser un repositorio para todos los tipos de investigaciones y de disciplinas, independientemente del tamaño o del formato. Alojado en el CERN y financiado por la UE, es el repositorio que sirve de referencia para que lo utilicen los proyectos H2020 cuando deban depositar sus datos. Por esto también es el repositorio recomendado por OpenAIRE.
  • Figsharebuscador internacional en el que se pueden recuperar datos por categorías temáticas. Como Zenodo, también facilita un DOI e indicadores almétricos.
  • Mendeley Data: proporciona acceso a datos de investigación publicados en repositorios de datos como Dryad o Zenodo y también en publicaciones de la editorial Elsevier.
  • Datacite: permite realizar búsquedas en datasets que tengan asignados DOI.
  • Dimensions: contiene más de 8 millones de datasets de  Figshare,  Dryad,  ZenodoPangaeaMendeley y más de 900 repositorios de DataCite.
  • Google Dataset Search: buscador de datasets en repositorios de datos científicos, bases de datos de gobiernos locales y nacionales, sitios web de editores y autores y otras fuentes.
Temáticos
  • DataMED: buscador de datasets y repositorios en el ámbito biomédico.
  • DataONEbuscador de datasets en repositorios sobre datos de la tierra y medio ambiente.
  • Dryadbuscador de datasets asociados a publicaciones de ciencias de la salud y ciencias naturales, aunque dentro de estos campos temáticos da cabida a muy diversas disciplinas. Un aspecto diferenciador respecto a otros repositorios es que todos los datos deben estar ligados a una publicación, no pudiendo subirse de manera independiente.
  • Gene Expression Omnibuspertenece al ámbito de ciencias de la salud, especialmente de la genética. Creado y financiado por los NIH de EEUU. Se define como un repositorio de acceso público que almacena datos procedentes de la genómica funcional.
  • Quality Data Repository (QDR): encuadrado en el ámbito de las ciencias sociales y centrado en la tipología de datos específica de los datos cualitativos, tales como los derivados de entrevistas semiestructuradas o no estructuradas, grupos focales o notas de campo. 
Institucionales
  • Digital CSICRepositorio del Consejo Superior de Investigaciones Científicas que agrupa los resultados de las investigaciones que se llevan a cabo en el CSIC.
  • Cora: Repositorio de datos federado y multidisciplinar de las universidades y centros de investigación CERCA de Cataluña.
  • e-cienciaDatosRepositorio de datos de carácter multidisciplinar que alberga los conjuntos de datos científicos de los investigadores de las universidades públicas de la Comunidad de Madrid y la UNED, miembros del Consorcio Madroño, con el fin de dar visibilidad a dichos datos, garantizar su preservación y facilitar su acceso y reutilizacion. Está destinado a albergar datos finales. 
  • Harvard Dataverse: se encuentra alojado en la Universidad de Harvard. Centrado inicialmente en los datos de Ciencias Sociales, en la actualidad se ha abierto a todas las disciplinas. El programa facilita la toma de datos y los pone a disposición de los demás y permite replicar otros trabajos de investigación.
  • CERN Open Data: repositorio de datos producidos en las investigaciones desarrolladas en el CERN (European Organization for Nuclear Research).
  • B2Find de EUDAT (European Research Data Infrastructure): servicio de descubrimiento de colecciones de datos de investigación de los centros de datos de EUDAT y otros repositorios de datos científicos. 
Depositar datos de investigación
Revistas de datos
Créditos y licencia

Salvo donde se indique expresamente otra autoría y/o licencia, todos los materiales de Guías BUPNA se distribuyen bajo una Licencia Creative Commons Reconocimiento-CompartirIgual 4.0 Internacional.


Licencia Creative Commons


Guías BUPNA by Biblioteca de la Universidad Pública de Navarra is licensed under CC BY-SA 4.0 (Unless expressly indicated otherwise)

Datos de contacto

SECCIÓN SERVICIOS
Academica-e Repositorio Institucional

academica-e@unavarra.es

Tfno.: 948 168973

¿Algún comentario o sugerencia?
- ¿Conoces algún recurso que no haya sido incluido en esta guía?
- ¿Crees que puedes ayudarnos a mejorar esta guía?
- ¿Tienes algún comentario o sugerencia que realizar?
 

Utiliza nuestro TalkBack.