Saltar a contenido

Características del almacenamiento

Una parte importante del servicio de supercomputación consiste en el almacenamiento de datos de los investigadores: es el espacio de trabajo donde se guardan tanto los modelos que se van a ejecutar, como los resultados de las simulaciones, así como cualquier información intermedia que fuera necesaria o documentos accesorios (scripts, software, librerías, etc.). Por esto es necesario proporcionar un almacenamiento adecuado, tanto en tamaño como rendimiento que se ajuste a la funcionalidad de cada tipo de archivo.

El almacenamiento se usa principalmente en tres momentos de la vida del cálculo:

  1. A la hora del lanzamiento. La carga de datos de entrada, lectura del binario del ejecutable, librerías, etc.
  2. Durante la ejecución, dependiendo de la funcionalidad del software concreto, y generalmente cuando la información temporal generada no cabe en la memoria RAM de los nodos de cálculo, los binarios necesitan escribir información para ser reusada inmediatamente, pero que no tiene utilidad una vez acabado el cálculo, salvo en unos pocos escenarios.
  3. Al finalizar el cálculo (y también a veces durante el desarrollo del mismo) para escribir los resultados de la simulación, y quizás los datos resultantes de un post-análisis o refinado de los datos generados.

Descripción del Sistema de Archivos

Debido a las diferentes características y necesidades de cada archivo en cada una de las tres situaciones descritas, se han diseñado dos sistemas de archivos para ajustarse a estas circunstancias: Un sistema de archivos general, destinado a albergar datos de usuario y aplicaciones que necesiten ser preservados para el desarrollo de un proyecto de investigación. Este sistema de archivos deberá estar protegido por copias de seguridad periódicas. El segundo sistema de archivos está destinado a la escritura y lectura de datos temporales generados por un cálculo, (conocidos como datos de scratch) por lo que tendrá un tamaño mucho mayor y también necesitará mayor rendimiento. Los datos que se alojan ahí son volátiles, y no tienen vocación de permanencia. Por ello, debido al gran volumen de datos que puede ser generado en ese sistema de archivos, en caso de necesidad del servicio podrían ser borrados sin previo aviso. Recomendamos moderación en el uso de los sistemas de archivos, y el borrado lo antes posible de los datos sin utilidad para no llegar a esos extremos. Así mismo, para mantener la funcionalidad de ambos sistemas de se establecen unas Cuotas de Espacio de Disco por usuario y una Política de Borrado Automatizado de SCRATCH

En cada uno de los dos sistemas de archivos descritos, el usuario que pertenezca al grupo GRP001 dispone de las siguientes carpetas, destinadas a alojar archivos en función del tipo de uso esperado:

  • /home/GRP001/usuario/ Es el directorio de trabajo inicial cuando el usuario inicia sesión en el sistema. Es de acceso privado para el usuario, es decir, ningún otro usuario podrá acceder a la información contenida en él, salvo los miembros de su grupo para facilitar el trabajo colaborativo entre ellos. Está orientado al alojamiento de ficheros con información relevante para proyectos, datos de modelos, software, librerías, scripts, etc. y está protegido por copia de seguridad, ya que los datos que contiene son valiosos, pero no esta diseñado para ofrecer un rendimiento elevado para cálculos.

  • /SCRATCH/GRP001/usuario/ Es el directorio destinado a la escritura intensiva trabajo para los usuarios. Todos los archivos de entrada y salida de las ejecuciones de trabajos deben ir aquí, así como los datos temporales que surgen a lo largo de la vida del cálculo (archivos intermedios o datos masivos no direccionables en memoria RAM). Al hallarse en el sistema de archivos /SCRATCH, disfruta de mayor rendimiento y tamaño.

Cuotas de espacio para el usuario

Para proteger ambos sitesmas de archivos, se han definido unas cuotas de uso máximo de cada uno de los espacios de usuario. Si un usuario sobrepasa la cuota asignada, no será posible seguir escribiendo en ese sistema de archivos.

Carpeta Características Cuota de uso
/home/GRP001/usuario/ Rendimiento medio, protegido por backup, capacidad reducida 1 Tbyte
/SCRATCH/GRP001/usuario/ Alto rendimiento, gran capacidad,borrado periódico 10 Tbytes

Estas son las cuotas por defecto para todos los usuarios, pero bajo petición justificada puede ser modificada, solicitándolo por correo a supercomputacion@ugr.es

El usuario puede consultar en cualquier momento el estado de ocupación de su cuota, tanto en el sistema de archivos general con los siguientes comandos:

lfs quota -h -u usuario /LUSTRE
lfs quota -h -u usuario /SCRATCH

Permisos de acceso a ficheros

Por defecto, los ficheros de los usuarios son creados con permisos de lectura para todos los miembros de grupo. El usuario puede cambiar, con el comando chmod los permisos de sus ficheros para que no puedan ser accedidos por otros usuarios del grupo, incluido el responsable. No obstante se debe de tener en cuenta que, de ser solicitado por el responsable del grupo, estamos obligados a dar acceso a esos ficheros al ser el líder de grupo el último responsable de estos datos, ya que éstos son los que lideran las líneas de investigación de su grupo PAIDI, y pueden dar de alta o baja las cuentas de sus colaboradores, en función de los proyectos de investigación en los que participen.

Copias de seguridad de carpeta /home

El usuario es, en última instancia, el único responsable de sus datos, y por lo tanto, está bajo su exclusiva responsabilidad la realización de las copias de seguridad que considere oportunas para garantizar el correcto salvado de sus datos, tanto del directorio personal como del directorio temporal del sistema si lo considerara preciso. Para ello, recomendamos realicen la descarga de sus archivos en ubicaciones externas al espacio de supercomputación. No obstante, disponemos de copias de seguridad periódicas para preservar tanto los datos de usuario como los del servicio en su conjunto.

Borrado automatizado de carpeta /SCRATCH

Con el objeto de garantizar la disponibilidad del almacenamiento y que no haya interrupciones de los trabajos, se establece una política de borrado automatizado de ficheros en desuso. Se puede considerar que un fichero no está en uso si no se espera que pueda ser utilizado por otro trabajo consecutivo que pudiera estar en cola. La duración máxima de las particiones actual es inferior a un mes, de modo que, permitiendo un amplio margen, un trabajo posterior podría estar en espera por un plazo aproximado de dos meses para acceder a esos archivos. Es por ello que se ha determinado que los ficheros que no hayan sido accedidos durante más de cien dias serán considerados ficheros en desuso y podrán ser objeto de borrado automático.

Semanalmente, se hará una evaluación de los ficheros en desuso y se comunicará la lista de esos ficheros al usuario (a través de correo electrónico y mensaje de login en consola), dándole un plazo de una semana para que se los descargue, borre o mueva los datos valiosos a su /home. La comunicación de la detección de estos ficheros se hace cada Lunes, y el borrado de aquellos ficheros en los que el usuario no haya actuado se hace el Sábado siguiente.

Excepciones

Conocemos la necesidad de algunos usuarios de disponer de gran cantidad de datos que les conviene mantener durante largo tiempo, sin que sea necesario que estén protegidos por copia de seguridad. Típicos casos de esta situación puede ser la descarga de librerías geográficas o genéticas de gran volumen que aunque sean públicas y estén disponibles online, pueden ser de utilidad para una serie de investigaciones de un proyecto prolongado en el tiempo, pero que el trasiego de subida o bajada de datos suponen una ralentización del modo de trabajo. Para estos casos, contáctenos por correo electrónico en supercomputacion@ugr.es y habilitaremos un método para estas situaciones.