Saltar a contenido

2007 - UGRGrid

  • 1264 Núcleos
  • 4,2 TFLOPS
  • 3 TB RAM
  • 24 TByte

Se basa en una arquitectura de memoria distribuida, formada por un cluster SUN Fire X2200 M2/X4600 M2 con 1264 núcleos, un total de 3 TByte de memoria RAM, 24 TByte de almacenamiento compartido e interconexión mediante una red Infiniband de alto rendimiento. Esta arquitectura alcanza el puesto 467 en la lista de los 500 ordenadores más potentes del mundo

Sala

Sala


Descripción

UGRGrid es un cluster de cálculo intensivo formado por 281 servidores. De ellos, 16 están dedicados a tareas de gestión (almacenamiento, administración…) y el resto de cálculo. Hay dos tipos de servidores de cálculo, unos que poseen 2 procesadores AMD Opteron dual core y otros con 8 AMD Opteron dual core.

Todos los nodos del cluster están interconectados a través de dos tipos de tecnologías de interconexión de red, Infiniband para los nodos de cálculo, ofreciendo una alta velocidad, baja latencia y alto ancho de banda, y Ethernet para la red de gestión.

El sistema de almacenamiento se basa en una arquitectura SAN (Storage Area Network). En UGRGrid hay dos tipos de SAN, una para guardar datos en disco y otra para hacer copias de seguridad en cintas. El primero es del tipo Sun StorageTek 6540, con 24 TB de capacidad. Los volúmenes que hay en estas son exportados a todo el cluster via dos tipos de sistemas de archivos en red, Lustre File System y NFS, el primero para almacenamiento de datos temporales y el otro para permanentes. Los datos se esta unidad se salvan en la SAN de cintas, que posee 40 TB de capacidad.

En total suman 1264 núcleos de proceso, interconectados a través de una red Infiniband de alto rendimiento (10 Gb/s y 3 µs de latencia), con 3 TByte de memoria RAM y 24 TByte de almacenamiento en disco (de los cuales 14 TByte son útiles).


Cálculo

Todos los servidores de cálculo llevan incorporados el procesador AMD Opteron 275, cuya frecuencia de reloj es 2200 Mhz. Este es un procesador compatible con la familia x86 con capacidad de proceso de 64-bits. El sistema de multiprocesamiento AMD no dispone de un bus «Front-Side», a diferencia de otras arquitecturas x86. Este diseño permite las siguiente ventajas:

El controlador de la RAM se integra con el chip de CPU, consiguiendo un importante reducción de latencia Las comunicaciones con otros procesadores/memoria/E/S se hacen directamente, punto a punto. De este modo, no existe cuello de botella, a diferencia de arquitecturas FSB tradicionales. Estas conexiones se realizan mediante enlace de baja latencia «HyperTransport», con ancho de banda de 8GB/seg. Tanto la caché L1 como la L2 se encuentran integradas en el chip de CPU. Estos procesadores van instalados en dos tipos de servidores, Sun Fire X2200 M2 y Sun Fire X4600 M2, que poseen las siguiente características:

  • 2 procesadores AMD Opteron Dual Core.
  • 8 GB RAM DDR2-667
  • 2 discos SATA de 2,5″ de 250GB cada uno
  • 4 interfaces de red gigabit ethernet
  • Tamaño de 1U
  • Tarjeta integrada de gestión IPMI, SNMP y Remote KVMS
  • 8 procesadores AMD Opteron Dual Core.
  • 64 GB RAM DDR2-667
  • 2 discos Serial Attached SCSI de 73 GB.
  • 4 interfaces de red gigabit ethernet
  • Tamaño de 4U
  • Tarjeta integrada de gestión IPMI, SNMP y Remote KVMS

Almacenamiento

Con anterioridad a su integración con Alhambra, el almacenamiento de UGRGrid consistía en dos elementos, en función de su uso.

Desde su puesta en marcha, los usuarios disponen de dos tipos de almacenamiento, el primero se denomina directorio de datos permanente y el segundo directorio temporal de trabajo. En este último será desde donde ejecutará sus aplicaciones. Cada grupo de investigación y usuario posee un espacio propio dentro de cada tipo de espacio para guardar sus datos.

  • Para el almacenamiento permanente de datos, se disponía de un par de servidores NFS SunCluster configurados en alta disponibilidad, y respaldado por copias de seguridad en cinta.
  • Para el almacenamiento de datos temporales, se disponía de una cabina de discos Sun StorageTek accesible por un sistema de archivos distribuidos LUSTRE, compuesto por 8 servidores de objetos y 2 de metadatos, que permitían la escritura y lectura de archivos en paralelo El directorio de almacenamiento permanente es donde las aplicaciones deben guardar sus datos una vez haya terminado su ejecución. Tenga en cuenta que el espacio de almacenamiento temporal es limitado y compartido con otros usuarios, por lo que terminado el cálculo, debe transferir los ficheros de salida que desee guardar a su directorio de datos permanentes o a su ordenador personal.

Redes

Red de datos

Basada en Gigabit Ethernet, se utiliza para transferir los datos de las aplicaciones, acceder a los directorios de usuario e interconectar los distintos servicios del cluster.

Red de cálculo

Basada en Infiniband, se utiliza para comunicación de aplicaciones paralelas que utilizan memoria distribuida (por ejemplo, aplicaciones que utilizan MPI), así como para acceder a los datos temporales de las aplicaciones que residen en almacenamiento compartido. Las principales ventajas con respecto a Gigabit Ethernet son su mayor ancho de banda (hasta 10 Gb/s frente a 1 Gb/s de Gigabit Ethernet) y, sobre todo, su latencia mucho menor (unos 3 µs frente a latencias del orden de cientos de microsegundos de Gigabit Ethernet), lo cual es tan importante o incluso más que el valor del ancho de banda para el rendimiento de aplicaciones científicas.