Blue Gene, Historia, Blue Gene/L, Blue Gene/P, Blue Gene/Q


Blue Gene es un proyecto de IBM dirigido a diseñar supercomputadoras que pueden alcanzar velocidades de operación en el rango PFLOPS, con bajo consumo de energía.

El proyecto creó tres generaciones de supercomputadoras, Blue Gene/L, Blue Gene/P, y Blue Gene/P. Sistemas Blue Gene han llevado durante varios años los TOP500 y Green500 ranking de los más poderosos y más poder supercomputadoras eficientes, respectivamente. Sistemas Blue Gene también han anotado sistemáticamente las primeras posiciones en la lista Graph500. El proyecto fue galardonado con la Medalla Nacional de Tecnología e Innovación 2008.

Historia

En diciembre de 1999, IBM anunció una iniciativa de EE.UU. $ 100 millones para la investigación de un esfuerzo de cinco años para construir una computadora paralela masiva, para ser aplicado al estudio de los fenómenos biomoleculares tales como el plegamiento de proteínas. El proyecto tenía dos objetivos principales: mejorar nuestra comprensión de los mecanismos detrás de plegamiento de proteínas a través de la simulación a gran escala, y para explorar nuevas ideas en la arquitectura de la máquina masivamente paralelo y software. Las principales áreas de investigación incluyen: el uso de esta novedosa plataforma para cumplir eficazmente sus objetivos científicos, la forma de hacer este tipo de máquinas masivamente paralelas más fácil de usar, y cómo lograr los objetivos de rendimiento a un costo razonable, a través de arquitecturas novedosas. El diseño inicial de Blue Gene se basa en una versión temprana de la arquitectura Cyclops64, diseñada por Monty Denneau. La investigación y el desarrollo inicial de trabajo fue perseguido en IBM TJ Centro de Investigación Watson.

En 1999 Alan Gara trasladó de la Universidad de Columbia, se había estado dirigiendo el trabajo sobre la arquitectura QCDOC a la IBM TJ Centro de Investigación Watson. El sistema QCDOC era un ordenador de propósito especial para cálculos QCD, sino que utiliza un chip con un núcleo PowerPC embebido en él. En IBM, Alan Gara comenzó a trabajar en una extensión de la arquitectura QCDOC en un superordenador de propósito más general: La red de interconexión de vecino más cercano 4D se sustituye por una red de soporte de enrutamiento de mensajes desde cualquier nodo a cualquier otro, y un paralelo de E/Se añadió O subsistema. DOE comenzó a financiar el desarrollo de este sistema y se hizo conocido como Blue Gene/L, el desarrollo del sistema original Blue Gene continuó bajo el nombre de Blue Gene/C y, después, Cyclops64.

En noviembre de 2001, el Laboratorio Nacional Lawrence Livermore se unió a IBM como socio de investigación para Blue Gene. Desarrollo procedió a IBM T.J. Centro de Investigación Watson y en IBM Rochester con el objetivo de proporcionar un sistema para el LLNL.

Blue Gene/L

En noviembre de 2004 un sistema de 16-rack, con cada bastidor que sostiene 1.024 nodos de cómputo, logró el primer lugar en la lista TOP500, con un rendimiento Linpack de 70,72 TFLOPS. Con ello superó Simulador Terrestre de NEC, que se había celebrado el título de la computadora más rápida del mundo desde 2002 - Desde 2004 hasta 2007 la instalación de Blue Gene/L en LLNL expandió gradualmente a 104 bastidores, logrando 478 TFLOPS Linpack y 596 TFLOPS pico. La instalación BlueGene/L LLNL celebró la primera posición en la lista TOP500 durante 3,5 años, hasta que en junio de 2008 fue superado por el sistema Roadrunner basados en células de IBM en el Laboratorio Nacional de Los Alamos, que fue el primer sistema en superar la marca de 1 PetaFLOPS. El sistema fue construido en Rochester, MN planta de IBM.

Si bien la instalación LLNL fue la mayor instalación de Blue Gene/L, muchas pequeñas instalaciones siguieron. En noviembre de 2006, había 27 equipos en la lista TOP500 utilizando la arquitectura Blue Gene/L. Todos estos equipos fueron clasificados como tener una arquitectura de eServer Blue Gene Solution. Por ejemplo, tres bastidores de Blue Gene/L fueron alojados en el Centro de Supercomputación de San Diego.

Si bien las medidas de rendimiento TOP500 en una sola aplicación de referencia, Linpack, Blue Gene/L también estableció récords de rendimiento en un conjunto más amplio de aplicaciones. Blue Gene/L fue la primera vez superordenador para ejecutar más de 100 TFLOPS sufridas en una aplicación real, es decir, un código de dinámica molecular en tres dimensiones, la simulación de la solidificación del metal fundido bajo alta presión y temperatura. Este logro se obtuvo el Premio Campana Gordon 2005.

En junio de 2006, NNSA e IBM anunciaron que Blue Gene/L alcanzaron 207.3 TFLOPS en una aplicación química cuántica. En Supercomputación 2006, Blue Gene/L fue galardonado con el premio al ganador en todas las clases de HPC Challenge de premios. En 2007, un equipo del Centro de Investigación Almaden de IBM y la Universidad de Nevada pasó una red neuronal artificial casi medio tan complejo como el cerebro de un ratón para el equivalente de un segundo.

Principales características

El Gene/L superordenador Blue fue única en los siguientes aspectos:

  • Operando con la velocidad de los procesadores de bajo consumo de energía. Blue Gene/L utilizados baja frecuencia y baja potencia integrado núcleos PowerPC con aceleradores de punto flotante. Mientras que el rendimiento de cada chip era relativamente bajo, el sistema podría lograr un mejor rendimiento a relación de energía, para aplicaciones que podrían utilizar un mayor número de nodos.
  • Procesadores duales por nodo con dos modos de funcionamiento: el modo co-procesador en un procesador se encarga de la computación y la otra comunicación asas, y el modo virtual en el nodo, donde ambos procesadores están disponibles para ejecutar código de usuario, pero los procesadores comparten tanto la computación y la comunicación cargar.
  • Sistema en un chip de diseño. Todos los nodos componentes fueron incorporados en un chip, con la excepción de 512 MB DRAM externa.
  • Un gran número de nodos
  • Interconexión toro tridimensional con redes auxiliares para las comunicaciones globales, E/S, y la gestión
  • Ligero OS por nodo para una sobrecarga mínima del sistema.

Arquitectura

La arquitectura Blue Gene/L era una evolución de las arquitecturas QCDSP y QCDOC. Cada Blue Gene/L Compute o I/O nodo era un solo ASIC con chips de memoria DRAM y memoria asociados. El ASIC integrado dos 700 MHz PowerPC 440 procesadores integrados, cada uno con una unidad de punto de doble tubería-flotante de doble precisión, un subsistema de caché con una función de controlador de memoria DRAM y la lógica para admitir varias comunicación subsistemas. Los FPU duales dieron a cada Gene/L nodo azul un rendimiento teórico máximo de 5,6 GFLOPS. Los dos CPU no eran caché coherente uno con el otro.

Nodos de cómputo fueron empaquetados de dos por tarjeta de cómputo, con 16 tarjetas de cómputo más un máximo de 2 nodos de E/S por placa de nodo. Hubo 32 placas de nodo por gabinete/rack. Mediante la integración de todos los subsistemas esenciales en un solo chip, y el uso de la lógica de baja potencia, cada nodo Compute o I/O disipa la energía baja. Esto permitió embalaje muy agresivos de hasta 1.024 nodos de computación más nodos adicionales de E/S en el bastidor estándar de 19 pulgadas, dentro de límites razonables de suministro de energía eléctrica y la refrigeración por aire. Las métricas de desempeño en términos de FLOPS por vatio, FLOPS por m2 de superficie útil y FLOPS por unidad de costo permitido escalar hasta muy alto rendimiento. Con tantos nodos, fallos de los componentes eran inevitables. El sistema fue capaz de aislar eléctricamente una fila de componentes defectuosos para que la máquina siga funcionando.

Cada Gene/L nodo Azul se une a tres redes de comunicaciones paralelas: una red toroidal 3D para la comunicación punto a punto entre los nodos de cómputo, una red colectiva de comunicación colectiva, y una red mundial de interrupción de las barreras rápidas. Los nodos de E/S, que corren el sistema operativo Linux, siempre y comunicación con el almacenamiento y los servidores externos a través de una red Ethernet. Los nodos de E/S maneja las operaciones del sistema de archivos en nombre de los nodos de computación. Por último, una red Ethernet independiente y privada proporciona acceso a cualquier nodo de la configuración, el arranque y el diagnóstico. Para permitir que varios programas se ejecuten al mismo tiempo, un sistema Blue Gene/L puede ser dividido en grupos aislados electrónicamente de nodos. El número de nodos en una partición tenía que ser un número entero positivo de potencia de 2, con al menos 25 = 32 nodos. Para ejecutar un programa en Blue Gene/L, una partición del equipo fue el primero en ser reservado. El programa se cargó y se ejecuta en todos los nodos de la partición, y ningún otro programa puede acceder a los nodos de la partición mientras estaba en uso. Al finalizar, los nodos de partición fueron liberados para futuros programas a utilizar.

Blue Gene/L de nodos de computación utilizan un sistema operativo mínimo apoyo de un programa de usuario único. Sólo un subconjunto de las llamadas POSIX fue apoyada, y sólo un proceso puede ejecutarse en un momento en el nodo en el modo-o co-procesador de un proceso por CPU en modo virtual. Los programadores necesitan para implementar los hilos verdes para simular la concurrencia local. El desarrollo de aplicaciones se realiza generalmente en C, C , o Fortran usando MPI para la comunicación. Sin embargo, algunos lenguajes de script como Ruby y Python han sido portados a los nodos de computación.

Blue Gene/P

En junio de 2007, IBM presentó Blue Gene/P, la segunda generación de la serie Blue Gene de las supercomputadoras y diseñado a través de una colaboración que incluye IBM, LLNL y en un Centro de Informática Liderazgo Laboratorio Nacional de Argonne.

Diseño

El diseño de Blue Gene/P es una evolución de la tecnología de Blue Gene/L. Cada Gene/P de chips Compute azul 450 tiene cuatro núcleos de procesador PowerPC, corriendo a 850 MHz. Los núcleos son caché coherente y el chip puede funcionar como un 4-way multiprocesador simétrico. El subsistema de memoria en el chip se compone de pequeños almacenes privados L2, una responsabilidad compartida 8 MB de caché L3 centro y controladores de memoria DDR2 de doble. El chip también integra la lógica de nodo a nodo de comunicación, usando el mismo topologías de red como Blue Gene/L, pero en más de dos veces el ancho de banda. Una tarjeta de cálculo contiene un chip de Blue Gene/P con 2 o 4 GB de DRAM, que comprende un "nodo de cómputo". Un solo nodo de cálculo tiene un rendimiento máximo de 13,6 GFLOPS. 32 tarjetas Compute estén conectadas a una placa de nodo refrigerado por aire. Un estante contiene 32 placas de nodo. Mediante el uso de muchos, bajo consumo de energía pequeña, fichas densamente empaquetados, Blue Gene/P superó la eficiencia energética de otras supercomputadoras de su generación, y al 371 MFLOPS/W instalaciones Blue Gene/P sitúa en el lugar o cerca de la parte superior de la lista Green500 en 2007-2008.

Instalaciones

La siguiente es una lista incompleta de las instalaciones de Blue Gene/P. Por noviembre de 2009, la lista TOP500 contenía 15 Gene/P instalaciones azules de 2-bastidores y más grandes.

  • El 12 de noviembre de 2007, la primera Gene/P instalación Azul, JUGENE, con 16 bastidores se estaba ejecutando en el Forschungszentrum Jlich en Alemania con un rendimiento de 167 TFLOPS. Cuando se inauguró fue el superordenador más rápido de Europa y el sexto más rápido en el mundo. En 2009, JUGENE se actualizó a 72 bastidores con 144 terabytes de memoria y 6 petabytes de almacenamiento, y logró un rendimiento máximo de 1 PetaFLOPS. Esta configuración incorpora aire nuevo a los intercambiadores de calor de agua entre los bastidores, lo que reduce sustancialmente el coste de refrigeración. JUGENE fue cerrado en julio de 2012 y sustituido por el Blue Gene/Q Sistema JUQUEEN.
  • A 13,9 TFLOPS Blue Gene/P se instaló en la Universidad de Rochester en Rochester, Nueva York en 2008. El sistema está compuesto de un solo estante y 180 TB de almacenamiento.
  • El primer laboratorio en los Estados Unidos para recibir un Blue Gene/P es el Laboratorio Nacional de Argonne. En conclusión, el sistema de 40-rack "Intrepid" ocupó el puesto número 3 en la lista de Top junio 2008 500. El sistema Intrepid es uno de los principales recursos del programa INCITE, en el que horas de procesador se otorgan a "gran reto" la ciencia y proyectos de ingeniería en una competición revisados.
  • Laboratorio Nacional Lawrence Livermore instalado un Gene/P instalación de 36-rack Azul, "Amanecer", en 2009.
  • La Universidad Rey Abdullah de Ciencia y Tecnología instaló un Gene/P instalación de 16-rack Azul "Shaheen", en 2009.
  • Un sistema Blue Gene/P es el procesador central de la matriz de baja frecuencia para el proyecto de la astronomía de radio en los Países Bajos y los países europeos circundantes. Esta aplicación utiliza las capacidades de transmisión de datos de la máquina.
  • A 2-rack Blue Gene/P se ha instalado el 9 de septiembre de 2008 en Sofía, la capital de Bulgaria, y es operado por la Academia Búlgara de Ciencias y la Universidad de Sofía.
  • El primer Blue Gene/P en la región de la ASEAN se instaló en 2010 en la Universiti Brunei Darussalams centro de investigación, el Centro UBD-IBM. La instalación se ha llevado a la colaboración en investigación entre la universidad y la investigación de IBM en la modelización del clima que investigará el impacto del cambio climático en la previsión de inundaciones, los rendimientos de los cultivos, la energía renovable y la salud de los bosques de la región, entre otros.
  • En 2010, un Blue Gene/P se instaló en la Universidad de Melbourne para la Iniciativa de Computación Ciencias de la vida victoriana.
  • En 2012, la Blue Gene/P se instaló en la Universidad de Rice, y será administrado en forma conjunta con la Universidad de Sao Paulo.

Aplicaciones

  • Veselin Topalov, el retador al título de Campeón del Mundo de Ajedrez en 2010, confirmó en una entrevista que él había utilizado un Gene/P superordenador Azul durante su preparación para el partido.
  • El ordenador Blue Gene/P se ha usado para simular aproximadamente el uno por ciento de una corteza cerebral humana, que contiene 1,6 mil millones de neuronas con aproximadamente 9 billones de conexiones.
  • El equipo de IBM Kittyhawk proyecto ha portado Linux a los nodos de cómputo y demostró genéricos cargas de trabajo Web 2.0 que funcionan a escala en un Blue Gene/P. Su artículo publicado en el ACM Sistemas Operativos revisión describe un controlador del núcleo que los túneles Ethernet a través de la red de árbol, que da lugar a todos a toda la conectividad de TCP/IP. Ejecución de software estándar de Linux como MySQL, los resultados de rendimiento en el rango SpecJBB entre los más altos de la historia.
  • En 2011 la Universidad de Rutgers/IBM/Universidad de equipo de Texas vinculadas la instalación KAUST Shaheen junto con una instalación de Blue Gene/P en el Centro de Investigación Watson de IBM en un "alto rendimiento de computación en la nube federada", ganando la ESCALA reto IEEE 2011 con un aceite aplicación de optimización del depósito.

Blue Gene/Q

El tercer diseño de la serie superordenador Blue Gene, Blue Gene/Q llegó a 20 petaflops en 2012 - Blue Gene/Q sigue ampliando y mejorando las arquitecturas Gene/L y/P azul.

Diseño

El Gene/Q chips Compute Azul es un chip de núcleo 18. Los núcleos de procesador PowerPC A2 64 bits son de 4 vías simultáneamente multiproceso, y funcionan a 1,6 GHz. Cada núcleo del procesador tiene una precisión Quad-vector unidad de punto flotante SIMD doble. Los núcleos del procesador están unidos por un conmutador de barras cruzadas a una eDRAM MB de caché L2 32, funcionando a media velocidad del núcleo. La caché L2 es multi-versionada, soporte de memoria transaccional y ejecución especulativa, y tiene soporte de hardware para operaciones atómicas. Fallos de caché L2 son manejadas por dos incorporado en los controladores de memoria DDR3 funcionando a 1,33 GHz. El chip también integra la lógica de chip para comunicaciones de chips en una configuración toroidal 5D, con chip de 2 GB/s para los enlaces de chips. 16 núcleos de procesador se utilizan para la computación, y un núcleo 17a para el sistema operativo ayudan a funciones tales como interrupciones, E/S asíncrona, MPI estimulación y RAS. El núcleo 18a se utiliza como un sistema redundante de repuesto en caso de que uno de los otros núcleos está dañado permanentemente. El núcleo librado de salida se cierra en la operación funcional. El chip Gene/Q Azul está fabricado en proceso SOI de cobre de IBM en 45 nm. Se entregará un máximo rendimiento de 204,8 GFLOPS a 1,6 GHz, la elaboración de unos 55 vatios. El chip mide 1,919 mm y comprende 1470000000 transistores. El chip está montado en una tarjeta de cálculo junto con 16 GB DDR3 DRAM.

A P32 compute cajón tendrá 32 tarjetas de cómputo, cada refrigerados por agua y conectado a un toro de la red 5D.

Bastidores tendrán 32 cajones de computación para un total de 1.024 nodos de computación, 16.384 núcleos de usuarios y 16 TB de RAM.

Separe I/O cajones serán enfriados por aire y contienen 8 tarjetas de cómputo y 8 ranuras de expansión PCIe para Infiniband o redes Ethernet 10 Gigabit.

Rendimiento

En el momento de la Blue Gene/Q anuncio del sistema en noviembre de 2011, un sistema de Gene/Q Azul 4-rack inicial alcanzó # 17 en la lista TOP500 con 677,1 TeraFLOPS Linpack, superando al original de 2007 la instalación BlueGene/L 104-rack se describe anteriormente . El mismo sistema 4-rack alcanzó la primera posición en la lista Graph500 con más de 250 GTEPS. Sistemas Blue Gene/Q también encabezó la lista Green500 de la mayoría de los superordenadores de eficiencia energética con un máximo de 2,1 GFLOPS/W.

En junio de 2012, las instalaciones de Blue Gene/Q tomaron las primeras posiciones en las tres listas: TOP500, Graph500 y Green500.

Instalaciones

La siguiente es una lista incompleta de las instalaciones de Blue Gene/Q. Per Junio de 2012, la lista TOP500 contenía 20 Gene/Q instalaciones azules de 1/2-rack y grandes.

  • Un sistema de Gene/Q azul llamada Sequoia fue entregado al Laboratorio Nacional Lawrence Livermore inicio en 2011 y fue totalmente desplegada en junio de 2012 - Es parte del Programa de Informática simulaciones nucleares y la investigación científica avanzada y simulación avanzada. Se compone de 96 bastidores con una superficie de unos 3.000 metros cuadrados. En junio de 2012, el sistema ha sido clasificado como el superordenador más rápido del mundo. al 20,1 PFLOPS pico, 16.32 PFLOPS sostenidos, dibujo hasta 7,9 megavatios de potencia. Estas medidas de rendimiento también clasifican Sequoia, junto con otros sistemas de Gene/Q azul, como una de las supercomputadoras más verdes en más de 2 GFLOPS/W.
  • A PFLOPS sistema Gene/Q 10 Azul llamada Mira se ha instalado en el Laboratorio Nacional Argonne en el Aula de Informática Liderazgo Argonne en 2012 - Consta de 48 bastidores, con 70 PB de almacenamiento en disco.
  • A TFLOPS sistema Gene/Q Azul 209 se instaló en la Universidad de Rochester, en julio de 2012. Este sistema forma parte del Centro de Ciencias de la Salud para Computacional Innovación, que se dedica a la aplicación de la informática de alto rendimiento a los programas de investigación en ciencias de la salud. El sistema está compuesto de un solo estante con 400 TB de almacenamiento de alto rendimiento. Fue identificado como uno de los superordenadores más eficientes del mundo, empatado en la posición # 3 en la lista junio 2012 Green 500.
  • Un sistema de 838 TFLOPS Blue Gene/Q se llama Avoca se instaló en la Iniciativa Victorian Life Sciences Computación en junio de 2012. Este sistema forma parte de una colaboración entre IBM y VLSCI, con los objetivos de mejorar el diagnóstico, la búsqueda de nuevas dianas farmacológicas, tratamientos refinar y profundizar nuestra comprensión de las enfermedades. El sistema consta de 4 bastidores, con 350 TB de almacenamiento, 65.536 núcleos, 64 TB de RAM.
  • Fermi en las instalaciones de Supercomputación CINECA, Bolonia, Italia.

Aplicaciones

Aplicaciones de las ciencias de récord se han ejecutado en el BG/Q, el primero en cruzar 10 petaflops de rendimiento sostenido. La cosmología de simulación marco HACC logra casi 14 petaflops con 3,6 billones de partículas plazo de referencia, mientras que el código cardioide, que modela la electrofisiología del corazón humano, alcanzó casi 12 petaflops con una simulación casi en tiempo real, tanto en Sequoia.