Home INCT INCT

Infraestrutura

LIneADataCenterInfrastructure
Figura 1 – ­ Equipamentos do centro de dados do LIneA

O LIneA mantém atualmente um centro de dados multi-usuário dedicado as atividades associadas aos levantamentos DES e SDSS­ que incluem transferência, armazenamento, processamento e distribuição de dados, desenvolvimento de software, operação do Portal Científico e serviço de Helpdesk.

Atualmente o centro de dados do LIneA conta com cerca de 90 equipamentos (incluindo servidores, racks, switches, no­breaks) e 22 serviços necessários para a operação do laboratório.

A Figura 1 mostra a infraestrutura disponível no centro de dados do LIneA de onde destacamos:

  • arquitetura DMZ para transferência de dados com taxa de transferência média de ~250 Mbps entre os principais parceiros internacionais desenvolvida em conjunto com a RNP;
  • banco de dados do SDSS-­III disponibilizando os releases DR8, DR9 e DR10 para o público geral através dos serviços Skyserver e CASJobs. Este é um importante acervo, cujos dados tem sido usados em pesquisas nas mais diversas áreas da astronomia;
  • banco de dados do DES PostreSQL + PGpool­II com replicação da base de dados para balanceamento de carga em dois servidores;
  • sistema de armazenamento (500 TB);
  • cluster SGI (1000 núcleos) dedicado ao processamento do Portal Científico;
  • cluster para alto desempenho de I/O durante o processamento (LustreFS);
  • servidor de desenvolvimento e repositório de códigos;
  • cluster de VMs para hospedagem dos serviços.

Em 2015 a infraestrutura sofreu algumas importantes modificações, entre as quais:

  • Para último conjunto de dados do SDSS-III liberado em 07/2015 foi montado um novo esquema (ver notícia) baseado na aquisição de um servidor de grande capacidade de armazenamento interno evitando desta forma a dependência da rede na solução adotada anteriormente. Esta mudança teve um impacto importante no desempenho. O objetivo final é emular a infraestrutura disponível em Johns Hopkins University onde são usados quatro servidores para cada conjunto de dados.
  • A solução PGpool utlizada apara armazenar o banco de dados de catálogos do projeto DES  também foi substituída por apenas um servidor;
  • Ao lustre foi adicionado mais um servidor;
  • Um novo servidor foi disponibilizado para uso na transferência de dados;

 

 

 

 

Até Julho de 2015 estes equipamentos  estavam localizados no PoP-RJ quando foram transferidos par o CPD  do LNCC com o qual firmamos um acordo específico para este fim. O vídeo acima ilustra o eficiente trabalho de desmontagem e montagem realizado pela firma SLACAM responsável pela infraestrutura computacional do LIneA que minimizou o tempo de paralisação do sistema.

Plano de Crescimento

Com base nos testes de desempenho do portal científico realizados com dados do primeiro ano do DES identificamos as seguintes necessidades:

  • ampliar a capacidade de processamento aumentando o número de núcleos e desta forma a paralelização de processos;
  • aumentar a capacidade de armazenamento e redundância, para evitar sérias paralisações que podem comprometer as atividades de pesquisa;
  • melhorar o desempenho do banco de dados;

Além disso devemos atender as crescentes demandas de processamento e armazenamento devido:

  • A entrada de novos usuários e de novos projetos.
  • Ao fato que o levantamento DES, já se encontrar no seu terceiro ano de observações, cobrindo a área total prevista de 5.000 graus quadrados, e o SDSS-IV em seu segundo ano.
  • Ao início da participação brasileira no projeto LSST envolvendo análise de simulações cobrindo 20.000 graus quadrados, e redução de dados com algoritmos desenvolvidos pelo LSST.
  • A necessidade de se criar um  Centro Regional de Dados para o projeto LSST até 2020, o que será feito com o apoio do LNA,  LNCC e RNP, fundamental para permitir a eficiente participação brasileira na exploração científica dos dados do LSST.
  • Aos compromisso internacionais assumidos.

O LIneA, em consulta com seus colaboradores e fornecedores, desenvolveu um plano de crescimento para os próximos cinco anos. Em linhas gerais este plano prevê:

  • A aquisição de um cluster de processamento com uma interface infiniband.
  • A reutilização do cluster atual para a implementação de um banco de dados distribuído, um trabalho que será feito em colaboração com tecnologistas do SLAC envolvidos no projeto LSST.
  • Um aumento da capacidade de armazenamento da ordem de 1 PB por ano, de forma a atingir 5 PB no início de comissionamento do LSST previsto para 2020.
  • A expansão do número de servidores usados para a distribuição de dados do projeto SDSS visando aprimorar o desempenho do serviço.
  • A renovação periódica das estações de trabalho sendo utilizadas pela equipe de TI.

O custo total e o perfil de gastos ao longo dos próximos anos é apresentado na tabela abaixo.

Equipamentos I II III IV V
Espelho SDSS 60 60 60
Cluster 65 490 490
Armazenamento 65 520 520 520 520
Estação de trabalho 6 6 6
Total em 1000 US$ 196 1070 586 520 1016

Além destes investimentos a equipe técnica do LIneA em colaboração com a RNP, UFCG e separadamente com o NCSA começa  a explorar tecnologias para o processamento em nuvem . O domínio desta tecnologia é fundamental para viabilizar a migração do portal científico para o NCSA como previsto. Em paralelo, com o LNCC se estuda o possível uso do supercomputador Santos Dumont recentemente  adquirido e sua possível integração ao modelo de operação do Centro de dados do LSST.