Home

Descrição

Portal Científico desenvolvido pelo LIneA

O volume de dados sem precedentes acumulado pelos levantamentos SDSS, DES e futuramente DESI e LSST exige uma infraestrutura computacional capaz de analisar grandes volumes de dados e distribuir os resultados dessas análises de forma eficiente. Para isto,  ao longo dos últimos anos, o LIneA vem atuando em duas frentes. A primeira montando um centro de dados cuja arquitetura visa atender as necessidades específicas destes projetos. A segunda desenvolvendo um portal científico que oferece os seguintes serviços:

  • um repositório de códigos centralizado (git);
  • manutenção de bibliotecas científicas e pacotes de software;
  • instalação e verificação automatizada da qualidade dos dados;
  • ferramentas para inspeção visual de imagens e catálogos associados;
  • um banco de dados de catálogos astronômicos integrando dados de outros levantamentos;
  • automação da criação de catálogos para análise científica;
  • integração de algoritmos científicos na forma de workflows;
  • interfaces para acesso uniforme aos dados, metadados e resultados.

 

Os algoritmos desenvolvidos pelos diferentes grupos de trabalho são mantidos em repositórios de código onde as mudanças são versionadas,  permitindo a contribuição de diferentes desenvolvedores de forma organizada e garantindo que algoritmos desenvolvidos por alunos e pós­-doutorandos sejam preservados.  Esse aspecto é de fundamental importância para programas de longo prazo.

SciencePortalGrandView
Figura 1 -­ Visão geral do Portal Científico

A Figura 1 ilustra os principais conceitos do Portal Científico:

  • interoperabilidade de diferentes conjuntos de dados, como por exemplo, os oriundos de observações e simulações;
  • proveniência dos dados de entrada, configuração e versão dos algoritmos utilizados em cada etapa da análise;
  • validação dos resultados em cada etapa da análise;
  • reprodutibilidade dos resultados;
  • comunicação e compartilhamento dos resultados.

Nesse modelo, a instalação e a etapa de preparação dos dados, que representam uma fração substancial do tempo gasto na análise de dados convencional, é realizada de forma estruturada e eficiente. A base de dados centralizada e a integração dos algoritmos científicos ao portal é crucial para minimizar a movimentação de grandes volumes de dados. Os algoritmos científicos integrados ao portal se beneficiam da infra estrutura de processamento e acesso aos dados disponíveis.

 

SciencePortalComponentsAndComponentsDataserver
Figura 2 – Principais componentes do Portal Científico

Além dos algoritmos científicos, o sistema de gerenciamento de workflows e a camada de orquestração são os principais componentes de software do portal. Associados a esses componentes estão o banco de dados administrativo, o banco de dados de catálogos, o cluster de processamento e o sistema de armazenamento, como mostrado na Figura 2.

Avaliações Internacionais

O desenvolvimento do Portal Científico tem sido avaliado ao longo dos últimos anos por um painel internacional:

  1. Outubro 2010 (Fermilab) – Introdução, workflows científicos
  2. Outubro 2011 (UPenn) – Precam, Quick Reduce, workflows científicos
  3. Maio 2012 (MPA) – Quick Reduce
  4. Julho 2013 (Fermilab) ­ – Visão end-­to-­end e validação de dados
  5. Novembro 2013 (Fermilab) – Validação de dados e inspeção visual de imagens
  6. Agosto 2014 (Fermilab) ­ – Data server
  7. Novembro 2014 (Fermilab)
  8. Maio 2015 (Fermilab) – Criação de catálogos e operação
  9. Maio 2017 (UTAH) – Quicklook Framework Review
  10. Junho 2017 (Fermilab) – DES Science Portal Review

 Metodologia de Trabalho

O desenvolvimento de software no LIneA segue alguns conceitos das metodologias ágeis com reuniões diárias no formato stand up onde os membros dos times técnico e científico fazem um breve relato sobre as atividades e identificam interdependências nas suas tarefas. A partir de reuniões semanais por projeto, as tarefas são identificadas e planejadas ao longo de sprints. O detalhamento e acompanhamento das tarefas é feito através do software Trello e o planejamento a médio e longo prazo através da ferramenta SmartSheet. Para melhorar a  comunicação entre os membros do time é utilizada a ferramenta Slack que permite canais de conversação permanentes, mensagens instantâneas, e integração com os demais softwares utilizados.

As principais áreas de desenvolvimento de software no LIneA incluem desenvolvimento web, visualização de dados, gerenciamento de dados em banco de dados relacionais e em sistema de arquivos distribuídos, processamento de dados em paralelo e desenvolvimento de workflows científicos, alem de atividades de correção de erros, testes e operação. O Vídeo 1 ilustra o desenvolvimento do portal científico no LIneA.

 

 

Vídeo 1 – Desenvolvimento do portal científico ao longo dos últimos 7 anos ilustrado a partir do repositório de código (git) com o uso da ferramenta gource.