Bioinformatica

La bioinformatica e il Next Generation Sequencing

Obiettivi: in bioinformatica è spesso necessario gestire grandi moli di dati, eseguire calcoli che coinvolgono interi genomi, avere risultati riproducibili, gestire workflow e ambienti sviluppati e utilizzati da più utenti.

Perché: vi sono diversi motivi:

  • centralizzare dati in ambienti affidabili e facilmente interrogabili,
  • riutilizzare workflow di analisi a distanza di tempo ottenendo gli stessi risultati,
  • esecuzione di calcoli che richiedono grandi quantità di memoria e/o di tempo.

Come: progettando e implementando database in ambienti solidi e testati quali PostgreSQL. Creando ambienti di lavoro basati su Conda e utilizzando sistemi di gestione codebase e progetti come Git e Gitlab. Analizzando e valutando i requisiti dei software per trovare la migliore strategia di parallelizzazione tra data parallelism o task parallelism.