211service.com
Hoe slaan genoomsequencingcentra zulke enorme hoeveelheden gegevens op?
Genomische sequencing is snel veranderd van iets dat alleen mogelijk is op de schaal van een nationaal onderzoeksproject naar iets dat snel en zelfs goedkoop kan worden uitgevoerd (zie Is het echt maar $ 1.000 om een genoom te sequencen?). De hoeveelheid DNA die tegenwoordig wordt geanalyseerd, is onthutsend, en dat geldt ook voor de behoefte aan gegevensopslag.
gigabyte
Het decoderen van alle zes miljard basen of letters op het menselijk genoom is geen eenvoudige taak. Gensequencing-apparatuur leest relatief kleine stukjes DNA tegelijk en verzamelt geleidelijk genoeg overlappende informatie om een volledige uitlezing van het genoom te bouwen. Die eerste ronde van gegevensverzameling legt enorme hoeveelheden onbewerkte informatie vast, het equivalent van miljoenen onbewerkte afbeeldingen, en genereert terabytes aan gegevens.
In de begindagen van sequencing werden al deze onbewerkte gegevens bewaard, maar nieuwere apparatuur dumpt de onbewerkte beeldgegevens na verwerking en genereert een gecomprimeerd bestand dat het genoom in ongeveer 100 gigabyte vertegenwoordigt. Dat bestand bevat aanzienlijke oversampling van het genoom - vaak met een factor 30 - om ervoor te zorgen dat er voldoende betrouwbare informatie is, zegt Ilya Chorny, een marktmanager in de bedrijfsinformatica-eenheid van Illumina, een toonaangevende maker van apparatuur voor het bepalen van genen. .
In sommige gevallen kan een soort uitgeklede précis van ongeveer één gigabyte worden gebruikt, maar dat brengt een lagere mate van vertrouwen in de nauwkeurigheid met zich mee. Michael Schatz, universitair hoofddocent kwantitatieve biologie aan het Cold Spring Harbor Laboratory, zegt dat 100 gigabyte een goede maatstaf is voor het projecteren van de opslagvereisten van een enkel menselijk genoom in het komende decennium.
Gezien de lage kosten van gegevensopslag, lijkt het misschien alsof de snelgroeiende behoefte eraan geen probleem zou moeten zijn voor genomische centra. Bedenk dat een schijf van vier terabyte die is ontworpen om betrouwbaar genoeg te zijn voor bedrijven, slechts $ 130 kan kosten. Vier terabytes is 4.000 gigabyte, of genoeg om 40 genomen te bevatten, wat betekent dat elk ongeveer $ 3 aan opslagcapaciteit zou gebruiken plus een beetje extra voor redundante offline back-up.
Maar veel instellingen genereren nu honderden terabytes aan gegevens per maand en moeten deze opslaan in een vorm die wereldwijd gemakkelijk toegankelijk is. Illumina biedt zo'n cloudopslagdienst, maar de concurrentie neemt toe. Eind 2014 begon Google Genomics aan te bieden om genomische gegevens op te slaan voor 2,2 cent per gigabyte per maand, wat neerkomt op $ 26 per jaar voor 100 gigabyte. Amazon Web Services biedt ook genomics-diensten aan. Het publiceert geen openbare prijslijst; de standaard opslagkosten zouden ongeveer $ 35 per jaar zijn voor 100 gigabyte.
Toekomstige schok
De data-eisen zullen nog intenser worden. Hoewel het DNA in elke cel oorspronkelijk werd gezien als een consistente blauwdruk voor het hele wezen, is dat zeker niet waar, zegt Schatz. Genetisch onderzoek heeft veel variatie gevonden tussen verschillende cellen in dezelfde persoon of ander organisme. Dat zou kunnen betekenen dat er meer dan één exemplaar van iemands genoom moet worden opgeslagen. Deze aanvullende gegevens kunnen zich lenen voor substantiële compressie, omdat mogelijk alleen de verschillen tussen DNA in verschillende cellen moeten worden opgeslagen in plaats van de genomen als geheel. Maar compressie verhoogt de rekenlast wanneer de gegevens moeten worden geopend en geanalyseerd; als opslag goedkoper is dan de benodigde berekeningen, kan het zinvol zijn om de gegevens op een minder efficiënte manier beschikbaar te houden.
Schatz en negen collega's van de Universiteit van Illinois in Urbana-Champaign publiceerden in juli een paper waarin ze probeerden grip te krijgen op de komende opslagvereisten voor sequencing. Naarmate de technologie beter en goedkoper wordt, schatten ze dat er in 2025 tussen de 100 miljoen en twee miljard menselijke genomen zullen zijn opgeslagen. Deze groei overtreft het tempo van de gegevensvereisten voor andere enorme en groeiende opslaggebruikers, waaronder YouTube in het bijzonder, en een hele.
Met dank aan Nidhan Biswas voor deze vraag. Als je er een hebt, stuur het dan naar readerquestions@technologyreview.com