Genetik & Evolution

ENCODE | Datenerfassungsprojekt

ENCODE , in der vollständigen Encyclopedia of DNA Elements , begann 2003 ein kollaboratives Datenerfassungsprojekt, das darauf abzielte, alle funktionalen Elemente des zu erfassenmenschliches Genom . ENCODE wurde von Forschern in den USA konzipiertNationales Institut für Humangenomforschung (NHGRI) als Nachfolger des Humangenomprojekts (HGP; 1990–2003), das eine große Menge an DNA- Sequenzdaten erstellt hatte, jedoch keine umfassende Analyse spezifischer genomischer Elemente beinhaltete.

Illustrierte DNA-Stränge.  Desoxyribonukleinsäure, Biologie.
Britannica Quiz
Genetik-Quiz
Wer hat daraus geschlossen, dass das Geschlecht eines Individuums durch ein bestimmtes Chromosom bestimmt wird? Wie viele Chromosomenpaare gibt es im menschlichen Körper? Teste Dein Wissen. Mache dieses Quiz.

Die Informationen von ENCODE Wissenschaftlern zusammengestellt wurde vorgestellt als eine Art Führer zu dienen, erleichtern die Untersuchung von Komponenten des menschlichen Genoms, die der Funktion von beitragen Zellen und Geweben und haben daher Auswirkungen auf die menschliche Gesundheit und Krankheit . Es lieferte auch wichtige Erkenntnisse für die Untersuchung der menschlichen Evolution und Genetik und lieferte letztendlich Daten, die nicht nur darauf hinwiesen, dass große Regionen des Genoms, die einst als nicht funktionsfähig angesehen wurden, tatsächlich funktionell wichtig waren, sondern auch das Grundkonzept eines Gens in Frage stellten.

Die Suche nach Funktionselementen

Zu den funktionellen Elementen des menschlichen Genoms, wie sie im ENCODE-Projekt definiert sind, gehören diejenigen DNA-Segmente, die RNA- Moleküle während des Transkriptionsprozesses codieren , regulatorische Proteine binden , die als Transkriptionsfaktoren bekannt sind , oder die Bindungsstellen für Methylgruppen besitzen , die dazu in der Lage sind zur Modifizierung der Struktur von Chromatin (den kompakten DNA-Protein-Fasern, die unter Bildung von Chromosomen kondensieren). Diese Elemente gehören zum genomischen regulatorischen Netzwerk (oder Regulom), dessen Merkmal die Produktion von RNA-Transkripten aus Genen ist, die Informationen für die Produktion von Proteinen enthalten. Proteine ​​geben letztendlich Zellen und Geweben Form und regulieren chemische Prozesse, die für das Leben essentiell sind .

Als das HGP 2003 zu Ende ging, war jedoch unklar, wie viel des menschlichen Genoms aktiv in proteinkodierende RNA transkribiert wurde, und die Komplexität und Funktion von RNA-Transkripten war nicht ausführlich untersucht worden. Ebenso die funktionelle Relevanz anderer genomischer Merkmale, die von Beziehungen zwischen der Genexpression und der Modifikation der Histonproteine im Chromatin bis zur Transkriptionsbedeutung von Pseudogenen reichen (Relikt-DNA-Sequenzen, von denen angenommen wird, dass sie infolge der Evolution nicht mehr vorhanden sind) war unklar. Infolgedessen bestand ein erheblicher Bedarf an einem systematischen Ansatz zur Identifizierung und Kartierung der Positionen von Funktionselementen und zur Charakterisierung der physikalischen Beziehungen von Elementen im Regulom. Diese Ziele wurden von ENCODE-Wissenschaftlern begrüßt, und ihre Erfüllung sollte zu einem gründlicheren Verständnis der Mechanismen führen, die Gene und ihre Aktivität steuern.

Erhalten Sie mit Ihrem Abonnement exklusiven Zugriff auf Inhalte aus unserer 1768 First Edition. Abonnieren Sie noch heute

Struktur des ENCODE-Projekts

ENCODE war in zwei Phasen unterteilt: eine Pilot- und Technologieentwicklungsphase sowie eine Produktionsphase. Die Pilotkomponente konzentrierte sich auf die Auswahl einer Reihe von experimentellen und rechnerischen Methoden, mit denen ENCODE-Forscher funktionelle Elemente innerhalb der rund drei Milliarden Basenpaare identifizieren konnten, aus denen das menschliche Genom besteht. Um Vergleiche von Wirksamkeit und Effizienz zu erleichtern , wurden verschiedene Methoden an denselben Zielregionen getestet, die insgesamt 30 Millionen Basenpaare (30 Mb; ungefähr 1 Prozent des menschlichen Genoms) in verschiedenen Arten menschlicher Zellen abdecken. Unter den untersuchten Methoden befanden sich bestimmte DNA-Sequenzen der nächsten GenerationTechnologien und Genom-Tiling-Arrays (Werkzeuge zum Scannen ganzer Genome nach Regionen mit bestimmten Merkmalen) und andere rechnerische Ansätze (z. B. Chromatinstrukturanalyse). Die Verfeinerung von Technologien, die Daten mit hoher (automatisierter) Kapazität erzeugen können, bildete die Grundlage für die Technologieentwicklungskomponente von ENCODE. Die als am nützlichsten identifizierten Methoden wurden dann für die Analyse des vollständigen Genoms erweitert.

The full-scale production phase of ENCODE, in which scientists expanded the search for functional elements to the remaining 99 percent of the human genome, began in 2007 and was completed in 2012. More than 400 scientists, most funded by the NHGRI, participated in the full-scale phase. These researchers formed the bulk of the ENCODE Consortium, and the U.S.-based institutions where they performed their research were designated ENCODE Production Centers. The ENCODE Consortium, in addition to carrying out the work of creating an inventory of functional elements, also developed certain working guidelines, such as the use of designated cell lines and standardized data analysis and data-reporting tools, which were fundamental for enabling comparisons of data generated by the different participating laboratories.

The ENCODE Production Centers were supported by a Data Coordination Center (DCC), located at the University of California, Santa Cruz. The DCC served as the project’s main data repository, provided study participants with a common portal through which they could submit their data, captured metadata associated with experiments and data sets, and developed data-standardization-and-verification protocols. The DCC also developed tutorials to assist researchers at large who were interested in using the data once it had been made publicly available. Later, a separate Data Analysis Center (DAC), based at the University of Massachusetts Medical School, was added to the project. The DAC assisted with the integrative analysis of ENCODE data.

The ENCODE inventory

Initial findings from the pilot phase of ENCODE were published in 2007. Although this stage of the project was concerned primarily with the enumeration of the functional elements found within the 30 Mb of target sequences, the process of identifying ways to integrate and analyze data sets led to intriguing observations, particularly concerning the structure and behaviour of genes. These early conclusions were supported by the additional data generated during the production phase of ENCODE, the results of which were published in 2012. Findings from the production phase also renewed debate over the functional significance of noncoding DNA.

Redefining the gene

ENCODE data released in 2007 revealed that the human genome is covered extensively by RNA transcripts, a number of which are produced through alternative splicing (editing of a primary transcript that results in the production of a protein different from the one the transcript normally encodes). The findings corroboratedfrühere Berichte, in denen Wissenschaftler vorschlugen, dass das menschliche Genom aus riesigen Transkriptionsnetzwerken besteht. Die Existenz dieser Netzwerke verwischte jedoch traditionelle Vorstellungen über die Grenzen zwischen Genen und intergenen Regionen (die Lücken zwischen Genen) und stellte damit das Grundkonzept des Gens als diskrete Protein-kodierende Einheit in Frage. Das Konzept wurde 2012 erneut in Frage gestellt, als ENCODE-Wissenschaftler berichteten, dass bis zu 75 Prozent des menschlichen Genoms durch primäre RNA-Transkripte abgedeckt sein könnten. Diese umfassende Abdeckung der RNA implizierte eine signifikante Überlappung zwischen benachbarten Genen.

Eine funktionale Rolle für nichtkodierende DNA

Production-phase data further revealed that 80 percent of the human genome is biochemically functional as a result of association with RNA or chromatin activities. Since most of the human genome is made up of noncoding DNA (what was previously considered “junk” DNA by some), the data implied that these regions, which do not produce protein and therefore had been presumed to be nonfunctional, are in fact functionally relevant. Although researchers outside the ENCODE project had reached this same conclusion previously, the ENCODE data emphasized its significance. The research performed independently and as part of ENCODE indicated that noncoding regions may play important roles in regulating the production of protein as well as in maintaining the structural integrity of the genome.

Impacts of ENCODE

The catalogue of functional elements produced through ENCODE was a remarkable scientific achievement. In total, some 15 terabytes (trillion bytes) of raw data were generated by the project, presenting scientists across a diverse range of fields with fresh perspectives and new research opportunities. For example, the realization that certain genetic variants may exist in close association with noncoding DNA offered new insight into the relationship between genetic variation and disease. Likewise, knowledge of the location of regulatory elements in the human genome fueled investigation into the evolutionary conservation of functional elements among different species.

ENCODE also brought attention to the crucial role that bioinformatics and computational biology had come to fulfill in genetics and genomics research. Indeed, ENCODE would not have been possible without the advances in data storage and analysis that took place in these fields and coincided with the project. Nor would it have been feasible without the availability of high-throughput genomics technologies. ENCODE researchers, in depending on these various tools, also contributed to their advance. For instance, the ENCODE Consortium made important refinements to genomic tiling arrays and developed integrative analyses that enabled the evaluation of multiple data sets at one time.