November 23, 2024

Eerste methode ooit om genoombrede RNA-sequencinggegevens te analyseren met behulp van Pantanscriptome

Eerste methode ooit om genoombrede RNA-sequencinggegevens te analyseren met behulp van Pantanscriptome

Het analyseren van iemands genexpressie vereist het in kaart brengen van hun RNA-omtrek naar een standaardreferentie om inzicht te krijgen in de mate waarin genen “aangezet” zijn en functies in het lichaam uitvoeren. Maar onderzoekers kunnen in de problemen komen wanneer de referentie niet genoeg informatie geeft om nauwkeurige mapping mogelijk te maken, een probleem dat bekend staat als referentiebias.

In een nieuw artikel gepubliceerd in het tijdschrift natuur manierenhebben onderzoekers van de Universiteit van Californië, Santa Cruz, de allereerste methode gepresenteerd voor het analyseren van RNA-sequencinggegevens op een genoombreed niveau met behulp van een “pantanscriptoom”, dat kopie-naar-kopie-referentie combineert met genetisch materiaal van een groep van diverse individuen, in plaats van slechts een enkele lineaire streng. Een groep wetenschappers onder leiding van Benedict Batten, assistent-professor biomoleculaire engineering aan de UCLA, heeft een toolkit uitgebracht waarmee onderzoekers de RNA-gegevens van een individu in kaart kunnen brengen naar een rijkere referentie, referentiebias aanpakken en resulteren in een nauwkeurigere mapping.

Dit is het pangenoom plus transcriptoom – deze combinatie is tot nu toe nog nooit eerder gedaan. Dit is de eerste keer dat iemand heeft geprobeerd het pangenoom op te nemen als standaardkenmerk voor het in kaart brengen van RNA-sequenties. “


Jordan Izinga, co-eerste auteur van de paper en postdoctoraal onderzoeker, UCSC Computational Genomics Lab

Deze tool helpt onderzoekers over de hele wereld die werken aan het begrijpen van genexpressie door middel van RNA-sequentieanalyse. De tools zijn openbaar beschikbaar en toegankelijk via Github.

“Met deze toolkit gebruiken we de meest uiteenlopende gegevens die we nu uit het pangenoom kunnen halen om genexpressiegegevens beter te meten, iets dat sterk kan variëren tussen individuen,” zei Patten. “Het doel is om de impact van deze meer diverse gegevens voelbaar te maken voor onderzoeken naar genexpressie, wat leidt tot een betere analyse van celmodellen, organoïde modellen en andere onderzoekstoepassingen.”

De meest voorkomende functie van RNA is het vertalen van DNA in eiwitten, maar wetenschappers begrijpen nu dat de overgrote meerderheid van RNA niet codeert en geen eiwitten maakt, maar in plaats daarvan rollen kan spelen zoals het beïnvloeden van de celstructuur of het reguleren van genen. Het RNA-landschap staat gezamenlijk bekend als het transcriptoom, en door dit in kaart te brengen, kunnen onderzoekers de genexpressie van een individu beter begrijpen.

Transcriptome House bouwt voort op het opkomende concept van “pangene laesiewetenschap” op het gebied van genomics. Bij het evalueren van de genomische gegevens van een individu op variantie, vergelijken wetenschappers meestal het genoom van het individu met een referentiegenoom dat bestaat uit een enkele lineaire streng DNA-basen. Door het pangenoom te gebruiken, kunnen onderzoekers tegelijkertijd het genoom van een individu vergelijken met het genoom van een genetisch diverse groep referentiesequenties, die zijn verkregen van individuen die verschillende biogeografische afstammingslijnen vertegenwoordigen. Dit geeft wetenschappers meer vergelijkingspunten waarmee ze de genetische variatie van een individu beter kunnen begrijpen.

Het in kaart brengen van RNA-sequencing-gegevens om genexpressie te begrijpen, kan een uitdaging zijn, omdat RNA-sequencing gefragmenteerd is door cellulaire mechanismen, wat betekent dat een enkele set RNA-sequencing-gegevens afkomstig kan zijn van niet-verbonden gebieden in het genoom, waardoor het moeilijk wordt om ze exact op elkaar af te stemmen. manier waar met verwijzing. Deze splitsingsplaatsen zijn niet uniform voor mensen, maar verschillen van persoon tot persoon. Het is ook moeilijk te zeggen van welk haplotype het RNA afkomstig is – of de set genen specifiek afkomstig is van de set chromosomen die is geërfd van de moeder van het individu, of de set die is geërfd van de vader.

Maar met de nieuwe pijplijn van open-sourcetools kunnen onderzoekers de gesplitste fragmenten van het RNA van een individu nemen, in kaart brengen waar ze op het pangenoom zijn uitgelijnd, bepalen tot welk haplotype de gegevens behoren en genexpressie analyseren.

Eerst identificeert de pijplijn de regio’s van het genoom waaruit de RNA-sequencinggegevens komen, inclusief splitsingsplaatsen, en markeert die punten op de pangenoomreferentie. Deze specifieke scores worden vervolgens vergeleken met een reeks haplotype-specifieke transcripten die zijn gegenereerd op basis van de referentiegegevens in het pangenoom. Deze stap vereist gespecialiseerde en uitdagende rekenmethoden.

Ten slotte genereert het schattingen van genexpressieniveaus op basis van deze vergelijking tussen de gegeven gegevens en de transcripten in het pantanscriptoom, en identificeert het de haplotypes waar de genen vandaan komen.

zei Jonas Sepsen, co-eerste auteur van de studie en voormalig postdoctoraal onderzoeker aan het Computational Genomics Laboratory van UCSD en nu assistent-professor aan de Universiteit van Kopenhagen. “We denken nu na over wat pangenomics zou kunnen opleveren in transcriptomische analyses.”

In de toekomst zijn onderzoekers geïnteresseerd in het verder ontwikkelen van deze tools om bruikbaar te zijn voor downstream informatica-analyse, en in het ontwerpen van tools voor de specifieke kenmerken van onderzoek naar single-cell data. Voor nu hoopt de groep dat hun nieuwe reeks tools zal dienen om het nut aan te tonen van het gebruik van pangenomics-afgeleide analyse.

“We moeten sommige onderzoekers kunnen uitleggen hoe het Pangenome-signaal hen ten goede zal komen”, zei Patten. “Deze pijplijn is echt de eerste stap om dit te doen voor RNA, voor functionele gegevens, voor expressiegegevens.”

Bron:

Tijdschriftreferentie:

sipsin, ja, et al. (2023) Haplotype-aware Pantanscriptome-analyses met behulp van gesegmenteerde geneste histogrammen. natuur manieren. doi.org/10.1038/s41592-022-01731-9.