CpG-eilanden (engl.: CpG islands) zijn gebieden in het genoom van Eukaryoten met een statistisch hogere CpG-dinucleotidedichtheid. De dichtheid heeft betrekking op het voorkomen van nucleotiden- en dinucleotiden in het totale genoomgedeelte. CpG betekent Cytosin-phosphatidyc-Guanin. De p (in het Nederlands f van fosfaat) wordt aangegeven om beter onderscheid te kunnen maken tussen het CG-gehalte van een DNA-streng en de CG-basenparing van een DNA-dubbelstreng. De p staat hier voor de fosfodi-esterbinding tussen de nucleosiden cytidine en guanosine. Een CpG-plaats (CpG-dinucleotide) is een gebied waar een cytosine gevolgd wordt door een guanine in de 5' → 3' richting. CpG-eilanden zijn DNA-gedeelten met een lengte van de eukaryotische promotor van 0,5 kb tot 2 kb basenparen en die een verhoogd GC-gehalte hebben van meer dan 60 %. Het GC-gehalte van het hele genoom is 41 %. CpG-eilanden ontstaan door mechanismen, die te maken hebben met de exploitatie van het genenmateriaal als informatiedrager.

De chemische structuur van DNA. Blauw, rood, groen en paars: basen. Oranje: deoxyribosegroep. Geel: fosfaatgroep. De twee- en drievoudige waterstofbruggen zijn aangegeven met stippellijntjes. De 3'- en de 5'-uiteinden van de "ruggengraten" staan eveneens aangegeven
Aanduiding (blauw) van 2 fosfodi-esterbindingen in DNA.

Een stukje DNA met CpG plaatsen (CpG-dinucleotiden) op de ene streng en op de andere streng kan als volgt worden weergegeven:

5' --- A T G C C G T T A G A C C G T T A G C G G A C C T G A C 3'
3' T A C G G C A A T C T G G C A A T C G C C T G G A C T G --- 5'

De C G onderelkaar is een basenparing.

CpG-eilanden zijn belangrijke markeringen voor bijvoorbeeld de genetica, geneeskunde en bio-informatica.

Eigenschappen bewerken

Bij zoogdieren is afhankelijk van de soort 2 % tot 7 % cytosine in een cel gemethyleerd en ongeveer 70 tot 85 % van de CpG-dinucleotiden,[1][2] terwijl CpG-eilanden overwegend ongemethyleerd zijn,[3] waardoor de genexpressie epigenetisch gereguleerd wordt.[4] Ongeveer 5 % van de CpG-dinucleotiden liggen in een van de 20.000 CpG-eilanden van een genoom van zoogdieren.[2] De helft van de CpG-eilanden ligt bij zoogdieren in huishoudgenen.[2] Ongeveer 40 % van de promotoren bij zoogdieren hebben een CpG-eiland.[5]

Meestal zijn het de cytosinen van de 5'-CpG-3' dinucleotiden, die op beide complementaire DNA-strengen een methylgroep hebben, waardoor er een palindroomachtige methylering ontstaat. Zijn de twee cytosinen in deze opstelling gemethyleerd dan ontstaat er een verandering in de driedimensionale structuur in de grote groeve van de DNA-dubbelstreng.

Het gemiddelde GC-gehalte bij de mensen is 41 %, waarmee rekenkundig gezien het dinucleotide CpG met 4 % in het genoom voorkomt. CpG-dinucleotiden zijn met 0,8 % sterk ondervertegenwoordigd, dat hoofdzakelijk te maken heeft met de relatief spontane omzetting van 5-methylcytosine in thymine (desaminering) ( zie voor de verklaring de afbeelding verderop). Daarmee is de CpG-dinucleotidedichtheid in de CpG-eilanden 10–20 keer hoger dan in andere gebieden van het genoom van gewervelden. In vergelijking met andere dinucleotiden, zoals bijvoorbeeld GpC, ApT of TpA, vormt het CpG-dinucleotide in vele eukaryotische organismen een uitzondering. Ze spelen bij de genregulatie een ondersteunende rol, daar CpG-eilanden bij de gewervelden vaak in de nabijheid van promotoren voorkomen, speciaal bij huishoudgenen.[6]

CpG-eilanden worden ook gebruikt bij de regulatie van de genexpressie en zijn daarmee een mechanisme voor epigenetische genregulatie. De gemethyleerde CpG-eilanden kunnen herkend worden door het enzym histon-acetyltransferase (HATs). Methylering van de CpG-eilanden van een gen betekent dat dit gen niet afgelezen kan worden (genrepressie). Ongeveer 40–45 % van alle menselijke genen hebben CpG-eilanden in het promotorgebied.[7]

Methylering van CpG-eilanden speelt, zowel bij het ontstaan van kanker (als mechanisme voor het blokkeren van tumorsuppressorgenen), als ook bij de genomische imprinting een rol. In tumoren gebeurt vaak een algemene ondermethylering van cytosine in de CpG-dinucleotiden en een overmethylering in de CpG-eilanden van bepaalde tumorsuppressorgenen.[8]

De beide cytosinen in een CpG-dinucleotide zijn in het menselijk genoom het meeste gemethyleerd (DNA-methylering). In sommige gebieden wordt de methylering voortdurend onderdrukt. Vaak zijn deze gebieden CpG-eilanden en liggen vaak voor de genen (de zogenaamde promotorgebieden). De CpG van deze regio's zijn meestal niet gemethyleerd en hebben daardoor een mutatiedruk, die als volgt beschreven wordt:

Cytosinen zijn chemisch labiel. Ze kunnen in de cel aan een desaminering (–NH2 wordt vervangen door =O) ten grondslag liggen. Gemethyleerd cytosine wordt daarbij omgezet in thymine en niet gemethyleerde cytosine (bijvoorbeeld in de CpG-eilanden) wordt uracil. Terwijl thymidine een „normale“ nucleobase van het DNA is, behoort uracil niet in het DNA. Uracil – eigenlijk een base van het RNA – wordt zeer goed herkend en door cytosine omgezet. De DNA-reparatiemechanismen van de cel nemen het uit de tegenoverliggende DNA-streng zittende guanosine als basis voor de foutcorrectie. In de gemethyleerde CpG-dinucleotiden ontstaat door de desaminering daarentegen thymidine. Deze „fout“ wordt vaker getolereerd dan uracil en zorgt voor een blijvende mutatie.

Het volgende schema toont de mogelijke veranderingen door desaminering en de gevolgen van reparatie van het DNA respectievelijk blijvende mutaties.

 
Methylatie van CpG-plaatsen gevolgd wordt door spontane desaminering leidt tot een gebrek aan CpG-plaatsen in gemethyleerd DNA. Hierdoor komen overblijvende CpG-eilanden voor in gebieden waar weinig methylering voorkomt (of waar mutatie van C naar T zeer nadelig is).
                   1.                   2.                        3. 
                                                                |
     Gemethyleerd:                                              |
       m                                                        |     m
a)   --CpG--  desaminering   --TpG--    vaak       --CpG--      | → --CpG--
     --GpC--                 --GpC--               --GpC--      |   --GpC--
         m                       m                     m        |       m
                                                                |
                                                                |
b)                                    zelden       --TpG--      | → --TpG--
                                                   --ApC--      |   --ApC--
                                                       m        |
     Niet gemethyleerd:                                         |
                                                                |
c)   --CpG--   desaminering  --UpG--    zeer vaak  --CpG--      | 
     --GpC--                 --GpC--               --GpC--      |
                                                                |
                                                                |
                                                                |
d)                                    zeer zelden  --UpG--      | → --TpG--
                                                   --ApC--      |   --ApC--
                                                                |

Legenda bij het schema: Er zijn twee CpG-dinucleotiden, waarvan een gemethyleerd (m) kan worden [a) en b)], terwijl het andere niet gemethyleerd kan worden – bijvoorbeeld een CpG-eiland – [c) und d)]. De bij 2) veranderende nucleobasen zijn in vet aangegeven.

1. Een desaminering geeft een nieuw dinucleotide, waarvan de complementaire basenparing verbroken is.

2. Voor het daaropvolgende herstel van de complementaire basenparing zijn er twee mogelijkheden, die met een verschillende waarschijnlijkheid optreden. Het onderscheid tussen a) en b) met vaak en zelden komt doordat de tegenovergestelde streng een methylering van CpG geeft. Daardoor wordt deze streng in het DNA-reparatiesysteem als „oudere“, geconserveerde streng aangezien. Het grotere verschil tussen c) en d) met zeer vaak en zeer zelden berust op het feit dat uracil geen DNA-base is.

3. In vervolg op de ontstane mutatie worden verkeerde methyleringen of nucleobasen vervangen.

Bioinformatische analyse bewerken

Verscheidene algoritmen voor identificatie van CpG-eilanden worden beschreven.[9]

Het identificeren van CpG-eilanden met behulp van de Markovketen bewerken

  geeft het aantal van de st-paren op de CpG-eilanden aan en   anders (geen CpG-eilanden) met  . De overgangswaarschijnlijkheden worden met de meest aannemelijke schatter berekend:   en   De vaststelling berust op sequentiedelen, waarvan men weet of het al of niet CpG-eilanden zijn.

Gegeven is nu een onbekende sequentie X.

Vraag: "Is het een CpG-eiland?"

  • P(+|X) is de waarschijnlijkheid dat X een CpG-eiland is
  • P(-|X) is de waarschijnlijkheid dat X geen CpG-eiland is

Daartoe wordt een score-functie gedefinieerd:  

Als "prior" (van tevoren aangenomen waarschijnlijkheid) wordt de totale lengte van alle CpG-eilanden relatief ten opzichte van de totale lengte van het genoom gebruikt.

Het identificeren van CpG-eilanden met behulp van het Hidden Markov model bewerken

Als waarneembare parameters worden de basen (G,C,A,T) op elke plaats in de DNA-sequentie genomen. De verborgen parameter zegt iets over het feit of dit basengedeelte een CpG-eiland is of niet (+,-).

Er zijn 4 mogelijke overgangswaarschijnlijkheden:

   .

Elke verborgen parameter s levert een emissiewaarschijnlijkheid   van een waarneembare parameter b (een base) op:

 

De waarschijnlijkheid dat een waarneembare parameter aangezien wordt voor een verborgen parameter, geeft:  

met:     (zie Markovketen)

Daarmee wordt gegeven:  

Daar de inspanning voor maximering van P(Z | X) met de lengte van de sequentie exponentieel stijgt, is het recursieve Viterbi-Algoritme geschikt voor de oplossing van het probleem.