i silico modellering av hormonresponselement

oövervakad träning för HRE-modellen

som en implementering av oövervakad inlärningsalgoritm för HRE-modellering utvecklas en anpassad positionsviktmatrismetod i denna studie.

• positionsviktmatrisalgoritmen

vi börjar med en statistisk modell av positionsviktmatris (PWM) som först beskrevs av Quandt et al. . Vi anpassade konceptet för erkännande av HRE-mönster. För att motivera om en given sekvens är en PRE, jämför vi denna sekvens med en uppsättning experimentellt validerade sekvenser. Likhetspoängen för jämförelsen är proportionell mot summan av alla resultat av positionsjämförelser. För att jämföra en sekvens med en matris utvecklar vi följande processer:

  1. a)

    beräkning av relativ bevarande för varje position i i matrisen:

där P (i, b) är relativ frekvens av bokstaven b i position i.

denna relativa bevarande är proportionell mot informationsinnehållet för varje position, som i sin tur indirekt berör nukleotid till aminosyrabindande energi . Som lätt kan beräknas tar det värdet 0 när nukleotidfördelning på en viss position är enhetlig och visar ingen bevarande. Värdet på 1 uppnås vid stark bevarande av en viss nukleotid. Normaliseringsfaktorerna valdes för att variera Ci strikt från 0 till 1. Om för en viss position, ett resultat av ’gap’ är inte betygsatt, sedan i ovanstående, koefficienter 5 bör ändras till 4; det vill säga, det är alltid antalet möjliga utfall för varje position.

  1. B)

    beräkning av matrisens likhetskoefficient som representerar likheten mellan en given sekvens och mönstret. Mönstret representeras av positionsfrekvensmatrisen.

där b är sekvensens ithletter och poäng (i, b) är elementet i positionsfrekvensmatrisen belägen i raden i och motsvarar nukleotiden b.

som kan ses är den högre MS-koefficienten, desto högre korrespondentpoäng(i, b) värden kommer att vara; således motsvarar högre MS-värden sekvenserna som består av mer frekventa nukleotider. Slutligen, ju högre MS-värde är, desto närmare är sekvensen till träningsuppsättningen av experimentellt validerade bindningsställen.

matrislikheten når endast 1 om kandidatsekvensen motsvarar den mest konserverade nukleotiden vid varje position i matrisen. Att multiplicera varje poäng med Ci-värdet betonar det faktum att missmatchningar vid mindre konserverade positioner lättare tolereras än missmatchningar vid mycket konserverade positioner.

• mono-och di-nukleotidpositionsviktmatriser

vid modellering av pre-igenkänning för en given sekvens beräknas två matrislikhetskoefficienter: MNMS (mono-nukleotidmatrislikhet) och DNMS (di-nukleotidmatrislikhet). Innan beräkningen av dessa koefficienter är sekvensen anpassad till konsensus HRE. För att beräkna matrisens likhetskoefficienter används endast inriktad sekvens. Det kan dock innehålla ett eller flera luckor efter justeringsförfarandet.

den första koefficientberäkningen är en enkel jämförelse av mono-nukleotidpositionsfrekvensmatrisen med den inriktade sekvensen exakt som beskrivits ovan.

den andra jämförelsen kräver föregående förberedelse. En nukleotidsekvens ska förbehandlas för lämplig jämförelse med Di-nukleotidpositionsfrekvensmatrisen. Alfabetet av befintliga di-nukleotider består av 25 element (fyra olika nukleotider och ett gap i alla möjliga kombinationer). Latinska alfabetet innehåller tillräckligt olika bokstäver för att rekonstruera en-till-en-överensstämmelse, där varje di-nukleotid motsvarar en enda bokstav i det nya alfabetet.

sedan, för en sekvens som förvärvats som ett resultat av denna omvandling, beräknas matrislikhetskoefficienten exakt som i ovanstående för mono-nukleotidfrekvensmatriser, men matrisen som används nu är dinukleotidfrekvensen en. Den enda korrigeringen är förändringen av normaliseringskoefficienter. Eftersom antalet olika di-nukleotider (och motsvarande antal bokstäver i det nyligen implementerade alfabetet) är så många som 25, är det nödvändigt att ändra 4 eller 5 till 16 eller 20 eller 25, beroende på om en gap-symbol antas i vilken position som helst av DI-nukleotiden.

när dessa två koefficienter har beräknats genomförs beslutsförfarandet. Den använder cut-off nivåer för var och en av två koefficienter. Dessa gränsvärden måste vara förutbestämda med vissa inställningsmetoder eller korsvalidering.

om för en given sekvens är MNMS större än cut-off-nivån för detta värde, och DNMS överstiger dess tröskel också, då är det en HRE.

för varje erkänd HRE definieras det mest liknande elementet i träningsuppsättningen. Det indikeras också om en sådan sekvens av den högra halvplatsen (som förväntas vara mycket konserverad) presenteras i någon av de experimentellt validerade HREs. Detta är viktigt när det gäller ganska stor och representativ träningsuppsättning som används, när frånvaro av en given sekvens i provet kan vara en värdefull indikator för att ställa in modellen.

övervakad maskininlärning

Feed-forward neurala nätverk används sedan för korsverifiering av de förutsagda HREs.

• input/output representation

den insamlade datamängden består av ett antal DNA-sekvenser i 4-bokstavs alfabet, 2 = {A, C, G, T}. I ovanstående positionsfrekvensbaserad modell är bokstäverna annoterade som olika, oberoende och likvärdiga tillstånd. Den neurala nätverksmodellen fungerar dock med digitala nummer. Utrymmet för siffror är endimensionellt, så om vi konfronterar alla 4 nukleotider med siffror, är de inte lika långt längre, och därför tar vi med några artefakter till vår modell. Efter några tester fick vi reda på att artefakterna för modellering med endimensionell prestanda för ingångsnoder är ganska kritiska för noggrannheten. Därför implementerar vi den” one-hot ” representationen för DNA-kodning.

för ja / nej-beslut räcker det att representera utmatningen som en enda bit. Men för att skilja Androgen -, progesteron-och Glukokortikoidresponselement (som bildar vår dataset av HREs) eller andra kluster av HREs (eftersom HREs definitivt inte är ett enhetligt underrum av DNA-sekvenser) presenterar vi utmatningen som en vektor. I synnerhet är ja / nej-utgången en 2-vektor: Ja = (1, -1) och nej = (-1,1). I detta fall är utmatningsrörelsen i det tvådimensionella rummet och möjliggör mer flexibilitet.

• den neurala nätverksstrukturen

med ingången som 4-dimensionella vektorer, för en 15 bp-lång HRE, har vi 60 ingångsnoder. Neurala nätverksteorin antyder att för säker inlärning är antalet frihetsgrader eller vikter som passar högst hälften av antalet begränsningar (ingångarna). Därför, när det gäller ett dolt lager och en dataset på cirka 7000 positiva och negativa HRE, bör vi begränsa antalet dolda lagerneuroner till cirka 50. Således har vi 60 (50+1) vikten av det dolda skiktet och (50+1) 2 vikter av utgångsskiktet (plus en är för en bias term), totalt ca 3000. När det gäller två dolda lager är det maximala antalet neuroner på varje lager cirka 40. Vi fann dock att användningen av två lager är överdriven för det aktuella problemet.

i vår neurala nätverksmodell används bipolära sigmoidfunktioner för implementering av alla lager. Hela nätverksstrukturen illustreras i Fig. 2.

Figur 2
figur2

artificiellt neuralt nätverk för pre-erkännande.

• Back-propagation learning

för träning av modellen implementeras back-propagation learning: för varje exemplarmönster från träningsuppsättningen, hitta skillnaden mellan vikterna för utgångsskiktet, bakåtföröka skillnaden till det dolda lagret, hitta sedan skillnaden mellan vikterna för det dolda lagret och slutligen ändra alla vikter i nätverket.

ekvationen för viktjustering för varje neuron är:

wt + 1 = WT + 2BX x (4)

där wt + 1 är en vektor av vikter för en viss neuron vid tth-inlärningssteget, AT är inlärningsparametern vid tth-steget (0 < vid < 1 2BX t > 0) beräknas deltavärdet för varje neuron enligt följande:

där dtoch otrepresenterar de önskade och för närvarande erhållna utgångarna från neuronen respektive är x ingången till skiktet som övervägs (antingen dold eller utgång), ut= wtx är den synaptiska ingången till neuronen och f(ut) är neuronens aktiveringsfunktion. För det bakåtförökade deltavärdet är K också ett antal neuroner på utgångsskiktet, wh->kis är viktkoefficienten för sambandet mellan HTH-neuron i det dolda lagret och KTH-neuron i utgångsskiktet, är aubbik-utgång ett deltavärde för KTH-neuron i utgångsskiktet beräknat enligt formel (5).

bakutbredningen avslutas när feltoleransen för noggrannheten på 99% är nöjd, det önskade antalet epoker passeras eller felplatån uppnås.

Inlärningshastighetsparameter Brasilien reglerar steget i gradient nedstigningsalgoritmen för minimering av inlärningsfelet. Ju högre inlärningshastighet är desto snabbare konvergens går. Men med en mycket hög inlärningshastighet finns det en chans att hoppa över minsta fel eller ta emot svängningar istället för steady state. Å andra sidan ger en mycket låg inlärningsfrekvens mindre chans att hitta det globala minimumet, och istället använder det det första slumpmässigt hittade lokala minimumet. Vår lösning är att justera inlärningsparametern: om det aktuella passfelet är mindre än det föregående, rör vi oss i rätt riktning och kan röra oss lite snabbare, vilket ökar 6% av antalet. Om vi har hoppat över det minsta och fått större fel, går systemet tillbaka med mindre steg, och at minskas med 30%.

för det övervakade lärandet används en uppsättning experimentellt verifierade HREs med önskat svar Ja (1;-1) och en tiofaldig uppsättning neutrala DNA-sekvenser är associerad med önskat svar Nej (-1; 1). Båda träningsuppsättningarna är stora, för att det neurala nätverket ska undvika svåra svängningar blandar vi dem; annars, medan man tittar igenom flera hundra av de positiva (negativa) träningsuppsättningarna, kan nätverket anpassa sig till de positiva (negativa) svaren, utan att uppmärksamma de negativa (positiva).

Noggrannhetsuppskattning

för noggrannhetsuppskattningsändamål används tiofaldig korsvalidering, 90% av det totala datasetet är träningsuppsättningen och resten 10% används för teständamål. Denna separation upprepas 10 gånger (med icke-överlappande testuppsättningar) och de genomsnittliga felvärdena beräknas.

Lämna ett svar

Din e-postadress kommer inte publiceras.