modelarea in silico a elementelor de răspuns hormonal

instruire nesupravegheată pentru modelul HRE

ca implementare a algoritmului de învățare nesupravegheat pentru modelarea HRE, în acest studiu este dezvoltată o abordare adaptată a matricei greutății poziției.

• algoritmul matricei greutății poziției

începem cu un model statistic al matricei greutății poziției (PWM) care a fost descris pentru prima dată de Quandt și colab. . Am adaptat conceptul de recunoaștere a modelelor HRE. Pentru a justifica dacă o secvență dată este o PRE, comparăm această secvență cu un set de secvențe validate experimental. Scorul de similitudine al comparației este proporțional cu suma tuturor rezultatelor comparațiilor de poziție. Pentru a compara o secvență cu o matrice, dezvoltăm următoarele procese:

  1. a)

    calculul conservării relative pentru fiecare poziție i din matrice:

unde P (i, b) este frecvența relativă a literei b în poziția i.

această conservare relativă este proporțională cu conținutul informațional pentru fiecare poziție, care, la rândul său, este indirect preocupat de energia de legare a nucleotidelor la aminoacizi . După cum se poate calcula cu ușurință, este nevoie de valoarea 0 atunci când distribuția nucleotidelor pe o anumită poziție este uniformă și nu demonstrează nicio conservare. Valoarea 1 este atinsă în cazul conservării puternice a unei anumite nucleotide. Factorii de normalizare au fost selectați pentru a varia Ci strict de la 0 la 1. Dacă pentru o anumită poziție, un rezultat al ‘ gap ‘ nu este evaluat, atunci în cele de mai sus, coeficienții 5 ar trebui schimbați în 4; adică este întotdeauna numărul de rezultate posibile pentru fiecare poziție.

  1. B)

    calculul coeficientului de similitudine a matricei care reprezintă asemănarea unei secvențe date și a modelului. Modelul este reprezentat de matricea frecvenței poziției.

unde b este ithletter-ul secvenței și scor(i, b) este elementul matricei frecvenței de poziție situată în rândul i și corespunzătoare nucleotidei B.

după cum se poate observa, cu cât coeficientul MS este mai mare, cu atât valorile scorului corespondent(i, b) vor fi mai mari; astfel, valorile MS mai mari corespund secvențelor care constau din nucleotide mai frecvente. În cele din urmă, cu cât valoarea SM este mai mare, cu atât secvența este mai aproape de setul de formare a siturilor de legare validate experimental.

similitudinea matricei ajunge la 1 numai dacă secvența candidată corespunde nucleotidei cele mai conservate la fiecare poziție a matricei. Înmulțirea fiecărui scor cu valoarea Ci subliniază faptul că neconcordanțele la pozițiile mai puțin conservate sunt mai ușor tolerate decât neconcordanțele la pozițiile foarte conservate.

• matrice de greutate a poziției Mono și di-nucleotidice

în modelarea recunoașterii prealabile pentru o secvență dată se calculează doi coeficienți de similitudine a matricei: mnms (similitudinea matricei mono-nucleotidice) și DNMS (similitudinea matricei di-nucleotidice). Înainte de a calcula acești coeficienți, secvența este aliniată cu consensul HRE. La urma urmei, pentru calcularea coeficienților de similitudine a matricei, se utilizează numai secvența aliniată. Cu toate acestea, poate conține unul sau mai multe lacune după procedura de aliniere.

primul calcul al coeficientului este o simplă comparație a matricei de frecvență a poziției mono-nucleotidelor cu secvența aliniată exact așa cum este descris mai sus.

a doua comparație necesită pregătire prealabilă. O secvență de nucleotide trebuie preprocesată pentru o comparație adecvată cu matricea de frecvență a poziției di-nucleotidelor. Alfabetul di-nucleotidelor existente este format din 25 de elemente (patru nucleotide diferite și un decalaj în toate combinațiile posibile). Alfabetul Latin conține suficiente litere diferite pentru a reconstrui conformitatea unu-la-unu, în care fiecare di-nucleotidă corespunde unei singure litere a noului alfabet.

apoi, pentru o secvență dobândită ca urmare a acestei conversii, coeficientul de similitudine a matricei este calculat exact ca în cele de mai sus pentru matricile de frecvență mono-nucleotidică, dar matricea utilizată acum este cea de frecvență dinucleotidică. Singura corecție este schimbarea coeficienților de normalizare. Deoarece numărul de di-nucleotide diferite (și numărul corespunzător de Litere din alfabetul nou implementat) este de până la 25, este necesar să se schimbe 4 sau 5 la 16 sau 20 sau 25, în funcție de faptul dacă un simbol decalaj este asumat în orice poziție a di-nucleotidei.

odată ce acești doi coeficienți au fost calculați, procedura de luare a deciziilor este pusă în aplicare. Utilizează niveluri de întrerupere pentru fiecare dintre cei doi coeficienți. Aceste niveluri de întrerupere trebuie să fie predeterminate prin unele metode de reglare sau validare încrucișată.

dacă pentru o secvență dată, MNMS este mai mare decât nivelul limită pentru această valoare și DNMS depășește și pragul său, atunci este un HRE.

pentru fiecare HRE recunoscut este definit cel mai similar element al setului de antrenament. De asemenea, este indicat dacă o astfel de secvență a jumătății drepte (care se așteaptă să fie foarte conservată) este prezentată în oricare dintre HREs validate experimental. Acest lucru este important în cazul unui set de instruire destul de mare și reprezentativ utilizat, atunci când absența unei secvențe date în eșantion ar putea fi un indicator valoros pentru reglarea modelului.

învățare automată supravegheată

rețeaua neuronală de avans este apoi utilizată pentru verificarea încrucișată a HREs prezise.

• Intrare/ieșire reprezentare

colectate de date constă dintr-un număr de secvențe de ADN în 4-scrisoare alfabet Ω = {a, C, G, T}. În modelul bazat pe frecvența poziției de mai sus, literele sunt adnotate ca stări diferite, independente și echidistante. Cu toate acestea, modelul rețelei neuronale funcționează cu numere digitale. Spațiul numerelor este unidimensional, deci dacă ne confruntăm cu toate cele 4 nucleotide cu numere, acestea nu mai sunt echidistante și, prin urmare, aducem câteva artefacte modelului nostru. După câteva teste am aflat că artefactele modelării folosind performanța unidimensională a nodurilor de intrare sunt destul de critice pentru precizie. Prin urmare, implementăm reprezentarea „one-hot” pentru codificarea ADN-ului.

pentru decizia Da/Nu, este suficient să reprezentați ieșirea ca un singur bit. Cu toate acestea, pentru a distinge elementele de răspuns Androgen, progesteron și Glucocorticoid (care formează setul nostru de date HREs) sau orice alte grupuri de HREs (deoarece HREs nu sunt cu siguranță un subspațiu uniform de secvențe ADN), prezentăm rezultatul ca vector. În special, ieșirea Da/Nu este un vector 2: da = (1,-1) și nu = (-1,1). În acest caz, mișcarea de ieșire este în spațiul bidimensional și permite o mai mare flexibilitate.

• structura rețelei neuronale

cu intrarea ca vectori 4-dimensionali, pentru un HRE lung de 15 bp, avem 60 de noduri de intrare. Teoria rețelei neuronale sugerează că pentru învățarea încrezătoare numărul de grade de libertate sau greutățile care se potrivesc, este cel mult jumătate din numărul de constrângeri (intrările). Prin urmare, în cazul unui strat ascuns și a unui set de date de aproximativ 7000 HREs pozitive și negative, ar trebui să limităm numărul de neuroni ascunși ai stratului la aproximativ 50. Astfel, avem 60 de ponderi (50+1) ale stratului ascuns și (50+1) 2 ponderi ale stratului de ieșire (plus una este pentru un termen de părtinire), în total aproximativ 3000. În cazul a două straturi ascunse, numărul maxim de neuroni pe fiecare strat este de aproximativ 40. Cu toate acestea, am constatat că utilizarea a două straturi este excesivă pentru problema actuală.

în modelul nostru de rețea neuronală, funcțiile sigmoide bipolare sunt utilizate pentru implementarea tuturor straturilor. Întreaga structură a rețelei este ilustrată în Fig. 2.

Figura 2
figura2

rețea neuronală artificială pentru recunoașterea prealabilă.

• Back-propagation learning

pentru formarea modelului, învățarea back-propagation este implementată: pentru fiecare model exemplar din setul de antrenament, Găsiți diferența greutăților pentru stratul de ieșire, propagați diferența la stratul ascuns, apoi Găsiți diferența greutăților pentru stratul ascuns și, în final, modificați toate greutățile rețelei.

ecuația de ajustare a greutăților pentru fiecare neuron este:

wt+1 = wt + x (4)

unde Wt + 1 este un vector de greutăți pentru un anumit neuron la etapa a T-A de învățare, AT este parametrul de învățare la etapa a T-A (0 < la < 1 inkt t > 0), valoarea delta pentru fiecare neuron se calculează după cum urmează:

unde dtși otreprezintă ieșirile dorite și obținute în prezent ale neuronului, respectiv, x este intrarea în stratul considerat (fie ascuns, fie ieșire), ut= wtx este intrarea sinaptică a neuronului, iar f(ut) este funcția de activare a neuronului. De asemenea, pentru valoarea delta propagată înapoi, K este un număr de neuroni de pe stratul de ieșire, wh->Keste coeficientul de greutate al conexiunii dintre neuronul hth al stratului ascuns și neuronul kth al stratului de ieșire, ieșirea inktik este o valoare delta pentru neuronul kth al stratului de ieșire calculat așa cum se arată prin formula (5).

back-propagarea se termină atunci când toleranța de eroare pentru precizia de 99% este îndeplinită, numărul dorit de epoci este trecut, sau platoul de eroare este atins.

parametrul ratei de învățare de la Ecuador reglează pasul algoritmului de coborâre a gradientului pentru minimizarea erorii de învățare. Cu cât rata de învățare este mai mare, cu atât convergența este mai rapidă. Dar, cu o rată de învățare foarte mare, există șansa de a sări peste minimul de eroare sau de a primi oscilații în loc de starea de echilibru. Pe de altă parte, o rată de învățare foarte scăzută oferă mai puține șanse de a găsi minimul global și, în schimb, folosește primul minim local găsit aleatoriu. Soluția noastră este de a ajusta parametrul de învățare: dacă eroarea de trecere curentă este mai mică decât cea anterioară, ne mișcăm într-o direcție corectă și ne putem mișca puțin mai repede, crescând cu 5%. Dacă am sărit peste minim și am primit o eroare mai mare, sistemul se întoarce cu pași mai mici, iar at este scăzut cu 30%.

pentru învățarea supravegheată, se utilizează un set de HREs verificate experimental cu răspunsul dorit da (1;-1), iar un set de zece ori de secvențe ADN neutre este asociat cu răspunsul dorit nu (-1;1). Ambele seturi de antrenament sunt mari, prin urmare, pentru ca rețeaua neuronală să evite oscilațiile severe, le amestecăm; în caz contrar, în timp ce se uită prin câteva sute de seturi de formare pozitive (negative), rețeaua se poate adapta la răspunsurile pozitive (negative), fără atenție la cele negative (pozitive).

estimarea preciziei

în scopul estimării preciziei, se utilizează validarea încrucișată de zece ori, 90% din setul total de date fiind setul de instruire, iar restul de 10% fiind utilizat în scopuri de testare. Această separare se repetă de 10 ori (cu seturi de testare care nu se suprapun), iar valorile medii ale erorilor sunt calculate.

Lasă un răspuns

Adresa ta de email nu va fi publicată.