In silico modeling of hormone response elements

trening bez nadzoru dla modelu HRE

jako implementacja algorytmu uczenia bez nadzoru dla modelowania HRE, w niniejszym badaniu opracowano podejście oparte na matrycy wagi pozycji.

• algorytm macierzy wagi pozycyjnej

zaczynamy od statystycznego modelu macierzy wagi pozycyjnej (PWM), który został po raz pierwszy opisany przez Quandta i wsp. . Dostosowaliśmy koncepcję do rozpoznawania wzorców HRE. Aby uzasadnić, czy dana sekwencja jest PRE, porównujemy tę sekwencję ze zbiorem doświadczalnie zwalidowanych sekwencji. Wynik podobieństwa porównania jest proporcjonalny do sumy wszystkich wyników porównań pozycji. W celu porównania sekwencji z macierzą opracowujemy następujące procesy:

  1. a)

    Obliczanie zachowania względnego dla każdej pozycji i w macierzy:

gdzie P (i, b) jest częstością względną litery b w pozycji i.

ta względna konserwacja jest proporcjonalna do zawartości informacji dla każdej pozycji, która z kolei dotyczy pośrednio energii wiązania nukleotydu z aminokwasem . Jak można łatwo obliczyć, przyjmuje wartość 0, gdy rozkład nukleotydów w określonej pozycji jest jednolity i nie wykazuje zachowania. Wartość 1 jest osiągana w przypadku silnego zachowania danego nukleotydu. Czynniki normalizacji zostały wybrane w celu zmiany Ci ściśle od 0 do 1. Jeśli dla konkretnej pozycji wynik „luki” nie jest oceniany, to w powyższym współczynniku 5 należy zmienić na 4; to znaczy zawsze jest to liczba możliwych wyników dla każdej pozycji.

  1. B)

    obliczanie współczynnika podobieństwa macierzy, który reprezentuje podobieństwo danej sekwencji i wzoru. Wzór jest reprezentowany przez macierz częstotliwości położenia.

gdzie b jest ithletterem sekwencji, a wynik(i, b) jest elementem macierzy częstotliwości pozycyjnej znajdującej się w wierszu i i odpowiadającej nukleotydowi b.

jak widać, im wyższy współczynnik MS, tym wyższe będą wartości wyniku korespondencyjnego(i, b); zatem wyższe wartości MS odpowiadają sekwencjom składającym się z częstszych nukleotydów. Wreszcie, im wyższa jest wartość MS, tym sekwencja jest bliższa zestawowi treningowemu potwierdzonych doświadczalnie miejsc wiązania.

podobieństwo macierzy osiąga 1 tylko wtedy, gdy sekwencja kandydująca odpowiada najbardziej zachowanemu nukleotydowi w każdej pozycji macierzy. Pomnożenie każdego wyniku przez wartość Ci podkreśla fakt, że niedopasowania w mniej zachowanych pozycjach są łatwiej tolerowane niż niedopasowania w wysoce zachowanych pozycjach.

w modelowaniu wstępnego rozpoznawania dla danej sekwencji oblicza się dwa współczynniki podobieństwa macierzy: MNMS (mono-nucleotide Matrix similarity) i DNMS (di-nucleotide matrix similarity). Przed obliczeniem tych współczynników sekwencja jest wyrównywana do konsensusu HRE. Wszakże do obliczania współczynników podobieństwa macierzy stosuje się tylko sekwencję wyrównaną. Może jednak zawierać jedną lub więcej luk po procedurze wyrównania.

pierwsze obliczenie współczynnika jest prostym porównaniem mono-nukleotydowej macierzy częstotliwości pozycyjnej z wyrównaną sekwencją dokładnie tak, jak opisano powyżej.

drugie porównanie wymaga wcześniejszego przygotowania. Sekwencję nukleotydową należy wstępnie przetworzyć w celu odpowiedniego porównania z matrycą częstotliwości położenia di-nukleotydów. Alfabet istniejących di-nukleotydów składa się z 25 elementów (cztery różne nukleotydy i szczelina we wszystkich możliwych kombinacjach). Alfabet łaciński zawiera wystarczająco dużo różnych liter, aby zrekonstruować konformizm jeden do jednego, w którym każdy dwunukleotyd odpowiada jednej literze nowego alfabetu.

następnie, dla sekwencji uzyskanej w wyniku tej konwersji, współczynnik podobieństwa macierzy jest obliczany dokładnie tak, jak w powyższym przypadku macierzy częstotliwości mono-nukleotydowych, ale obecnie używana macierz jest częstotliwością dinukleotydową. Jedyną poprawką jest zmiana współczynników normalizacji. Ponieważ liczba różnych di-nukleotydów (i odpowiadająca im liczba liter w nowo zaimplementowanym alfabecie) wynosi aż 25, konieczna jest zmiana 4 lub 5 na 16 lub 20 lub 25, w zależności od tego, czy w dowolnej pozycji di-nukleotydu przyjmuje się symbol szczeliny.

po obliczeniu tych dwóch współczynników wdraża się procedurę decyzyjną. Stosuje poziomy odcięcia dla każdego z dwóch współczynników. Te poziomy odcięcia muszą być z góry określone za pomocą niektórych metod strojenia lub weryfikacji krzyżowej.

jeśli dla danej sekwencji MNMS jest większy niż poziom odcięcia dla tej wartości, a DNMS również przekracza jej próg, to jest to HRE.

dla każdego rozpoznanego HRE zdefiniowany jest najbardziej podobny element zestawu treningowego. Wskazuje się również, czy taka sekwencja prawej połowy miejsca (która ma być wysoce konserwowana) jest przedstawiona w którymkolwiek z znalezionych doświadczalnie potwierdzonych HRE. Jest to ważne w przypadku dość dużego i reprezentatywnego zestawu treningowego, gdy brak danej sekwencji w próbce może być cennym wskaźnikiem strojenia modelu.

nadzorowane uczenie maszynowe

sieć neuronowa Feed-forward jest następnie używana do weryfikacji krzyżowej przewidywanych HRE.

• reprezentacja wejścia/wyjścia

zebrany zbiór danych składa się z szeregu sekwencji DNA w 4-literowym alfabecie Ω = {A, C, G, T}. W powyższym modelu opartym na częstotliwościach pozycyjnych litery są adnotowane jako różne, niezależne i równo oddalone Stany. Jednak model sieci neuronowej działa z numerami cyfrowymi. Przestrzeń liczb jest jednowymiarowa, więc jeśli skonfrontujemy wszystkie 4 nukleotydy z liczbami, nie są one już tak samo odległe, a zatem wnosimy pewne artefakty do naszego modelu. Po kilku testach okazało się, że Artefakty modelowania przy użyciu jednowymiarowej wydajności węzłów wejściowych są dość krytyczne dla dokładności. Dlatego implementujemy reprezentację „one-hot” dla kodowania DNA.

dla decyzji tak / nie wystarczy przedstawić wyjście jako pojedynczy bit. Jednak w celu odróżnienia androgenów, progesteronu i glikokortykosteroidów (które tworzą nasz zbiór danych HREs) lub innych klastrów HREs (ponieważ hres zdecydowanie nie są jednolitą podprzestrzenią sekwencji DNA), prezentujemy wyjście jako wektor. W szczególności Wyjście tak/nie jest 2-wektorowe: tak = (1,-1) i nie = (-1,1). W tym przypadku ruch wyjścia znajduje się w przestrzeni dwuwymiarowej i pozwala na większą elastyczność.

• struktura sieci neuronowej

z wejściem jako wektory 4-wymiarowe, dla HRE o długości 15 bp mamy 60 węzłów wejściowych. Teoria sieci neuronowych sugeruje, że dla pewnego uczenia się liczba stopni swobody lub wag do zmieszczenia, jest co najwyżej połową liczby ograniczeń (wejść). Dlatego w przypadku jednej warstwy ukrytej i zbioru danych około 7000 dodatnich i ujemnych HRE, powinniśmy ograniczyć liczbę neuronów warstwy ukrytej do około 50. Tak więc mamy 60 × (50+1) wagi warstwy ukrytej i (50+1) × 2 wagi warstwy wyjściowej (plus jeden jest dla terminu odchylenia), łącznie około 3000. W przypadku dwóch warstw ukrytych Maksymalna liczba neuronów na każdej warstwie wynosi około 40. Jednak okazało się, że użycie dwóch warstw jest nadmierne dla obecnego problemu.

w naszym modelu sieci neuronowej funkcje esicy dwubiegunowej są używane do implementacji wszystkich warstw. Całą strukturę sieci zilustrowano na Fig. 2.

Rysunek 2
figurka2

Sztuczna sieć neuronowa do wstępnego rozpoznania.

• Nauka propagacji pleców

w celu szkolenia modelu, nauka propagacji pleców jest realizowana: dla każdego przykładowego wzoru z zestawu treningowego Znajdź różnicę ciężarów dla warstwy wyjściowej, propaguj różnicę do warstwy ukrytej, następnie znajdź różnicę ciężarów dla warstwy ukrytej, a na koniec zmodyfikuj wszystkie ciężary sieci.

równanie regulacji wag dla każdego neuronu jest:

WT + 1 = WT+α × δ x (4)

gdzie WT + 1 jest wektorem wag dla danego neuronu na etapie TTH uczenia się, at jest parametrem uczenia się na etapie TTH (0 < na < 1 ∀ t > 0), wartość delta dla każdego neuronu oblicza się w następujący sposób:

gdzie DT i otreprezentują odpowiednio pożądane i obecnie uzyskane wyjścia neuronu, x jest wejściem do rozważanej warstwy (ukrytym lub wyjściowym), ut= wtx jest wejściem synaptycznym do neuronu, A f(ut) jest funkcją aktywacji neuronu. Ponadto, dla propagowanej wstecz wartości delta, K jest liczbą neuronów na warstwie wyjściowej, wh – > K jest współczynnikiem wagowym połączenia między neuronem HTH warstwy ukrytej a neuronem KTH warstwy wyjściowej, wyjście δk jest wartością delta dla neuronu KTH warstwy wyjściowej obliczoną zgodnie ze wzorem (5).

propagacja wsteczna jest zakończona, gdy tolerancja błędu dla dokładności 99% jest spełniona, pożądana liczba epok jest przekazywana lub poziom błędu jest osiągany.

parametr szybkości uczenia α reguluje krok algorytmu opadania gradientowego w celu zminimalizowania błędu uczenia. Im wyższy wskaźnik uczenia się, tym szybsza konwergencja. Ale przy bardzo wysokim współczynniku uczenia się istnieje szansa na przeskoczenie minimum błędu lub otrzymanie oscylacji zamiast stanu ustalonego. Z drugiej strony, bardzo niski wskaźnik uczenia się zapewnia mniejszą szansę na znalezienie globalnego minimum, a zamiast tego wykorzystuje pierwsze losowo znalezione minimum lokalne. Naszym rozwiązaniem jest dostosowanie parametru uczenia: jeśli aktualny błąd przejścia jest mniejszy niż poprzedni, poruszamy się we właściwym kierunku i możemy poruszać się nieco szybciej, zwiększając α o 5%. Jeśli przeskoczyliśmy minimum i otrzymaliśmy większy błąd, system wraca z mniejszymi krokami, a at jest zmniejszone o 30%.

do nadzorowanego uczenia się stosuje się zestaw doświadczalnie zweryfikowanych HRE z pożądaną odpowiedzią tak (1;-1), a dziesięciokrotny zestaw neutralnych sekwencji DNA jest związany z pożądaną odpowiedzią nie (-1;1). Oba zestawy treningowe są duże, dlatego aby sieć neuronowa mogła uniknąć silnych oscylacji, mieszamy je; w przeciwnym razie, przeglądając kilkaset pozytywnych (negatywnych) zestawów treningowych, sieć może dostosować się do pozytywnych (negatywnych) odpowiedzi, bez zwracania uwagi na negatywne (pozytywne) odpowiedzi.

estymacja dokładności

do celów estymacji dokładności stosuje się dziesięciokrotną weryfikację krzyżową, przy czym 90% całego zestawu danych stanowi zestaw szkoleniowy, a pozostałe 10% służy do celów testowych. Ta separacja jest powtarzana 10 razy (Przy nie nakładających się zestawach testowych) i obliczane są średnie wartości błędu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.