ホルモン応答要素のin silicoモデリング

Hreモデルの教師なしトレーニング

HREモデリングのための教師なし学習アルゴリズムの実装として、適応位置重み行列アプローチが開発されています。

•位置重み行列アルゴリズム

Quandtらによって最初に記述された位置重み行列(PWM)の統計モデルから始めます。 . HREパターンの認識のための概念を適応させた。 与えられたシーケンスがPREであるかどうかを正当化するために、このシーケンスを実験的に検証されたシーケンスのセットと比較します。 比較の類似度スコアは、位置比較のすべての結果の合計に比例します。 シーケンスと行列を比較するために、以下のプロセスを開発します:

  1. A)

    行列内の各位置iに対する相対保存の計算:

ここで、P(i,b)は、位置iにおける文字bの相対頻度である。

この相対的な保存は、各位置の情報内容に比例し、ヌクレオチドからアミノ酸への結合エネルギーに間接的に関係しています。 簡単に計算できるように、特定の位置でのヌクレオチド分布が均一であり、保存を示さない場合は0の値を取る。 1の値は、特定のヌクレオチドの強力な保存の場合に到達する。 Ciを厳密に0から1まで変化させるために、正規化因子を選択した。 特定の位置のために、’ギャップ’の結果が評価されなければ、上で、係数5は4に変わるべきである;すなわち、それは各位置のための可能な結果の数常に

  1. B)

    与えられたシーケンスとパターンの類似性を表す行列類似係数の計算。 このパターンは、位置周波数行列で表されます。

ここで、bは配列のithletterであり、score(i,b)は行iに位置し、ヌクレオチドbに対応する位置頻度行列の要素である。

見られるように、MS係数が高いほど、対応するscore(i,b)値が高くなり、したがって、MS値が高いほど、より頻繁なヌクレオチドからなる配列に対応する。 最後に、MS値が高いほど、配列は実験的に検証された結合部位の訓練セットに近い。

マトリックスの類似性は、候補配列がマトリックスの各位置で最も保存されたヌクレオチドに対応する場合にのみ1に達する。 各スコアにCi値を乗算すると、保存されていない位置での不一致が、保存されていない位置での不一致よりも容易に許容されるという事実が強調さ

•モノおよびジヌクレオチド位置重み行列

与えられた配列に対する事前認識のモデリングでは、MNMS(mono-nucleotide matrix similarity)とDNMS(di-nucleotide matrix similarity)の二つの行列類似係数が計算されます。 これらの係数を計算する前に、シーケンスはコンセンサスHREと整列されます。 結局のところ、行列類似性係数を計算するために、整列された配列のみが使用される。 ただし、整列手順の後に一つ以上の隙間を含んでいてもよい。

最初の係数の計算は、上記のように正確に整列された配列とモノヌクレオチド位置周波数行列の簡単な比較です。

第二の比較には事前の準備が必要です。 塩基配列は、ジヌクレオチド位置周波数マトリックスとの適切な比較のために前処理されるべきである。 既存のジヌクレオチドのアルファベットは、25の要素(四つの異なるヌクレオチドとすべての可能な組み合わせのギャップ)で構成されています。 ラテンアルファベットは、すべてのジヌクレオチドが新しいアルファベットの単一の文字に対応する一対一の適合性を再構築するのに十分な異なる文字を含んでいる。

そして、この変換の結果として取得された配列については、モノヌクレオチド周波数行列については上記のように行列類似係数が計算されますが、現在使用されている行列はジヌクレオチド周波数のものです。 唯一の補正は、正規化係数の変更です。 異なるジヌクレオチドの数(および新たに実装されたアルファベットの対応する文字の数)は25であるため、ジヌクレオチドの任意の位置にギャップシンボルが想定されているかどうかに応じて、4または5を16または20または25に変更する必要がある。

これら二つの係数が計算されると、意思決定手順が実装されます。 これは、2つの係数のそれぞれにカットオフレベルを使用します。 これらのカットオフレベルは、いくつかの調整方法または交差検証によって事前に決定する必要があります。

与えられたシーケンスについて、MNMSがこの値のカットオフレベルよりも大きく、DNMSもそのしきい値を超えている場合、それはHREです。

認識された各HREについて、訓練セットの最も類似した要素が定義されます。 このような右半部位の配列(高度に保存されると予想される)が、実験的に検証されたHreのいずれかにおいて提示されるかどうかも示される。 これは、サンプル中に与えられたシーケンスが存在しないことがモデルを調整するための貴重な指標となる可能性がある場合に、かなり大きく代表的

教師あり機械学習

フィードフォワードニューラルネットワークは、予測されたHREsの交差検証に使用されます。

•入力/出力表現

収集されたデータセットは、4文字のアルファベットΩ={A,C,G,T}のDNA配列の数で構成されています。 上記の位置周波数ベースのモデルでは、文字は異なる独立した等距離の状態として注釈されています。 しかし、ニューラルネットワークモデルは、デジタル番号で動作します。 数の空間は一次元であるので、4つのヌクレオチドすべてに数で直面すると、それらはもはや等距離ではないので、我々はいくつかの人工物を我々のモデルに持ってくる。 いくつかのテストの後、入力ノードの一次元性能を使用したモデリングの成果が精度にとって非常に重要であることがわかりました。 したがって、我々はDNAエンコードのための”one-hot”表現を実装します。

はい/いいえの決定の場合、出力を単一のビットとして表すだけで十分です。 しかし、アンドロゲン、プロゲステロン、グルココルチコイド応答要素(HREsのデータセットを形成する)、またはHREsの他のクラスター(hresは間違いなくDNA配列の均一な部分空間ではないため)を区別するために、我々はベクターとして出力を提示する。 特に、Yes/No出力は、Yes=(1,-1)およびNo=(-1,1)の2ベクトルです。 この場合、出力の動きは二次元空間にあり、より柔軟性を可能にする。

•ニューラルネットワーク構造

入力を4次元ベクトルとして、15bpの長さのHREの場合、60個の入力ノードがあります。 ニューラルネットワーク理論は、自信を持って学習するために、自由度の数、または適合する重みは、制約(入力)の数の最大半分であることを示唆しています。 したがって、1つの隠れ層と約7000の正および負のHreのデータセットの場合、隠れ層ニューロンの数を約50に制限する必要があります。 したがって、隠れ層の60×(50+1)重みと出力層の(50+1)×2重み(プラス1はバイアス項のためのものです)、合計約3000があります。 二つの隠れ層の場合、各層のニューロンの最大数は約40である。 しかし、現在の問題では、2つの層の使用が過剰であることがわかりました。

我々のニューラルネットワークモデルでは、バイポーラシグモイド関数は、すべての層の実装のために使用されます。 全体のネットワーク構造を図1 0に示す。 2.

フィギュア2
図2

事前認識のための人工ニューラルネットワーク。

• 逆伝搬学習

モデルの学習のために、逆伝搬学習が実装されています: 学習セットからの各サンプルパターンについて、出力層の重みの差を見つけ、その差を隠れ層に逆伝播してから、隠れ層の重みの差を見つけ、最後にネッ

各ニューロンの重み調整の式は次のようになります:

wt+1=wt+α×δ x(4)

ここで、wt+1は学習のt番目のステップでの特定のニューロンの重みのベクトル、atはt番目のステップでの学習パラメータ(0<at<1≤t>0)であり、各ニューロンのデルタ値は次のように計算される。:

ここで、dtとotはニューロンの所望の出力と現在得られている出力をそれぞれ表し、xは考慮される層への入力(非表示または出力)、ut=wtxはニューロンへのシナプ また、逆伝播デルタ値については、Kは出力層上のニューロンの数であり、wh->kisは出力層の隠れ層とk番目のニューロンとの接続の重み係数であり、δ k outputは式(5)で示すように算出された出力層のk番目のニューロンに対するデルタ値である。

99%の精度に対する誤差許容度が満たされた場合、所望のエポック数が渡された場合、または誤差プラトーに達した場合、逆伝搬は終了します。

学習率パラメータαは、学習誤差を最小化するための勾配降下アルゴリズムのストライドを調節します。 学習率が高いほど収束が速くなります。 しかし、非常に高い学習率では、誤差の最小値を飛び越えるか、定常状態の代わりに振動を受け取る機会があります。 一方、非常に低い学習率は、グローバル最小値を見つける機会が少なく、代わりに、ランダムに見つかった最初のローカル最小値を使用します。 私たちの解決策は、学習パラメータを調整することです: 現在の通過誤差が前のものよりも小さい場合、正しい方向に移動しており、αを5%増加させて少し速く移動することができます。 最小値を超えて大きなエラーを受け取った場合、システムはより小さなステップで戻り、atは30%減少します。

教師あり学習では、実験的に検証されたHREsのセットを所望の答えYES(1;-1)で使用し、中性DNA配列の十倍のセットを所望の答えNO(-1;1)に関連付けます。 両方のトレーニングセットは大きいので、ニューラルネットワークが重度の振動を避けるために、それらを混合します; そうでなければ、数百の正の(負の)トレーニングセットを見ながら、ネットワークは、負の(正の)ものに注意を払わずに、正の(負の)答えに向かって適応するかもしれません。

精度推定

精度推定のために、十倍交差検証が使用され、データセット全体の90%がトレーニングセットであり、残りの10%がテスト目的で使用されます。 この分離は10回繰り返され(重複しないテストセットで)、平均誤差値が計算されます。

コメントを残す

メールアドレスが公開されることはありません。