91成人国产网站在线观看_久久久久亚洲av成人毛片韩_国产偷窥真人视频在线观看_乳揉みま痴汉电车中文字幕_欧美日韩精品一区二区三区_九色视频网站

English | 中文版 | 手機版 企業登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術文章 > 特征選擇在生物信息學中的應用

特征選擇在生物信息學中的應用

瀏覽次數:5847 發布日期:2009-2-4  來源:本站 僅供參考,謝絕轉載,否則責任自負
隨著生物信息學的發展,許多模式識別技術無法滿足處理大量不相關特征的需求,因此特征選擇技術(FS techniques)在生物信息學中的應用就變得越來越重要了。

        在過去的幾年里,應用特征選擇技術已經從僅僅作為一個說明性的例子發展到了建立模型所需要的先決條件了。特征選擇技術最重要的目的有3點:(1)避免過度適應和提高模型的性能;(2)提供更快的和更有效的模型;(3)對生成數據的潛在的過程獲得更深入的了解。當然,特征選擇技術在搜索相關特征的子集時也會為建立模型引入額外的復雜度。下面將簡要介紹特征選擇技術在生物信息學中的應用。

1、序列分析中的特征選擇
 
        序列分析是生物信息學中常見的工作,對鄰近序列的特征選擇可以分為兩類:內容分析(content analysis)和信號分析(signal analysis)。內容分析著眼于序列主要的特征,例如序列編碼蛋白的傾向性或者實現的某種生物學的功能。而信號分析則著眼于序列中重要基序的識別,例如基因的結構元件或者調控元件。

(1)內容分析。

        編碼蛋白的子序列的預測(編碼潛在性的預測)一直是生物信息學研究的問題。由于許多特征可以從序列中提取出來,并且大部分特征之間的依賴關系僅僅與相鄰的位置有關,因此,各種Markov模型被用于該問題的研究。起初,為了處理有限數量樣本中大量的可能特征,引入了內插值填補的Markov模型(interpolated Markov model,IMM)。該模型通過在少量樣本條件下往Markov模型的不同特征次序中插入某一特征,然后利用過濾方法選擇僅僅有聯系的特征。接著,IMM的框架被擴展來處理非相鄰特征的依賴性,產生了內插值填補的鄰近模型(interpolated context model,ICM)。該模型將Bayesian決策樹與過濾方法結合起來評估特征的相關性。

        近來,FS技術的方法被用于編碼潛在性的預測。該方法將幾種不同的編碼潛在性預測的方法結合起來,然后用Markov覆蓋多元過濾的方法(Markov blanket multivariate filter approach,MBF)只保留下有相關性的特征。

        內容分析的第二類問題就是從序列預測蛋白的功能。早期的工作是將遺傳算法和gamma檢測結合起來,為從大量rRNA子集分類出來的特征的集合打分,這種工作啟發了研究者使用FS技術來分析與蛋白功能種類有關的氨基酸的子集。其中有一項技術就是對支持向量集(SVM)進行有選擇的核心度量來估計特征的權重,然后去掉低權重的特征。

       另外,FS技術在序列分析的域分析中也有了進一步的應用,比如識別啟動子區域和microRNA靶點預測。

(2)信號分析

        許多序列分析的方法都包括識別序列中短的保守的信號,這種信號表現為各種蛋白或者蛋白復合物的綁定位點。通常用來尋找調控基序的方法是用回歸的方法將基序與基因表達水平聯系起來,然后使用FS技術搜索基序,使之能最大程度上適合這個回歸模型。

        信號分析中另一個重要的問題就是預測基因的結構元件,例如剪接位點(splice sites)和轉錄起始位點(translation initiation site,TIS)。對于剪接位點的預測,可以結合連續的回溯方法(sequential backward method)和嵌入式SVM評估標準(embedded SVM evaluation criterion)來估計特征的相關性,或者利用分布式算法評估(estimation of distribution algorithm,EDA)來獲得相關的特征。同樣的,利用FS技術預測TIS,可以使用特征分類熵(feature-class entropy)作為篩選量度來去除不相關的特征。
在今后的研究中,FS技術被期望用于其他的預測工作,例如鑒別與選擇性剪接位點或者選擇性轉錄起始位點有關的相關特征。

2、單核苷酸多態性分析中的特征選擇

        單核苷酸多態性(single nucleotide polymorphisms,SNPs)是進化過程中單個核苷酸位點的突變并且可以通過遺傳傳遞下去,這可以解釋不同個體間大部分的遺傳變異。SNPs是許多疾病基因研究的前沿,在人的基因組中數目估計在7百萬左右,因此選擇一個具有充足信息并且足夠小的SNPs子集來描述基因型是疾病基因相關研究中重要的一步。

        在過去的幾年中已經發展了一些計算方法來選擇單體型標簽SNP(htSNP)。一種方法假設人類基因組可以被認為是離散的區域集合,僅僅共享很小的共用單體型集合。這種方法的目的是確定一個SNPs的集合來區分所有的共用的單體型,或者至少可以解釋其中的一部分。第二種共用htSNPs的選擇方法是基于SNPs的配對原理,試圖選擇一個htSNPs的集合使得一個單體型上的每個SNPs都和一個htSNPs高度相關。第三種方法認為htSNPs是所有SNPs的一個子集,通過這個子集可以重構剩余的SNPs。這種選擇htSNPs的方法取決于剩余沒有選擇的SNPs預測的精確程度。

        如果目標區域中單體型的結構未知,常用的方法是在相等的間隔上選擇標記物,給出要選擇的SNPs的數據和期望的間距。較為有效的方法包括基于遺傳算法與SVM結合的方法、包括3個分類算法(k-NN,SVM和naïve Bayes)的Relief-F特征選擇算法和多元線性回歸SNP預測算法等。

3、文本和文獻挖掘中的特征選擇

       文本和文獻挖掘是生物學中數據挖掘方面的一個新興領域,文本和文件的一個重要表示就是所謂的BOW(bag-of-words)表示,將文本中的每一個詞表示為一個變量,而它的值為該詞在文本中出現的頻率。這樣的表示方式就使得從一個文本得到一個很高維度的數據集,因此需要使用特征選擇技術來進行文本挖掘。
盡管特征選擇技術經常應用于文本分類領域,但是對于生物醫學領域還是新興技術。

        到目前為止,在醫學注釋工作上,應用了Kullback-Leibler散度(Kullback-Leibler divergence)作為一個單變量過濾方法來尋找有差別的單詞,在蛋白相互作用發現中,應用了對稱原理的不確定性(symmetrical uncertainty,一種基于熵的過濾方法)來鑒別相關的特征。同樣可以預計到,用來對生物醫學文檔的聚類和分類方法引入的大量特征選擇技術將會應用于生物醫學的文獻挖掘中。

        除了以上的幾個方面的應用以外,特征選擇技術還被應用于微陣列(microarray)數據分析和質譜(MS)數據分析這些海量數據分析方面。由此可預見,隨著對特征選擇技術的進一步發展和完善,特征技術將在海量數據分析中發揮極其重要的作用。


參考文獻:

Yvan Saeys, Inaki Inza and Pedro Larranaga. (2007)A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517.
發布者:上海伯豪生物技術有限公司
聯系電話:021-58955370
E-mail:market@shbio.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網 電話:021-64166852;13621656896 E-mail:info@bio-equip.com
主站蜘蛛池模板: 精品欧美一区二区精品久久 | 影视av久久久噜噜噜噜噜三级 | 久久躁躁天天添久久久 | 久久久国产乱子伦精品 | 又黄又高潮的视频 | 亚洲熟妇少妇任你躁在线观看 | 国产亚洲欧美日韩在线一区二区三区 | xvideos国产在线视频 | 最新日韩在线 | av黄色| 国产精品伊人影院 | 国产精品亚洲视频 | 夜夜操人人 | 久久精品免费观看 | 99热国产精品 | 夜夜爽爽爽久久久久久魔女 | 老外黑人欧美一级毛片 | 精品视频一区在线 | 日本不卡在线观看 | 欧美破苞系列二十三 | 成人一边做一边爽爽视频 | 久草手机在线 | 一级毛片久久久 | 少妇人妻偷人精品免费视频 | 欧美丰满少妇XXXX性 | 日韩女优一区二区三区 | 欧美性猛交xxxx乱大交hd | 一区二区三区人妻无码 | 国产精品88久久久久久妇女厕 | 少妇精品久久久久www蜜月 | 欧美天堂精品久久久久久久噜噜噜 | 欧美亚洲另类久久综合二区 | 久久久人成影片一区二区三区 | 欧美熟妇XXXXX欧美老妇不卡 | 欧美熟妇XXXXX欧美老妇不卡 | 国产资源在线看 | 亚洲成人网在线播放 | 亚洲九九爱 | 日本一卡二卡四卡无卡乱码视频免费 | 中国久久精品 | 亚洲一级视频在线观看 |