基因組選擇技術(shù)
在畜禽育種中的應(yīng)用
基因組選擇(genomic selection, GS)是對傳統(tǒng)遺傳評估技術(shù)的一次重大革新,利用覆蓋全基因組的高密度遺傳標(biāo)記計(jì)算個(gè)體的基因組估計(jì)育種值(genomic estimated breeding value, GEBV)。與傳統(tǒng)基于系譜信息的估計(jì)育種值(estimated breeding value, EBV)相比,GEBV通常能獲得更高的估計(jì)準(zhǔn)確性。由于GEBV計(jì)算可以不依賴系譜記錄和表型信息,這就為早期選擇提供了可能,可以大幅度縮短世代間隔,提高遺傳進(jìn)展,降低農(nóng)業(yè)動物的育種成本。此外,對于傳統(tǒng)育種受限的性狀,如低遺傳力的性狀和難以測量的性狀,GS也更加具有優(yōu)勢。
01 基因組選擇實(shí)施步驟
GS一般包括以下步驟:首先建立參考群體(reference population),參考群體中每個(gè)個(gè)體都有已知的表型和基因型,通過合適的統(tǒng)計(jì)模型可以估計(jì)出每個(gè)SNP或不同染色體片段的效應(yīng)值;然后對候選群體(candidate population)每個(gè)個(gè)體進(jìn)行基因分型,利用參考群體中估計(jì)得到的SNP效應(yīng)值來計(jì)算候選群體中每個(gè)個(gè)體的GEBV;最后,根據(jù)GEBV排名對個(gè)體進(jìn)行選留,待選留個(gè)體(selected candi-dates)完成性能測定后,這些個(gè)體又可以被放入?yún)⒖既后w,用于重新估計(jì)SNP的效應(yīng)值,如此反復(fù)。
02 基因組選擇研究熱點(diǎn)
隨著商業(yè)化高密度SNP芯片的普及和二代測序價(jià)格的下降,GS越來越多被應(yīng)用于農(nóng)業(yè)動植物的育種實(shí)踐中。盡管如此,基因分型成本仍然是GS技術(shù)推廣和應(yīng)用的重大障礙,大多數(shù)育種企業(yè)限于長久的基因分型成本投入而不敢大規(guī)模應(yīng)用。多數(shù)已開展GS研究的研究院所或企業(yè)也囿于基因分型方面的投入,不得不通過縮小參考群體規(guī)?;蚪档蜆?biāo)記密度來降低成本。較小的參考群或較低的標(biāo)記密度一定程度上影響了GEBV的準(zhǔn)確性,從而低估了GS技術(shù)在動物育種中的潛力,反而阻礙了這一技術(shù)的推廣和應(yīng)用。因此,降低個(gè)體分型費(fèi)用一直是GS的研究熱點(diǎn)之一。
GS技術(shù)的另一個(gè)重要研究方向是如何針對性狀本身的遺傳特點(diǎn),合理選擇最優(yōu)的模型和算法來提高GEBV估計(jì)準(zhǔn)確性。常用的基于單點(diǎn)SNP標(biāo)記的GEBV估計(jì)方法主要分兩類:一類是基于估計(jì)等位基因效應(yīng)來計(jì)算GEBV,如最小二乘法、隨機(jī)回歸-最佳線性無偏預(yù)測(ridge regression best linear unbiased prediction, RR-BLUP)、貝葉斯方法等;第二類是采用SNP標(biāo)記構(gòu)建基因組關(guān)系矩陣(genomic relationship matrix, GRM或G矩陣),然后采用線性混合模型估計(jì)GEBV,如基因組最佳線性無偏預(yù)測法(genomic best linear unbiased prediction, GBLUP)、一步法GBLUP。這兩類方法均有各自的優(yōu)缺點(diǎn),對于不同性狀會有不同的效果。隨著基因分型個(gè)體數(shù)極大累積或標(biāo)記密度極大提高,傳統(tǒng)基于單點(diǎn)SNP信息的統(tǒng)計(jì)模型無法利用所有個(gè)體表型數(shù)據(jù)或所有標(biāo)記位點(diǎn)信息,此時(shí)基于單倍型的GEBV預(yù)測模型可以解決這一問題。通過將已知功能的基因組學(xué)信息,包括基因結(jié)構(gòu)、甲基化區(qū)域、轉(zhuǎn)錄因子調(diào)控結(jié)合位點(diǎn)、選擇信號候選區(qū)域等信息,以單倍型信息整合進(jìn)GEBV預(yù)測模型,從而提高GEBV的準(zhǔn)確性。
03 基因組選擇在奶牛育種中的應(yīng)用
GS在奶牛育種中的應(yīng)用領(lǐng)先于其他畜禽。由于奶牛個(gè)體育種價(jià)值大,群體組織好,數(shù)據(jù)記錄完善,而且傳統(tǒng)的奶牛育種完全依賴于后裔測定對種公牛進(jìn)行遺傳評估,使得世代間隔較長(達(dá)53~70個(gè)月),采用GS可準(zhǔn)確地預(yù)測青年公牛種用價(jià)值,使世代間隔縮短為21個(gè)月(如圖),因此GS在奶牛育種中具有巨大的應(yīng)用價(jià)值。
從2008年開始,主要幾個(gè)奶業(yè)發(fā)達(dá)國家,包括新西蘭(2008年)、美國(2009年)、加拿大(2009年)、德國(2009年)、澳大利亞(2011年)、意大利和瑞士(2011年),開始將GS應(yīng)用到遺傳評估中。除此之外,這些國家間還不斷尋求合作以建立區(qū)域化的奶牛GS育種體系,如2008年美國、加拿大、意大利組成的北美奶牛育種體系以及2010年比利時(shí)、丹麥、芬蘭、法國、德國、荷蘭和瑞典聯(lián)合形成的歐洲奶牛育種體系。區(qū)域化的奶牛GS育種體系使得參考群體規(guī)模迅速擴(kuò)大,GS選擇準(zhǔn)確性逐漸提高,大大促進(jìn)了GS技術(shù)在奶牛育種中的普及。除了常規(guī)的產(chǎn)奶量和乳脂率等性狀,奶牛GS研究也開始關(guān)注一些常被忽視但非常有應(yīng)用潛力的性狀,如肢蹄健康、飼料轉(zhuǎn)化率和甲烷排放量等。我國于2008年開始啟動奶牛GS研究,2012年正式將GS技術(shù)應(yīng)用于荷斯坦奶牛的遺傳評估中,評估的性狀共14個(gè),包括產(chǎn)奶量、體細(xì)胞計(jì)數(shù)、體型評分等,其中產(chǎn)奶性狀基因組預(yù)測準(zhǔn)確性為0.59~0.76,比傳統(tǒng)BLUP方法提高了0.13~0.30。
目前,奶牛GS的參考群體一般由經(jīng)后裔測定和基因型測定的驗(yàn)證公牛組成。除了通過區(qū)域合作擴(kuò)大參考群體外,對母牛進(jìn)行基因型測定,也是擴(kuò)大參考群體的一條重要途徑。隨著高密度SNP芯片和二代測序成本的下降,將來所有母??赡苓M(jìn)行基因型測定。Buch等使用驗(yàn)證公牛與經(jīng)基因型測定的女兒構(gòu)建參考群體,結(jié)果表明GS的準(zhǔn)確性比僅使用驗(yàn)證公牛時(shí)要高。
GS作為一種新的畜禽遺傳評估方法,比傳統(tǒng)BLUP方法有明顯的優(yōu)勢。隨著基因分型成本的下降,GS技術(shù)有望在國內(nèi)大型育種公司中應(yīng)用普及。由于已有的SNP芯片在特定群體中多態(tài)性差,越來越多的研究和應(yīng)用開始使用自定制高密度SNP芯片,如豬的PorcineSNP55K芯片,在肉雞、肉牛和蛋雞等物種中也有相應(yīng)報(bào)道。隨著二代測序價(jià)格的下降,基于二代測序技術(shù)的GS優(yōu)勢日趨明顯,有望在5~10年內(nèi)替代高密度SNP芯片,成為GS應(yīng)用的主要分型手段?;诙鷾y序的GS技術(shù)主要面臨的是分型準(zhǔn)確性和分析時(shí)效性的問題,分型準(zhǔn)確性可以通過優(yōu)化測序方案和基因型填充策略來提高;而數(shù)據(jù)分析的時(shí)效性需要借助于自動化/智能化分析流程的建立以及基于“硬件加速”技術(shù)的軟件開發(fā)。隨著基因分型個(gè)體數(shù)極大累積或標(biāo)記密度極大提高,當(dāng)前常用的基于單點(diǎn)SNP的GEBV估計(jì)模型將具有局限性,基于單倍型信息的統(tǒng)計(jì)模型可能會成為未來的研究方向。除此之外,在統(tǒng)計(jì)模型中增加顯性效應(yīng)、上位效應(yīng)和印記效應(yīng)的應(yīng)用會越來越多。最后,借助目前智能化農(nóng)牧設(shè)備開發(fā)的熱潮,應(yīng)該盡快將GS應(yīng)用從“育種場→實(shí)驗(yàn)室→育種場”的所需樣品收集、表型測定、數(shù)據(jù)分析、個(gè)體選留等流程整合進(jìn)入常規(guī)育種生產(chǎn)中,加快GS在動物育種中的應(yīng)用。
文章來源:
談成, 邊成, 楊達(dá), 等. 2017. 基因組選擇技術(shù)在農(nóng)業(yè)動物育種中的應(yīng)用. Hereditas (Beijing), 39(11): 1033―1045