科研進展

田志喜研究組搭建大豆多維組學數(shù)據(jù)庫

日期:2023-03-28

|  來源:遺傳所【字號:

  大豆(Glycine max (L.) Merr.)是世界范圍內(nèi)重要的糧油作物之一,其產(chǎn)量提升、品質(zhì)改進關(guān)乎全球人口的需求和利益。21世紀后,基因組學的興起為作物研究帶來了全新的驅(qū)動力。近10年來,基因組學持續(xù)繁榮,大豆的組學研究也發(fā)生了極大的躍遷,體現(xiàn)在數(shù)據(jù)類型的擴展、數(shù)據(jù)維度的交叉以及數(shù)據(jù)體量的激增(圖1)。因此,后基因組學時代全新的多維組學數(shù)據(jù)庫的開發(fā),將會為大豆遺傳育種提供有力支持。 

   

  1. 10年間大豆數(shù)據(jù)的增長 

  2023322日,中國科學院遺傳與發(fā)育生物學研究所田志喜研究組協(xié)同北京基因組所(國家生物信息中心)章張、宋述慧研究組在Molecular PlantDOI:10.1016/j.molp.2023.03.011)發(fā)表了題為“SoyOmics: A deeply integrated database on soybean multi-omics”的論文,以大規(guī)?;蚪M、變異組、表型組、轉(zhuǎn)錄組、泛基因組數(shù)據(jù)為基礎,開發(fā)了名為SoyOmics的大豆多維組學深度整合數(shù)據(jù)庫,提供了高質(zhì)量的大豆組學數(shù)據(jù)檢索和分析平臺,為大豆研究社群提供了新的數(shù)據(jù)平臺。 

  大豆基因組于2010年公布,其后Soybase等大豆數(shù)據(jù)庫相繼誕生,建立起了早期的大豆組學數(shù)據(jù)網(wǎng)絡生態(tài)。但以現(xiàn)今多維組學發(fā)展的角度審視,早年的數(shù)據(jù)庫框架存在諸多不足,反應在組學數(shù)據(jù)類型覆蓋不全,各數(shù)據(jù)類型、功能模塊間的聯(lián)動性不充分等。深度整合多維組學數(shù)據(jù),提供具備實用交互性,并且提供一站式分析結(jié)果的在線集成工具是當下多組學數(shù)據(jù)庫開發(fā)面對的重點需求(圖2)。 

   

  2. 多組學構(gòu)建的作物遺傳全景圖與數(shù)據(jù)需求 

  基于此,研究團隊開發(fā)了面向大豆多維組學數(shù)據(jù)庫:SoyOmcis。SoyOmics全面收錄了大豆相關(guān)研究領域的多維組學數(shù)據(jù),包括:29Glyince Soja亞屬物種及6Glycine亞屬物種的從頭組裝基因組;近3000份大豆種質(zhì)資源的種質(zhì)信息,以及來自這些材料的約3800萬條SNP/INDEL變異數(shù)據(jù);針對115個表型多年多點測定的約27千條表型記錄;來自29Soja亞屬物種比較基因組的約55萬條結(jié)構(gòu)變異數(shù)據(jù),以及基于結(jié)構(gòu)變異構(gòu)建的圖泛基因組;自泛基因組種質(zhì)取樣的覆蓋9~28個組織/時期的轉(zhuǎn)錄組數(shù)據(jù)數(shù)據(jù);取樣自50個種質(zhì)資源的甲基化測序數(shù)據(jù);以及GenoBaits Soy40K大豆芯片數(shù)據(jù)(圖2)。此外,數(shù)據(jù)庫還收錄了大豆中已報道的QTL、GWAS位點和近200個功能明確的基因注釋信息,便于在搜索中提供更豐富的參考信息。 

  研究團隊將這些數(shù)據(jù)整合為6個基礎模塊,并且搭建了各模塊間的聯(lián)動架構(gòu),可以滿足用戶對于基因組區(qū)段特征、基因、變異位點、種質(zhì)、表型等相關(guān)知識的檢索、分類和統(tǒng)合需求。在此基礎上,研究團隊開發(fā)了多個實用的“一站式”分析模塊,支撐實現(xiàn)GWAS分析、表達模式分析、單倍型分析、基因組坐標轉(zhuǎn)換、圖泛基因組可視化等分析操作。以上共同組成SoyOmics的基本功能群(圖2)。 

   

  3. SoyOmics框架介紹與應用實例 

  綜上,SoyOmics是在后基因組學時代推出的,面向新需求、新數(shù)據(jù)組織形式開發(fā)的大豆多維組學數(shù)據(jù)庫。該數(shù)據(jù)庫具備多維組學數(shù)據(jù)間的深度關(guān)聯(lián)性、用戶的高度可交互性以及分析場景的高覆蓋性,預期能為大豆遺傳學及育種研究提供基礎的數(shù)據(jù)支撐和全新的觀察視角。 

  中科院遺傳發(fā)育所田志喜研究員為該論文通訊作者,中科院北京基因組所(國家生物信息中心)章張研究員、宋述慧研究員為該論文的共同通訊作者,中科院遺傳發(fā)育所劉羽誠博士,中科院北京基因組所(國家生物信息中心)博士研究生張陽、劉曉楠,中科院遺傳發(fā)育所申妍婷副研究員為該論文共同第一作者。該研究得到了中科院先導項目、科技創(chuàng)新2030-重大項目、國家自然科學基金、國家重點研發(fā)計劃、博士后創(chuàng)新人才計劃等項目的資助。 

附件: