清华新闻网10月20日电 跟着单细胞测序时刻的发展足交 telegram,单细胞科学参议束缚深刻,领域越来越大,所参议的对象也越来越复杂。整合着手不同的单细胞测序数据,甩掉批次效应,进行全面挖掘息争析,是当今单细胞测序数据分析的一个基础和中枢要领。现时单细胞测序数据整合濒临以下几方面周折:第一,不同现实样本、现实平台、建库递次乃至操作等身分带来的批次效应会在单细胞测序数据中引入非生物学杂音,侵扰细胞间生物学各别的索取息争析;第二,单细胞参议的领域束缚扩大,百万细胞数量级别的数据对整划算法的效果建议了更高的条目;第三,单细胞测序样本的类型也在束缚加多,不同的单细胞测序数据集频繁包括高度异质的细胞亚群;第四,最进犯的极少,若何充分换取愚弄多数已稀有据的旧学问,对新数据进行探索息争析。现时单细胞测序数据整划算法大多基于不同批次数据间的细胞相同性来矫正批次效应,存在过度整合(尤其是整合细胞异质性各别较大的数据集)、可彭胀性差、无法径直将已有模子应用到新数据集上等流毒。
10月17日,清华大学人命科学学院/结构生物学高精尖改进中心/清华-北大人命科学皆麇集心张强锋副教讲课题组在《当然·通信》(Nature Communications)期刊在线发表题为“通过将异构数据集投影到结伙的细胞镶嵌空间中进行单细胞测序数据在线整合”(Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space)的参论说文。在该参议中,他们建树了基于变分自编码器(variational autoencoder)深度学习框架的东谈主工智能算法SCALEX,不错对单细胞测序数据进行在线整合。SCALEX接管一个批次无关的编码器和批次特异的解码器构成的非对称自编码器结构,进行多数学习获得一个高泛化性的编码器,该编码器通过将高维单细胞测序数据投射到低维细胞镶嵌空间(cell embedding space),在保留生物学各别的同期甩掉批次效应。
SCALEX模子框架
SCALEX主要有以下四点主要特征:第一,相较于现时已有的单细胞测序数据整合递次,SCALEX在整合准确性上具有彰着上风;第二,播播SACLEX在百万单细胞数据量下仍保抓很高的计算效果,适用于超高通量单细胞测序数据整合分析责任;第三,SCALEX有用幸免了单细胞测序数据整合中的过改动情形,适用于异质性高、复杂样本的整合;第四,撑抓单细胞RNA-seq,单细胞ATAC-seq等多组学整合数据整合。这些特征使得SCALEX适用于构建单细胞图谱。建树东谈主员整合多项参议、多个组织的单细胞数据集构建了小鼠、东谈主以及COVID-19等三套大领域单细胞图谱。
SCALEX有一个罕见的上风,即是它的高泛化性的编码器。这个编码器不错通过单细胞测序数据投射,生成一个批次无关的结伙低维细胞镶嵌空间。关于新产生的数据,SCALEX不需要再行磨练编码器,就不错将新数据投射到这个结伙的低维细胞镶嵌空间。这种整合边幅被称为“在线整合”(online integration)。在线整合带来一个雄伟的公道,即是很容易将新数据与原本生成的单细胞图谱等奠基性数据(需要由通过SCALEX数据整合生成)进行比拟分析,从而从奠基性数据获得生物学学问方面的启发和指示,径直撑抓数据谛视、律例考据均分析任务。另外,原有单细胞图谱的细胞内涵也在束缚添加新数据的经过中,获得丰富和引申,赋能新的生物学发现。
要而言之,参议者们建树了SCALEX单细胞测序数据东谈主工智能分析器用,不错将不同批次细胞的基因抒发谱映射到批次无关的结伙低维细胞镶嵌空间中,有用甩掉数据中的批次效应并保留细胞间固有的生物学各别,达成不同批次数据的有用整合。SCALEX适用于图谱级别的单细胞测序数据整合,将在扫数人命科学和生物医学领域正在进行的超大领域单细胞图谱等参议筹办中提供基础撑抓。
清华大学人命科学学院张强锋副老师为本文通信作家,清华大学人命科学学院2015级博士生熊磊(已毕业)和2018级博士生田康为该论文共同第一作家,2019级博士生李雨哲和2021级博士生宁微希对著述中的数据分析提供了进犯匡助,百图生科(BioMap)参议院主任、东谈主工智能科学家、阿卜杜拉国王科技大学计算生物学家高欣老师参与合营参议。
本责任获得国度要点研发筹办、国度当然科学基金、北京市结构生物学高精尖改进中心、清华-北大人命科学皆麇集心、清华大学计算平台、上海期智参议院和阿卜杜拉国王科技大学参议惩办办公室的撑抓。
论文迷惑:
https://www.nature.com/articles/s41467-022-33758-z
供稿:人命学院
剪辑:李华山
审核:吕婷足交 telegram