生命科学中的许多重大发现都是从细胞与生物功能密切相关性中认识到的。在发育生物学中,诸如子细胞之间的对称破坏和细胞命运决定等中心主题都是基于细胞之间的空间关系。在临床环境中,组织病理学常被用作一种结论性的诊断工具,正是因为许多疾病的特征是组织中的空间特异性。感染和炎症过程可以彻底改变组织中的细胞结构。这些发现得到了包括原位杂交(ISH)和免疫组化在内的分子生物学方法的支持,这些方法通过绘制组织内的DNA、RNA和蛋白质,提供了更直接可视化的生物过程。然而,这些方法一次最多只能分析少量的基因或蛋白质。
“组学”革命深刻地改变了我们描述细胞特征的能力。新的方法可以检测细胞中的全基因组、转录组或蛋白质组,而不仅仅是一些RNA或蛋白质标记物。基因组测序、蛋白质组学等分子图谱技术已经改变了生物医学研究,但这些技术大多需要组织分离,导致组织形态和空间信息的丢失。空间分子图谱技术的最新发展使得细胞能够在保持其空间和形态完整的情况下进行全面的分子表征。分子图谱数据生成细胞的遗传、转录和蛋白质组的深层特征,而组织图像捕获细胞的空间位置和形态特征。
空间转录组技术介绍
虽然空间转录组学技术的关键,在可检测基因的数量和可检测组织的大小方面存在很大差异,但本文重点讨论了能够跨组织区域进行转录组水平检测的技术。主要是空间转录组技术:1)基于NGS技术,在NGS测序前将位置信息编码到转录本上;2)基于成像的方法,包括原位测序(ISS)——转录本在组织中扩增和测序,和基于ISH的方法——成像探针在组织中被连续杂交。这些不同的技术可以被看作是汇聚在一个基因表达矩阵上,该矩阵捕获了每个点(即一个像素、一个细胞或一组细胞)的转录组。
1. 基于NGS技术的方法
2016年发表的空间转录组学(ST)技术可以得到空间分辨的全转录组信息。2018年底,ST技术被10x Genomics公司收购并进一步开发,命名为 "10x Visium"。10x Visium检测法在分辨率(直径55μm,条形码区域之间的距离更小)以及运行时间上都有改进。
Slide-seq代替在玻片上打印区域条形码RT引物,它利用放置在载玻片上的随机条形码珠子来捕获mRNA。在Slide-seq方法发表后不久,另一种使用更小的条形码珠子的技术发布,命名为高分辨率空间转录组技术(HDST)。近期,开发了一种可在组织中使用确定性条形码进行空间组测序(DBiT-seq)的方法,该方法基于微流体的方法将条形码传递到组织玻片的表面,以实现10μm像素大小的分辨率。Stereo-seq使用随机条形码DNA纳米球沉积在阵列模式中,以实现纳米级分辨率。Seq-scope已经实现了亚细胞分辨率的空间条形码,可以用来可视化核和细胞质转录。
在所有基于NGS的方法中,均为收集空间条形码RNA并进行测序。每个reads的条形码用于绘制空间位置,而测序reads的其余部分被映射到基因组,以识别转录源,共同生成一个基因表达矩阵。
2. 基于成像的方法
本文介绍了两种主要的基于图像的空间转录组学方法:基于ISS和基于ISH的方法。基于ISS的方法直接读出组织内转录本的序列。具体来说,RNA被逆转录,通过滚圈扩增,并进行测序。BaristaSeq是另一种基于缺口填充挂锁的方法,其读取长度增加到15个碱基。STARmap使用条形码挂锁探针,与靶标杂交,通过添加第二个引物,针对挂锁探针旁边的位点,避免了逆转录(RT)步骤。这种方法避免了cDNA转换的效率障碍,并通过增加第二个杂交步骤来降低噪音。到目前为止,所提到的方法都是基于对靶标的先验知识,FISSEQ是一种非靶标的方法,即捕获所有种类的RNA。尽管非靶向扩增会导致光学拥挤和灵敏度降低,但最近开发的扩张测序(ExSeq)已经证明其可以用于组织中的非靶向ISS 。
基于ISH的方法是基于成像的第二类方法,以ISH技术为基础,通过互补荧光探针杂交检测目标序列。smFISH利用多条短的寡核苷酸探针(大约20 bp)来靶向同一mRNA转录本的不同区域。虽然smFISH具有高灵敏度和亚细胞空间分辨率,但由于标准显微镜中光谱重叠的固有限制,它一次只能针对几个基因。seqFISH是一种多路smFISH方法,通过连续几轮杂交、成像和探针剥离,多次检测单个转录本。然而,杂交轮数的增加需要增加smFISH探针的数量,这使得seqFISH既昂贵又耗时。为了弥补seqFISH的大量耗时,2015年发布了MERFISH技术。这种技术可以鉴定单个细胞中数千种RNA的拷贝数和空间定位。它利用组合标签、连续成像等技术来提高检测通量,并通过二进制条形码来抵消单分子标记和检测错误。
对于基于ISS和基于ISH的方法,是用图像处理生成基因表达矩阵。为了获得细胞级矩阵,要么手动分割小区域,要么系统地使用计算方法对图像进行分割。虽然这些可能并不符合真正的物理边界,但它们完成了将每个mRNA分配给细胞的任务。或者,数据分析可以从单个像素水平开始,并结合基因表达数据来描绘细胞。
空间转录组技术提供了一个基因表达矩阵
空间转录组学揭示发育、生理和疾病机制
由于空间转录组技术提供了一个无偏的空间组成图像,已被用于生成组织图谱,作为参考提供了有价值的资源。
在神经生物学方面:基于空间转录组学的方法已经建立了整个小鼠大脑或特定区域的详细图谱,如视觉皮层、初级运动皮层、中颞回、下丘脑视前区、海马和小脑。相关研究在对背外侧前额叶皮质的分析中确定了已知精神分裂症和孤独症相关基因的空间模式,从而提出了精神分裂症遗传易感性的机制。
在发育生物学中:时间分辨的空间转录组图谱有助于阐明心脏发育、精子发生和肠道发育的空间动力学。同样,对人类子宫内膜在月经周期的增殖期和分泌期的全面研究发现了WNT和Notch信号在调节向纤毛或分泌型上皮细胞分化中的作用。这些图谱一直是合作项目协调努力的重点,为研究界提供有效资源,并得到Human Cell Atlas项目和Allen Institute for Brain Science的支持。
除了正常的发育和生理之外,空间转录组学很适合研究疾病中的组织结构紊乱。空间转录组学能够识别在癌症中起作用的机制,即正常生理功能的组织结构发生改变。随着人们对肿瘤微环境重要性的日益认识,空间转录组学已被用于研究其与不同状态癌细胞的关系。特别是,空间转录组学能够研究癌症和正常组织之间的分子特征。例如,在皮肤鳞状细胞癌中发现了免疫调节性癌细胞状态。空间转录组学还为神经退行性疾病(包括阿尔茨海默病和肌萎缩侧索硬化症)、感染和炎症过程(如麻风病、流感和败血症)以及风湿病(包括类风湿性关节炎和脊柱关节炎)中组织失调机制提供了见解。
基于空间转录组学的探测性数据分析
空间转录组技术产生了一个基因表达矩阵,对其进行分析既可以检验现有的假设,也可以通过探索性分析产生新的观察结果。鉴于空间转录组数据集的复杂性和高维度,采用一种开放的思维方式,通过数据分析找到意想不到的关系,可以产生新的理解。
分析空间转录组数据通常需要排除低质量数据和基因表达矩阵上的初始转换,以提高信噪比,这可以使用分析软件包(如Giotto、Seurat、STutility和stLearn)执行。平滑算法可应用于数据,以提高灵敏度,并消除技术和生物变化的不必要来源。基于相邻点之间可以共享信息的前提,沿空间坐标在移动窗口中平均物理相邻点之间的基因表达可以减少噪声。类似地,通过调整数据比例,使数据在不同点上具有相同的平均值和方差(z-score),可以帮助进行基因间的比较。
空间转录组数据集的探索性数据分析操作示意图
1. Cluster
聚类操作揭示了数据中的结构,从最基本的角度定义了具有相似转录组的点集,或正交地,识别在点之间具有相似表达模式的基因。基因聚类,使用同样的方法,可以识别与细胞类型或细胞状态相对应的共表达基因模块。目前正在开发诸如BayesSpace之类的聚类方法,这些方法侧重于空间转录组学的特定特征。
2. Select
典型的空间转录组数据集包含的生物信息比任何单一分析都要多。基因可以根据它们的空间自相关性(使用Moran’s I或Geary’s C)、邻域富集(例如,在BinSpect中)或熵(例如,在Haystack中)来评分。Trendsceek使用接近的标记点处理,能够识别表达的热点和梯度。SpatialDE利用高斯过程回归将给定基因的表达变异分解为空间和非空间成分,SPARK也采用了类似的方法。
3. Score
虽然基因和spots是空间转录组学的主要观察数据,但基础生物学意味着基因作为模块共同表达,spots转录组反映有限的细胞类型和状态。这是评分函数的前提,评分函数用于将一组相似的点总结为单一基因表达谱,或正交地将一组连贯的基因总结为单一模式,以这种方式总结数据可以识别功能特性。评分可以简单地通过对集合的值求平均值来完成,或者根据Seurat工作流中实现的零模型对表达式进行评分。
4. Characterize
通过对空间转录组数据点群和基因集的操作识别的对象,必须具有生物学理解和解释的特征。要实现这一点,与其他数据源和其他先验知识的集成是必不可少的。当一个集群与一个组织区域相匹配时,可以手动描述spots的特征,如在MERFISH中注释大脑中的单个细胞类型,在胰腺癌样本中注释肿瘤的正常和恶性区域。通过识别一组标记基因并对其进行特征描述,也可以间接地对一个簇进行注释。具体地说,基因集可以通过量化其与注释基因集的重叠来描述。这是多模式交叉分析(MIA)和基因集富集分析(GSEA)的基础,该分析可以从GO、KEGG、Hallmark 和其他数据库中查询获得。
5. Relate
鉴于其系统性,空间转录组学非常适合于识别基因群体和组织区域之间的相似性、差异和关系。点簇可以通过查询表达基因、空间重叠、发育或功能关系而相互关联。例如RNA velocity利用未切片的转录本来推断斑点在时间上是如何相互关联的,并被应用于皮层来绘制神经发育的动力学图谱。基于RNA-seq的拷贝数变异推断识别染色体非整倍体,可用于区分恶性斑点和非恶性斑点,并识别不同的亚克隆。当两组点在空间上相邻时,可以通过使用已知数据库(如CellPhoneDB或NicheNet)检查它们的成对受体和配体来提出细胞之间的潜在相互作用模式。
数据分析操作路径
利用空间转录组学的假设生成和检验
健康或疾病组织的空间转录组学图谱自然有助于无偏见的探索和假设生成。即使是那些设计用于研究特定生物过程的空间转录组数据集,如时间进程研究或扰动实验,也可以探索以揭示意想不到的变化并提出新的假说。从而利用数据集的高维性来产生可靠的生物推论。这些观察到的细胞类型,基因表达的模式或两种细胞状态的共同定位可能推测一个新的可验证的假设。
此外,空间转录组数据可以被纳入经典的假设驱动的实验设计中,使用充分有力的实验来检验一个定义明确的预测。事实上,随着空间转录技术变得更加容易,它已经准备好作为一种常规的检测方法,与流式细胞仪或RNA测序相提并论。在实验设计的指导下,空间转录组学在作为扰动或时间历程实验的读数时可以证实或证伪一个假设。每个样本都可以由一个单独的数据点进行汇总,并在不同的重复和条件下进行比较,因此需要收集足够数量的数据,以确保统计的严谨性和有效性。研究可能在同一样本的多个切片上纳入空间转录组学,以解释技术变异性,或每个条件下的多个生物重复。该假设可在模型系统、体外或体内或临床数据中进一步验证。
利用空间转录组学的假设生成和检验
空间转录组学与其他数据形式的融合
随着空间转录组技术的分辨率和灵敏度的提高,与其他数据模式的集成可以为更好的组织表征提供机会。组织图像本身可以提取高分辨率的信息,特别是结合组织病理学领域获得的大量知识来手动识别和注释区域。在组织中检测到的形态特征,如细胞形状或细胞核大小,可以直接纳入分析。在stLearn中,具有相似特征的点被识别出来,用对物理上接近而且在构图上相似的点进行平均的方法使空间平滑性得以改进。另一项研究则是通过将空间转录组基因表达数据与高分辨率组织学图像数据融合,提高其分辨率。深度学习也被用于预测来自基因表达和组织学的细胞类型注释,优于单独从任何一种方式预测的注释。随着可用于训练的转录组学数据的增加,机器学习算法也被用于预测组织病理学图像中的基因表达。这些算法不依赖于预先定义的形态特征,而是通过将整个图像分解来提高性能。将空间转录组学与机器学习方法相结合,可以提高组织病理学的可解释性,并在临床决策中指导治疗和告知预后。
在亚细胞分辨率下,染色质的空间结构可能为不同环境下基因表达的调控提供线索。将空间转录组数据集与基因组原位高通量成像以及组织中组蛋白标记的空间分布相结合将是非常有价值的。最近,利用完整组织内同步DNA测序的基因组组织进行空间制图已经成为可能。这表明,将空间基因组测序与原位转录组分析相结合的目标可能即将实现,从而加深我们对基因组组织和功能编码方式的理解。
用蛋白质联合检测等补充方式来增强基因表达数据,也可以阐明空间转录组学没有捕捉到的过程,如蛋白质的翻译后修饰和亚细胞定位及其在疾病中的失调。靶向蛋白联合检测可与空间转录组学同时进行,在同一组织切片上使用免疫染色,如Visium所支持的那样。DBiT-seq使用抗体衍生的DNA标签实现组织中mRNA和蛋白质的共映射。用于蛋白质检测的高通量空间方法,如MIBI、CODEX、t-cyCIF和自动质谱分析,为组织切片内的蛋白质组提供了无与伦比的快照。将这些高通量蛋白质组学方法与空间转录组学相结合的技术进步将极大地提高我们研究组织复杂性的能力。
空间转录组学未来展望
随着技术的不断更新,空间转录组学领域正以指数级的速度增长。目前空间转录组学方法面临的挑战,包括分辨率和灵敏度的限制,以及通量和可获得性正在被迅速克服。空间转录组学方法与石蜡包埋组织兼容,为回顾分析几十年来收集的样本打开了大门。随着未来的创新,有可能系统性地分析更大的组织区域,以重建3D器官或生物体水平的图谱,并将转录组范围内的基因表达变化随着时间的推移进行可视化。除了克服这些技术上的挑战,未来的工作还需要开发新的计算工具和创造性的分析思维。这些将使数据探索能够识别空间模式(空间转录组数据集的核心特征),并揭示潜在生物学的见解。
人类基因组初稿于2001年发表,为研究遗传变异的来源和结果提供了参考。然而,基因组不同区域的功能和调控仍在积极研究中。绘制每个基因在空间的表达水平图谱只是阐明组织生物学的组织原则的第一步。正是这些高分辨率细胞图谱与无假设查询的耦合,将有助于获得新的见解并揭示生理学和疾病中组织结构的显著特征。
这一领域的一个关键挑战将是迭代构建一个多细胞空间模式。这些更深刻的生物学见解将把我们对简单组织的理解扩展到更复杂的结构,包括发育中的生物体和患病组织,使我们更接近于征服空间前沿。
总结:如何选择空间转录组研究技术
1. 基因通量
基于NGS的方法是无偏向性的,因为它们捕获所有多聚腺苷酸化的转录本,因此非常适合探索新的系统。相比之下,ISH和大多数基于ISS的方法(FISSEQ和ExSeq除外)是有针对性的,需要对感兴趣的基因有先验知识。尽管如此,这些方法的通量近年来有所增加,达到了10,000个基因。靶向的空间转录组学方法也可以与scRNA-seq结合使用,这样就可以更精确地定位已经识别的感兴趣的基因。此外,非多聚腺苷酸化转录物的探针可用于查询其他RNA,如成熟的microRNA和tRNA。
2. 序列信息
基于NGS和ISS的方法能够检测融合转录物、剪接异构体和单核苷酸变体及点突变。当与基因表达矩阵结合时,这些数据可以通过RNA速度或谱系追踪帮助重建时间过程。
3. 灵敏度
基于ISH的方法灵敏度高,相对于金标准单分子荧光ISH (smFISH),最近达到了80%的检测效率。NGS-based方法的灵敏度明显较低,仍然低于scRNA-seq,但正在迅速提高到大约100个独特的转录本/μm2。通常在敏感性和基因通量之间存在一种权衡,正如相对于非偏倚方法而言,基于ISS的靶向方法具有更高的敏感性。
4. 分辨率
原位方法的分辨率仅受光学衍射极限的限制,在扩张显微镜下,分辨率已达到100 nm左右。因此,这些方法非常适用于有关亚细胞组织的问题。基于NGS的方法受限于spots的直径,但其分辨率自最初的方法以来迅速提高,最近达到约1μm。
5. 尺寸范围
尽管在组织大小和成像时间之间存在权衡,但原位方法可以跨越广泛的尺寸范围。相比之下,基于NGS的方法是标准化的,阵列大小约为10mm2(目前商用的10x Genomics Visium为5mm2),这可能不适用于较小或较大的样本。
6. 可行性
尽管这些技术非常强大,但它们的广泛应用仍存在障碍,包括获得用于原位方法的单分子成像,以及用于基于NGS方法的捕获阵列的制造。商业化在某些情况下促进了这些技术的应用,如10x Genomics Visium。
参考文献
Rao A, Barkley D, França GS, Yanai I. Exploring tissue architecture using spatial transcriptomics. Nature. 2021; 596(7871): 211-220.