Hi-C文库数据质控及解读

Hi-C文库数据质控及解读,第1张

数据自身的质量在很大程度上决定了分析结果的准确和可靠,随着Hi-C技术在三维基因组学上的快速推广,对于Hi-C数据本身的质量和测序深度也逐渐引起研究人员的重视。同时对该技术的进一步优化和改进使之能够在更少的细胞起始量及测序量达到更高分辨率也成为了一个技术发展新的热点。本文旨在对Hi-C及相关技术的发展进行简略地介绍,并对Hi-C数据展示的无效数据进行分析,以期能让读者能更清晰地理解无效数据的组成,在后续的实验过程中能更好地改进实验方法,获得一份可靠的Hi-C的数据。

2009年Erez Lieberman-Aiden在3C的基础上,独创地在粘性末端添加了生物素,使得嵌合片段能被链亲和素特异性富集,发明了第一代 dilution HiC技术 1) 。Hi-C的发明与二代测序完美结合,解决了5C在全基因组水平构象数据量瓶颈的问题,使得在全局范围内研究三维结构成为可能。

图1Hi-C实验原理

早期的实验方案认为,去垢剂SDS在对交联的细胞核进行处理时,即使是低浓度的SDS(03%-1%SDS)在加热到65℃时,会导致细胞核碎裂,基因组的DNA会释放到溶液中,因此第一版本的Hi-C,在酶连反应体系下,选用了近8ml的大连接体系。后来,4C研发人员通过用显微镜观测SDS处理细胞核,发现细胞核仍然维持在一个较为稳定的核结构。在共聚焦显微镜下观察,1%SDS处理细胞核,会导致细胞核的通透性发生改变,但很少细胞核发生裂解。

另一个影响交联反应的因素是温度,通常认为65℃以上,在有NaCl存在的情况下,甲醛交联的DNA会发生解交联现象,从而影响染色质构象的稳定。

在第一版本的Hi-C选用了65℃ 1%SDS处理细胞核10min,从最终的数据看染色质间的互作数据高达271%-653%。通常认为染色质是独立折叠定位在细胞核中形成染色质领域的,因此染色质间的数据通常会认为是无效数据(bais)。

直到2012年Chen Lin实验室意识到细胞核的扰动会影响到染色质的高级构象,因此他们在Hi-C实验的基础上,将生物素标记在蛋白上,将反应体系固定在磁珠上,使得反应体系扰动更小,更稳定,TCC 2) 获得的数据结果表明该方法可以显著降低染色质间的数据占比例valid pairs的比例。

图2TCC实验原理

2014年EreZ对Hi-C的实验进行了进一步的改进 3) ,他们在SDS处理细胞核的步骤选用了更温和的05%SDS 62℃处理5-10min,而细胞连接的体系也降低到1ml,值得一提的是他们在文章中尝试了未交联的HiC实验。发现除了噪音增加外,得到了与正常HiC类似的热图。

In situ Hi-C的改进使得染色质间的互作数据进一步降低,实测数据显示Trans-interaction其占valid pair的比例在20%左右。

在2015年,又有研究将SDS的处理条件更换成37℃ 60min,他们认为该方法可以更大程度维持细胞核的稳定性,提高intra/inter数据的比例 4) 。

表1:in solution Hi-C与 in nucleus Hi-C数据比较

随着对HiC数据的进一步认识,研究人员发现一些超近距离的连接(<20Kb的数据)可能并不是有意义的由蛋白介导的空间上靠近的互作,而可能就是线性距离较近而引起的随机连接,因此引入了这一参数来评判数据的质量。

为了更好地去除随机连接导致的bais,有研究利用统计模型认为三片段的连接可减少随机连接的可能性,因此他们采用了类似于ChIA-PET

的方法,在连接反应过程中,添加一个带有生物素的bridge-linker 5) ,通过富集带有linker的嵌合片段,来改善实验中存在的随机连接可能性。作者自测的结果表明,添加linker后染色质内的互作比例比in situ Hi-C和HiChIP都有显著改善。

图3BL-HiC实验原理图

除了cis/tran作为评判Hi-C数据的质量以外,Hi-C数据中还存在大量的无效数据,它们的存在会影响数据的有效利用率,以下篇幅将逐一进行介绍。

为了更好地理解Hi-C数据,在此我们简要介绍下基于illumina平台的二代测序文库。

图4二代测序文库建库示意图

在标准的二代文库中,DNA片段通过末端补平加A;再添加adapters ;此时reads的两侧各带发卡结构P5/P7的测序接头;为了获取足够上机的DNA文库,通常还需要进行一轮扩增;扩增后的文库两端各带一种测序接头。

图5桥式PCR

在pool DNA到芯片上时,文库片段首先anneal在芯片的测序接头上;然后用DNA聚合酶进行扩增,DNA生长在芯片上;经过25-28轮的扩增,每条reads被扩增至数以千计的拷贝,此时就可以利用添加可逆的终止子来检测碱基的组成。通过150轮添加可逆终止子并采集信号即可完成测序。

由于DNA聚合酶的自身的偏性,GC含量相对合适的片段及小片段更容易在芯片生长阶段得到富集。小片段(<150nt)在测序过程中,由于两端各读取150个碱基,就极可能将DNA插入片段读通,从而这部分的DNA就可能被检测到adapter污染。

图6测序read示意图

Hi-C标准文库是标准的Chimera结构,在将两端序列进行比对到基因组上时,理论上两侧pair ends可以分别比对到基因组的两个座位。由于DNA在碎片化过程中,剪切是随机的,因此酶切位点末端补平形成的junction fragment很可能分布在一侧的reads中,常规的比对分析是很难处理chimera的。在HiC-Pro 6) 和HiCUP 7) 软件中,他们会去识别理论的junction fragment。如HiC-Pro在比对时先进行Global Mapping,后将unmapping的reads用junction fragment序列进行识别并切割,再进行local mapping,最终将数据进行合并。

图7HiC-Pro的两种比对策略

在实际比对中即使采用两步比对方式,仍有可能是只有一端序列能比对到基因组中,另外一端无法识别到基因组中,这种情况我们将其归类为 Singleton 。它产生的原因可能有①adapter污染(先前数据没进行过滤);②另一侧数据质量较差,多数为N的区域;③DNA片段被降解或酶切反应产生星号活性。同时片段过短,150碱基已经读通了生物素标记的位点,但是该位点不是正常的junction fragment。在植物样本中,singleton较为常见,可能与细胞壁破碎不完全,部分细胞质成分进入到反应体系影响酶切有关。

有些植物的基因组存在大量的重复序列,如玉米中85%的序列被认为是重复序列。这对要求两端都要唯一比对的HiC而言是巨大的挑战,一旦有一段比对到两个或两个以上的位点,该reads就将被归类到 Multiple mapped reads 中。

如果在比对过程中,global mapping 和 local mapping均无法将序列识别到特定的位点,这种序列会被归类到 Unmapped reads。 它可能产生的原因是基因组的组装完整度较差,基因组中存在大量的gap无法识别,被填充为NNNNN。另一个原因是酶切片段较碎,多个酶切片段连接在一起,无法识别到特定座位。

如果两侧数据都能比对到基因组的数据会被统一认为是 Unique mapped reads ,此时对于动物基因组,unique mapped reads 占测序量(clean reads)50%以上应是可接受的范围。对于植物样本,尤其是重复序列较多的样本,unique mapped reads 比例可能会急剧降低。

在获取unique mapped reads后,要进行进一步过滤,以识别真正有效的interaction reads。

图8三种比对过程识别的无效数据

根据HiC实验的基本原理PLA(proximity ligation assay):空间上相互靠近的片段更有机会被连接在一起。因此仅且仅有两个来源不同的片段连接在一起才会被认为是标准的文库片段。而这片段是指利用限制性内切酶酶切的Fragments,即唯有两个片段能分别比对到两个不同的酶切片段上,且实际片段大小(observe)符合理论的片段大小,在分析是才会将其归类到valid pairs中。

图9Hi-C数据过滤

因此在分析过程中会将部分无效的数据进行过滤,首先是如果两个片段原本通过一个酶切位点连接在一起,在HiC文库中如果该片段即使酶切后添加生物素仍然连接在一起,该片段会被归类到 Re-ligation reads 中;

而如果两个的reads比对到同一个fragment,但是方向相反,则该reads会被认为是首尾相连形成了Self-circle ;

如果pair end 同时比对到一个酶切片段上,则该片段会被认为是 Dangling ends

如果有一个发现是adapter污染,该reads会被认为是 Adapter polluted ;

如果两侧的end均能比对到基因组的两个酶切片段中,但是观测到的片段大小与理论的片段大小不一致,则该片段会认为是错误连接而被归类为 Dumped reads

只有比对到两个酶切片段且片段的理论值等于实际值的reads,才会被认为是 Valid pair reads

在这里我们解释下Dangling ends和 Dumped 的成因。

Dangling ends 主要来源于两部分,①经DNA连接酶连接反应后,携带生物素的DNA片段末端并未形成嵌合片段,在末端生物素切割的(klenow)时又未将末端的生物素去除,从而进入到最终的文库中;②磁珠洗脱步骤未完全将非特异性结合的DNA洗脱下来。有文章报道,只有将Dangling Ends的比例控制子啊10-45%以下才会被认为是成功的Hi-C文库 8) 。

Dump的主要原因在于酶的星号活性导致切割位点不在经典的位点,这有可能是酶切时间过长或反应体系中盐离子浓度和种类不合适导致的;另外一个原因是片段被DNA外切酶降解,使得片段的大小发生了改变。

获得了interaction reads后,要去除文库中完全一样的reads,因为这部分可能是由于PCR扩增导致的 Duplication ,去除Duplication后,Valid pairs数据可用于后续的滑bin统计分析了。

最后,对分享的内容进行总结。

判断HiC的文库是否合格的一个重要的指标是cis/trans的比值,一般认为cis interaction比例越高,表明该数据的质量越好。如果tran interaction的比例高于cis interaction的比例,则要慎重检查实验操作步骤是否出现纰漏。

对于植物样本,尤其是大基因组的植物样本,其unique mapped的比例可能较低,此时为了达到足够的数据量,需要提高测序深度;然而如果对于人鼠等动物样本,如果unique mapped ratio较低则可能是实验原因。

在unqiue mapped数据过滤步骤中dangling ends 过高可能是末端生物素去除不完全或磁珠洗脱步骤中出现问题所致。如果dump的比例过高则可能是样品发生了降解或星号活性。

最后一步去除PCR duplication,如果该步骤中duplication比例过高,则表明PCR循环数过高导致。

Hi-C实验步骤繁多,一份好的Hi-C实验数据需要实验人员针对不同的样本进行实验优化及在整个实验周期每个步骤用心地操作。出现不如人意的实验结果对于新手而言是正常的,此时就要对数据进行仔细分析,并将自己融入到实验的每个细节中细细体会,才会有所收获。最后给大家一个建议,多看看最近发表的文章,比较每个protocol的细微差别,如颉伟老师 9) 和陈阳老师 5) 今年发表的文章。相信看完后,会有自己的体会。

参考文献

1、前天晚上一到家儿子就把家长开放日的通知放到了我的手里,拿到手的第一反应就是忐忑,第二个反应就是期待。忐忑是因为孩子在学校的表现,不管是学习、纪律、还是思想,让我苦恼、困惑,期待的是我家孩子在学校到底是一个怎么样的学习状态,可以近距离的去观察揣摩他的情况。

2、昨天我很早的赶到学校,一走进教室,看到孩子们都坐得笔直,静等朱老师语文课开始。铃响了,上课开始了,《卖木雕的少年》,朱老师PPT上先介绍了非州的地理情况,立刻吸引了孩子们的注意力,孩子们凭着前一天对课文预习,围绕课本上出现的几个关键词,争先恐后地发言。朱老师提出的一个又一个的问题时,不知不觉这篇课文在我的脑子里也变的清晰起来,教学于无形,一点一点让我这种接受传统教育长大的人来说,有一种耳目一新的感觉。想想当年我自己的学习,又近距离的感受现代教育!如果再有一次学习的机会,我也有一定要好好学习的冲动了。

  教材: 《她是我的朋友》是义务教育课程标准实验教科书人教版语文三年级下册的一篇精读课文。 设计理念: 《语文课程标准(实验稿)》指出:“各个学段的阅读教学都要重视朗读和默读。”“要珍视学生独特的感受、体验和理解。”本 教学设计 ,从学生的阅读心理出发,引导学生认真默读,对课文中不理解的地方提出疑问,联系上下文理解词句意思,体会关键词句在表达情义方面的作用,进而理解内容,受到思想启迪。

教学目标:

1 认识8个生字,会写13个生字。正确读写“迫在眉睫、查看、休克、草垫、呜咽、拳头、竭力”等词语。

2 正确、流利、有感情地朗读课文。

3 理解文本内容,抓住描写阮恒献血的动作、神态的语句,感受朋友真挚的友谊,学习阮恒无私奉献的精神。

教学重点:

抓住描写阮恒献血时表情、动作的语句,体会人物的内心活动。

教学流程:

第一课时

一、交流“朋友”情谊,唤醒阅读期待

1 “朋友”,一个多么熟悉、亲切、温馨的词语。说说生活中你曾为朋友做过什么事,或者朋友曾为你做过的让你感动的事情,让我们一起分享你们之间的友情故事。(学生交流。)

2 同学们的朋友可真不少,对朋友都有着各自的理解和感受,今天我们要学习的课文讲的就是有关朋友之间的故事。(板书并齐读课题。)

3 看了课题,你想知道些什么?(“她”是谁?“我”又是谁?“她”和“我”之间发生了什么事情?为什么说“她是我的朋友?”……)

(设计意图:以“朋友”为话题,引出课题,既勾起学生美好的回忆和对友情温馨的内心体验,又激发了学习兴趣,唤醒了阅读期待。)

二、初读课文,整体感知朋友情

1 请同学们带着问题自主读课文,把课文读正确、读通顺,遇到难读的词句多读几遍。

2 谁愿意把自己读得最好的一两个自然段读给大家听?(学生展示读,师生评价,注意读准多音字“血”等。)

3 你觉得哪些段落比较难读?试着把它读通、读熟。

4 学习生字。(课件出示生字,引导学生认读、扩词。)

5 通过读文,谁能尝试解决刚才提出的问题?(指名回答。)

6 把这些问题的答案串起来,就是课文的主要内容。谁来试试?(同桌练说,指名说。)

(设计意图:“阅读是学生的个性化行为,不应以教师的分析来代替学生的阅读实践。”本教学环节通过引领学生带着问题自主阅读课文,愉悦、轻松地达到了把课文读通、读正确,整体感知文本的目的。同时学生学到通过质疑、解疑了解课文内容的方法。)

三、总结学法,布置作业

1 总结学法:通过这课时的学习,我们学会了哪些阅读的方法?(提出问题,自主阅读课文,解决问题;朗读理解课文……)

2 布置作业:①练习正确、流利、有感情地朗读课文。②抄一抄、记一记你认为难写、难记的词语。

第二课时

一、复习导入

1 听写词语:休克、输血、迫在眉睫、阮恒、草垫、擦拭、捂住脸、掩盖痛苦、竭力制止。

2 导入新课:谁能用上刚才听写的部分词语说说这篇课文的主要内容?(学生自由表达。)

让我们再次走进文本,走进阮恒的内心,仔细体会“朋友”的深刻涵义。

(设计意图:听写词语,以词语串联文章主要内容,不仅整体回顾了文本内容,而且顺势引领学生初步理解课文大意。)

二、潜心品读,感悟朋友情

(一)体验阮恒献血前的内心世界

1 指名读第1~4自然段,其余同学边听边找出最能体现小姑娘处境危急的词语。(迫在眉睫)

2 “迫在眉睫”是什么意思?你能结合生活实际,用“迫在眉睫”说一句话吗?

3 课文中哪些词句表达了情况“迫在眉睫”?

4 谁能把当时情况的紧急用朗读表现出来?(指名读,齐读。)

(设计意图:“字不离词、词不离句”是学习语文的基本规律。这里紧扣关键词“迫在眉睫”,让学生联系具体语境理解词义,同时,进入课文情境,以利于深入理解、感悟。)

过渡:献血迫在眉睫,阮恒是怎样做的呢?请看课文第5自然段。

出示句子:一阵沉默之后,一只小手颤抖地举起来。忽然又放下去,然后又举起来。

1 指名读,想想:你有过举起手来又放下去或者举起来放下去又举起来这样的经历吗?谁来具体说说?

2 阮恒为什么这么做?请你根据阮恒的表现,联系下文读一读,想一想此时阮恒心里会想些什么?(内心很矛盾,害怕,犹豫,想献血又怕献血,最后下定决心献血……)

3 是啊,经过激烈的思想斗争,阮恒终于坚定地举起了手,这是一个多么善良的孩子啊!同学们,请用朗读来表达你此刻的内心感受吧。(学生练读,指名读。)

(设计意图:“举――放――举”三个无声动作细腻地刻画了阮恒当时矛盾的心情。教学时,紧扣这三个动词,激活学生的生活经验,引导学生进行换位思考,加深情感体验,感悟阮恒内心活动。)

(二)感悟阮恒的美好心灵

过渡:“举起来――放下去――举起来”真切地再现了阮恒献血前的复杂心情。在接下来的输血过程中,阮恒一直很少说话,作者更多的是描写他的表情和动作,让我们一起透过表情和动作去理解阮恒的美好心灵。

1 默读第6~11自然段,画出描写阮恒动作和表情的句子,反复朗读,细细品味,用心感受。

2 交流,出示:

①抽血过程中阮恒一动不动,一句话也不说。

②过了一会儿,他突然啜泣了一下,全身颤抖并迅速用另一只手捂住脸。

③他又开始呜咽,并再一次试图用手掩盖他的痛苦。

④接着,他那不时的啜泣变成持续不断的低声哭泣。

⑤他眼睛紧闭着,用牙咬着自己的小拳头,想竭力制止抽泣。

⑥男孩立刻停止了哭泣,好像刚才什么事也没有发生一样。

3 请反复朗读上面的句子,找出描写阮恒“哭”的词语。(板书:啜泣 呜咽 哭泣 抽泣)

4 请你借助工具书或联系生活实际,说说这几个词语分别描写了怎样的一种哭。(啜泣:抽抽搭搭地哭。呜咽:低声哭泣。抽泣:一吸一顿地哭。)

5 自己根据意思,试做做“啜泣、呜咽、哭泣、抽泣”动作,并体会它们的不同状态。

6 啜泣、呜咽、哭泣、抽泣这一表达顺序能变换吗?为什么?

7 是呀,从“啜泣”到“呜咽”,再到“哭泣”、“抽泣”表达了(阮恒越来越害怕,哭得越来越伤心的心理活动和表情,你觉得怎样读才能表达出阮恒当时的心情?(学生自由练读,指名读。)

8 当针扎进阮恒的血管后,他“啜泣――呜咽――哭泣――抽泣”,内心充满矛盾,但他尽力控制自己的情绪。让我们看着屏幕,仔细观察阮恒的神情、动作,走进阮恒的内心,倾听他的心声。完成以下填空。(课件展示,配乐,学生练习。)

①过了一会儿,他突然啜泣了一下,全身颤抖,心想:____,但是,他又想:___,于是迅速用另一只手捂住脸。

②他又开始呜咽,心想:________,但是,他又想:________,于是再一次试图用手掩盖他的痛苦。

③他那不时的啜泣变成持续不断的低声哭泣。他在想:________。他眼睛紧闭着,用牙咬着自己的小拳头,想竭力制止抽泣。

④男孩立刻停止了哭泣,好像刚才什么事也没有发生一样,这是因为________。

9 同学们,阮恒宁愿舍弃自己的生命,去挽救朋友的生命,这是一份多么难能可贵的朋友情啊!让我们在音乐声中一起回读课文第5~11自然段,再次感受阮恒矛盾、痛苦的内心,以及他那勇敢、无私的抉择。

(设计意图:读是阅读教学的根本。在这个教学环节中,教师引领学生紧扣描写阮恒动作和表情的句子,与文本对话走进阮恒的内心世界,理解他所受的困扰,感受他的美好心灵,学习他的优秀品格。)

过渡:尽管阮恒极力掩饰自己的痛苦,还是被医生察觉了。医生“用轻柔的声音安慰他”。想想医生会说些什么。(针对学生所说,引导学生领会虽然献血不会死,阮恒的担心只是一场虚惊,但他愿为朋友牺牲自己的崇高品格令人敬佩。)

10 请轻声读课文第12~14自然段,并联系上下文想一想:阮恒“以为自己就要死了”的想法是从什么时候产生的?(小组交流:推举代表班上交流。)

11 阮恒以为输血要付出生命的代价,自己就要死了。既然这么认为,阮恒为什么还要选择献血?请用文中的一句话回答。(学生表达。)

12 “她是我的朋友。”这句朴实的语言,蕴含着一份多么真诚的朋友真情,阮恒的勇敢行为让所有的人为之动容。(教师:阮恒之所以在害怕的同时毅然举起了手,是因为――生接读:她是我的朋友。教师:阮恒之所以在输血过程中极力抑制自己的哭泣,是因为――生接读:她是我的朋友……)

三、拓展文本,升华“朋友情”

阮恒勇敢、善良、无私助人的精神深深地打动着我们的心。“千金难买是真情”。同学们,让我们真诚对待生活中的每一个人,用爱心丰富我们精彩的生活!

1 搜集与朋友真诚相处的歌曲、格言、文章,与你的朋友共同分享。

2 想象医生和阮恒的对话,写成一段话,和自己的伙伴合作表演。

3 以“朋友”为题,写一篇小短文。

4 亲手制作友情卡,在卡上写上赠言,送给你的好朋友。

(设计意图:语文教学应着重培养学生的语文实践能力,加强与生活的联系,促进学生语文素养的提高。本教学环节旨在引导学生走出课堂,关注生活,把读、写、画有机地结合起来,让学生在感兴趣的自主活动中全面提高语文素养。)

作者单位

福建省漳州市云霄县马铺中心小学

福建省漳州市平和县安厚中心小学

◇责任编辑:刘岭南◇

'活动单元格先定位于含有有效性的单元格,再运行这段宏,以取得有效性内容

Sub chiefzjh()

ApplicationScreenUpdating = False

Dim tSt$, i%, mC%, r%, Sht$, mAdd(), mFml$

mC = ActiveCellColumn

Sht = ActiveSheetName

tSt = ActiveCellValidationFormula1

For i = 1 To ActiveCellEnd(xlDown)Row

If InStr(tSt, Cells(i, mC)Text) = 0 Then

r = r + 1

ReDim Preserve mAdd(1 To r)

mAdd(r) = Cells(i, mC)Address(0, 0)

End If

Next i

'结果输出到sheet2 A列,从第一行开始,自行修改

Sheet2Activate

Columns(1)ClearContents

With ActiveSheet

For i = 1 To r

HyperlinksAdd Anchor:=Cells(i, 1), Address:="", _

SubAddress:=Sht & "!" & mAdd(i), TextToDisplay:=mAdd(i)

Next i

End With

ApplicationScreenUpdating = True

End Sub

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/4001310.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-20
下一篇2023-08-20

发表评论

登录后才能评论

评论列表(0条)

    保存