DNA寻根溯源的方法与应用
吴小艾 吴开早
家谱世系记录了支系繁衍发展状态,需要回答始祖从哪里分支来的?家里没有家谱的,也希望搞清楚的始祖。这就是寻根溯源。
无古往今来,是人类一代代繁衍的历史。经历过战乱、饥荒、瘟疫、灾害等历史事件后,人口的消长总体是与日俱增。而人口扩张的情况会被DNA忠实地记录,这也为检测DNA追溯祖源成为了可能。
一、通过 DNA 追溯祖先
1、DNA检测技术发展
1953年沃森和克里克发现了DNA分子的双螺旋结构, 开启了分子生物学的大门, 奠定了基因技术的基础。基因作为遗传的基本单元,携带有遗传信息的DNA或RNA序列,通过复制,把遗传信息传递给下一代,指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表达。
随后基因检测技术得到迅速发展。检测是通过血液、其他体液、或细胞对DNA进行检测的技术,取被检测者外周静脉血或其他组织细胞,扩增其基因信息后,通过特定设备对被检测者细胞中的DNA分子信息作检测,分析它所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法,从而使人们能了解自己的基因信息,确定祖源,还可明确病因或预知身体患某种疾病的风险。
2、Y染色体分支树与溯源
人有 23 对染色体,其中第 23 对是性染色体,男性是 XY,女性是 XX。只有男性才有Y 染色体,所以 Y 染色体会严格的遵守父亲遗传给儿子这一规律。
Y 染色体上有 5900 万个位点,其中大约有1000 万个位点处于非常稳定的区域,大约每100 多年会出现一个突变。因此任意两个人之间通过计算各自 Y 染色体上的突变数量就可以估算出这两个人在多少年前拥有共同的祖先。
通过对 Y 染色体 DNA 两两之间的关系比较,可以构建出一棵Y染色体的分支树,树根是那位人类共祖“Y染色体亚当”,树叉是我们那些曾经辉煌过的祖先们,而我们是树上最小的分支。通过对树上的支系进行分析,可以得到这支对应的爆发时间。再统计这支后人的分布以及姓氏规律就可以发现很多可以用于溯源的线索。
3、DNA数据库数据量高速增长
从事基因测试的单位,都相应建立了DNA数据库,数据量高速增长。根据23魔方目前掌握的中国人基因数据,以及现有历史资料分析推算,自明朝以来中国共有22万个家谱,大约25%的家族覆盖了中国人口的70%左右。截止2019年5月,23魔方已完成了4650个家谱的数据化,覆盖8%的中国人;到2019年底,将完成3.4万个家谱的数据化,覆盖60%的中国人。换句话说,届时60%的中国人,男性凭借自身基因,女性凭借父亲的基因,透过基因检测,可以和数据化后的家谱相匹配,从而间接找到散失多年的家族与亲人。
4、DNA检测的服务单位
目前国内从事商业基因检测有:华大基因、微基因、23魔方、贝瑞和康、药明康德、博奥生物、达安基因、华因康HYK、碳云iCarbonX、西比曼CBMG、中源协和、安诺优达等。
23魔方目前有0元测、基础版价格449元,父系祖源深度版999元三个版本,第一次建议使用0元测,定出自己的单倍群体后,直接升级做高通,高通检测2000万个点位,可以精确到百年内的共祖。
二、中国人口DNA类群分布
通过对全球男性的 Y 染色体 DNA抽样检测大数据分析,发现所有的男性共同的祖先,他生活在大约 20 万年前的非洲。学术界目前主流认为,Y-Q单倍群大约于2.45万年前左右形成于中亚和中南西伯利亚一带,随后向四周扩张迁徙,在2-1万年间,Q族群向东进入美洲,向西进入西亚和欧洲,向南进入南亚。考古发现的这期间的细石器文化扩张与Y-Q单倍群扩张存在明显伴随关系。
中国古DNA检测分地区数据表明:中原地区目前测得的最早古DNA却是Q-M120而不是O系;东北地区的古DNA的一个显著特点是N系和C系占据大多数;长城沿线的一个显著的特色单倍群是N系,他们的分布从河北的张家口经代北地区延伸到鄂尔多斯高原,甚至一直向西,直到甘肃酒泉的马鬃山原匈奴文化古DNA也是N;西北地区可能是单倍群最多样化的地区,O、C、N、Q、D、R一应俱全,这说明西北地区历史上一直是文化碰撞和民族迁徙的走廊;长江流域的古DNA显示出惊人的一致性,全部是O系,没有任何O系以外的单倍群。以大溪文化6400年前的上限而论,大溪遗址可能是中国目前测得最早O系古DNA的地方。
从DNA类型构成统计数据看,中国人5000年共祖的前五大单倍群依次是:Q-M120、Oβ2-F242、Oδ-F492、Cα-F1319、N1b-M1819。这五大单倍群大簇,其中 Cα-F1319最近共祖有8800年,N1b-M1819最近共祖大约有6400年。Oβ2-F242和Q-M120的年龄相似约6000年,按照YFULL分析结果,中国人Q-M120最近共祖大约是5000年左右。在Q-M120中96%又是Q-F1626。Q-F1626的共祖时间为5400年。Oδ-F492*最近共祖年龄很年轻为2900年!
从DNA分布上看,Oβ2-F242和Q-M120的分布也很相似,都是全国性的,也都是北方多南方少。而Oδ-F492基本是南方分布,且在南方各省中优势十分明显,N1b-M1819基本上是偏西分布。在这五大单倍群簇分支中,只有QM120是唯一的一个进入传统北汉所有各省前六频率的单倍群!而且在南方各省分布中,除了福建、广东、广西和海南这沿海四省分布频率较低之外,其他各省的QM120频率也大多进入了前10大簇。另外,R系大单倍群在北方汉族中也表现不俗,显示汉人中的确有一定程度印欧种系人群融入(平均大约占中国人1-2%左右)。频率图乘上人口基数,就可以得到全省的实际人口密度分布图。具体见下表:
中国5000年内诞生的男性中,从统计趋势上看,Q-M120应该当之无愧是中国人的“第一大”祖宗。Q-M120是中国主要的Q系单倍群,约有1682万男性。M120在中国人中占比2.25%,占中国所有Q单倍群的88%。
三、DNA应用场景及溯源进展
1、黄帝可能是Q-Y558。
Q-M120是汉族固有组成部分之一,其最初的源流很可能是黄帝部族。Q-M120共祖时间6600年。Q-M120是中国主要的Q系单倍群,而Q-M120中96%又是Q-F1626。Q-F1626的共祖时间不算太早,为5400年,这说明5400年前F1626出现了强烈的扩张。Q-F1626下游的Q-Y558出现了多分叉的现象,Q-Y558的共祖时间是4800年,非常接近黄帝所处的年代。如果黄帝是M120的话,易刀卜认为Q-Y558最有可能是黄帝。
兵策儒剑认为:可以确定Q-M120两大分支即DYS391=9和DYS391=6恰好分别对应黄帝后裔帝喾和颛顼两大支系。DYS391=9,来自于姬周的扩散;DYS391=6,来自于良诸-越国的扩散。
2、炎帝部落Oα为主的部落(如O-F492)
从分子人类学的角度研究,易刀卜认为:炎帝华族或应是以单倍群Oα为主的部落(如O-F492),黄帝夏族或许与单倍群Q(如Q-F1626)或N有关。
我们知道,炎帝姓姜,炎帝部落是姜姓部落。以下是根据23魔方公布的75个姓氏,计算的M117下游支系的前7位高频姓氏:从23魔方姜姓的统计结果看,M117区域单倍群是最多的,有F438、F155、F402、A9457四支,说明姜姓部落是M117为主的部落。
不管是从各单倍群中出现的姜姓高频,还是姜姓中高频的单倍群,都发现姜姓与M117有很大的相关性,说明炎帝部落很可能是以M117为主体人群的部落。周族始祖后稷的母亲名姜嫄,后稷很可能也出自姜姓炎帝部落,姬周王族的Y染类型很可能是M117的下游的某支系。姬周世源至姜姓M117。
3、O-F492代表人物:吴回、楚穆王F656、屈原、项羽。
考察F492的上一级F533的高频姓氏: 罗:2.86% 重黎之后封于罗国;陆:1.98% 陆终; 熊:1.54% 陆终第六子季连之孙穴熊; 朱:1.47% 陆终第五子曹安封于邾国; 邓:1.45%; 吴:1.3% 吴回; 唐:1.3%;高:1.08%;金:0.97%;周:0.57%。
初步推测F492可能是重黎、陆终、吴回的后人,与火神祝融有关。司马光自认是西晋安平献王司马孚之后,而司马懿一般的记载是程伯休父的后人,也就是重黎之后,这与F492的上一级F533是重黎家族可以相互对证。F492也可能是楚国,因为楚国据称是陆终第六子季连之后。不过从地理分布和姓氏统计看上,FGC19713更像楚国一些。或许,鬻熊是祝融氏部落的后人,攀附了季连。 综上所述,我们可以绘制一张F533和F492可能的谱系图:
从图中不难看出,F492单倍群家族庞大,人才辈出。鬻熊、屈原、子贡、楚庄王、司马光、项羽可能都是F492,而楚国、南陈等政治实体或许是F492建立的。
长江流域的古DNA显示出惊人的一致性,全部是O系,没有任何O系以外的单倍群。以大溪文化6400年前的上限而论,大溪遗址可能是中国目前测得最早O系古DNA的地方。在不同的地区中,长江流域的古DNA体现出最大的O系多样性,其中有O2、O1b、O1a。从O系古DNA异乎寻常的年代之早、多样性之大和纯度之高来看,毫无疑问,长江流域肯定是O系早期的起源地之一,尤其是多样性最高的长江中游地区。
4、孔姓系是Q-M120。
根据2016年2月《人类学学报》侯伟光等《曲阜地区孔姓群人群17个Y-STR基因做遗传多样性分析》文章,孔子Y类型最可能是Q-M120或C3。根据其他一些关联因素分析,如孔子-商-美洲-Q关联、孔子-商-周-“倗国”Q-共祖帝喾-黄帝关联、蒙古-满-C3关联和Y-STR聚合年代分析等,孔子属于Q-M120概率远远大于C3。
从以下几点分析来看,Q1a1-M120远比C3更符合孔子后裔分子学特征:3000年前中原倗国古DNA 证明Q1a1是当时贵族血统(八个大墓全为Q1a1,两任倗伯为Q1a1),这是迄今被古DNA唯一证实的商周时期贵族Y类型。另一古DNA东周时代宁夏彭阳Q1a1墓葬旁边有青铜剑,春秋战国只有贵族才能佩剑。孔子即出身贵族。但是迄今没有古DNA证据能证明秦汉以前的中原有C3系存在。从曲阜孔姓Q1a1人群与C3人群网络结构图来看,Q1a1相对松散,历史更久远,与孔子年代接近,而C3聚合度相对更紧密,历史更晚近,与蒙古人扩张时间相仿。
那么,基于以上目前已经有的分子人类学证据,兵策儒剑判断Q1a1才是孔子真正后裔,而C3是蒙古人册封的假衍圣公后裔,孔末的后裔则应在O3内。孔仁玉为真孔子后裔可能性高,但是后来“衍圣公”被蒙古人冒替了,所以“外孔”认定“内孔”为“伪孔”也有道理,但是真孔子后裔应该也在内孔之内,而不太可能在外孔,或内外孔皆有。
5、成吉思汗是C-Y4541。
C-Y4541下目前测得有17例样本,不少于4支下游支系,表现出明显的帝簇爆发迹象。作为一位900年前左右的先人,他应该是那个时代子嗣繁衍最成功的人。成吉思汗生于公元1162年,距离现在857年,非常接近C-Y4541的共祖时间。C-Y4541的下游样本分布于俄罗斯、中国、哈萨克斯坦、吉尔吉斯斯坦、乌克兰等国家,对照蒙古帝国四大汗国的分布地域,C-Y4541如果不是成吉思汗也没有太多别的选项了。
ID为ESR2374307的样本就是137例古DNA中的DA28,发现于哈萨克斯坦中部的一处金帐汗国时期的墓地,他是一名信奉佛教的蒙古战士。这例古DNA样本建立起了C-Y4541与金帐汗国之间的联系,说明这名蒙古战士与疑似成吉思汗的C-Y4541出自同一部族,有很近的父系血缘关系。C-Y4541的上游C-Y4580的根部是一例现代中国辽宁省样本,这符合蒙古人的前身室韦出自东胡的历史记载。因为室韦部落与鲜卑、柔然等 部族有大抵类似的起源,其起源地大概在西辽河上游的辽宁与内蒙古交接一带。C-Y4580下游古DNA和现代样本国籍的分布也符合蒙古人从中国东北部出发,一路向西的征服史。
我们再对C-Y4541的下游支系做进一步分析,考虑各个样本的国籍,大略推测:Y4569可能是拖雷,其下游出现中国北京后裔的FGC29011也许是忽必烈吧。Y125520下游两例样本据说是哈扎拉人,推测Y125520可能是蒙哥。术赤据说有14个儿子,他的儿子们建立了多个汗国:金帐汗国、白帐汗国、蓝帐汗国等等。因此,术赤必然也会出现一个大支系,Y12782可能是术赤。
6、F3555可能是虞舜
YFull树的F9935是F1319下游的主要支系,F10056正在其下游。如果F10056是虞舜世系,根据YFull计算的分化与共祖时间,我们大致可以作如下的推测:F3555可能是虞舜,F10356可能是帮助少康复国的虞国中兴之祖虞思,F8841可能是陈胡公,F13136可能是陈完。如果这个推测是对的,则F13136下游的河南王氏可能出自妫姓王氏(齐王),湖北陈氏出自陈完。可详见分支树。
7、绛县横水北古遗址DNA。
山西绛县横水北西周早期(3000-2700BC)墓地古遗骨,经吉林大学测试,发现高比例Q-M120。几位墓中青铜鼎上有“倗伯”铭文的墓主属于Q-M120,包括规格最高的拥有八鼎两簋的M2158墓主也属于Q-M120。绛县横水北遗址族群遗传基因结构在目前发现的古遗址DNA中与汉族最为接近。迄今,横水北墓也是商周时期各诸侯国中唯一被披露了古DNA数据的诸侯国级墓地,是唯一把中国文字、青铜文明,以及周文化(鼎簋、金文、荒帷、丰碑等制度),与古DNA联系起来并得到了公布的墓地。
8、黑沟梁墓地古DNA。
黑沟梁墓地位于新疆巴里坤盆地东部,毗邻哈密遗址,年代约公元前200年,为西汉前期。出土文物非常丰富,其中金属的工具、武器、马具和装饰品等非常富有游牧民族特色。黑沟梁墓地的一大特点是部分墓葬(一般是规模较大,随葬品规格较高的墓葬)除墓底的墓主人骨外还有人牲(为祭祀祖先(人鬼)、神灵或自然界万物而杀戮活人以为祭品),人牲多被肢解后随意埋入填土中的。比较墓主的陪葬品和人牲的随身物品可以看出二者有着明显不同的文化特征,这暗示墓主和人牲不仅在社会地位和等级上存在差异,甚至可能分属于不同的族群。黑沟梁12例古DNA均属于单倍型类群Q,其中4例为Q2a1-M378。6例个体为MEH2,但不是Q1a1-M120、Q1a2-M25、Q1a3a-M3。
四、DNA溯源应用实例
实例一:远在吉隆坡陈先生通过DNA溯源完成寻根梦
陈先生的祖父年轻时从中国移居马来,生性寡言少语,直至离世,也未向当时年龄尚幼的陈先生提起过故乡往事。在马来西亚出生的陈先生,时常往返于中马两国,而他本人亦有四分之一的中国血统。“马来是我长大的地方,然而我还是想去探访祖父的故乡。” 陈先生对寻根充满渴望,即便经常往返于成都、深圳与吉隆坡,他的寻根之旅依然障碍重重:中国幅员辽阔,何处才是祖父故里?
陈先生试用了23魔方的基因检测产品,凭借其祖源检测功能,幸运地匹配上了祖父的家谱——福建省龙岩市上杭县陈氏。陈先生来到福建上杭。他看到了家族的老房子,那是用祖父在马来挣的钱所修盖。他还到曾祖母坟前祭拜祈祷,翻阅了残留的家谱,并与此前从不知道的家族成员闲聊。这趟旅程让陈先生第一次感到,自己与中国真正联系在了一起。
实例二、炎黄修谱网创建DNA分化树信息系统。
炎黄修谱网创建人吴开早,利用炎黄修谱网平台,创建DNA分化树信息系统,为宗亲基因检测集中采集标记,为宗亲寻根溯源提供服务。有兴趣的可以登陆 www.yhxpw.com上看,账号:YYY,密码123456。
炎黄修谱网DNA分化树信息系统,目前收集到共祖2230年基因的姓氏有:江苏南京高淳杨氏、江苏郁氏、陕西安康宋氏、上海张氏、江苏常州王氏、江西宜春敖氏、江苏南通施氏、宁夏银川董氏、江苏盐城李氏、山东济宁龚氏、某地郭氏、江苏扬州王氏、浙江嘉兴刘氏、江苏南京赵氏、湖北武汉刘氏、上海朱氏、上海李氏、安徽宿州韩氏、浙江温州范氏、江苏常州何氏、安徽宿州张氏、江西南昌陈氏、上海奚氏、江苏南通陈氏、浙江宁波童氏、浙江杭州李氏、贵州遵义罗氏、江苏南通陈氏、江苏扬州吴氏、四川遂宁吴氏、上海卞氏、浙江嘉兴项氏、浙江温州金氏、江苏苏州杨氏、上海费氏、江苏常州庄氏、上海徐氏、云南昆明吴氏、上海邹氏。
炎黄修谱网创建人吴开早,通过23魔方,进行DNA基因检测,结果是O-F492下游的O-MF6069,距离今共祖2300年,详见分支树,这个结果都还比较粗糙,在家谱中还起不到作用,所以又做了一个高通,估计在5月5日左右能查看结果。
随着更多宗亲参加基因检测,上述分化树信息会逐步丰富,为宗亲寻根溯源提供平台与参考(注:分化树是在家谱网站做的,前面显示的男和多少世与分化树无关)。
23魔方也对高通用户创建家谱研究,如O-F533及下游的吴氏
DNA 溯源提供的也只是一种历史的线索,不能代表绝对的史实。随着分子人类学、历史学、考古学的不断发展,现在的线索也有可能会被证实或者证伪,因此结果会持续更新。这样为宗亲寻根溯源提供了一个定量通道和工具。
参考资料:
1、
兵策儒剑:Q-M120两大支系与黄帝后裔两大派系;
2、
易刀卜:炎帝部落Y染色体初探;
3、
吴开早:炎黄修谱网。
作者简介:
吴小艾,男,湖北吴氏至德文化交流中心 秘书长、武汉艾尔通电气有限公司经理;
吴开早,男,炎黄修谱网创建人、云南文玲电子商务有限责任公司董事长。