各色 DNA 基因解读内容开发白皮书

声明:

各色科技拥有此手册一切解释权,未经书面许可,任何人不得以任何形式进行增删、节选、翻译、改编、出版及仿制。

各色科技拥有本手册内容的专利、专利申请、商标、版权及其它一切知识产权。该权利主张受法律保护,任何人不得侵犯。

1 背景

为了规范、透明地向各色 DNA 用户呈现解读开发过程,以及相关的科学细节,各色 DNA 产品研发团队编制,并会不断修订此手册。

所有用户都可以在官网(www.gesedna.com)上浏览到手册内容,各色的研发团队以及合作的各领域专家、顾问会严格按照手册规范进行解读内容的开发和版本修订。

1.1 原始数据

2018 年 10 月开始,随着全球著名 DNA 测序公司 Illumina 的 ASA 芯片 (Infinium Asian Screening Array ) 各色联合定制版研发完成,各色开始从 GSA 芯片升级为 ASA 各色联合定制版芯片,各色用户成为首批使用 ASA 各色联合定制版芯片获得测序数据和解读的人群。

2018 年 10 月开始,随着全球著名 DNA 测序公司 Illumina 的 ASA 芯片 (Infinium Asian Screening Array ) 各色深度参与了 Illumina ASA 各色联合定制版芯片的位点设计,参与定制 3 万+ 心理和健康相关基因位点,专用于人类复杂行为与基因科学研究。该芯片一次测量 75 万个 DNA 位点数据。经过算法扩展后可获得 500 万左右的 DNA 位点数据。

该芯片专为包括中国人在内的东亚人定制,Illumina 公司和各色针对 ASA 各色联合定制版的多次测试,表明其测序准确率达 99% 以上。采用权威公司研发的芯片,配合实验室严谨规范的操作,有助于帮助用户获得高质量的 DNA 数据。

各色基于芯片测序数据开发相关的解读产品。

2 开发路线图及质量控制

目前各色 DNA 基因检测及解读产品的版本信息为 v1.5.1。本手册涉及的生产规范及生产流程仅针对该版本呈现的数据和文案内容,产品功能、界面呈现、数据库支持和管理等细节不在说明范围之内。

册内容会随产品的升级迭代进行修订,并随新版本产品一同发布,不会另行通知。

各色提供的检测解读报告从技术上可以拆分为基因数据,现状测评工具和科普内容三个板块,各个板块的生产流程如图 1 所示。

图1 各色 DNA 解读报告内容开发路线图

为了帮助你了解这个过程,我们和被称为【东半球最硬核的科普视频博主】回形针,一起制作了这期视频,点击此处,即可查看,从2ml唾液到细胞到DNA,再到 570 万数据,最后输出超 20 万字报告的全过程。

2.1 立项

开发相关的基因解读和现状评估需要首先进行立项过程。各色的产品研发、内容和运营团队会定期组织会议,从一系列主题中挑选出适合进一步开发的解读内容。

2.1.1 选题来源

在选择开发方向时,主要有以下几种思路:

用户的反馈。用户会通过各种渠道向小助手和运营团队反馈,各色也会定期组织用户的调研和访谈。用户反馈中提及较多的主题和性状,将是我们下一阶段重点的研发方向;

新近的研究成果。结合国际上相关研究的进展,各色会梳理一段时间内取得了突破性进展,或者取得较多关注的研究成果,将其开发成新的解读项目,更新给用户;

已有内容的进一步细化。随着相关领域的研究推进,一些已有的解读项目可以被进一步的拆分,提供给用户更有信息增量的内容,各色也会及时的优化和更新这一部分项目。

2.1.2 可行性评估

根据以上几种思路得到的研发新性状列表,将会在讨论中进行进一步的可行性评估。评估的内容包括:

研究的充分程度。这一性状是否已经被充分的研究。研究使用什么样的数据库,是否包含中国人群的样本。相关研究成果在学术领域受认可的程度,效应量到底有多大。

用户的理解成本和检测价值。这一概念是否能够被清晰的阐述,不同层次的用户是否都能够正确理解其内涵。有多少用户会关心这个主题和方向,大多数用户是否会认可这个检测内容的价值,是否能够为用户提供一定的知识增量或者对生活方式的改进有所帮助。

开发的难度和时间。根据已有的研究提供解读需要用到多少基因位点,这些位点是否与各色的芯片检测位点重合,是否可以开发相关的现状测评,是否有专业背景的团队成员或合作专家进行科学性的审核和把关,具体开发周期大概需要多长。

2.1.3 确定开发项目

通过综合评估和讨论,各色会确定下一阶段的解读开发任务和时间进度,由产品研发团队的具体成员负责管理整个开发流程。

2.2 查找资料

在开发阶段,各色的研发人员会进行系统的文献阅读和资料查找工作,根据权威的科学研究和数据论证,进行检测位点、测试题目的选取以及科学内容的撰写工作。各色团队重点参考的信息来源包括:

2.2.1 生物信息数据库

各色的研究员会从这些地方查找具体的基因位点信息及相关的研究进展程度:

Hapmap

Ensembl Genome Browser

GWAS catalog

Oxford Brain Imaging Genetics (BIG) Server

SNPedia

OMIM

Clinvar

ACMG

Pharmgkb

2.2.2 权威科学期刊

各色的研究员会从这些地方了解到最前沿的学术研究进展:

Nature 及其子刊

Science 及其子刊

Lacent 及其子刊

JAMA 及其子刊

Cell Press 系列期刊

PNAS 等其他综合类期刊

Anual Reviews 系列期刊

和心理学、人类学、医学、生物学相关的专业类期刊,如 Psychological Science,American Journal of Clinical Nutrition

2.2.3 行业或专业的信息渠道

除了学术期刊外,各色的研究人员还会通过一些专业的协会、网站、组织机构和内部通讯了解到最前沿的观点、讨论和相关资源。

这些可靠的消息源包括,

UK biobank

Social Science Genetic Association Consortium (SSGAC)

Center for Neurogenomics and Cognitive Research (CNCR, Vrije Universiteit Amsterdam)

23andMe Research

Open Science Framework

Association for Psychological Science

中国心理学会

中国遗传学会

2.2.4 学术搜索平台

各色会在这些地方搜索和特定性状有关的科学研究:

Google Scholar

Proquest

Web of Science

Wiley Online Library

SAGE journals

SpringerLink

ResearchGate

bioRxiv

arXiv

PsyArxiv

Thesis Commons

2.3 挑选位点和确定基因算法

从实验室获得每个用户的 DNA 数据后,各色数据工程师会对 DNA 数据进行质控,确定符合标准后,将 DNA 数据上传至各色数据库,用户可以登录网站查看自己的解读结果。

各色提供算法中使用的所有基因位点列表。每一个位点的解读结论,都有相对应的文献可以参考,各色也在网站列出了这些文献,供用户进行探索。

2.3.1 梳理文献和综述

首先需要深入理解目前关于该性状的的基因研究模式。

以抑郁为例,常见的研究模式包括以下几种:

候选基因研究:根据以往研究经验,发现五羟色胺与抑郁有关,研究者进一步假设,与五羟色胺代谢相关的基因与抑郁相关。研究者会选择一些位点进行研究,发现一些结论。

全基因组关联分析研究:候选基因研究不能发现新的基因位点,全基因组关联分析研究是数据驱动研究,在更大的基因数据和表型数据中,寻找效应位点。

基因和环境交互研究:抑郁作为一种情绪,和生活环境和个人经历息息相关,基因和环境的交互研究发现在不同的环境中,与抑郁相关的基因表达程度不同。

2.3.2 综合以上的探索,开始挑选基因位点

挑选基因位点的原则主要包括:

研究对象是不是中国人。如果是中国人或者东亚人的研究质量较好,优先选择。

成熟的,经过多次重复研究验证的候选基因研究。例如 BDNF 基因 rs6265 位点,在研究中多次发现与抑郁显著相关。 

例如,

Kim, J. M., Stewart, R., Kim, S. W., Yang, S. J., Shin, I. S., Kim, Y. H., & Yoon, J. S. (2007). Interactions Between Life Stressors and Susceptibility Genes (5-HTTLPR and BDNF) on Depressionin Korean Elders. Biological Psychiatry, 62(5), 423–428.

全基因组关联分析研究,寻找效应最高的几个位点。通过统计中的 p 值或者 OR 值可以选择, OR 值越大,p 值越小,效应越高。

例如抑郁性状解读中的 rs7647854 位点,该位点来自研究:

Power, R. A., Tansey, K. E., Buttenschøn, H. N., Cohen-Woods, S., Bigdeli, T., Hall, L. S., … & Teumer, A. (2017). Genome-wide association for major depression through age at onset stratification: Major Depressive Disorder Working Group of the Psychiatric Genomics Consortium. Biological psychiatry, 81(4), 325-335.

在这项全基因组关联分析中,这是效应值最高的位点。文章中的说明是:

We identified one replicated genome-wide significant locus associated with adult-onset (>27 years) MDD (rs7647854, odds ratio: 1.16, 95% confidence interval: 1.11-1.21, p = 5.2 × 10-11). 

选点还要兼顾国内外差异。例如有的效应位点,在中国人群中分布不好,100% 的中国人都是同一类型,那我们也不会选择,这对中国人没有意义。

除此之外,还需要确认这些选点是否在各色目前检测的570万基因位点范围内。如果这一位点各色没有检测,我们也无法纳入到解读位点中。

以及这些位点之间是否存在连锁不平衡效应。如果有的话,需要予以排除。

2.3.3 最后的综合算法

目前主要的算法是计算 Polygenic Risk Scores,即基因效应累加模式。这一模式在很多研究中显示了较高的预测力。各色会根据研究中的效应量,对位点附上不同的权重,从而得到综合预测结果。

这一算法的介绍如下:

Dudbridge, F. (2013). Power and Predictive Accuracy of Polygenic Risk Scores. PLOS Genetics, 9(3).

这一算法在抑郁中的示例如下:

Power, R. A., Tansey, K. E., Buttenschøn, H. N., Cohen-Woods, S., Bigdeli, T., Hall, L. S., … & Teumer, A. (2017). Genome-wide association for major depression through age at onset stratification: Major Depressive Disorder Working Group of the Psychiatric Genomics Consortium. Biological psychiatry, 81(4), 325-335.

2.3.4 划分用户

每个用户都会得到自己在某个特征上的综合得分,各色根据得分,参考这一特征在人群中实际表现的分布,将人群划分为 2 至 5 类,分别给予不同程度标签,提供不同解读。

最终完成一次基因产品的开发。

各色开发产品的第一原则就是准确。

基因研究模式较多,涉及大量位点,各种研究结论的输出的DNA格式也不统一,所以阅读相关文献,找到效应位点,需要对此类研究非常熟悉,以及了解相关的质控方法。

针对一个基因位点的解释,不能只看一篇文献的结论,要看关于这个位点大部分研究的结论是什么,然后做出判断。比如关于抑郁的一个参考位点 rs1360780,按照多数研究,携带T会增加抑郁的风险,TT 型应该属于抑郁风险更高的人群。这个结果是经过多篇研究结论重复得出的,是更准确的结论。

2.4 现状测试开发

各色的现状测试来源有三类,由我们合作的学术团队提供,来自权威的科学文献,或者由各色自己整理编制,根据来源的不同,在工作流程上也会有一些细微的差别。

2.4.1 合作学术团队提供

各色和很多学术研究机构保持着密切的合作关系,他们也会向各色推荐一些经过验证,数据结构良好的问卷和测试。各色会根据测试的内容,编制报告提供给用户,用户的参与也可以进一步的推进该领域的科学研究进展。

例如共情能力的现状测评,这一研究工具由来自北京大学的合作团队推荐,合作团队之前已经使用这一工具在其他群体中进行过大量的科学验证,证明这些题目能够有效的评估一个人的共情能力高低。

各色得到题目后,根据已有的研究成果划定了测试的指标和分数线,编制解读报告。完成这些工作后,就可以直接提供给用户使用。随着数据量的积累,我们也会再根据各色用户的测试结果,重新进行题目的评估和分数线划分,确保测试结果能够准确反映出各色用户的实际分布情况。

2.4.2 各色通过检索文献得到的工具

从无到有开发一个新的现状测试,各色研究员们的常规工作流程是首先查阅文献资料,看看该领域是否已经有得到一致认可或者广泛使用的测评工具。

在英文文献中,这些工具通常会有带有一些固定的名字,Scale(量尺)、Test(测验)、Inventory(量表)、Measure(测量)、Instrument(工具)、Assessment(评估)、Questionnaire(问卷)、Index(指数)等。

各色会根据文献报告的内容,做出综合评估,挑选出合适的测量工具。评估的内容包括编制和修订过程是否规范,测量的结构和内部一致性是否得到数据验证,施测的群体是否有代表性,以及是否有和各色用户群体特征接近的常模数据。

选择合适的测量工具后,通常还需要以下几个步骤:

翻译。很多工具使用英文编制,各色的研究人员会首先将其翻译成中文,再邀请有国外留学经历和相关学科背景的专家将其回译为英文,与原文进行比对,这一步骤是为了确认翻译内容是否准确表达了原文的内容。

内部施测。在正式上线之前,各色会在内部或者邀请一部分资深用户进行小范围体验。这一步是为了验证工具的信度和效度指标与文献报告的一致。同时,我们会根据这些人的得分重新划定分数线。

进一步验证和调整。随着数据的积累,我们会定期的根据用户数据对这些现状评估工具进行细节的修订和分数线的更新,确保测试结果能够准确反映出各色用户的实际分布情况。

2.4.3 各色自己编制的工具

在一些研究较少的领域,可能没有现成的成套的测量工具,这种情况下,各色也会自己编制一些题目和问卷。具体工作流程如下:

出题。各色会成立内部的出题小组,小组成员需要首先通读该领域的科学文献,明确出题目的后,每人提供一定数量的题目。

题目初步筛选。形成题目后,小组成员组织讨论,筛选掉不合适的项目,挑选合适的题目组成问卷。

小范围施测,确定测量结构。首先邀请一部分资深用户进行小范围体验。根据他们的结果进行统计验证和因素分析,进一步筛选题目,并形成几个确定的测量指标。

再次小范围施测,验证测量结构。这一步是为了验证工具的信度和效度指标与初次施测时一致。同时,我们会根据已有的数据划定分数线。

不断验证和调整。随着数据的积累,各色会定期根据用户数据对这些现状评估工具进行细节的修订和分数线的更新,确保测试结果能够准确反映出各色用户的实际分布情况。

测量工具的有效性是贯穿这个开发过程中最核心的目标,各色会通过后台数据不断验证和优化,呈现给用户具有实用性的,有助于自我探索和提升的测量工具。

2.5 文字内容的生成和审校流程

色解读报告中的科普内容可能由各色的团队成员撰写,也有可能来自与各色合作的科学团队、专家或外脑贡献。一份标准的科学文案需要包括以下几个开发流程:

2.5.1 初稿撰写

初稿是最重要的一个环节,一个优秀的初稿中有 80% 的内容都会体现在最终版的解读报告上。各色对于初稿的的写作要求有两点,科学、有爱。

科学的部分,要求写在解读报告中的每一句话都需要有对应的科学依据,每一个具体的数字都需要有出处。除了撰写内容之外,整理这些参考文献和资料来源也是必须完成的步骤。

有爱的部分,要求文字内容表达出体贴和关怀,不会给用户造成伤害和不适感,用户在阅读完解读报告之后,整体的感受应该是温暖而有力量

2.5.2 科学性审校

在完成初稿后,所有的相关内容和参考资料都会被提交给另一位作者,进行科学审校。各色对于审校者有很高的要求,必须要经过系统的科学研究训练,有过科普内容的编辑写作经验,同时还要对审校的主题有过深入的研究。

在这个过程中,各色也会邀请合作的科学团队和专家共同参与。目前参与过各色内容创作的外脑专家包括:前混乱博物馆馆长刘大可果壳网主笔游识猷大象公会创始人黄章晋等。

2.5.3 统稿和文字编辑

完成撰写和科学性的把关后,各色的编辑团队会对内容进一步进行统稿加工和文字编辑。这一环节最重要的一点是,不能在文字中出现过多的陌生概念。虽然各色提供的是大量的科学内容,但我们不希望这些内容是深奥难懂的。

过稿的标准是,任何一个受过高中教育的用户,都能够完整的阅读并理解报告内容,并且整个阅读体验是愉快而不是乏味的。

大到整个报告中的对话语气,小到一个标点符号,都需要经过反复的打磨和确认。

2.6 自动化报告生成

各色会在后台根据确定的基因算法和问卷计分方式将用户结果进行分类。不同的分类标签可以直接调用个性化的解读内容,让每一个用户都能够在各色网站上得到和自己结果相关的个性化报告。

2.7 基于用户数据和反馈的迭代优化

随着用户数据的不断积累,各色会在一段时间内,结合用户的基因数据与现状评估数据,对后台算法进行一定的优化和调整,不断迭代升级。

3 产品元素

一份完整的解读报告,在呈现给用户时,一般包括五个板块的内容:性状说明,基因解读,生活经历,现状测试,更好的你。

目前的网站版本仍处于开发阶段,有一些性状只包括性状说明、基因解读和更好的你三部分的内容,缺失的部分各色研发团队会在近期内补充完善。

3.1 性状说明

对于概念科学定义和遗传影响的解释性文字。

你可以把它当作是有关各色解读项目的维基百科。各色提供了上百个解读项目,这里面包含了大量的科学概念和专业术语,在读懂自己的报告之前,你需要首先对这些解读内容的定义有了解。所以我们在产品设计时将性状说明部分放在了所有内容最前面的位置。

3.1.1 科学定义

根据已有的研究和相关理论对解读内容进行科学的界定和说明。科学定义的篇幅在 100-300 字左右。各色选用的定义需要得到相关领域研究者比较一致的认可,或与绝大多数人的理解相符。

定义需要包含参考来源,必要时需要在后面的参考文献(3.2.4)部分注明出处。

3.1.2 遗传率

遗传率指的是群体水平上,一个特征受遗传影响的程度。遗传率是一个取值在 0 到 1 的数字(通常用百分比来指代),数字越高,代表一个特征受到基因 ( 先天 ) 影响越大。

在研究中,人们一般会使用双胞胎或者有一定血缘关系的家族成员之间,在某些特点上的相关性,来计算遗传率。

最常见的作法,是比较同卵双胞胎(同一个受精卵发育而来,即这对双胞胎的 DNA 完全一样)和异卵双胞胎(由两个受精卵发育而来,所以 DNA 上和普通的兄弟姐妹一样,有 50% 相同)在这些特征上的异同,建立统计模型,得到遗传率的大小。

绝大多数复杂特征的遗传率一般在 30%-80% 左右。各色选用的遗传率数据,一般来自大样本或者元分析研究,如果有针对中国人群的双胞胎实验,我们也会优先为用户呈现中国人群体中的数据。

受到目前研究限制,有些特征因为没有进行双胞胎研究,可能暂时还没有遗传率数据。

3.1.3 基因标签与现状标签

基因标签与现状标签是对用户基因检测结果或参与现状测评结果的最直接的描述。

各色会根据提前确定的算法,结合用户基因位点的信息或现状测评的得分,进行一定的分类。分类是后续提供个性化解读内容的依据。

为了帮助用户准确的理解标签的含义,各色还提供了标签的人群分布信息,即在参与人群中,拥有同样标签的人的具体比例。

3.2 基因解读

基因解读是用户关注最多也是各色产品中非常重要的一个组成部分。

各色会根据独特的算法,将用户在某一个特征上的检测结果划分为不同的几个标签。然后根据标签的划分提供个性化的解读内容。

同时这一部分还包括了解读使用的原始位点信息、不同标签在人群中的分布信息。参考文献和详细的科学说明也会集成在页面中供用户随时浏览。

3.2.1 检测位点说明

各色使用 Illumina 定制芯片一次性检测了 75 万基因位点,使用插补算法可以拓展到千万级的位点。针对每一个具体特征,各色的研发团队会结前沿的研究状况,选出与特征相关的位点进行解读。

在检测位点说明部分,各色会详细的呈现哪些位点与这一特征有关,有效应的碱基对是哪个,以及用户自己在这些位点上的检测结果是什么。

3.2.2 个性化解读报告

针对不同基因标签的人群特点,各色团队经过反复打磨,从具体的生活场景出发,提供了个性化的基因解读报告。

解读报告的全部内容均为各色团队原创,其中涉及科学性的部分,经过了相关领域专家的评估,并且能找到研究依据。随着科学研究进展,解读报告的内容可能会不断升级优化,各色对于这一部分的文字内容拥有最终解释权。

3.2.3 标签的人群分布

标签的人群分布是基于各色所有的基因检测用户群体做出的数据描述,一个特征所对应的不同标签的分布百分比相加和为 100%。