携手健康网携手健康网

研究人员使用机器学习来证明DNA影响癌症风险

生活方式(或换句话说,“不良习惯”)是教科书中有关为什么某些人罹患癌症风险更高的解释之一。我们经常听到吸烟会增加我们患肺癌的风险,或者高脂饮食会增加我们患肠癌的风险,但是并非所有吸烟者都会患肺癌,也不是所有吃芝士汉堡的人都会患肠癌。“其他因素”必须发挥作用。

现在,卡尔加里大学科学家Edwin Wang博士的新研究正在揭示这些“其他因素”。Wang发现了七个定义癌症风险的DNA指纹或模式。该研究发表在《科学进展》上。

Wang说:“这一发现重写了教科书上的解释,即癌症的发生是由于人类的行为加上一些不幸的运气,包括一个人的基因组成。” “我们相信,婴儿出生时具有种系基因组模式,并且不会改变,而且这种模式与患癌症的风险较低或较高有关。”

该研究提供了多代疾病风险的新见解,因为种系代表了决定我们孩子的细胞以及从父母传给孩子的DNA。这是科学家第一次描述这些适用于癌症风险的高度专业化的生物学模式。

Wang是一位癌症系统生物学家和大数据科学家,担任Alberta Innovates癌症基因组学创新翻译主席。他假设每个人都适合这些风险类别,这使他们或多或少易患癌症,就像滑动标尺一样。Wang是卡明医学院的艾伯塔省儿​​童医院研究所(ACHRI)和Arnie Charbonneau癌症研究所的成员,他发现DNA指纹可以分为具有不同存活率的亚组。七个种系中的一个提供保护免于患上癌症,而其他六个种系则具有更大的患癌风险。

CSM的生物化学和分子生物学系教授Wang说:“有趣的是,这些种系中的一种可以预防癌症的发展,并且在我们的基因组分析中经常出现。” “我们知道有些人会抽烟,过着不健康的生活方式,但从未罹患癌症,这一发现可能解释了这种现象。”

对于这项研究,Wang对超过26,000个个体的种系基因组,大约10,000个患有癌症的人以及其余没有癌症的人进行了大规模的系统分析。他的小组分析了美国国家癌症研究所(National Cancer Institute)癌症患者的计算机文件,这些数据是由美国国立卫生研究院(National Institutes of Health)的美国国立卫生研究院癌症基因组图谱(National Institute of Health)收集的。样本包括22种不同的癌症,包括肺癌,胰腺癌,膀胱,乳房,脑,胃,甲状腺和骨骼等等。无癌症人群的对照组包括来自瑞典,英国和加拿大的基因组测序组。

海量数据只能通过机器学习来处理。Wang的实验室具备通过UCalgary的超高速网络处理数据的能力。这项研究需要庞大的计算机存储量:1000万兆字节。为了帮助理解此卷,一TB可以存储250部电影。

Wang说:“即使高速运行,两个流以24/7方式运行,我们的实验室也花了连续三个月的时间才下载每个基因组中包含数十亿个核苷酸的生物学信息。”

Wang指出,百分之五到百分之十的癌症是由特定的基因突变引起的。想想乳腺癌以及遗传基因BRCA1和BRCA2,这是演员安吉丽娜·朱莉(Angelina Jolie)广为人知的基因突变。Wang一直怀疑这些遗传性癌症仅代表了少数关联,并利用先进的基因组能力进行了更深入的研究,以产生更多的关联。

Wang说:“我们想研究基因组模式或基因组中重复出现的实质性顺序特征是否可以作为癌症遗传易感性的有前途的量度。”

“我们发现一种DNA指纹在癌症患者的生殖系基因组中富集了数十至数百倍,这表明它是编码癌症风险的通用遗传特征。” 该研究还发现,在同样是吸烟者的癌症患者中,另一种DNA指纹高度富集,这表明带有这种DNA指纹的吸烟者罹患癌症的风险更高。

基因组医学使疾病诊断更加有效,具有成本效益,并可以帮助人们一生做出健康决定。Wang的研究为可以帮助癌症专家和家庭医生指导患者的工具奠定了基础。“我希望对这项工作进行进一步的研究,以便最终将其付诸实践,使临床医生可以告知患者其癌症风险以及如何采取预防措施以确保健康的生活。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。