CAD程序未来或可用于设计新的生物体

IEEE电气电子工程师学会 2021-12-08 16:15

点击蓝字 关注我们

SUBSCRIBE to US


Foundries such as the Edinburgh Genome Foundry assemble fragments of synthetic DNA and send them to labs for testing in cells.    EDINBURGH GENOME FOUNDRY, UNIVERSITY OF EDINBURGH

在接下来的十年里,医学可能最终会推进一些困扰人类的最复杂疾病的治疗。如我们所了解,许多疾病是由人类基因组的突变引起的,这些突变既可以从我们的父母那里遗传(如囊性纤维化),也可能伴随着生命而发生,如大多数类型的癌症。对于其中一些情况,医学研究人员已经确定了导致疾病的确切突变;但在更多领域,他们仍在寻求答案。如果不了解问题的原因,很难找到解决方法。


我们相信,在这一探索中,一项关键的使能技术是用于基因组编辑的计算机辅助设计(CAD)程序。


有了这个CAD程序,医学研究人员将能够快速设计出数百个不同的基因组,并将基因编码发送给一家制造DNA序列的公司。然后,这些合成DNA片段可以被送到铸造厂进行组装,最后送到实验室,在那里可以在细胞中测试设计的基因组。基于细胞的生长方式,研究人员可以使用CAD程序对新的一批重新设计的基因组进行迭代,共享数据以进行协作。只有通过自动化才能实现数千种变体的快速重新设计;在这个范围内,研究人员可能仅仅识别导致遗传疾病的突变组合。这是找到治疗方法的第一个关键研发步骤。


CAD软件的应用范围远远超出了医学领域,并遍及合成生物学的新兴领域,这涉及到重新设计生物体以赋予它们新的能力。例如,我们设想用户为生物制造设计解决方案;由于微生物能产生有价值的化学物质和材料,社会有可能减少对石油的依赖。为了帮助对抗气候变化,用户可以设计微生物来吸收和锁定碳,从而减少大气中的二氧化碳(全球变暖的主要驱动因素)。


GP write,可以理解为Human Genome Project的续集,在该计划中,科学家首先学会了如何“读取”人类的整个基因序列。GP write的目标是在基因扫盲方面迈出下一步,实现整个基因组的常规“书写”,每个基因组都有成千上万个不同的变异。随着基因组的编写和编辑变得越来越容易,生物安全是头等大事。我们从一开始就在我们的系统中建立安全措施,以确保平台不会被用于制造危险或致病性序列。


需要快速复习一下基因工程吗?它从DNA开始,DNA是一种双链分子,编码我们星球上所有生命的指令。DNA由四种氮碱基组成:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C),这些碱基的序列决定了DNA中的生物指令。这些碱基配对形成一个长而扭曲的梯子的梯级。人类基因组(意味着每个人类细胞中的整个DNA序列)由大约30亿个碱基对组成。在基因组内是称为基因的DNA片段,其中许多编码蛋白质的产生;人类基因组中有20000多个基因。


人类基因组计划(Human Genome Project)花了十多年时间,总共耗资约27亿美元,于2000年完成了人类基因组的第一份草案。基因组测序的简易性改变了基础生物学研究和几乎所有医学领域。例如,医生已经能够精确地识别与某些类型癌症相关的基因组变异,帮助他们建立早期检测的筛查方案。然而,识别和理解导致疾病的变异和开发靶向疗法的过程仍处于初级阶段,仍然是一个决定性的挑战。


到目前为止,基因编辑一直是在一个巨大的基因组中改变一个或两个基因的问题;像CRISPR这样复杂的技术可以创建有针对性的编辑,但规模很小。尽管有许多软件包帮助基因编辑和合成,但这些软件算法的范围仅限于单个或少数基因编辑。我们的CAD程序将是第一个能够在基因组范围内进行编辑和设计的程序,允许用户改变数千个基因,并且它将以一定程度的抽象和自动化操作,允许思考全局。当用户创建新的基因组变体并在细胞中研究结果时,每个变体的特性和特征(称为表型)都可以被记录并添加到平台的文库中。这样一个共享数据库可以大大加快复杂疾病的研究。


此外,目前的基因组设计软件要求人类专家预测编辑的效果。在未来的版本中,GP write的软件将包括表型预测,以帮助科学家了解他们的编辑是否会产生预期的效果。用户生成的所有实验数据都可以输入机器学习程序,从而在良性循环中改进其预测。随着更多研究人员利用CAD平台和共享数据(学术界将免费获得开源平台),其预测能力将得到增强和完善。


我们的第一个CAD软件版本将具有一个用户友好的图形界面,使研究人员能够上传一个物种的基因组,在整个基因组中进行数千次编辑,并输出一个文件,该文件可以直接送到DNA合成公司进行制造。该平台还将实现设计共享,这是大规模基因组编写计划所需协作工作的一个重要特征。


电子CAD程序和基因组设计之间有明显的相似之处。要制造一个有四个晶体管的小玩意,你不需要计算机的帮助。但今天的系统可能有数十亿个晶体管和其他组件,如果没有设计自动化软件,设计它们是不可能的。同样,仅仅设计一个DNA片段也可以是一个手工过程。但是,如果没有像我们正在开发的CAD程序这样的东西,复杂的基因组设计在整个基因组中进行数千到数万次编辑是不可行的。用户必须能够在几秒钟内输入跨基因组执行的高级指令。


一个好的电子CAD程序包括一定的设计规则,以防止用户在设计上花费大量时间,却发现它无法构建。例如,一个好的程序不会让用户把晶体管放在无法制造的模式中,或者放在没有意义的逻辑中。我们希望为我们的基因组CAD程序设计相同的制造规则。最终,如果用户正在创建合成公司无法制造的序列,我们的系统将提醒用户,目前合成公司存在一些限制,例如某些重复DNA序列的问题。如果用户的生物逻辑有问题,它也会通知用户;例如,如果他们添加到蛋白质生产代码中的基因序列不起作用,因为他们在中途错误地包含了“停止生产”信号。


但我们企业的其他方面似乎是独一无二的。首先,我们的用户可能会导入包含数十亿个碱基对的巨大文件。淡水变形虫dubium的基因组有6700亿个碱基对,比人类基因组大200多倍!由于我们的CAD程序将托管在云端,并在任何互联网浏览器上运行,我们需要考虑用户体验的效率。我们不希望用户点击“保存”按钮,然后等待十分钟的结果。我们可以采用延迟加载技术,即程序只上载用户正在处理的基因组部分,或者使用缓存实现其他技巧。


将DNA序列输入CAD程序只是第一步,因为序列本身并不能给你答案。所需要的是另一层注释,以指示该序列的结构和功能。例如,编码蛋白质生产的基因由三个区域组成:启动基因的启动子、包含合成RNA指令的编码区域(蛋白质生产的下一步)和指示基因末端的终止序列。在编码区内,有一些“外显子”,它们直接翻译成组成蛋白质的氨基酸和“内含子”,插入在基因表达过程中被去除的核苷酸序列。我们希望改进此注释的现有标准,因此我们的标准化接口语言将很容易被全世界的人理解。


一旦用户导入基因组,编辑引擎将允许用户在整个基因组中进行更改。现在,我们正在探索不同的方法来有效地进行这些更改并跟踪它们。一个想法是我们称之为基因组代数的方法,它类似于我们在学校学的代数。在数学中,如果你想从数字1到数字10,有很多方法可以做到。你可以加上100万,然后减去几乎所有的,或者你可以通过反复加少量来达到目的。在代数中,您有一组操作、每个操作的成本以及帮助组织一切的工具。


在基因组代数中,我们有四种操作:插入、删除、反转或编辑核苷酸序列。CAD程序可以根据基因组学的某些规则执行这些操作,用户无需了解细节。与定义算术运算顺序的“PEMDAS规则”类似,基因组编辑引擎必须正确地对用户的操作进行排序,以获得所需的结果。该软件还可以相互比较序列,基本上检查它们的数学,以确定结果基因组中的相似性和差异性。


Users can import any genome (here, the E. coli bacteria genome), and create many edited versions; the CAD program will automatically annotate each version to show the changes made. GP-WRITE


在软件的更高版本中,我们还将提供算法,建议用户如何最好地创建他们心目中的基因组。一些改变的基因组可以通过从头开始创建DNA序列来最有效地产生,而另一些更适合于对现有基因组进行大规模编辑。用户将能够输入他们的设计目标,并就是否使用合成或编辑策略或两者的组合获得建议。


我们的目标是在行业咨询委员会成员的帮助下,使CAD程序成为用户的“一站式商店”。我们希望通过建议最适合生产特定序列的公司,或者通过创建一个用户可以看到多个制造商价格的市场,就像人们在机票网站上所做的那样,使订购步骤更加方便用户。


由于这一新的可及性水平,生物安全是重中之重。我们计划在我们的系统中建立几个不同级别的安全检查。我们将根据国际基因合成联合会(International Gene Synthesis Consortium,IGSC)制定的标准对任何序列的进出口进行生物安全检查,并根据其不断发展的病原体和潜在危险序列数据库进行更新。除了硬检查点可以防止用户进行危险的操作外,我们还可以开发一个更软的警告系统。


我们还将保留重新设计的基因组的永久记录,以便于记述和追踪。该记录将作为每个新基因组的唯一标识符,并将使正确的归属进一步鼓励共享和协作。其目标是为研究人员、慈善机构、制药公司和资助者创造一个广泛可访问的资源,分享他们的设计和经验教训,帮助他们找到推进基因疾病和环境健康研发的富有成效的途径。我们相信,对用户的认证和对其设计的注释跟踪将有助于实现两个相辅相成的目标:它将加强生物安全,同时通过创造归属记录,为合作交流创造一个更安全的环境。


微信号|IEEE电气电子工程师

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


往期推荐


推荐阅读

IEEE 2022新晋Fellow名单正式公布


11-25 IEEE

新常态:2022年及以后的新常态


12-01 IEEE Transmitter

可持续性的商业必要性


12-06 IEEE Transmitter

澳大利亚初创公司研发新体系电池 或将超越液流电池?


12-03 JOHN BOYD



IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论 (0)
热门推荐
X
广告
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦