上海交通大学自动化系

沈红斌：生物分子识别的机遇与挑战

发布时间：2012-11-07 浏览次数：2373

■近年来随着生物科学领域高通量数据采集技术的飞速发展，数字存储、计算、信息和通信技术的不断进步，生物学逐渐从数据匮乏变成数据丰富的科学。

■长久以来，人们一直梦想能够获取生物分子的形象直观的照片或者视频，以便能够直观地观察这些分子的长相和活动规律。随着荧光技术、高清电子显微镜及生物图像拍摄和成像技术的快速发展，这一梦想正在逐渐成为现实。

■随着生物科学与技术的迅猛发展，蛋白质和核酸的测序数据正以指数方式增加，生物学及相关数据数量已日趋庞大，其数量之多可以用浩如烟海来形容。

生物信息：挖掘蕴含生命本质的知识

婀娜的杨柳，芬芳的花朵，慵懒的蟾蜍，轻盈的水鸟……这些构成了丰富多彩的生命世界。自人类社会诞生，人们就不断在探寻生命的奥秘，“神农尝百草”可以看作古代社会对生物学认识的最初萌芽。然而探索的过程，艰辛而又漫长，研究对象也随着研究的深入而悄然变更。最初的研究对象是个体，然后是器官和组织，再然后是细胞，直到近几十年，才转向研究生物大分子。生物大分子中蕴含了大量生命本质的信息，如何挖掘、分析、理解和应用这些信息背后的知识则是首要考虑的问题。

众所周知，信息处理最重要的科学关键问题之一是方法论。遍历自然科学的所有学科，数学是不可或缺的理论基础工具。然而，在过去相当长的时间里，人们似乎找不到数学与生物学的相关性。在《自然辩证法》中，恩格斯曾毫不客气地写道：“数学的应用……在生物学中等于零”——这就是十九世纪的状况。究其原因，其中重要的一条就是由于各方面条件的限制，生物数据相对匮乏，使得研究工作更多地依赖于假设经验法则，而不是内涵规律性分析。

然而事过境迁，今天的技术条件有了长足的发展，特别是近年来随着生物科学领域高通量数据采集技术的飞速发展，数字存储、计算、信息和通信技术的不断进步，生物学逐渐从数据匮乏变成数据丰富的科学。而传统检测不同分子的生物实验手段只能处理有限的测量，当前的设备却能够筛选出大量的分子，这是20年前生物学家无法想象的，这种现象逐渐地把生物学从假设驱动的研究转变为数据驱动的研究。这些爆炸性增长的数据信息使得我们前所未有地领略了生命的美妙和丰富多彩，同时也给我们提出了艰巨的挑战。当前分子生物学的数据量十分庞大且呈爆炸性增长，特定的大分子结构及功能异常复杂，在细胞生命周期中生物大分子的活动轨迹具有动态随机性和内在规律性并存，不同大分子之间又相互作用形成了复杂的动态生物网络。正是针对这些背景，有效方法论的研究已成为生命科学研究不可或缺的核心成员。数学作为理论工具在生物学科中的作用越来越大，也直接导致了生物统计这样的新兴学科和方向；而计算机作为实践工具，在处理海量生命数据中起着无可替代的作用；同时，信号处理、模式识别和系统控制等多诸多研究方向也逐步加入到揭示生命本质的研究中来。正是由于这些客观原因促使了这些多学科的融合，而这些学科的相互交叉，又直接催生了生物信息学这门新的学科的诞生，也被认为是21世纪生命科学和新兴生物技术发展的基石。而生物信息学的定位也逐渐从最初的数据存储和恢复等基本作用逐渐扩展到智能数据处理和从海量生物数据中提取和挖掘规律以智能预测未知的生命知识这更具挑战性的任务上来。

生物分子识别：方兴未艾的研究领域

生物细胞是由各种各样大、小分子组成。生物的小分子不仅在细胞中担负重要的生理功能，而且许多小分子是构成生物大分子的基本单位。生命体中大分子的主要代表有多糖、核酸和蛋白质。其中核酸是遗传信息的载体和蛋白质的翻译工具，而蛋白质则是一切生命活动的体现者与参与者。针对这些复杂、海量生物分子的模式分析和识别研究，描述、学习、和预测他们在生命体中的独特构象和重要功能是当代模式识别所面临的重要挑战之一。

对核酸的认识仍旧保持强劲的研究态势。尽管上世纪末开启的人类基因组计划，已取得了阶段性的成功，在人类、水稻等物种的基因组测序研究方面取得了突破性进展，但如何认识这些海量的碱基数据成为了目前的关键问题之一，对核酸分子的结构和功能研究依然占据着各国研究的重要位置。如当特定的基因找到后，亟待解决的问题是如何比较和分析不同人种间这个特定基因的共性和差异性、正常和患病个体之间又有什么差异、即使对于同一个个体对象如何评价和预测在其生命周期的不同阶段基因动态变化和所起作用等都是需要弄清的问题。如何在全基因组范围的海量数据内找到核苷酸多态性与疾病之间的关系，从而能预测那些致病性变异也是如何读懂基因组，发现遗传表达的根本规律的重要课题。寻找和识别核酸编码及非编码区域的生物特征以及信息调节与表达规律将会是未来相当长时间内的重要挑战。

后基因组时代，蛋白质作为一切生命活动的体现者与实施者，其庞大的序列、复杂的结构、独特的功能和特定的作用环境，是生物分子识别的重要研究对象之一。蛋白质“序列－结构－功能”三者关系密切相关，随着高通量测序技术的发展，已知蛋白质序列与他们已知的结构和功能之间的鸿沟越来越大，从氨基酸序列直接出发预测和建模蛋白质的结构和他们的生物学功能已成为后基因组时代最具挑战性的研究课题，而随之研发的高性能自动化生物分子识别算法和方法将有望有效缩小这一差距，并为耗时的生物实验提供直接的支撑和引领。蛋白质组是一定时间内某个细胞中所有蛋白质的总称，生物体内蛋白质组中的蛋白质之间形成一个自然的复杂网络。复杂网络所具有模块特性和动态演化特性，在蛋白质网络中得到充分体现。复杂网络的模块特性在蛋白质网络中体现为蛋白质功能的相似性，而动态性着重反映了蛋白质的多功能性以及生物体随着外界环境的变化性和适应性。通过对生物复杂网络的研究，将对准确认识生物大分子的复杂和动态特征，对关键药物靶标识别以及药物研制提供重要理论依据。

长久以来，人们一直梦想能够获取生物分子的形象直观的照片或者视频，以便能够直观地观察这些分子的长相和活动规律。随着荧光技术、高清电子显微镜及生物图像拍摄和成像技术的快速发展，这一梦想正在逐渐成为现实。而传统基于字母生物序列的生物分子识别问题正在悄然向更为直观的分子图像处理和视频分析课题迈进。譬如，可以通过自动显微图像的获取和分析，确定蛋白质在细胞中的不同位置的分布，并利用正常细胞中蛋白质分布与之对比，从而分析细胞有无病变，为筛选由于疾病发生而使蛋白质发生位置变化的生物标记成为可能。基于二维和三维图像、视频、和图形的研究被认为是当前生物分子识别的最为重要的方向之一，这一转变也极大推广了传统生物分子识别的研究领域和相关认识，是一个具有相当吸引力的新领域。

可见，人们对生物细胞中的分子的识别与分析，已经可以分别从序列、结构、功能、网络等多个不同的角度来认识生命活动。同时，研究对象也不再仅仅局限于研究核酸或者蛋白质序列，而是向二维、三维图像方向扩展，甚至可以用视频来观察和模拟细胞周期中各个阶段的分子活动，对生物分子合成、运输和新陈代谢提供更为直观的依据。一旦这些研究开花结果，人类认识生命活动的本质将会发生质的飞跃，为了解生命活动的本质开辟更加广阔的视野，为探索生命的奥秘提供更加深入的视角。

海量复杂生物数据：反哺交叉学科

人们从分子水平上对生命活动的研究，只有短短的几十年的历程。在最开始的一段时间里，人们似乎找不到合理的研究方法和有效的实践措施。伴随着以计算机技术为核心的信息技术的发展，人们逐渐利用这些工具获取了少量的生物学数据。为了处理这些数据，以数理统计、人工智能等为理论中心的众多交叉学科当仁不让地成了推动生命科学发展的助推器，同时这些传统数据处理和分析方法也受到了前所未有的挑战。

随着生物科学与技术的迅猛发展，蛋白质和核酸的测序数据正以指数方式增加，生物学及相关数据数量已日趋庞大，其数量之多可以用浩如烟海来形容。目前，许多科研机构和科研组织，都相继开发了相应的数据库以存放这些数据，当然处理方法论是从海量数据挖掘有效知识的重要内容。复杂的背景、巨大的计算量、复杂的噪声模式、海量的时变数据给传统的数学统计分析带来了巨大的困难，如我们无法处理直接移植数学组合方法来研究多基因变异和疾病之间的关系所导致的组合爆炸问题。这就要求这些原始学科在处理这些问题上的基本思路上要做本质的观念转变。现有的数理统计、模式识别与机器学习的一些方法并不能简单地套用在这些复杂的生物数据之中。这些生物数据的新特征和新模式将带来以下几方面的计算方法革新：一、高效率算法和他们的快速实现。由小规模数据处理方法向大规模甚至超大规模数据推广时，通常并不是算法上的小改进就会取得好的效果。在分子生物学中，传统的实验方法已无法满足处理高速增长的海量数据。同样地，原有的、针对少量数据的生物分子识别算法并不能解决大量数据的处理和分析。面对大规模、多类型、多模态的复杂生物数据集，需要研究更高效的数据处理理论和他们的快速实现方法。二、静态到动态识别的改变。一方面而言，生物数据和知识日新月异，而知识挖掘的一个重要方面就是如何能够使用完备的已知信息，传统静态学习和识别方法显然不能有效地反映和综合新增量，迫切需要高性能增量式生物分子识别理论和算法。另一方面，生命本质是一种动态性，其几乎体现在分子的所有生命周期，也表现在生物分子在数百上千年中不断的进化和变异中，准确分析和认识这些分子在生物网络中的动态性特征、动态进化中的差异性和他们的相互作用关系等都需要动态的观念和处理方法。三、多物种的知识交互和迁移识别。众所周知，实验科学在不同物种上的进展很大程度上不一样，但值得庆幸的是不同物种之间的生物分子在一定程度上具有较高的保守相似性，这就启示我们不能把各物种数据信息完全独立开来研究，而需要有效的知识交互，如何定量描述和表达不同来源数据的共性和差异性是实现迁移识别的重要内容。综上所述，海量的生物数据由于其高度复杂且快速增长等特点，加之模糊及不确定性和高噪声等数据特点必然会反过来作用于现有的数理统计、模式识别等理论和方法，促使这些学科在理论研究深度和应用领域广度加以不断地丰富和完善。

如今，生物分子识别经过了数十年的发展，已经硕果累累，诸多学者乐此不疲，使得这门学科蒸蒸日上，日新月异。今天，生物信息学已经充分地融合和利用了数理统计、随机过程、模式识别与机器学习等基本理论与最新成果，它的芳华吸引着大批科学家争相目睹，它的深邃依旧让众多学者争相探寻，它的浩瀚依旧让许多博学之士为之乘风破浪，数十年如一日。

返回上一级