图书介绍

理解生物信息学2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（英）M.泽瓦勒贝，J.O.鲍姆著；李亦学，郝沛主译著
出版社：北京：科学出版社
ISBN：9787030328328
出版时间：2012
标注页数：630页
文件大小：321MB
文件页数：655页
主题词：生物信息论－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：2a986499928c9a39bb68935ab24ecb82

下载说明

理解生物信息学PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1部分基础知识3

第1章核酸的世界3

1.1 DNA和RNA的结构4

DNA分子是由4种不同类型的碱基组成的线性多聚体4

两条互补DNA链通过碱基配对形成双螺旋6

RNA分子通常为单链结构，但在某些情况下可形成碱基配对结构6

1.2 DNA、 RNA和蛋白质：中心法则8

DNA是信息载体，而RNA则是信使9

信使RNA根据遗传密码翻译产生蛋白质10

翻译过程涉及了含DNA和RNA的核糖体的转移11

1.3基因结构和基因调控12

特定的定位序列能和RNA聚合酶结合，并识别转录起始点13

真核生物中的转录起始信号远比细菌中复杂得多14

真核生物mRNA转录物在翻译前需经历一系列修饰15

翻译的调控16

1.4生命与进化之树16

主要生命形式的基本特征17

突变可以改变核苷酸序列18

总结19

名词解释19

扩展阅读21

第2章蛋白质结构22

2.1初级结构和二级结构23

我们可从多个不同水平考察蛋白质结构23

氨基酸是蛋白质的组成单位24

侧链决定了氨基酸化学和物理特性的不同24

蛋白质链中的氨基酸通过肽键共价连接26

蛋白质的二级结构由α螺旋、β链构成28

在蛋白质结构中已发现了几种不同类型的β折叠片31

螺旋和链通过转角、发夹结构和环连接31

2.2对生物信息学的启发32

某些氨基酸倾向于形成特定的结构单元32

从进化角度帮助序列分析32

蛋白质结构的计算和可视化32

2.3蛋白质通过折叠形成紧凑的结构33

蛋白质的三级结构是通过多肽链的路径来定义的34

蛋白质折叠的稳定状态是能量最低的状态35

很多蛋白质是由多个亚基组成的35

总结35

名词解释36

扩展阅读37

第3章数据库的处理38

3.1数据库的结构39

平面文件数据库以文本文件的方式存储数据40

关系数据库广泛应用于存储生物信息41

XML的灵活性可以确定定制的数据分类42

一些用于生物数据的其他数据库结构42

数据库可以通过本地访问或通过互联网相互链接43

3.2数据库类型43

数据库中不仅仅是数据44

原始数据和衍生数据44

我们如何定义和链接事物的重要性：本体44

3.3数据库搜索45

序列数据库46

芯片数据库46

蛋白质相互作用数据库50

结构数据库50

3.4数据质量51

非冗余性对一些应用特别重要52

自动化方法可用于检查数据的一致性52

初步的分析和注释通常是自动化完成的53

为了产生高质量的注释经常需要人为干预53

数据库更新和条目注释版本号的重要性53

总结54

名词解释54

扩展阅读55

第2部分序列联配59

第4章产生和分析序列联配59

4.1序列联配的原理60

联配是在两个或更多序列的相同区域寻找最大相似性的任务60

联配可以揭示序列间的同源性61

比较蛋白质序列比核酸序列更容易检测同源性62

4.2联配分值62

一个联配的质量是通过给予一个量化的分值来衡量的62

量化两个序列间的相似性的最简单的方法是百分数62

基于一致度的点图可以可视化地评价相似性63

真正的匹配不必相同65

最低一致度比可以被接受为具有显著性66

对于打分联配有许多不同的方法66

4.3替代矩阵66

使用替代矩阵对每个排列后的序列位点分配一个单独的值66

PAM替代矩阵使用密切相关的蛋白质序列集的替代频率66

BLOSUM替代矩阵使用了局部高度保守区域序列的突变数据67

替代矩阵的选择取决于要解决的问题67

4.4插入空缺68

在序列插入空缺以达到和另一条序列的相似度最大，需要罚分制度68

动态规划算法可以决定引入最优空缺69

4.5联配类型69

对于不同情况采用不同类型的联配69

多重序列联配能同时比较一些相似序列71

有几种不同的技术可构造多重联配72

多重联配可以提高低相似性序列联配的精确度72

ClustalW可以对DNA和蛋白质序列进行全局联配72

通过合并一些局部联配可以构建多重联配73

增加新信息可以改进联配74

4.6检索数据库74

已开发了快速而准确的搜索算法75

FASTA格式是一个基于较短的相同片段匹配的快速的数据库搜索方法75

BLAST的基础在于发现非常相似的短片段75

对不同的问题采用不同版本的BLAST和FASTA75

PSI-BLAST基于配置文件的数据库搜索76

SSEARCH是一个严格的联配方法76

4.7搜索核酸或蛋白质序列76

可直接使用或翻译后的DNA或RNA序列76

必须测试数据库的匹配质量，以确保其不可能是偶然发生77

选择一个适当的E值的阈值有助于限制数据库搜索77

低复杂度区域可以将同源性搜索复杂化79

不同的数据库可以用来解决具体问题79

4.8蛋白质序列模体或模式81

建立数据库的模式需要专业知识82

BLOCKS数据库包含自动编译的保守蛋白质序列的多重联配的较短序列模块82

4.9使用模式和模体搜索83

可以在PROSITE数据库中搜索蛋白质的模式和模体83

基于模式的PHI-BLAST程序同时搜索同源性和模体匹配84

可以使用PRATT从多条序列产生模式84

PRINTS数据库包括了指纹图谱，描述一个蛋白质家族的一些保守模体84

Pfam数据库定义了蛋白质家族的表达谱85

4.10模式和蛋白质功能85

可以搜索蛋白质上特定的功能位点85

序列比较不是唯一分析蛋白质序列的途径85

总结86

名词解释87

扩展阅读88

第5章序列比对及数据库搜索90

5.1替换矩阵和打分91

联配分值用于衡量公共进化祖先的似然性91

PAM （MDM）替代打分矩阵用于探索蛋白质进化起源92

BLOSUM矩阵用于寻找保守的蛋白质区域94

用于核苷酸联配的打分矩阵需由相似的方式得到96

替换打分矩阵必须适用于特定的联配问题97

插入空缺的打分相对替换而言使用了更为启发式的方法97

5.2动态规划算法98

使用改进后的Needleman-Wunsch算法构建全局最优联配99

对动态规划算法的简单改进就能用于局部序列联配104

不计算完整的矩阵，牺牲精确度提高时间效率106

5.3索引技术和近似算法108

后缀树定位和独特及重复序列的位置108

散列索引是一种技术，列出了所有k的起始位置元组（k- tuples）109

FASTA算法使用哈希算法和快速链接进行数据库搜索110

BLAST算法利用了有限状态自动机111

直接比较核酸序列和蛋白质序列，需要对BLAST和FASTA进行特殊的调整114

5.4联配分值的显著性116

有空缺局部联配的统计可以按相似的算法进行117

5.5联配全基因组序列118

有效索引和扫描全基因组序列对高等生物序列比对至关重要118

密切关联的物种基因组之间复杂进化关系需要创新的联配算法119

总结120

名词解释121

扩展阅读122

第6章模式、序列和多序列比对124

6.1序列和序列标记125

位置特异性分数矩阵是得分矩阵的扩展125

解决构建PSSM时数据缺失问题的方法127

PSI-BLAST是一个序列数据库检索程序130

将序列表现为序列标记131

6.2谱式隐马尔可夫模型132

用于序列比对的HMM的基本结构133

利用联配序列建立HMM参数137

利用谱式HMM给序列打分：最大可能路径以及所有路径的总和138

利用未联配序列评估HMM参数140

6.3序列联配141

利用联配比较两个PSSM141

联配谱式HMM143

6.4 利用序列递增（gradual sequenceaddition）的多序列比对144

序列添加的顺序是基于评估合并联配错误可能性而决定的145

许多不同的打分策略用于建立多序列联配147

多序列联配是利用向导树以及谱式方法构建的，且可能进一步改进149

6.5其他获得多序列联配的方法152

多序列联配程序DIALIGN联配无间隙的区段152

利用遗传算法的SAGA多序列联配方法153

6.6序列模式发现154

在多序列联配中查找模式：eMOTIF和AACC157

序列中共有模式的概率查询：Gibbs和MEME158

总结159

名词解释160

扩展阅读161

第3部分进化过程167

第7章重现进化历史167

7.1系统发生树的结构和解释168

系统发生树重建进化关系168

用几种方式描述树的拓扑结构172

一致树和可信树报告拓扑结构的比较结果174

7.2分子进化及其结果176

大多数相关序列有许多变异了几次的位置176

可接受突变速率对所有类型的碱基替换通常是不相同的178

密码子不同位置有不同的突变速率179

只应该用直系同源基因构建物种系统发生树181

基因组大区域变化是常见的187

7.3系统发生树构建187

核糖体小亚基rRNA序列非常适用于重建物种的进化187

构树方法的选择在某种程度上依赖于数据集的大小和质量188

在使用这些方法时必需选择一个进化模型189

所有的系统发生分析必须以精确的多序列比对开始191

16S RNA序列的一个小数据集的系统发生分析192

为酶家族建立基因树有助于发现酶功能的进化194

总结198

名词解释199

扩展阅读200

第8章构建系统发生树203

8.1进化模型和进化距离的计算204

一个简单但不精确衡量进化距离的是p距离204

Poisson校正距离考虑了同一位点上的多次突变204

Gamma校正距离考虑了不同的序列位点上突变速率的差异205

Jukes-Cantor模型再现了核苷酸序列进化的一些基本特征205

更复杂的模型区分不同类型突变的相对频率206

在DNA序列上存在核苷酸的偏好208

蛋白质序列的进化模型和用于序列联配的替代矩阵密切相关208

8.2产生系统发生树209

聚类方法基于进化距离产生一个系统发育树209

UPGMA方法假定一个恒定的分子钟，并产生一个等距树210

Fiteh-Margoliash方法产生一个无根的加性树211

邻接法：此方法涉及最小进化的概念212

通常使用逐步增加和星形分解方法用以产生一棵起始树用于进一步的探索，这不是最终树214

8.3产生多种树的拓扑结构216

分枝限界法大大提高了搜索树的拓扑结构的效率216

可以通过对一个现存树做一系列细小的变化以优化树拓扑结构217

寻找根给出了系统发生树在时间上的方向220

8.4评价树的拓扑结构221

可使用基于进化距离的函数以评价树221

加权简约法寻找具有突变最少的树224

使用简约法可以采用不同的方式对突变作加权226

可以使用最大似然法用以评估树226

四重奏迷惑（quartet-puzzling）方法在标准执行中也包括了最大似然法229

贝叶斯方法也可用于重建系统发生树230

8.5评估树的特征和比较树的可靠性231

即使是完善的数据和方法也会出现长枝吸引的问题231

可以检验内部分枝测试树的拓扑结构231

用于比较两棵或两棵以上的树的检验方法233

总结234

名词解释234

扩展阅读235

第4部分基因组特征239

第9章揭示基因组特征239

9.1基因组序列的初步分析240

将整个基因组序列分割开来简化基因检测240

结构RNA基因和重复序列在进一步分析中可以排除241

同源性可以用于原核和真核基因的鉴定242

9.2原核基因组中的基因预测242

9.3真核基因组中的基因预测244

外显子和内含子的预测程序使用了多种方法244

基因预测必须要保持正确的阅读框245

有些程序只利用查询序列和外显子模型来预测外显子249

有些程序只利用查询序列和基因模型来预测外显子252

可以利用基因模型和序列相似性来预测基因254

相关物种的基因组可以用来帮助基因预测255

9.4剪接位点的预测256

剪接位点可以由专门的程序独立地鉴定256

9.5启动子区域的预测256

原核启动子有较好定义的基序257

真核启动子一般要比原核启动子复杂257

有许多启动子的在线预测工具257

启动子预测结果并不十分清晰258

9.6证实预测结果258

有多种计算基因预测准确率的方法259

翻译预测的外显子可以证实预测的准确性259

构建蛋白质和鉴定同源基因261

9.7基因组注释262

基因组注释是基因组分析中的最后一步262

GO （gene ontology）提供了一套基因注释的标准词汇表263

9.8大基因组比较267

总结267

名词解释269

扩展阅读269

第10章基因检测和基因组注释理论章节271

10.1利用决策树检测功能RNA分子273

利用tRNAscan算法检测tRNA基因273

检测真核生物基因组中的tRNA基因276

10.2原核生物基因检测中有用的特征276

10.3原核生物基因检测的算法279

GeneMark利用了非均匀马尔可夫链（inhomogeneous Markov chains）和双密码子（dicodon）统计280

GLIMMER利用了编码概率的差值马尔科夫模型281

ORPHEUS利用了同源性、密码子统计和核糖体结合位点282

GeneMark.hmm利用精确状态持续隐马尔可夫模型283

EcoParse是一个HMM基因模型284

10.4真核生物基因检测中用到的特征286

真核生物基因与原核生物基因的差异286

内含子、外显子和剪切位点287

转录因子的启动子序列和结合位点289

10.5预测真核生物基因信号289

检测核心启动子结合信号是很多真核生物基因预测方法的关键元素289

为了定位核心启动子序列信号而设计的一类模型290

利用序列一般性质预测启动子区域可以去掉相当数量的假阳性结论294

预测真核生物转录和翻译起始位点295

转录和翻译终止信号给出基因完整定义296

10.6预测外显子和内含子296

可以利用普遍序列性质（general sequenceproperty）来识别297

剪切位点预测298

可以通过序列模式与碱基统计相结合预测剪切位点298

GenScan将加权矩阵和决策树整合以定位剪切位点299

GeneSplicer利用一阶马尔可夫链预测剪切位点300

NetPlantGene整合内含子和外显子的神经网络模型以预测剪切位点300

其他特征可能也可以用于剪切位点预测300

利用特定方法识别起始和终止外显子301

利用数据库中的同源区域可以定义外显子301

10.7完整真核生物基因模型301

10.8预测独立基因之余304

功能注释304

通过比较相关基因组，可以减少难以确定的预测306

基因检测方法的评估和再评估307

总结307

名词解释308

扩展阅读308

第5部分二级结构313

第11章从序列中获得二级结构313

11.1预测方法的类型314

基于规则的统计方法使残基形成一个特定二级结构成为可能315

最近邻法是结合了有关蛋白质结构额外信息的统计方法315

主要利用神经网络及隐马尔可夫方法进行二级结构预测的机器学习方法316

11.2训练和测试数据库317

确定蛋白质二级结构的几种方法317

11.3预测程序准确性评估318

Q3衡量个别残基分配的精度318

二级结构的预测不应该期望达到100%的残基精度319

Sov值衡量全元素的预测精度319

CAFASP/CASP：无偏的和随时可用的蛋白质预测评估321

11.4统计和基于知识的方法321

GOR方法用作信息论方法324

Zpred程序包括了同源序列和残基保守信息的多重联配325

使用多个序列信息提高整体预测精度328

最近邻法：使用多个非同源序列328

PREDATOR是一种综合了统计和基于知识的程序，其中包括了最近邻法328

11.5二级结构预测的神经网络方法328

评估神经网络预测的可靠性329

基于网络的神经网络二级结构预测程序的几个例子330

PROF：蛋白质预测330

PSIPRED331

J net：使用序列比对的几种可选描述332

11.6一些需要特殊预测方法的二级结构332

跨膜蛋白334

量化膜环境的属性334

11.7跨膜蛋白结构的预测334

多螺旋膜蛋白335

选择预测跨膜螺旋的预测程序336

统计方法339

基于知识的预测339

蛋白质家族的进化信息改善了预测结果340

神经网络在跨膜预测中的应用341

使用隐马尔可夫模型预测跨膜螺旋341

比较结果：选择哪个342

如果提交一个非跨膜蛋白给跨膜预测程序会发生什么344

含β链的跨膜结构的预测344

11.8卷曲螺旋结构345

COILS预测程序346

PAIRCOIL和MULTICOIL是COILS算法的扩展348

拉上亮氨酸拉链：一个特殊的卷曲螺旋348

11.9 RNA二级结构预测349

总结351

名词解释352

扩展阅读353

第12章二级结构预测355

12.1定义二级结构和预测精度356

蛋白质二级结构指定定义不同给出结果也不同357

对二级结构的预测精度存在着几种不同的测度360

12.2二级结构预测基于残基的偏好性363

每个结构状态存在着氨基酸的倾向这可以在指定时作为残基偏好性363

最简单的预测方法是基于在一个序列窗口中的平均残基偏好性367

残基偏好性由附近的序列所调控368

通过从同源序列得到的信息可以大为改善预测371

12.3近邻方法是基于序列片段的相似性372

发现相似序列的短片段具有相似的结构373

使用了几种序列相似性的测度用以寻找近邻片段374

使用近邻片段结构的加权平均用以预测376

已发展了近邻方法用于预测那些较易发生错误折叠的区域377

12.4神经网络已经被成功应用于二级结构预测377

分层前馈神经网络可以将序列转变为结构预测378

包括同源序列信息将改善神经网络的预测正确度385

更复杂的神经网络已应用于预测二级结构和其他一些结构特点386

12.5隐马尔可夫模型已应用在结构预测中389

发现HMM方法对膜蛋白特别有效389

使用HMM，也可以成功地预测非膜蛋白的二级结构389

12.6可以预测结构特征的一般数据分类技术392

支持向量机已成功地用于蛋白质结构预测392

Discriminates、 SOM和其他一些方法394

总结394

名词解释395

扩展阅读396

第6部分蛋白质三级结构403

第13章蛋白质结构预测403

13.1势能函数和力场405

蛋白质的构象可以在势能面上观察到405

构象能量可以用简单的数学函数来描述406

相似的力场可以用来表示平均环境中的构象能量407

势能函数可以用来评估构建的结构407

能量最小化可以用来搜索建模结构和确定局部能量最小值408

分子动力学和模拟退火可以用来搜索全局能量最小值409

13.2用折叠识别法预测蛋白质结构409

在没有同源蛋白的情况下预测蛋白质结构折叠410

非冗余蛋白质折叠数据库在穿线法中的应用411

穿线法中采用的两种不同的打分机制411

动态规划方法搜索目标序列与已知折叠匹配的最佳方案413

评估折叠识别可信度的方法414

穿线法实例：网柱黏菌中的C2结构域414

13.3同源建模原理416

目标序列与模板序列相关性越大，同源建模的结果越好418

关键序列一致性取决于整个序列的长度418

针对目前可建模的大批量序列的同源建模已经实现自动化419

建模所基于的一系列假设420

13.4同源建模的步骤421

在PDB数据库中寻找目标蛋白质的同源结构422

目标和模板蛋白序列的精确比对对于成功建模是必不可少的422

蛋白质的结构保守区域最先建模423

进入下一阶段前需检验建模的核心结构是否存在不适之处423

序列重新比对和重新建模可能会提高建模结构的准确性423

插入和缺失序列通常建模成环区域424

不等同氨基酸侧链的建模主要通过旋转异构体数据库来实现426

采用能量最小化来消除结构错误427

分子动力学可以用来搜索可移动的loop区域可能采取的构象427

检查模型的准确性427

同源建模的可信度430

13.5自动化同源建模430

MODELLER通过适当的蛋白质结构约束条件来建模431

COMPOSER使用基于片段的建模方法来自动化生成相应的模型431

网络中可用于比较建模的自动化方法432

结构预测结果的评价432

13.6 PI3蛋白激酶p110α的同源建模434

Swiss-Pdb Viewer能够用于手工或者半手工建模435

同时做序列比对、核心结构建模和侧链建模435

柔性区域（loop）通过数据库中可能的结构建模436

Swiss-Pdb Viewer软件可以实现能量最小化和质量评估436

MolIDE是一个可下载的半自动的建模软件包437

基于网络的自动化建模（以p1 10α激酶为例）437

构建一个功能上相似但是序列不相似的蛋白质：mTOR439

从序列生成一个多结构域三维结构440

总结440

名词解释440

扩展阅读441

第14章结构-功能关系分析444

14.1功能保守性445

发挥功能的区域通常结构上是保守的445

相似的生物学功能存在于具有不同折叠模式的蛋白质上448

折叠数据库确定了结构上相似的蛋白质而无论其功能448

14.2结构比较方法450

找到蛋白质的结构域可以帮助结构比较450

结构比较能够揭示序列比较不能辨别的保守功能451

CE方法通过匹配蛋白质片段把两个蛋白质叠合到一起451

向量叠合搜索工具（vector alignment searchtool，VAST）能够叠合二级结构452

DALI确定蛋白质结构的叠合方式，但是并不保持片段之间的相对顺序453

FATCAT在刚性的片段之间引入了旋转454

14.3找到结合位点455

高度保守的、带电荷的或者疏水的表面是相互作用位点的标志458

通过表面性质寻找蛋白质-蛋白质的相互作用位点459

通过计算蛋白质的表面，可以找到那些可能是结合位点的裂缝和洞459

通过分析氨基酸的保守性可以确定结合位点462

14.4分子对接方法和程序462

当同源蛋白和类似的小分子复合物的结构已知的时候，可以作简单的分子对接464

一些专用的分子对接程序可以自动地把配体对接到蛋白质结构上去464

通过打分函数来确定最可能的对接结果465

DOCK软件采用半刚性的方法，通过分析配体和结合位点形状和化学性质的互补来做对接465

片段对接方法可以通过预测结合位点处的原子类型和功能基团确定可能的底物465

GOLD是一个柔性的对接程序，它使用遗传算法466

结合位点的水分子也应该考虑466

总结467

名词解释467

扩展阅读467

第7部分细胞和组织471

第15章蛋白质谱和基因表达分析471

15.1大规模基因表达分析472

大量不同基因的表达可同时被DNA芯片检测472

基因表达芯片主要用于检测基因在不同条件下的表达差异473

基因表达系列分析也被用于研究基因表达的总体模式474

数字差异显示：应用生物信息学和统计学来检测不同组织中基因的差异表达475

推动不同地方和不同实验的数据整合475

分析基因表达微阵列数据的最简单方法是层次聚类分析476

基于自组织映射网络的技术可被用于分析微阵列数据478

自组织树算法（SOTA）自上而下地对类别进行连续分割478

基因表达数据的聚类结果是进一步研究的工具480

15.2大规模蛋白质表达分析480

二维凝胶电泳是分离细胞内各种蛋白质的一种方法480

检测二维凝胶中显示的表达水平483

二维凝胶能发现不同样本间的蛋白质表达差异484

用聚类方法识别具有相似表达模式的蛋白质位点484

主成分分析（PCA）是分析微阵列和二维凝胶数据除聚类分析之外的又一选择487

跟踪一组蛋白质位点在一系列样本间的差异487

数据库和在线工具可用来辅助二维凝胶数据的解释488

蛋白质微阵列芯片能同时检测大量不同蛋白质的存在或活性488

可用质谱来鉴定已经由二维凝胶或其他技术分离和纯化的蛋白质489

对质谱进行蛋白质鉴定的程序可从网上免费获得490

质谱能用于检测蛋白质浓度491

总结491

名词解释491

扩展阅读492

第16章聚类方法和统计学概念493

16.1分析表达数据之前的准备工作494

数据标准化用于去除实验中的系统误差494

表达水平通常用比值表示并取对数转换后再分析495

有时在数据转换后再进行标准化不无裨益497

主成分分析用于合并被分析对象的某些属性497

16.2聚类分析的先决条件是定义所有数据点之间的距离500

欧氏距离在日常生活中广泛使用500

Pearson相关系数表征的距离能衡量表达响应的形状相似性501

Mahalanobis距离综合考虑表达响应之间的变异性和相关性501

16.3聚类方法能鉴定出内部相似且彼此间不同的表达模式502

层次聚类对数据生成一组彼此关联的备选划分方案504

k均值聚类将数据分成预先指定数目的类群，但不能确定类群间彼此的远近关系507

自组织图（SOM）采用神经网络算法将数据聚类成预先指定数目的类群509

进化聚类算法用选择、重组和突变等概念来搜索问题的可能最优解512

自组织树算法（SOTA）确定所需要的聚类数目513

双向聚类可鉴定出在部分样本中呈现相似表达模式的一组基因514

聚类类群的合理性可由其他方法独立验证515

16.4统计分析可量化观测到的差异表达的显著性水平516

t检验能用于估计两个表达水平之间差异的显著性518

非参数检验用于规避对数据采样方式做假定519

对差异表达的多重假设检验需要采取特殊的技术来控制错误率520

16.5基因和蛋白质表达数据能用于样本分类522

有许多可选手段能用于样本分类523

支持向量机是另一种能生成分类器的有监督学习算法524

总结524

名词解释525

扩展阅读527

第17章系统生物学529

17.1什么是系统530

系统大于部分之和530

生物学系统是有生命的网络533

数据库是网络构建的有效起点533

构建模型需要比网络更加丰富的信息534

构建模型的三种可行的方法536

动力学模型并非系统生物学研究的唯一途径539

17.2模型的结构539

控制环路是生物学系统的必要组成部分540

网络中的相互作用可以被表述为简单的微分方程540

17.3生物学系统的鲁棒性543

鲁棒性是生物体复杂性的一个独特属性543

模块性在鲁棒性中扮演重要角色544

系统中的冗余性能够提供鲁棒性546

生命系统可以通过双稳态开关实现从一个547

状态到另一个状态的转换547

17.4存储和运行系统模型547

特定的程序使得系统模拟更加便捷548

标准化的系统描述有助于存储和再利用548

总结549

名词解释551

扩展阅读551

附录A553

概率论、熵和信息553

互斥事件553

发生两个事件553

两个随机变量的发生553

贝叶斯分析554

贝叶斯定理554

参数值的推导554

扩展阅读555

附录B分子能量函数556

用力场计算分子内部和分子间相互作用的能量556

成键项557

非成键项558

势能在穿线法中的使用559

平均力的势能560

与溶剂效应相关的势能项560

扩展阅读561

附录C功能优化562

全搜索方法562

动态规划和分支界限法563

局部最优563

下降单纯形法563

最速下降法564

共轭梯度法564

使用二阶导数的方法565

热力学模拟和全局优化565

蒙特卡罗和遗传算法566

分子动力学568

模拟退火568

总结568

扩展阅读569

字符表570

索引582