An Introduction to Statistical Genetic Data Analysis

by Mills, Barban, Tropf

ISBN: 9780262538381 | Copyright 2020

Click here to preview

Instructor Requests

Digital Exam/Desk Copy Print Desk Copy Ancillaries
Tabs

A comprehensive introduction to modern applied statistical genetic data analysis, accessible to those without a background in molecular biology or genetics.

Human genetic research is now relevant beyond biology, epidemiology, and the medical sciences, with applications in such fields as psychology, psychiatry, statistics, demography, sociology, and economics. With advances in computing power, the availability of data, and new techniques, it is now possible to integrate large-scale molecular genetic information into research across a broad range of topics. This book offers the first comprehensive introduction to modern applied statistical genetic data analysis that covers theory, data preparation, and analysis of molecular genetic data, with hands-on computer exercises. It is accessible to students and researchers in any empirically oriented medical, biological, or social science discipline; a background in molecular biology or genetics is not required.

The book first provides foundations for statistical genetic data analysis, including a survey of fundamental concepts, primers on statistics and human evolution, and an introduction to polygenic scores. It then covers the practicalities of working with genetic data, discussing such topics as analytical challenges and data management. Finally, the book presents applications and advanced topics, including polygenic score and gene-environment interaction applications, Mendelian Randomization and instrumental variables, and ethical issues. The software and data used in the book are freely available and can be found on the book's website.

Expand/Collapse All
Contents (pg. v)
Preface (pg. xiii)
I. Foundations (pg. 1)
1. Introduction: Fundamental Concepts and the Human Genome (pg. 3)
Objectives����������������� (pg. 3)
1.1 Introduction����������������������� (pg. 3)
1.2 Mendel’s laws, sexual reproduction, and genetic recombination (pg. 9)
1.3 Genetic polymorphisms (pg. 12)
1.4 From genes to protein and the central dogma of molecular biology����������������������������������������������� (pg. 15)
1.5 Homozygous and heterozygous alleles, dominant and recessive traits����������������������������������������������& (pg. 20)
1.6 Heritability����������������������� (pg. 22)
1.7 Conclusion��������������������� (pg. 28)
Exercises���������������� (pg. 28)
Further reading and resources������������������������������������ (pg. 29)
References����������������� (pg. 30)
2. A Statistical Primer for Genetic Data Analysis (pg. 33)
Objectives (pg. 33)
2.1 Introduction����������������������� (pg. 33)
2.2 Basic statistical concepts������������������������������������� (pg. 34)
2.3 Statistical models����������������������������� (pg. 38)
2.4 Correlation, causation, and multivariate causal models�������������������������������������������������& (pg. 40)
2.5 Fixed-effects models, random-effects models, and mixed models (pg. 47)
2.6 Replication of results and overfitting������������������������������������������������� (pg. 48)
2.7 Conclusion��������������������� (pg. 49)
Exercises���������������� (pg. 50)
Further reading���������������������� (pg. 52)
Software for mixed-model analyses (pg. 52)
Appendix��������������� (pg. 52)
References����������������� (pg. 54)
3. A Primer in Human Evolution (pg. 55)
Objectives����������������� (pg. 55)
3.1 Introduction����������������������� (pg. 55)
3.2 Human dispersal out of Africa (pg. 56)
3.3 Population structure and stratification�������������������������������������������������� (pg. 58)
3.4 Human evolution, selection, and adaptation (pg. 63)
3.5 The Hardy–Weinberg equilibrium (pg. 69)
3.6 Linkage disequilibrium and haplotype blocks���������������������������������������������������� (pg. 71)
3.7 Conclusion��������������������� (pg. 73)
Exercises���������������� (pg. 73)
Further reading and resources������������������������������������ (pg. 74)
References����������������� (pg. 74)
4. Genome-Wide Association Studies (pg. 77)
Objectives����������������� (pg. 77)
4.1 Introduction and background�������������������������������������� (pg. 77)
4.2 GWAS research design and meta-analysis (pg. 79)
4.3 Statistical inference, methods, and heterogeneity��������������������������������������������������&# (pg. 83)
4.4 Quality control (QC) of genetic data (pg. 90)
4.5 The NHGRI-EBI GWAS Catalog (pg. 91)
4.6 Conclusion and future directions (pg. 97)
Exercises���������������� (pg. 98)
Further reading���������������������� (pg. 98)
References����������������� (pg. 99)
5. Introduction to Polygenic Scores and Genetic Architecture (pg. 101)
Objectives����������������� (pg. 101)
5.1 Introduction����������������������� (pg. 101)
5.2 Construction of polygenic scores������������������������������������������� (pg. 107)
5.3 Validation and prediction of polygenic scores���������������������������������������������������&# (pg. 108)
5.4 Shared genetic architecture of phenotypes (pg. 113)
5.5 Causal modeling with polygenic scores (pg. 119)
5.6 Conclusion��������������������� (pg. 123)
Exercises���������������� (pg. 124)
Further reading���������������������� (pg. 124)
References����������������� (pg. 125)
6. Gene-Environment Interplay (pg. 129)
Objectives����������������� (pg. 129)
6.1 Introduction: What is gene-environment (G×E) interplay? (pg. 129)
6.2 Defining the environment in G×E research��������������������������������������������������� (pg. 130)
6.3 A brief history of G×E research (pg. 133)
6.4 Conceptual G×E models�������������������������������� (pg. 136)
6.5 Gene-environment correlation (rGE) (pg. 143)
6.6 Conclusion and future directions (pg. 146)
Exercises���������������� (pg. 147)
Further reading���������������������� (pg. 147)
References����������������� (pg. 147)
II. Working with Genetic Data (pg. 151)
7. Genetic Data and Analytical Challenges (pg. 153)
Objectives����������������� (pg. 153)
7.1 Introduction����������������������� (pg. 153)
7.2 Genotyping and sequencing array������������������������������������������ (pg. 154)
7.3 Overview of human genetic data for analysis (pg. 160)
7.4 Different formats in genomics data (pg. 165)
7.5 Genetic formats for imputed data (pg. 171)
7.6 Data used in this book��������������������������������� (pg. 175)
7.7 Data transfer, storage, size, and computing power��������������������������������������������������&# (pg. 176)
7.8 Conclusion��������������������� (pg. 179)
Exercises���������������� (pg. 179)
Further reading and resources������������������������������������ (pg. 179)
References����������������� (pg. 180)
8. Working with Genetic Data, Part I: Data Management, Descriptive Statistics, and Quality Control (pg. 183)
Objectives����������������� (pg. 183)
8.1 Introduction: Working with genetic data (pg. 183)
8.2 Getting started with PLINK������������������������������������� (pg. 184)
8.3 Data management�������������������������� (pg. 193)
8.4 Descriptive statistics��������������������������������� (pg. 199)
8.5 Quality control of genetic data (pg. 202)
8.6 Conclusion��������������������� (pg. 211)
Exercises���������������� (pg. 214)
Further reading and resources������������������������������������ (pg. 214)
References����������������� (pg. 214)
9. Working with Genetic Data, Part II: Association Analysis, Population Stratification, and Genetic Relatedness (pg. 217)
Objectives����������������� (pg. 217)
9.1 Introduction����������������������� (pg. 217)
9.2 Association analysis (pg. 218)
9.3 Linkage disequilibrium (pg. 223)
9.4 Population stratification������������������������������������ (pg. 226)
9.5 Genetic relatedness (pg. 236)
9.6 Relatedness matrix and heritability with GCTA���������������������������������������������������&# (pg. 238)
9.7 Conclusion��������������������� (pg. 240)
Exercises���������������� (pg. 241)
Further reading and resources������������������������������������ (pg. 241)
References����������������� (pg. 241)
10. An Applied Guide to Creating and Validating Polygenic Scores (pg. 243)
Objectives����������������� (pg. 243)
10.1 Introduction������������������������ (pg. 243)
10.2 How to construct a score with selected variants (monogenic) (pg. 245)
10.3 Pruning and thresholding method������������������������������������������� (pg. 247)
10.4 How to calculate a polygenic score using PRSice 2.0�������������������������������������������������� (pg. 251)
10.5 Validating the PGS������������������������������ (pg. 260)
10.6 LDpred: Accounting for LD in polygenic score calculations������������������������������������������������& (pg. 267)
10.7 Conclusion���������������������� (pg. 272)
Exercises���������������� (pg. 273)
Further reading and resources������������������������������������ (pg. 273)
References����������������� (pg. 274)
III. Applications and Advanced Topics (pg. 275)
11. Polygenic Score and Gene-Environment Interaction (G×E) Applications (pg. 277)
Objectives����������������� (pg. 277)
11.1 Introduction������������������������ (pg. 277)
11.2 Polygenic score applications: (Cross-trait) prediction and confounding (pg. 278)
11.3 Gene-environment interaction (pg. 299)
11.4 Challenges in gene-environment interaction research (pg. 308)
11.5 Conclusion and future directions (pg. 310)
Exercises���������������� (pg. 311)
Further reading���������������������� (pg. 311)
References����������������� (pg. 311)
12. Applying Genome-Wide Association Results (pg. 315)
Objectives����������������� (pg. 315)
12.1 Introduction������������������������ (pg. 315)
12.2 Plotting association results���������������������������������������� (pg. 316)
12.2 Estimating heritability from summary statistics��������������������������������������������������� (pg. 324)
12.3 Estimating genetic correlations from summary statistics (pg. 328)
12.4 MTAG: Multi-Trait Analysis of Genome-wide association summary statistics (pg. 333)
12.5 Conclusion���������������������� (pg. 336)
Exercises���������������� (pg. 336)
Further reading and resources������������������������������������ (pg. 336)
References����������������� (pg. 337)
13. Mendelian Randomization and Instrumental Variables (pg. 339)
Objectives����������������� (pg. 339)
13.1 Introduction������������������������ (pg. 339)
13.2 Randomized control trials and causality (pg. 341)
13.3 Mendelian Randomization����������������������������������� (pg. 341)
13.4 Instrumental variables and Mendelian Randomization�������������������������������������������������� (pg. 343)
13.5 Extensions of standard MR������������������������������������� (pg. 349)
13.6 Applications of MR������������������������������ (pg. 352)
13.7 Conclusion���������������������� (pg. 355)
Exercises���������������� (pg. 355)
Further reading���������������������� (pg. 356)
References����������������� (pg. 356)
14. Ethical Issues in Genomics Research (pg. 359)
Objectives����������������� (pg. 359)
14.1 Introduction������������������������ (pg. 359)
14.2 Genetics is not destiny: Genetic determinism (pg. 361)
14.3 Clinical use of PGSs�������������������������������� (pg. 363)
14.4 Lack of diversity in genomics����������������������������������������� (pg. 367)
14.5 Privacy, consent, legal issues, insurance, and General Data Protection Regulation (pg. 367)
14.6 Conclusion and future directions (pg. 372)
Further reading and resources������������������������������������ (pg. 373)
References����������������� (pg. 373)
15. Conclusions and Future Directions (pg. 377)
15.1 Summary and reflection���������������������������������� (pg. 377)
15.2 Future directions (pg. 377)
References����������������� (pg. 380)
Appendix 1: Software Used in This Book (pg. 381)
A1.1 Introduction������������������������ (pg. 381)
A1.2 RStudio and R������������������������� (pg. 381)
A1.3 PLINK����������������� (pg. 382)
A1.4 GCTA���������������� (pg. 382)
A1.5 PRSice������������������ (pg. 382)
A1.6 Python������������������ (pg. 383)
A1.6.1 How to switch from Python 3 to Python 2����������������������������������������������������& (pg. 384)
A1.6.2 Installing packages in Python������������������������������������������� (pg. 385)
A1.7 Git��������������� (pg. 385)
A1.8 LDpred������������������ (pg. 386)
A1.9 LDSC���������������� (pg. 386)
A1.10 MTAG����������������� (pg. 387)
A1.11 Using Windows for this book (pg. 388)
References����������������� (pg. 388)
Appendix 2: Data Used in This Book (pg. 389)
A2.1 Introduction������������������������ (pg. 389)
A2.2 Description of simulated data����������������������������������������� (pg. 389)
A2.3 Health and Retirement Study��������������������������������������� (pg. 391)
A2.4 Data used by chapter�������������������������������� (pg. 395)
References����������������� (pg. 397)
Glossary (pg. 399)
Notes (pg. 405)
Chapter 1 (pg. 405)
Chapter 2 (pg. 406)
Chapter 3 (pg. 406)
Chapter 4 (pg. 406)
Chapter 5 (pg. 406)
Chapter 7 (pg. 406)
Chapter 8 (pg. 406)
Chapter 9 (pg. 407)
Chapter 10 (pg. 407)
Index (pg. 409)
Melinda C. Mills

Melinda C. Mills

Melinda C. Mills is Professor at the University of Oxford and Nuffield College, where she is also Director of the Leverhulme Centre for Demographic Science.

Nicola Barban

Nicola Barban

Nicola Barban is Associate Professor at the Institute for Social and Economic Research at the University of Essex.

Felix C. Tropf

Felix C. Tropf

Felix Tropf is Assistant Professor at École Nationale de la Statistique et de L'administration Économique (ENSAE) and Center for Research in Economics and Statistics (CREST), Paris.

eTextbook
Go paperless today! Available online anytime, nothing to download or install.

Features

  • Bookmarking
  • Note taking
  • Highlighting