O
genoma humano
e o conjunto completo de
sequencias de acido nucleico
codificado como
DNA
dentro dos 23 pares de
cromossomos
nos
nucleos das celulas
e em uma pequena molecula de DNA encontrada nas
mitocondrias
individuais. Usualmente, o genoma mitocondrial e tratado separadamente do genoma nuclear.
[
1
]
Os
genomas
humanos sao compostos tanto por genes de DNA codificadores de proteinas quanto por
DNAs nao codificadores
.
Os genomas humanos
haploides
estao contidos nas
celulas germinativas
(
ovulo
s e
espermatozoides
) e sao constituidos por tres bilhoes de
pares de bases de
DNA
, enquanto os genomas
diploides
(encontrados em
celulas somaticas
) tem o dobro do conteudo de DNA. Embora existam diferencas significativas entre os genomas de individuos humanos (na ordem de 0,1%),
[
2
]
estes sao consideravelmente menores que as diferencas entre humanos e seus parentes vivos mais proximos, os
chimpanzes
(aproximadamente 4%)
[
3
]
e os
bonobos
. As primeiras sequencias do genoma humano foram publicadas em fevereiro de 2001 pelo
Projeto Genoma Humano
[
4
]
e pela Celera Corporation.
[
5
]
A conclusao da sequencia do projeto do genoma humano foi publicada em 2004.
[
6
]
O genoma humano foi o primeiro de todos os vertebrados a ser completamente sequenciado. A partir de 2012, milhares de genomas humanos foram completamente sequenciados, e muitos outros foram mapeados em niveis mais baixos de resolucao. Esses dados sao usados mundialmente em
ciencias biomedicas
,
antropologia
, ciencia
forense
e outros ramos da ciencia. Existe uma expectativa amplamente difundida de que os estudos genomicos levarao a avancos no diagnostico e tratamento de doencas e em novas teorias em muitos campos da biologia, por exemplo
a evolucao humana
.
Embora a sequencia do genoma humano tenha sido quase totalmente sequenciada, ela ainda nao e totalmente compreendida. A maioria dos genes foi identificada por uma combinacao de abordagens experimentais e de
bioinformatica
de alto rendimento, mas ainda ha muito trabalho a ser feito para elucidar melhor as funcoes biologicas de seus produtos (
proteinas
e
RNA
).
Existem cerca de 19 000 a 20 000 genes codificadores de proteinas humanas.
[
7
]
A estimativa do numero de genes humanos foi repetidamente revisada para baixo de previsoes iniciais de 100 000 ou mais, ja que a qualidade da sequencia do genoma e os metodos de deteccao de genes melhoraram e poderiam continuar a cair ainda mais.
[
6
]
[
8
]
Sequencias codificadoras de proteinas representam apenas uma pequena fracao do genoma (aproximadamente 1,5%), e o resto e associado com moleculas de
RNA nao codificante
,
sequencias reguladoras de DNA
,
LINEs
,
SINEs
,
introns
, e sequencias de funcoes ainda indeterminadas.
[
9
]
Em junho de 2016, os cientistas anunciaram formalmente o HGP-Write, um plano para sintetizar o genoma humano.
[
10
]
[
11
]
O comprimento total do genoma humano e superior a 3 bilhoes de pares de bases. O genoma e organizado em 22 cromossomos pareados, mais o
cromossomo X
pareado com outro cromossomo X em femeas, e, em machos, com um
cromossomo Y
.
Cromossomos
sao grandes moleculas lineares de DNA contidas no nucleo da celula. O genoma tambem inclui o
DNA mitocondrial
, uma molecula circular com tamanho bem menor que o do DNA nuclear e que se localiza nas
mitocondrias
.
Na tabela a seguir, estao expostas informacoes basicas sobre o genoma humano, baseadas em uma referencia. Logo, a tabela nao representa a sequencia de nenhum individuo especifico. (Fonte de dados:
Ensembl genome browser release 87
, December 2016 para a maioria dos valores;
Ensembl genome browser release 68
, julho de 2012 para miRNA, rRNA, snRNA, snoRNA.)
Cromossomo
|
Comprimento (
mm
)
|
Numero de pares de base
|
Variacoes
|
Numero de genes que codificam proteinas
|
Pseudo-
genes
|
Quantidade de RNA nao codificantes longos
|
Quantidade de RNA nao codificantes curtos
|
miRNA
|
rRNA
|
snRNA
|
snoRNA
|
Misc
ncRNA
|
Links
|
Posicao do Centromer
(
Mbp
)
|
Cumulativo
(%)
|
1
|
85
|
248 956 422
|
12 151 146
|
2 058
|
1 220
|
1200
|
496
|
134
|
66
|
221
|
145
|
192
|
EBI
|
125
|
7.9
|
2
|
83
|
242 193 529
|
12 945 965
|
1 309
|
1 023
|
1037
|
375
|
115
|
40
|
161
|
117
|
176
|
EBI
|
93.3
|
16.2
|
3
|
67
|
198 295 559
|
10 638 715
|
1 078
|
763
|
711
|
298
|
99
|
29
|
138
|
87
|
134
|
EBI
|
91
|
23
|
4
|
65
|
190 214 555
|
10 165 685
|
752
|
727
|
657
|
228
|
92
|
24
|
120
|
56
|
104
|
EBI
|
50.4
|
29.6
|
5
|
62
|
181 538 259
|
9 519 995
|
876
|
721
|
844
|
235
|
83
|
25
|
106
|
61
|
119
|
EBI
|
48.4
|
35.8
|
6
|
58
|
170 805 979
|
9 130 476
|
1 048
|
801
|
639
|
234
|
81
|
26
|
111
|
73
|
105
|
EBI
|
61
|
41.6
|
7
|
54
|
159 345 973
|
8 613 298
|
989
|
885
|
605
|
208
|
90
|
24
|
90
|
76
|
143
|
EBI
|
59.9
|
47.1
|
8
|
50
|
145 138 636
|
8 221 520
|
677
|
613
|
735
|
214
|
80
|
28
|
86
|
52
|
82
|
EBI
|
45.6
|
52
|
9
|
48
|
138 394 717
|
6 590 811
|
786
|
661
|
491
|
190
|
69
|
19
|
66
|
51
|
96
|
EBI
|
49
|
56.3
|
10
|
46
|
133 797 422
|
7 223 944
|
733
|
568
|
579
|
204
|
64
|
32
|
87
|
56
|
89
|
EBI
|
40.2
|
60.9
|
11
|
46
|
135 086 622
|
7 535 370
|
1 298
|
821
|
710
|
233
|
63
|
24
|
74
|
76
|
97
|
EBI
|
53.7
|
65.4
|
12
|
45
|
133 275 309
|
7 228 129
|
1 034
|
617
|
848
|
227
|
72
|
27
|
106
|
62
|
115
|
EBI
|
35.8
|
70
|
13
|
39
|
114 364 328
|
5 082 574
|
327
|
372
|
397
|
104
|
42
|
16
|
45
|
34
|
75
|
EBI
|
17.9
|
73.4
|
14
|
36
|
107 043 718
|
4 865 950
|
830
|
523
|
533
|
239
|
92
|
10
|
65
|
97
|
79
|
EBI
|
17.6
|
76.4
|
15
|
35
|
101 991 189
|
4 515 076
|
613
|
510
|
639
|
250
|
78
|
13
|
63
|
136
|
93
|
EBI
|
19
|
79.3
|
16
|
31
|
90 338 345
|
5 101 702
|
873
|
465
|
799
|
187
|
52
|
32
|
53
|
58
|
51
|
EBI
|
36.6
|
82
|
17
|
28
|
83 257 441
|
4 614 972
|
1 197
|
531
|
834
|
235
|
61
|
15
|
80
|
71
|
99
|
EBI
|
24
|
84.8
|
18
|
27
|
80 373 285
|
4 035 966
|
270
|
247
|
453
|
109
|
32
|
13
|
51
|
36
|
41
|
EBI
|
17.2
|
87.4
|
19
|
20
|
58 617 616
|
3 858 269
|
1 472
|
512
|
628
|
179
|
110
|
13
|
29
|
31
|
61
|
EBI
|
26.5
|
89.3
|
20
|
21
|
64 444 167
|
3 439 621
|
544
|
249
|
384
|
131
|
57
|
15
|
46
|
37
|
68
|
EBI
|
27.5
|
91.4
|
21
|
16
|
46 709 983
|
2 049 697
|
234
|
185
|
305
|
71
|
16
|
5
|
21
|
19
|
24
|
EBI
|
13.2
|
92.6
|
22
|
17
|
50 818 468
|
2 135 311
|
488
|
324
|
357
|
78
|
31
|
5
|
23
|
23
|
62
|
EBI
|
14.7
|
93.8
|
X
|
53
|
156 040 895
|
5 753 881
|
842
|
874
|
271
|
258
|
128
|
22
|
85
|
64
|
100
|
EBI
|
60.6
|
99.1
|
Y
|
20
|
57 227 415
|
211 643
|
71
|
388
|
71
|
30
|
15
|
7
|
17
|
3
|
8
|
EBI
|
12.5
|
100
|
mtDNA
|
0.0054
|
16 569
|
929
|
13
|
0
|
0
|
24
|
0
|
2
|
0
|
0
|
0
|
EBI
|
N/A
|
100
|
total
|
|
3 088 286 401
|
155 630 645
|
20 412
|
14 600
|
14 727
|
5 037
|
1 756
|
532
|
1 944
|
1 521
|
2 213
|
|
|
|
Tabela 1
(acima) resume a organizacao fisica e o conteudo genico do genoma de referencia humano, com links para a analise original, conforme publicado no
banco de
dados
Ensembl
do Instituto Europeu de Bioinformatica (EBI) e do Wellcome Trust Sanger Institute.
Os comprimentos cromossomicos foram estimados pela multiplicacao do numero de pares de bases por 0,34 nanometros - a distancia entre pares de bases em uma
dupla helice
do
DNA
.
O numero de proteinas baseia-se no numero inicial de transcritos de precursores RNAm e nao inclui produtos de
splicing alternativo
, ou modificacoes na estrutura proteica que ocorrem apos a
traducao
.
Variacoes sao diferencas unicas na sequencia de DNA que foram identificadas nas sequencias do genoma humano analisadas pela Ensembl em dezembro de 2016. Espera-se que o numero de variacoes identificadas aumente a medida que outros genomas pessoais sejam sequenciados e analisados. Alem do conteudo genico mostrado nesta tabela, um grande numero de sequencias funcionais nao expressas foram identificadas em todo o genoma humano (ver abaixo).
RNAs nao-codificantes pequenos
sao RNAs de ate 200 bases que nao possuem potencial de codificacao de proteinas. Estes incluem:
microRNAs
ou miRNAs (reguladores pos-transcricionais da expressao genica),
RNAs nucleares pequenos
ou snRNAs (os componentes de RNA dos
spliceosomos
) e
RNAs nucleolares pequenos
, ou snoRNA (envolvido na orientacao de modificacoes quimicas para outras moleculas de RNA). RNAs longos nao-codificantes sao moleculas de RNA com mais de 200 bases que nao possuem potencial de codificacao de proteinas. Estes incluem:
RNAs ribossomicos
ou rRNAs (os componentes de RNA dos
ribossomos
), e uma variedade de outros RNAs longos que estao envolvidos na
regulacao da expressao genica
,
epigenetica
, e regulacao da atividade de genes codificadores de proteinas.
Das 126.018 variacoes estruturais descobertas existe variacoes medicamente importantes herdadas dos
denisovanos
nas populacoes oceanicas da
Papua Nova Guine
e nas proximidades, incluindo uma exclusao de alta frequencia no gene
AQR
que desempenha um papel na deteccao de virus e na regulacao da resposta imune antiviral.
[
12
]
Embora o genoma humano tenha sido completamente sequenciado para todos os fins praticos, ainda existem centenas de lacunas na sequencia. Um estudo recente observou mais de 160 lacunas
eucromaticas,
das quais 50 lacunas foram fechadas.
[
13
]
No entanto, ainda existem numerosas lacunas nas partes
heterocromaticas
do genoma que sao muito mais dificeis de
sequenciar
devido a numerosas
repeticoes
e outras sequencias de caracteristicas intrataveis.
O genoma humano de referencia (GRC v38) foi compactado com sucesso para ~ 5,2 vezes (razoavelmente menos que 550 MB) em 155 minutos usando um computador de mesa com 6,4 GB de RAM.
[
14
]
O genoma humano
haploide
(23
cromossomos
) tem cerca de 3 bilhoes de pares de bases e contem cerca de 30 000 genes.
[
15
]
Como cada par de bases pode ser codificado por 2 bits, isso significa aproximadamente 750
megabytes
de dados. Uma celula somatica individual (
diploide
) contem o dobro dessa quantidade, isto e, cerca de 6 bilhoes de pares de bases. Os homens tem menos que as mulheres porque o cromossomo Y tem cerca de 57 milhoes de pares de bases, enquanto o X e cerca de 156 milhoes, mas em termos de informacao os homens tem mais porque o segundo X contem quase as mesmas informacoes que o primeiro. Como os genomas individuais variam em sequencia em menos de 1% um do outro, as variacoes do genoma de um dado humano a partir de uma referencia comum podem ser
compactadas sem perda
para aproximadamente 4 megabytes.
[
16
]
A taxa de entropia do genoma difere significativamente entre sequencias codificadoras e nao codificadoras. Esta perto do maximo de 2 bits por par de bases para as sequencias de codificacao (cerca de 45 milhoes de pares de bases), mas menos para as partes nao codificantes. Ele varia entre 1,5 e 1,9 bits por par de bases para o cromossomo individual, exceto pelo cromossomo Y, que tem uma taxa de entropia abaixo de 0,9 bits por par de bases.
[
17
]
O
DNA mitocondrial
humano e de tremendo interesse para os geneticistas, uma vez que, sem duvida, desempenha um papel em doencas mitocondriais. Tambem esclarece a evolucao humana; por exemplo, a analise da variacao no genoma mitocondrial humano levou a postulacao de um ancestral comum recente para todos os seres humanos na linha de descendencia materna (ver
Eva mitocondrial
).
Devido a falta de um sistema para checar erros de copia, o DNA mitocondrial (mtDNA) tem uma taxa de variacao mais rapida do que o DNA nuclear. Esta taxa de mutacao 20 vezes maior permite que o mtDNA seja usado para um rastreamento mais preciso da ancestralidade materna. Estudos de mtDNA em populacoes permitiram tracar antigos caminhos migratorios, como a migracao de
nativos americanos
da
Siberia
ou
polinesios
do sudeste da
Asia
. Ele tambem tem sido usado para mostrar que nao ha vestigios de DNA
neandertal
na mistura genetica europeia herdada atraves da linhagem puramente materna.
[
18
]
Devido a forma restritiva de todos ou nenhum tipo de heranca de mtDNA, este resultado (nenhum vestigio de mtDNA de Neandertal) seria provavel ao menos que houvesse uma grande porcentagem de ascendencia neandertal, ou houvesse forte selecao positiva para esse mtDNA (por exemplo, 5 geracoes, apenas 1 de seus 32 ancestrais contribuiu para o seu mtDNA, entao se um desses 32 fosse puro Neanderthal, voce esperaria que ~ 3% do seu DNA autossomico fosse de origem neandertal, mas voce teria uma chance de ~ 97% de ter nenhum vestigio de mtDNA de Neanderthal).
A
epigenetica
descreve uma variedade de caracteristicas do genoma humano que transcendem sua sequencia primaria de DNA, como o acondicionamento da
cromatina
, modificacoes de
histonas
e
metilacao do DNA
, e que sao importantes na regulacao da expressao genica, replicacao do genoma e outros processos celulares.
Os marcadores epigeneticos podem promover ou desestimular a transcricao de certos genes, mas nao afetam a sequencia real dos nucleotideos do DNA.
A metilacao do DNA e uma das principais formas de controle epigenetico sobre a expressao genica e um dos topicos mais estudados em epigenetica. Durante o desenvolvimento, o perfil de metilacao do DNA humano experimenta mudancas dramaticas. Nas primeiras celulas da linhagem germinativa, o genoma tem niveis muito baixos de metilacao. Esses baixos niveis geralmente descrevem genes ativos. A medida que o desenvolvimento progride, as etiquetas de impressao dos pais levam ao aumento da atividade de metilacao.
[
19
]
[
20
]
Padroes epigeneticos podem ser identificados entre os tecidos dentro de um mesmo individuo.
Genes identicos que tem diferencas apenas em seu estado epigenetico sao chamados
epialelos
. Os epialelos podem ser colocadas em tres categorias:
- aquelas diretamente determinadas pelo genotipo de um individuo.
- aquelas influenciadas pelo genotipo;
- aquelas inteiramente independentes do genotipo.
O epigenoma tambem e influenciado significativamente por fatores ambientais. Dieta, toxinas e hormonios afetam o estado epigenetico. Estudos em manipulacao dietetica demonstraram que dietas com deficiencia de metil estao associadas a hipometilacao do epigenoma. Tais estudos estabelecem a epigenetica como uma importante interface entre o ambiente e o genoma.
[
21
]
Referencias
- ↑
≪The Human Genome≫
(em ingles)
- ↑
≪An integrated map of genetic variation from 1,092 human genomes≫
.
Nature
.
491
.
Bibcode
:
2012Natur.491...56T
.
PMC
3498066
.
PMID
23128226
.
doi
:
10.1038/nature11632
- ↑
≪Comparing the human and chimpanzee genomes: searching for needles in a haystack≫.
Genome Research
.
15
.
PMID
16339373
.
doi
:
10.1101/gr.3737405
- ↑
Consorcio Internacional de Sequenciamento do Genoma Humano Publica Sequencia e Analise do Genoma Humano
- ↑
≪The Human Genome≫
- ↑
a
b
≪Finishing the euchromatic sequence of the human genome≫
.
Nature
.
431
.
Bibcode
:
2004Natur.431..931H
.
PMID
15496913
.
doi
:
10.1038/nature03001
- ↑
≪Multiple evidence strands suggest that there may be as few as 19,000 human protein-coding genes≫
.
Human Molecular Genetics
.
23
.
PMC
4204768
.
PMID
24939910
.
doi
:
10.1093/hmg/ddu309
- ↑
≪Genomics. ENCODE project writes eulogy for junk DNA≫.
Science
.
337
.
PMID
22955811
.
doi
:
10.1126/science.337.6099.1159
- ↑
≪Initial sequencing and analysis of the human genome≫.
Nature
.
409
.
Bibcode
:
2001Natur.409..860L
.
PMID
11237011
.
doi
:
10.1038/35057062
- ↑
≪Scientists Announce HGP-Write, Project to Synthesize the Human Genome≫
- ↑
≪The Genome Project-Write≫.
Science
.
353
.
Bibcode
:
2016Sci...353..126B
.
PMID
27256881
.
doi
:
10.1126/science.aaf6850
- ↑
≪Researchers Identify 126,018 Human Genetic Variations | Genetics | Sci-News.com≫
.
Breaking Science News | Sci-News.com
(em ingles)
. Consultado em 10 de julho de 2020
- ↑
≪Resolving the complexity of the human genome using single-molecule sequencing≫
.
Nature
.
517
.
Bibcode
:
2015Natur.517..608C
.
PMC
4317254
.
PMID
25383537
.
doi
:
10.1038/nature13907
- ↑
Pratas, D., Pinho, AJ e Ferreira, PJSG Compressao eficiente de sequencias genomicas.
Conferencia de Compressao de Dados
, Snowbird, Utah, 2016.
- ↑
≪Human Genome Project Completion: Frequently Asked Questions≫
.
National Human Genome Research Institute (NHGRI)
(em ingles)
- ↑
≪Human genomes as email attachments≫.
Bioinformatics
.
25
.
ISSN
1460-2059
.
doi
:
10.1093/bioinformatics/btn582
- ↑
Zhandong Liu, Santosh S Venkatesh and Carlo C Maley,
Sequence space coverage, entropy of genomes and the potential to detect non-human DNA in human samples
, BMC Genomics 2008, 9:509,
[1]
doi
:
10.1186/1471-2164-9-509
, fig. 6, using the
Lempel-Ziv
estimators of entropy rate.
- ↑
≪Mitochondrial DNA and human history≫
. Consultado em 30 de marco de 2019
. Arquivado do
original
em 7 de setembro de 2015
- ↑
≪Beyond the sequence: cellular organization of genome function≫.
Cell
.
128
.
PMID
17320514
.
doi
:
10.1016/j.cell.2007.01.028
- ↑
≪The mammalian epigenome≫.
Cell
.
128
.
PMID
17320505
.
doi
:
10.1016/j.cell.2007.01.033
- ↑
≪[Epigenetics, interface between environment and genes: role in complex diseases]≫.
Revue Medicale de Liege
.
67
.
PMID
22891475