sábado, julho 29, 2006

"oops effect": orfãos do GenBank

Mais uma nota interessante para aqueles que se dedicam a estudos com sequenciamento de DNA (e outros curiosos científicos) que acabou de sair na última versão da revista PLoS Biology. O artigo investiga casos de publicações científicas que omitem (propositalmente ou não) informações sobre o número de acesso no GenBank de sequências analisadas no trabalho, ou que nem submetem as sequências ao cadastro do GenBank (apesar da política da revista ser explícita quanto à necessidade de depositar todas as sequências utilizadas no estudo no GenBank e incluir o número de registro no manuscrito submetido para publicação). Foi uma surpresa encarar esses índices e a possibilidade de alguns erros serem intencionais por parte dos autores do artigo. Vale a pena conferir esta "denúncia"!
Refrência: Noor MAF, Zimmerman KJ, Teeter KC (2006) Data sharing: How much doesn’t get submitted to GenBank? PLoS Biol 4(7): e228. DOI: 10.1371/journal. pbio.0040228
alguns trechos retirados do artigo-denúncia:

"We know from personal experience that authors of published papers reporting DNA sequences sometimes intentionally fail to deposit their sequences to GenBank and refuse to release them upon request. Is this a rare exception, or do many papers make it past coauthors, associate editors, editors, reviewers, and journal staff without providing the purportedly required data accession numbers?"
mais um pouco:
"Between 3% and 20% of papers in these journals did not include GenBank accession numbers, and between 3% and 15% of studies never submitted their DNA sequences at all."
e a seguir, a finalização:
"The databases of GenBank, EMBL, and the DNA Databank of Japan [2,3,4] serve as a model for data sharing from which the entire scientifi c community can learn. Although they sometimes get bad publicity for errors in DNA sequence submissions (e.g., see [5]), the positive impact they have had on all areas of biology is enormous."
O artigo pode ser acessado (livremente) na íntegra aqui.

3 comentários:

Luis Brudna disse...

Pra que serve esse GenBank? :-)

via gene disse...

O GenBank é um amplo banco de dados que cadastra e promove o acesso a praticamente todas as sequências nucleotídicas geradas em trabalhos de pesquisa. Este super-banco é gerido pelo NCBI (http://www.ncbi.nlm.nih.gov/ - National Center for Biotechnology Information), que compreende ainda o NLM (National Library of Medicine) e o NIH (National Institutes of Health). Para você ter uma idéia, muito do que existe hoje em bioinformática depende do acesso e processamento de informações armazenadas no GenBank.
Uma nota sobre o GenBank do NCBI:

"GenBank® Passes the 100 Gigabase Mark

With the August 2005 release of GenBank, the combined primary nucleotide database produced by GenBank and the collaborating European Molecular Biology Database (EMBL) and DNA Database of Japan (DDBJ) now exceeds 100 billion base pairs. The primary nucleotide data continues to grow at an exponential rate. During the period between August 1997 and August 2005 the database has grown 100 fold with an average doubling time of around 14 months. Improvements in sequencing technology and throughput indicate that the explosive growth of the primary data is likely to continue. In fact, another milestone was reached with release 149: the number of bases derived from whole genome shotgun (WGS) sequencing projects now exceeds the number of bases in the traditional divisions of GenBank (Figure 1). The WGS portion of the primary data is undergoing extremely rapid growth with the number of bases increasing more than ten fold in the past three years. There are 261 WGS projects in release 149 of GenBank including projects for human, mouse, rat, dog, numerous bacteria, and assemblies from environmental samples. With the sequencing of complete genomes becoming routine, genome sequence data will increasingly dominate the primary sequence data. The task of maintaining this data as a comprehensive and accurate resource is a primary goal of the NCBI."

esta nota está associada a um gráfico que pode ser visto neste "link":
http://www.ncbi.nlm.nih.gov/Web/Newsltr/V14N2/100gig.html

e um "overview" pode ser encontrado no "link":

http://www.ncbi.nlm.nih.gov/Genbank/index.html

Luis Brudna disse...

Obrigado pela explicação. :-)