Biohazard & AI Corruption (3.deo)

Corruption Of Genomic Databases


Oxford University Press,1992:
Opisujemo dokaze da su DNK sekvence iz vektora korišćenih za kloniranje i sekvenciranje slučajno ugrađene u eukariotske unose u bazi podataka GenBank. Ove inkorporacije nisu bile ograničene na jedan tip vektora ili na jedan mehanizam.
Mnogi manji slučajevi su možda bili rezultat jednostavnog uređivanja greške, ali neki unosi su sadržali velike blokove vektorske sekvence koji su bili ugrađeni kontaminacijom ili drugim nesrećama tokom kloniranja. Neki slučajevi su uključivali neobična preuređivanja i oblasti vektora udaljene od normalnih mesta umetanja.

Iako je mogućnost inkorporacije anomalnih sekvenci prepoznata od početka GenBank-a i trebalo bi je lako izbeći, nedavni dokazi sugerišu da se ovaj problem povećava brže od same baze podataka. Prisustvo anomalnog niza može imati ozbiljne posledice po interpretaciju i korišćenje unosa baze podataka, i imaće uticaj na pitanja upravljanja bazom podataka. Ovde opisani inkorporirani vektorski fragmenti takođe mogu biti korisni za grubu procenu vernosti informacija o sekvenci u bazi podataka.

Očekivali smo da inkorporacija vektora nestaje kako je kompjuterizovana kompilacija sekvenci postajala sve sofisticiranija. Prisustvo vektorskih fragmenata koji nastaju usled grešaka u uređivanju u bazi podataka je široko pretpostavljeno, a anegdotski izveštaji (52,53) skrenuli su dalju pažnju na ovo pitanje. Međutim, kada smo izvršili preliminarnu pretragu u delovima GenBank izdanja 67 sa punom sekvencom M13 (podaci nisu prikazani), u pokušaju da pronađemo podudaranja sa oblastima vektora koje nismo koristili u našoj prvobitnoj pretrazi, identifikovali smo 50 novih dodataka bazi podataka sa značajnom sličnošću sa našom originalnom sondom M13. Dodavanje svih ovih sekvenci bi više nego udvostručilo veličinu tabele 1; nasuprot tome, delovi baze podataka koje smo koristili su u zbiru porasli za približno 50% između izdanja 63 i 67.

Cilj naše analize podudaranja u Tabeli 1 bio je da razotkrije potencijalne mehanizme pomoću kojih je vektor ugrađen; očigledna heterogenost ovih mehanizama ukazuje na to da sveobuhvatna identifikacija anomalnog niza u bazi podataka može biti teška.
Naši dokazi sugerišu da bi sekvenca mogla biti ugrađena iz vektora koji se inače ne koriste za sekvenciranje i iz oblasti udaljenih od uobičajenih mesta kloniranja. Druga DNK koja je prisutna tokom manipulacija kloniranjem može biti ugrađena. Bakterijska DNK se može uvesti u različite reagense, uključujući restrikcione enzime, ili rekombinacijom u transformisanu ćeliju domaćina.
Podudaranja u četvrtoj kategoriji tabele 1 ukazuju na to da bi reagenti mogli da prate inkorporaciju i da bi druge eukariotske sekvence, uključujući one iz postojećih klonova koji bi mogli kontaminirati reagense koji se koriste za kloniranje, mogli da se integrišu.

Isti heterogeni mehanizmi koji su ugradili velike blokove i šifrovane fragmente prepoznatljive vektorske sekvence u bazi podataka lako su mogli da stvore slične anomalije sa drugim sekvencama koje se ne mogu lako identifikovati. Zajedno sa preliminarnim dokazima da se pogrešno identifikovana vektorska sekvenca akumulira u novijim izdanjima, ovo sugeriše da je učestalost inkorporacije anomalne sekvence koju smo primetili u starijoj verziji GenBank značajno potcenjivanje obima problema u trenutnoj bazi podataka.

Ako podudaranja u Tabeli 1 predstavljaju artefakte zasnovane na vektorima, onda su sredstva na koja su nastala morala biti heterogena – sve sekvence podudaranja nisu mogle biti generisane jednim mehanizmom.

Poklapanja u Tabeli 1 su kategorisana po mehanizmu koji bi najbolje mogao da objasni inkorporaciju u svakom slučaju.
Mehanizam u prvoj kategoriji je jednostavno proširenje čitanja sekvence izvan mesta kloniranja u vektor. Jedno poravnanje u ovoj grupi je prikazano na slici 1. U nekoliko slučajeva sekvenca podudaranja može biti ostatak greške u uređivanju u kojoj su baze pročitane izvan tačke umetanja nenamerno ostavljene u prijavljenoj sekvenci. U drugim slučajevima (uključujući unos ONGMSPA) restrikciono mesto koje se koristi za kloniranje možda je bilo preuređeno i stoga nije prepoznato kao granica između vektora i inserta.

Druga kategorija se sastoji od poklapanja sa vektorima koji nisu korišćeni za sekvenciranje, ali su bili prisutni u ranijim koracima kloniranja – sekvenca podudaranja je možda nastala kada je deo intermedijarnog vektora nenamerno inkorporiran sa nameravanim umetkom u podklon koji se koristi za sekvenciranje. .

Treća kategorija uključuje opsežnije slučajeve subkloniranja u kojima su višestruke vektorske sekvence ugrađene ili pogrešno prepoznate, ili u kojima je bočni fragment vektora zamenjen za nameravani umetak u subklonu.

Četvrta kategorija u Tabeli 1 uključuje sekvence koje pokazuju dokaze velike inkorporacije vektora koja uključuje značajan deo ukupne prijavljene sekvence, ili preuređenje u ranim fazama kloniranja. Odgovarajuća sekvenca u unosu M24665 (47) bila je skoro identična sa 200 baznih parova (bp) bočne strane tačke umetanja u Xgt lO, ali u orijentaciji suprotnoj od one koja se očekivala od jednostavne greške u prepoznavanju mesta umetanja. Ovaj vektorski fragment je mogao biti prisutan tokom početnog kloniranja i vezan za cDNK pre dodavanja vektorskih krakova..

Poravnanja za HUMAMIAI, na slici 3A, i preostali unosi u ovoj kategoriji odstupali su u ključnoj osobini od ostalih podudaranja u Tabeli 1 i uključivali su oblasti vektora daleko od očekivanih mesta kloniranja. Neka podudaranja u ovoj kategoriji su bila ograničena restriktivnim mestima, ali ona koja se obično ne koriste za kloniranje u vektoru podudaranja. DNK vektor može imati kontaminirane reagense koji se koriste u subkloniranju ovih sekvenci; različiti fragmenti vektora su zatim dodani tupim ili kompatibilnim ligiranjem na predviđene umetke u subklonovima.

Takođe je moguće da novi klon može da inkorporira kontaminirajući vektorski fragment sa pričvršćenim delom već postojećeg umetka. Ovo je jedno od objašnjenja za poravnanje na slici 3B. RATADHCY1 je jedna himerna cDNK koja sadrži sekvence sa više od 90% identičnosti sa delovima transkripata dva normalno odvojena mitohondrijska gena.
Ovi regioni u RATADHCY1 su spojeni sekvencom od 230 bp koja je opisana da ne predstavlja homologiju sa bilo kojim poznatim genima (48). Ova sekvenca za premošćivanje je u stvari imala 95% identiteta (u 241bp) sa M13. Područje uključenog M13 nije bilo bliže od 40bp virusnom polilinkeru i nije bilo ograničeno restrikcijskim mestima koja se obično koriste za kloniranje, što sugeriše da je ovaj konstrukt generisan nekim komplikovanim preuređivanjem ili ligacijom više fragmenata.

Peta kategorija u tabeli 1 sastoji se od tri sekvence koje su izmenjene nakon što su ušle u bazu podataka. Očekivali smo da će obim nekih podudarnih sekvenci koje smo primetili u izdanju 63 GenBank-a neizbežno dovesti do njihove identifikacije u narednim izdanjima. Zaista, neki unosi u izdanju 67 sadrže napomena o navodnim anomalijama.

Prisustvo verodostojne vektorske sekvence imalo bi posledice u rasponu od zanemarljivih do katastrofalnih za istraživanja povezana sa unosima u tabeli 1. Većina poklapanja u prvoj kategoriji bila je u oblastima pripisanim intronima i bokovima gena. U nekim slučajevima vektorska sekvenca bi doprinela retkim restrikcijskim mestima, što bi dovelo do pogrešnih očekivanja za genomsko varenje. Uključivanje vektora u kategorije 2 i 3 bi uticalo na nekoliko poravnanja u izvornim člancima.

Korisnost informacija baze podataka za neke svrhe možda neće biti ozbiljno smanjena ako je njena ukupna tačnost pala u opsegu koji smo primetili za ugrađeni vektor.
Traganja za sličnošću nukleotida su tolerantna na praznine i nepodudarnosti, a sličnosti među proizvodima prevođenja mogu se identifikovati čak i usred grešaka pomeranja okvira (57).
Nasuprot tome, male greške oko spojeva spojeva kompromitovale su identifikaciju konsenzus sekvenci (58). Diskusija o ovom pitanju se fokusirala na disperzovane i uglavnom predvidljive greške koje uključuju pojedinačne baze (59). Naši nalazi sugerišu da su veće greške nastale usled velikog, heterogenog i nepredvidivog uključivanja anomalnog niza. Takve anomalije većeg obima će pogoršati probleme u prepoznavanju sličnosti niskog nivoa i konsenzusnih sekvenci, ali takođe mogu uvesti nove sličnosti koje dovode u zabludu.

Pogrešno postavljen, neprepoznati fragment gena u unosu baze podataka može dovesti do toga da se podudara sa sekvencom koja se koristi za pretragu baze podataka, što dovodi do pogrešnih očekivanja za funkciju ili evolucione odnose sekvence sonde. Identifikovali smo podudaranja koja smo pronašli kao potencijalne artefakte jer su bila toliko brojna i slična; jedna preuređena i slučajno ugrađena eukariotska sekvenca neće biti tako lako prepoznata u podudarnosti baze podataka.

Kombinacija grešaka jedne baze i anomalija većih razmera može imati najveći uticaj na istraživanja koja uključuju amplifikaciju fragmenata gena posredovanu polimerazom lančane reakcije (PCR). PCR amplifikacija može da ne uspe sa oligonukleotidima koji su napravljeni da odgovaraju pogrešnoj sekvenci, a uspešni proizvodi se mogu smatrati artefaktima ako njihove veličine ili restrikciona mesta ne odgovaraju očekivanjima zasnovanim na sekvenci sa greškama ili anomalnim uključcima.

Naši dokazi podržavaju pretpostavku da će takvi problemi biti manje verovatni za mete amplifikacije koji se nalaze u kodirajućim regionima dobro proučenih gena, mnogo verovatnije za neprevedeni region koji se koristi za identifikaciju jedinstvenog transkripta ili intergenskog regiona koji je ciljano mesto za polimorfizam. .

Ovi problemi će se verovatno dramatično povećati sa širokom primenom PCR-a u predloženom pristupu za diseminaciju informacija o mapiranju humanog genoma (60, 61).

Većina ovih problema mogla bi se izbeći ako bi menadžeri baze podataka primenili rigoroznu i jednoobraznu proceduru skrininga, koristeći analitičke alate koji su već dobro uspostavljeni, na sve sekvence koji ulaze u bazu podataka i uklonili nagomilane artefakte na način koji čuva bazu podataka kao nepromenljiv zapis. Istovremeno, treba povećati napore da se razvije usklađenost informacija o sekvenci kako bi baza podataka postala pouzdaniji resurs.