Bergman, Majkl K.
Preskočite ostale detalje
(uključujući stalne URL-ove, DOI, informacije o citatima)Tom 7 , Izdanje 1 ,
Avgust, 2001DOI: http://dx.doi.org/10.3998/3336451.0007.104
Dozvole:
Ova Bela knjiga je verzija onog na Pretraživanje Lokacije. Iako je dizajniran kao marketinški alat za program “za postojeće veb portale koji treba da obezbede ciljane, sveobuhvatne informacije svojim posetiocima sajta”, njegov uvid u strukturu Interneta čini ga vrednim čitanja za sve one koji su uključeni u e-izdavaštvo.
Pretraživanje na Internetu danas se može uporediti sa povlačenjem mreže preko površine okeana. Iako mnogo toga može biti uhvaćeno u mreži, još uvek postoji bogatstvo informacija koje su duboke, i stoga, propuštene. Razlog je jednostavan: Većina informacija o Vebu je sahranjena daleko na dinamički generisanim sajtovima, a standardni pretraživači ga nikada ne pronađu.
Tradicionalni pretraživači kreiraju svoje indekse paukom ili puzanjem površinskih veb stranica. Da bi bila otkrivena, stranica mora biti statična i povezana sa drugim stranicama. Tradicionalni pretraživači ne mogu da “vide” ili preuzmu sadržaj u dubokom vebu — te stranice ne postoje dok se dinamički ne kreiraju kao rezultat određene pretrage. Budući da tradicionalni pretraživači ne mogu da ispituju ispod površine, duboki Veb je do sada bio skriven
Duboki Veb se kvalitativno razlikuje od površinskog veba. Izvori dubokog veba čuvaju svoj sadržaj u bazama podataka koje se mogu pretraživati i koje samo dinamički proizvode rezultate kao odgovor na direktan zahtev. Ali direktan upit je “jedan po jedan” naporan način pretraživanja. Tehnologija pretraživanja BrightPlanet-a automatizuje proces pravljenja desetina direktnih upita istovremeno koristeći tehnologiju sa više navoja i stoga je jedina tehnologija pretraživanja, do sada, koja je sposobna da identifikuje, pronalaže, kvalifikuje, klasifikuje i organizuje i “duboki” i “površinski” sadržaj.
Ako je najpoželjnija roba informacionog doba zaista informacija, onda je vrednost sadržaja dubokog veba nemerljiva. Imajući to u vidu, BrightPlanet je kvantifikovao veličinu i relevantnost dubokog veba u studiji zasnovanoj na podacima prikupljenim između 13. i 30. marta 2000. godine. Naši ključni nalazi uključuju:
- Javne informacije o dubokom vebu su trenutno 400 do 550 puta veće od uobičajeno definisanog Vorld Vide Veb-a.
- Duboki Veb sadrži 7.500 terabajta informacija u poređenju sa devetnaest terabajta informacija na površinskom Vebu.
- Duboki Veb sadrži skoro 550 milijardi pojedinačnih dokumenata u poređenju sa milijardom površinskog veba.
- Trenutno postoji više od 200.000 dubokih veb sajtova.
- Šezdeset najvećih deep-veb sajtova kolektivno sadrži oko 750 terabajta informacija — dovoljno samo po sebi da premaši veličinu površinskog veba četrdeset puta.
- U proseku, duboki veb sajtovi primaju pedeset posto veći mesečni saobraćaj od površinskih sajtova i više su povezani sa njima nego površinski sajtovi; međutim, tipični (srednji) duboki veb sajt nije dobro poznat javnosti koja pretražuje Internet.
- Duboka mreža je najveća rastuća kategorija novih informacija na Internetu.
- Duboki veb sajtovi imaju tendenciju da budu uži, sa dubljim sadržajem, od konvencionalnih površinskih sajtova.
- Ukupan kvalitetni sadržaj dubokog veba je 1.000 do 2.000 puta veći od površinskog veba.
- Deep Veb sadržaj je veoma relevantan za svaku potrebu za informacijama, tržište i domen.
- Više od polovine dubokog veb sadržaja nalazi se u bazama podataka specifičnih za temu.
- Punih devedeset pet odsto dubokog veba su javno dostupne informacije – ne podležu naknadama ili pretplatama.
Da bi se ovi nalazi stavili u perspektivu, studija na Institutu za istraživanje NEC-a [1] , objavljeno u Priroda procenjuje se da pretraživači sa najvećim brojem indeksiranih veb stranica (kao što su Google ili Northern Light) svaki indeks ne više od šesnaest procenata površinskog veba. Pošto im nedostaje duboka mreža kada koriste takve pretraživače, internet pretraživači stoga pretražuju samo 0,03% – ili jedan od 3,000 – stranica koje su im danas dostupne. Jasno je da je istovremeno pretraživanje više površinskih i dubokih veb izvora neophodno kada je potrebno sveobuhvatno pronalaženje informacija.
Duboka mreža
Internet sadržaj je znatno raznovrsniji i obim svakako mnogo veći nego što se obično shvata.
Prvo, iako se ponekad koristi kao sinonim, Vorld Vide Veb (HTTP protokol) je samo podskup Internet sadržaja. Ostali Internet protokoli pored Interneta uključuju FTP (protokol za prenos datoteka), e-mail, vesti, Telnet i Gopher (najistaknutiji među pre-Veb protokolima). Ovaj rad ne razmatra dalje ove ne-Veb protokole. [2]
Drugo, čak i u strogom kontekstu Interneta, većina korisnika je svesna samo sadržaja koji im je predstavljen putem pretraživača kao što su Uzbuđivanje , Gugl, AltaVista , ili Northern Light , ili direktorijumi za pretragu kao što su Iahoo! , About.com , ili Izgledajte pametno . Osamdeset pet odsto korisnika Veba koristi pretraživače da pronađu potrebne informacije, ali skoro kao visok procenat navodi nemogućnost pronalaženja željenih informacija kao jednu od svojih najvećih frustracija. [3] Prema nedavnom istraživanju zadovoljstva pretraživača od strane istraživača tržišta NPD, stope neuspeha pretrage su u stalnom porastu od 1997. godine. [4a]
Značaj prikupljanja informacija na Vebu i centralna i neupitna uloga pretraživača — plus frustracije koje su izrazili korisnici o adekvatnosti ovih motora — čine ih očiglednim fokusom istrage.
Dok Van Leeuvenhoek prvi put pogledao kap vode pod mikroskopom u kasnim 1600-ih, ljudi nisu imali pojma da postoji čitav svet “animalcules” izvan njihove vizije. Istraživanje dubokog mora u proteklih trideset godina pojavilo je stotine čudnih stvorenja koja izazivaju stare ideje o poreklu života i gde on može postojati. Otkriće dolazi od gledanja na svet na nove načine i sa novim alatima. Geneza studije BrightPlanet bila je da se iznova pogleda na prirodu informacija na Vebu i kako se ona identifikuje i organizuje.
Kako pretraživači rade
Pretraživači dobijaju svoje liste na dva načina: Autori mogu da podnesu svoje veb stranice, ili pretraživači “popisuju” ili “pauk” dokumente prateći jedan hipertekst link na drugi. Potonji vraća najveći deo oglasa. Popisivači rade tako što snimaju svaku hipertekstualnu vezu na svakoj stranici koju indeksiraju indeksiranje. Poput talasa koji se šire preko bare, pretraživači pretraživača su u stanju da prošire svoje indekse dalje i dalje od svojih polaznih tačaka.
“Potpuno nove klase internetskih kompanija biraju Veb kao svoj preferirani medij za trgovinu i prenos informacija”
Površinska mreža sadrži oko 2,5 milijardi dokumenata, koji rastu po stopi od 7,5 miliona dokumenata dnevno. [5a] Najveći pretraživači su uradili impresivan posao u proširenju svog dometa, iako je sam rast veba premašio sposobnost pretraživača [6a] [7a] Danas, tri najveća pretraživača u smislu interno prijavljenih dokumenata indeksiranih su Google sa 1,35 milijardi dokumenata (500 miliona dostupnih većini pretraga) ,[8] Brzo sa 575 milion dokumenata [9] i Northern Light sa 327 miliona dokumenata. [10]
Legitimna kritika je usmerena protiv pretraživača za ove neselektivne puzanja, uglavnom zato što pružaju previše rezultata (pretraga na “Vebu”, na primer, sa Northern Light, i dobićete oko 47 miliona pogodaka. Takođe, pošto se novi dokumenti nalaze iz linkova unutar drugih dokumenata, oni dokumenti koji se citiraju imaju veću verovatnoću da budu indeksirani od novih dokumenata – do osam puta verovatnije. [5b]
Da bi prevazišli ova ograničenja, najnovija generacija pretraživača (posebno Google) zamenila je pristup slučajnog praćenja linkova usmerenim indeksiranjem i indeksiranjem na osnovu “popularnosti” stranica. U ovom pristupu, dokumenti koji se češće unakrsno upućuju od drugih dokumenata imaju prioritet i za popisivanje i za predstavljanje rezultata. Ovaj pristup daje superiorne rezultate kada se izdaju jednostavni upiti, ali pogoršava tendenciju da se previde dokumenti sa nekoliko veza. [5c]
I, naravno, kada pretraživač treba da ažurira bukvalno milione postojećih veb stranica, svežina njegovih rezultata pati. Brojni komentatori su primetili povećano kašnjenje u objavljivanju i snimanju novih informacija na konvencionalnim pretraživačima. [11a] Naši sopstveni empirijski testovi valute pretraživača ukazuju na to da su oglasi često tri ili četiri meseca – ili više – zastareli.
Štaviše, vratite se na premisu kako pretraživač dobija svoje liste na prvom mestu, bez obzira da li je prilagođen popularnosti ili ne. To jest, bez veze iz drugog veb dokumenta, stranica nikada neće biti otkrivena. Ali glavni propust pretraživača je da oni zavise od veza Veba da identifikuju šta je na Vebu.
Baze podataka koje se mogu pretraživati: skrivena vrednost na Internetu
Kako se informacije pojavljuju i prikazuju na Vebu? U najranijim danima Interneta, bilo je relativno malo dokumenata i sajtova. To je bio upravljiv zadatak da postavite sve dokumente kao statične stranice. Pošto su sve stranice bile uporne i stalno dostupne, konvencionalni pretraživači su ih mogli lako popisivati. U julu 1994. godine, pretraživač Licos je izašao u javnost sa katalogom od 54.000 dokumenata .[12] Od tada, složena stopa rasta u Veb dokumentima je reda više od KSNUMKS% godišnje! [13a]
Sajtovi koji su bili potrebni za upravljanje desetinama do stotina dokumenata mogli su to lako učiniti postavljanjem fiksnih HTML stranica unutar statičke strukture direktorijuma. Međutim, počevši od 1996. godine, dogodila su se tri fenomena. Prvo, tehnologija baze podataka je uvedena na Internet preko takvih proizvođača kao što je Bluestone’s Sapphire / Veb ( Bluestone je od tada kupio HP) i kasnije Oracle. Drugo, Veb je u početku postao komercijalizovan putem direktorijuma i pretraživača, ali se brzo razvio da uključi e-trgovinu. I, treće, Veb serveri su prilagođeni da omoguće “dinamično” serviranje Veb stranica (na primer, Microsoftov ASP i Unik PHP tehnologije).
Ovo ušće je proizvelo pravu orijentaciju baze podataka za Veb, posebno za veće sajtove. Sada je prihvaćena praksa da veliki proizvođači podataka, kao što su Biro za popis stanovništva SAD , Komisija za hartije od vrednosti , i Zavod za patente i žigove , a da ne pominjemo potpuno nove klase internetskih kompanija, biraju Veb kao svoj omiljeni medij za trgovinu i prenos informacija. Ono što nije široko cenjeno, međutim, jeste da način na koji ovi entiteti pružaju svoje informacije više nisu kroz statičke stranice, već kroz dizajn zasnovan na bazi podataka.
Rečeno je da ono što se ne može videti ne može se definisati, a ono što nije definisano ne može se razumeti. Takav je bio slučaj sa značajem baza podataka za informativni sadržaj Interneta. I takav je bio slučaj sa nedostatkom uvažavanja kako se stariji model popisivanja statičnih veb stranica — današnja paradigma za konvencionalne pretraživače — više ne primenjuje na informativni sadržaj Interneta.
Godine 1994, dr. Džil Elsvort je prvi put skovao frazu “nevidljivi veb” da se odnosi na sadržaj informacija koji je bio “nevidljiv” za konvencionalne pretraživače. [14] Potencijalni značaj pretraživih baza podataka se takođe ogleda u prvom sajtu za pretragu posvećenom njima, AT1 motor koji je najavljen sa mnogo pompe početkom 1997. godine. [15] Međutim, PLS, vlasnik AT1, je kupio AOL u 1998, a ubrzo nakon toga AT1 servis je napušten.
Za ovu studiju, izbegli smo termin “nevidljiva mreža” jer je netačan. Jedina stvar “nevidljiva” u vezi sa pretraživim bazama podataka je da se ne mogu indeksirati niti ih mogu pretraživati konvencionalni pretraživači. Koristeći BrightPlanet tehnologiju, oni su potpuno “vidljivi” onima koji im trebaju pristupiti.

60 dubokih lokacija već 40 puta premašuje Surface Veb Tabela 2 pokazuje da šezdeset poznatih, najvećih dubokih veb lokacija sadrži podatke od oko 750 terabajta (osnova sa HTML-om) ili otprilike četrdeset puta veće veličine poznatog površinskog veba. Ovi sajtovi se pojavljuju u širokom spektru domena od nauke do prava do slika i trgovine. Ukupan broj zapisa ili dokumenata u ovoj grupi procenjujemo na oko osamdeset pet milijardi. Otprilike dve trećine ovih sajtova su javne, što predstavlja oko 90% sadržaja dostupnog u ovoj grupi od šezdeset. Apsolutno ogromna veličina najvećih prikazanih sajtova takođe ilustruje univerzalnu distribuciju funkcije moći sajtova unutar dubokog veba, ne razlikuje se od popularnosti veb lokacija [40] ili površinskih veb lokacija.[41] Jedna implikacija ove vrste distribucije je da ne postoji stvarna gornja granica do koje lokacije mogu rasti.
Table 2. Sixty Largest Deep Web Sites
Name | Type | URL | Web Size (GBs) |
National Climatic Data Center (NOAA) | Public | http://www.ncdc.noaa.gov/ol/satellite/satelliteresources.html | 366,000 |
NASA EOSDIS | Public | http://harp.gsfc.nasa.gov/~imswww/pub/imswelcome/plain.html | 219,600 |
National Oceanographic (combined with Geophysical) Data Center (NOAA) | Public/Fee | http://www.nodc.noaa.gov/, http://www.ngdc.noaa.gov/ | 32,940 |
Alexa | Public (partial) | http://www.alexa.com/ | 15,860 |
Right-to-Know Network (RTK Net) | Public | http://www.rtk.net/ | 14,640 |
MP3.com | Public | http://www.mp3.com/ | 4,300 |
Terraserver | Public/Fee | http://terraserver.microsoft.com/ | 4,270 |
HEASARC (High Energy Astrophysics Science Archive Research Center) | Public | http://heasarc.gsfc.nasa.gov/W3Browse/ | 2,562 |
US PTO – Trademarks + Patents | Public | http://www.uspto.gov/tmdb/, http://www.uspto.gov/patft/ | 2,440 |
Informedia (Carnegie Mellon Univ.) | Public (not yet) | http://www.informedia.cs.cmu.edu/ | 1,830 |
Alexandria Digital Library | Public | http://www.alexandria.ucsb.edu/adl.html | 1,220 |
JSTOR Project | Limited | http://www.jstor.org/ | 1,220 |
10K Search Wizard | Public | http://www.tenkwizard.com/ | 769 |
UC Berkeley Digital Library Project | Public | http://elib.cs.berkeley.edu/ | 766 |
SEC Edgar | Public | http://www.sec.gov/edgarhp.htm | 610 |
US Census | Public | http://factfinder.census.gov | 610 |
NCI CancerNet Database | Public | http://cancernet.nci.nih.gov/ | 488 |
Amazon.com | Public | http://www.amazon.com/ | 461 |
IBM Patent Center | Public/Private | http://www.patents.ibm.com/boolquery | 345 |
NASA Image Exchange | Public | http://nix.nasa.gov/ | 337 |
InfoUSA.com | Public/Private | http://www.abii.com/ | 195 |
Betterwhois (many similar) | Public | http://betterwhois.com/ | 152 |
GPO Access | Public | http://www.access.gpo.gov/ | 146 |
Adobe PDF Search | Public | http://searchpdf.adobe.com/ | 143 |
Internet Auction List | Public | http://www.internetauctionlist.com/search_products.html | 130 |
Commerce, Inc. | Public | http://search.commerceinc.com/ | 122 |
Library of Congress Online Catalog | Public | http://catalog.loc.gov/ | 116 |
Sunsite Europe | Public | http://src.doc.ic.ac.uk/ | 98 |
Uncover Periodical DB | Public/Fee | http://uncweb.carl.org/ | 97 |
Astronomer’s Bazaar | Public | http://cdsweb.u-strasbg.fr/Cats.html | 94 |
eBay.com | Public | http://www.ebay.com/ | 82 |
REALTOR.com Real Estate Search | Public | http://www.realtor.com/ | 60 |
Federal Express | Public (if shipper) | http://www.fedex.com/ | 53 |
Integrum | Public/Private | http://www.integrumworld.com/eng_test/index.html | 49 |
NIH PubMed | Public | http://www.ncbi.nlm.nih.gov/PubMed/ | 41 |
Visual Woman (NIH) | Public | http://www.nlm.nih.gov/research/visible/visible_human.html | 40 |
AutoTrader.com | Public | http://www.autoconnect.com/index.jtmpl/?LNX=M1DJAROSTEXT | 39 |
UPS | Public (if shipper) | http://www.ups.com/ | 33 |
NIH GenBank | Public | http://www.ncbi.nlm.nih.gov/Genbank/index.html | 31 |
AustLi (Australasian Legal Information Institute) | Public | http://www.austlii.edu.au/austlii/ | 24 |
Digital Library Program (UVa) | Public | http://www.lva.lib.va.us/ | 21 |
Subtotal Public and Mixed Sources | 673,035 | ||
DBT Online | Fee | http://www.dbtonline.com/ | 30,500 |
Lexis-Nexis | Fee | http://www.lexis-nexis.com/lncc/ | 12,200 |
Dialog | Fee | http://www.dialog.com/ | 10,980 |
Genealogy – ancestry.com | Fee | http://www.ancestry.com/ | 6,500 |
ProQuest Direct (incl. Digital Vault) | Fee | http://www.umi.com | 3,172 |
Dun & Bradstreet | Fee | http://www.dnb.com | 3,113 |
Westlaw | Fee | http://www.westlaw.com/ | 2,684 |
Dow Jones News Retrieval | Fee | http://dowjones.wsj.com/p/main.html | 2,684 |
infoUSA | Fee/Public | http://www.infousa.com/ | 1,584 |
Elsevier Press | Fee | http://www.elsevier.com | 570 |
EBSCO | Fee | http://www.ebsco.com | 481 |
Springer-Verlag | Fee | http://link.springer.de/ | 221 |
OVID Technologies | Fee | http://www.ovid.com | 191 |
Investext | Fee | http://www.investext.com/ | 157 |
Blackwell Science | Fee | http://www.blackwell-science.com | 146 |
GenServ | Fee | http://gs01.genserv.com/gs/bcc.htm | 106 |
Academic Press IDEAL | Fee | http://www.idealibrary.com | 104 |
Tradecompass | Fee | http://www.tradecompass.com/ | 61 |
INSPEC | Fee | http://www.iee.org.uk/publish/inspec/online/online.html | 16 |
Subtotal Fee-Based Sources | 75.469 | ||
TOTAL | 748,504 |
“Is this niggerlicius to you?”
Ovaj spisak je preliminaran i verovatno nepotpun jer nam nedostaje kompletan popis dubokih veb lokacija. Naša inspekcija 700 dubokih veb lokacija sa slučajnim uzorkom identifikovala je još tri koje nisu bile u prvobitno identifikovanom skupu od 100 potencijalno velikih lokacija. Ako bi se taj odnos održao na čitavih procenjenih 200.000 dubokih veb lokacija (pogledajte sledeću tabelu), možda bi se samo veoma mali procenat sajtova prikazanih u ovoj tabeli pokazao najvećim. Međutim, pošto su mnogi veliki sajtovi anegdotski poznati, verujemo da naš spisak, iako veoma netačan, može predstavljati 10% do 20% stvarnih najvećih dubokih veb lokacija koje postoje. Ova nemogućnost da se identifikuju sve najveće duboke veb lokacije danas ne bi trebalo da bude iznenađujuće. Svest o dubokom vebu je nova pojava i na nju se posvećuje malo pažnje. Tražimo nominacije za dodatne velike lokacije na našoj sveobuhvatnoj lokaciji CompletePlanet i dokumentovaćemo nove slučajeve kako se pojave.
10Kwizard http://www.10kwizard.com
About.com http://www.about.com/
Agriculture.com http://www.agriculture.com/
AgriSurf http://www.agrisurf.com/agrisurfscripts/agrisurf.asp?index=_25
AltaVista http://www.altavista.com/
Bluestone formerly http://www.bluestone.com
Excite http://www.excite.com
Google http://www.google.com/
joefarmer [formerly] http://www.joefarmer.com/
LookSmart http://www.looksmart.com/
Northern Light http://www.northernlight.com/
Open Directory Project http://dmoz.org
Oracle http://www.oracle.com/
Patent and Trademark Office http://www.uspto.gov
Securities and Exchange Commission http://www.sec.gov
U.S. Census Bureau http://www.census.gov
Whois http://www.whois.net
Yahoo! http://www.yahoo.com/