Ultima actualizare la
Mașina Wayback este cea mai populară parte a Site-ul Internet Archive. Introdus pentru prima dată în 2001, instrumentul online gratuit vă permite să vă întoarceți „înapoi în timp” pentru a vedea cum arată site-urile din întreaga lume în anumite momente. Mașina Wayback are 562 miliard pagini web în momentul scrierii acestui articol, cu multe altele adăugate în fiecare an.
Iată o privire asupra Wayback Machine și ceea ce o face specială.
Introducere arhivă Internet
Creat de Brewster Kahle și Bruce Gilliat, Internet Archive este o organizație non-profit cu o misiune declarată de „acces universal la toate cunoștințele”. De la inceput, organizația a oferit acces public gratuit la materiale digitalizate, cum ar fi pagini web, cărți, înregistrări audio, inclusiv concerte live, videoclipuri, imagini și software programe.
Până în prezent, tot ceea ce este colectat de Internet Archive ocupă mai mult de 70 Petabytes de spațiu pe server, inclusiv două copii ale tuturor. Organizația este finanțată prin donații, subvenții și taxe din serviciile de digitalizare a cărților. Pentru confidențialitate, Internet Archive nu ține evidența adreselor IP ale cititorilor săi și folosește protocolul HTTPS (securizat) pe tot parcursul.
Mașina Wayback
Doar o parte a arhivei Internet, Wayback Machine, a fost concepută pentru a captura conținutul site-ului web care a fost modificat sau eliminat. De la lansare, a devenit unul dintre cele mai populare și recunoscute locuri de pe web. Kahle și Gilliat au numit site-ul după dispozitivul fictiv de călătorie în timp din seria de animație din anii 1960, The Rocky and Bullwinkle Show.
Deși Internet Archive nu a lansat site-ul către public decât în octombrie 2001, Wayback Machine a început arhivarea paginilor web cache începând din mai 1996. Până în 2001, casetele digitale stocau informații care erau accesibile doar oamenilor de știință și cercetătorilor selectați. Când totul a fost difuzat publicului cinci ani mai târziu (așa cum se planifica de mult), acesta conținuse deja peste 10 miliarde de pagini arhivate.
Depozitare și colecții
Astăzi, site-ul păstrează datele web istorice pe un cluster de noduri Linux. Wayback Machine descarcă toate informațiile și fișierele de date accesibile publicului de pe paginile web prin mecanismul său de accesare cu crawlere. Cu toate acestea, nu tot ce este postat pe un site web este inclus aici, deoarece un anumit conținut este restricționat sau stocat în baze de date, care nu sunt accesibile. Din această cauză, unele site-uri web sunt mai bine accesate cu crawlere decât altele, în funcție de modul în care dezvoltatorii au creat un site la un moment dat.
Veți observa, de asemenea, cu cât arhiva este mai nouă, cu atât mai mult conținut disponibil pentru un anumit site. Un nou instrument introdus de Arhiva Internet în 2005 este unul dintre motivele pentru care datele mai noi sunt mai complete. Archive-It.org ajută la depășirea inconsecvențelor din site-urile parțial cache, permițând instituțiilor și creatorilor de conținut să culeagă și să păstreze colecțiile de conținut digital.
Despre Crawling
Crawlerele web, numite uneori spider sau spiderbot, sunt la fel de vechi ca internetul în sine. Aceste crawlerele sunt roboți de internet care navighează continuu pe web în scopul indexării, făcându-i o componentă importantă a oricărui motor de căutare modern. Crawlerele utilizate pentru Wayback Machine pentru a crea instantanee digitale de site-uri web provin din diverse surse, care s-au schimbat de-a lungul timpului.
După cum veți observa rapid, frecvența capturilor instantanee variază foarte mult în funcție de site. În mod obișnuit, cu cât este mai mare (și poate mai popular) un site web, cu atât are loc un acces mai târât. În plus, multe depind de cât de des un site web are modificări de pagină. Chiar și cele mai mici site-uri web sunt în cele din urmă accesate cu crawlere, cu excepția cazului în care există un motiv pentru care nu sunt. De exemplu, site-urile protejate prin parolă nu sunt accesate cu crawlere și nici site-urile web ai căror proprietari au solicitat să nu fie incluse.
Utilizarea mașinii Wayback
Site-ul Wayback Machine este ușor de utilizat de oricine. Pentru a găsi instantanee istorice ale unui site web, introduceți numele acestuia în motorul de căutare al site-ului. În pagina cu rezultatele căutării, hyperlinkurile indică datele și orele în care un site a fost arhivat. Faceți clic pe link pentru a vedea site-ul „înapoi în timp”.
În exemplele următoare, puteți vedea prima pagină a site-ului web Apple înregistrată în februarie 2005 și noiembrie 2014 și pagina de pornire CNN de la o dată din martie 2004 și septembrie 2010.
Notă: Aceste accesări cu crawlere includ, de asemenea, linkuri către alte pagini înregistrate la datele date, nu doar paginile de pornire.
Instrumente avansate
Creată atât pentru cercetători, cât și pentru public, Wayback Machine are câteva instrumente încorporate pe care utilizatorii ocazionali ar putea să le rateze. De exemplu, prin design, paginile cu rezultatele căutării sunt ușor de referit. După cum s-a explicat, „Dacă găsiți o pagină arhivată pe care doriți să o consultați pe pagina dvs. Web sau într-un articol, puteți copia adresa URL. Puteți folosi chiar potrivirea URL neclară și specificarea datei... dar asta este ceva mai avansat. "
Wayback Machine permite, de asemenea, proprietarilor de site-uri să folosească o caracteristică „Salvați pagina acum” pentru a salva o anumită pagină. Și totuși, nu este perfect. În prezent, funcția nu adaugă adresa URL a site-ului la nicio accesare cu crawlere viitoare. În plus, solicitarea nu salvează mai multe pagini. Cu toate acestea, este un prim pas bun pentru a arhiva pagina de pornire a site-ului dvs. web pentru înregistrarea istorică.
Nu trebuie să vizitați de fiecare dată Wayback Machine pentru a face o nouă căutare. În schimb, puteți găsi conținut tastând adresa din bara de instrumente a browserului dvs. web. Utilizați acest format pentru toate căutările: http://web.archive.org/*/www.yoursite.com/*. De exemplu, utilizați http://web.archive.org/*/www.groovypost.com/* pentru a găsi pagini arhivate pentru GroovyPost!
Instrumente pentru mobil și pentru dezvoltatori
În cele din urmă, Wayback Machine nu este localizat doar prin web. Puteți găsi o aplicație Wayback Machine pentru iOS și Android. Există, de asemenea, extensii pentru Chrome, Safari și Firefox. Dezvoltatorii vor dori, de asemenea, să verifice API-urile Internet Archive Wayback Machine. Acestea fac mai ușor pentru dezvoltatori să recupereze informații despre datele de captare Wayback.
Internet Archive Wayback Machine acceptă mai multe API-uri diferite. Procedând astfel, este mai ușor pentru dezvoltatori să recupereze informații despre datele de captură Wayback.
A merge „înapoi în timp” pentru site-urile web preferate este motivul nr. 1 pentru a vizita Wayback Machine. Este, de asemenea, un instrument excelent pentru oricine cercetează istoria site-ului web pentru proiecte școlare sau pentru afaceri. Orice ai face, accesează Wayback Machine și vezi ce poți descoperi în câțiva pași simpli.
Pentru mai multe informații despre serviciul de abonament Archive-It al Internet Archive, vizitați site oficial și începeți să contribuiți astăzi!