Scurtă incursiune în Deep Web

Mirajul suprainformării

În Societatea Cunoaşterii, „informaţia digitală” a dobândit valenţe şi dimensiuni pe care consumatorul le mai poate gestiona cu dificultate. Expansiunea surselor deschise de informare s-a produs în ritm alert, impus de însuşi contextul general al evoluţiilor spre consolidarea unei structuri economico-sociale euro-atlantice. Numeroase evenimente, indiferent de nivelul la care se produc, sunt difuzate online cu rapiditate aproape sincronă, astfel încât se poate afirma că graniţa dintre real şi virtual a devenit extrem de diluată, însă, în acelaşi timp, cauzatoare de confuzii, dezarmantă, volatilă, frizând sfera incertitudinii.

Din ce în ce mai frecvent, omul contemporan, un veritabil Prometeu încătuşat, se confruntă cu riscul de a fi „devorat” de mirajul informaţional, de multiplele necunoscute şi dileme pe care le incumbă rezultatele unei simple interogări online, mai mult sau mai puţin specializate. Paradoxal, accesul liber la informaţie a sofisticat actul de cunoaştere, din cauza contradicţiilor generate nu de volumul impresionant al datelor, ci de numeroasele canale de propagare a acestora, cu efect de distorsionare semantică. Dacă o ştire este preluată de mai multe agenţii şi promovată în Web-ul public (Surface Web), sub presiunea vanităţii concurenţiale de obţinere a rating-ului necesar ocupării unei poziţii de lider pe piaţa brandurilor de profil, invariabil se produce denaturarea conţinutului său şi, ca efect, diminuarea credibilităţii, fiind introduse, în acelaşi timp, elemente de incertitudine, imposibil de clarificat/verificat, în absenţa cercetării unor (re)surse alternative de mai mare profunzime, acurateţe şi rafinament.

Web-ul invizibil sau ascuns

În literatura de specialitate, acea parte a World Wide Web-ului pe care motoarele clasice de căutare nu o indexează şi din care nu afişează rezultate poartă denumirea de Deep Web (termen introdus, în 1994, de dr. Jill Ellsworth, membru fondator al Consiliului Internaţional al Directorilor Asociaţiei Profesioniştilor în Internet din Richmond, Virgina, Statele Unite ale Americii).

Un prim pas spre a decela natura conţinutului său constă în înţelegerea procesului care se derulează în intervalul de milisecundele dintre transmiterea interogării online şi restituirea propriu-zisă a rezultatelor.

Un motor de căutare accesează Internetul şi indexează automat paginile vizitate. Pentru a funcţiona, acesta trebuie să parcurgă trei etape indispensabile: colectarea informaţiilor (sau „crawl”) posibilă datorită „roboţilor” („agenţi/„spideri/„crawleri”), care identifică o pagină, o salvează, detectează link-urile pe care le conţine, accesează paginile de destinaţie ale acestora, le salvează, detectează alte link-uri etc., proces repetat permanent); indexarea informaţiilor colectate şi constituirea unei baze de date numită index; procesarea termenilor căutării, prin intermediul unui sistem vast de interogare a indexului şi de clasare a rezultatelor, în funcţie de mai multe criterii de pertinenţă, raportate la termenii tastaţi de utilizator.

Prin urmare, când se utilizează un motor de căutare general, nu este sondat Web-ul propriu-zis, ci indexul de cuvinte format în cadrul etapelor descrise (ceea ce echivalează cu faptul că internauţii accesează numai 0.03% din resursele disponibile sau una din trei mii). Termenii căutării sunt comparaţi cu acesta, iar rezultatele sunt, în realitate, toate paginile al căror conţinut HTML a fost stocat pe bardul motorului.

Însă, dacă „robotul” („agentul”/programul) nu a vizitat şi indexat pagina, aceasta nu va fi afişată la căutare, motiv pentru care spunem că este invizibilă. De aici derivă contextul esenţial în care trebuie înţeles Deep Web-ul şi identificate strategiile/tehnicile/software-ul prin care poate fi cercetat.

În cele mai recente studii în domeniu, experţii evidenţiază că există baze de date specializate, platforme neindexate, care depăşesc cu mult cantitatea, dar, în special, calitatea informaţiilor returnate în Surface Web. Conform tehnologului Mike Bergman, din cadrul companiei americane BrightPlanet Corporation (specializată în tehnologii de căutare), Dakota de Sud, SUA, Deep Web-ul este de peste 500 de ori mai mare decât Surface Web. El conţine 7500 de terabiţi de informaţie (aproximativ 550 de miliarde de documente, 300.000 de site-uri), comparativ cu 19 terabiţi (1 miliard) ai Web-ului de suprafaţă. Această cantitate impresionantă este stocată în baze de date, evaluate de experţi (de unde rezultă şi superioritatea calitativă, de aproximativ 2000 de ori mai mare), sub formă de pagini dinamice, care pot fi vizualizate prin intermediul unor interfeţe specifice (interogarea serviciului de căutare – query) sau puncte de acces (precum Librarian’s Index to the internet).

Resursele Deep Web-ului

Pot fi clasificate în câteva categorii generale de pagini: dinamice – apar ca răspuns la un anumit tip de căutare sau sunt accesate prin formulare web (câmpuri de text); care nu sunt legate de altele prin link-uri, ceea ce blochează programelor de tip „spider” posibilitatea să le acceseze conţinutul; web privat – necesită un nume de utilizator şi o parolă; web contextual – conţinutul variază în funcţie de contextul în care sunt accesate (clasa de I.P.-uri a clientului sau secvenţa de navigare precedentă): cu acces limitat tehnic (utilizează programe care exclud accesul „roboţilor” şi împiedică motoarele de căutare să le indexeze/creeze copii cache); conţinut scriptat – pagini ce sunt accesibile doar prin link-uri de JavaScript, dar şi alte conţinuturi dinamice descărcate de pe serverele web via Flash sau Ajax; conţinut non-HTML/text – prezentat textual codat în fişiere multimedia sau alte formate specifice care nu sunt suportate de motoarele clasice.

Câteva exemple relevante (o listă exhaustivă poate fi consultată aici):

The WWW Virtual Library – considerat a fi cel mai vechi catalog online, fondat de Tim Berners-Lee, creatorul World Wide Web-ului. Listează o paletă largă de resurse relevante organizate pe multiple tematici. Se pot utiliza directoarele verticale ale subiectelor dispuse în ordine alfabetică; National Counterrorism Center – util pentru agenţiile de securitate din întreaga lume, dar şi pentru societatea civilă. Pune la dispoziţie lista internaţională a grupărilor teroriste (şi a celor mai căutaţi exponenţi), metodele şi tehnicile/tacticile utilizate de acestea, link-uri către site-uri similare;
Global Terorrism Database – similar celui anterior, furnizează informaţii referitoare la evenimentele teroriste din lume derulate începând cu 1970 (actualizate anual), descriind peste 104.000 cazuri (sunt relevate, cu lux de amănunte, data şi locaţia incidentului, armele utilizate, natura ţintei vizate, numărul victimelor şi – unde este posibil – grupul sau persoana responsabilă);
South Asia Terrorism Portal – axat pe terorismul din Asia de SE; Human Trafficking Search – articole de specialitate în domeniul traficului de fiinţe umane; Aneki (www.aneki.com) – dedicat statisticilor (ţările cu cele mai mari restricţii religioase, economiile cu cel mai ridicat grad de dezvoltare, comparaţii între statele lumii etc.); Blog Age Analyzer – determină, cu aproximaţie, vârsta persoanei care a creat un site; Brupt – specializat în căutarea de documente (Office, Pdf.); similare sunt DocJax, Docstoc, Filecrop, GlobalFileSearch (conţine 166.876.671 fişiere si 11.232.350 dosare, cumulând 229.7 terabiţi), HQ Books Search, Scribd; Data 360Key Metric Analyzer – pune la dispoziţie informaţii utile în diverse domenii; similar este şi Scour; eTBLAST – identifică texte plagiate; Grey Net International – literatura gri; Internet Archive Text Search – afişează evoluţia în timp a unui site prin captarea, arhivarea informaţiilor disponibile la un moment dat ; Know Your Country (date de cunoaştere a unui stat, structurate pe domenii, precum crima organizată, evoluţia economică, sistemul taxelor şi impozitelor; Naval Open Source Intelligence – sectorul naval internaţional; Ohloh – indexează 581.489 proiecte în domeniul surselor deschise ; Oskope – portal axat pe căutarea vizuală; la introducerea termenului, afişează imagini şi link-uri către pagini în care sunt oferite detalii; Search IRC Users – identifică locaţia online a unui user; Similar Sites – returnează pagini similare URL-ului căutat, fapt care extinde aria de cercetare a unui subiect.

Tips&Tricks pentru investigarea Deep Web-ului

Una dintre soluţiile eficiente pentru identificarea bazelor de date specializate rezidă în simpla tastare, în căsuţa de căutare a oricărui motor general, a termenului de interes, urmat de cuvântul database. Procedând astfel, utilizatorul va fi directat către site-uri al căror conţinut nu este relevat în Surface Web, dacă interogarea se realizează numai prin inserarea izolată/singulară a elementului dorit. Devine de la sine înţeles că Web-ul vizibil reprezintă interfaţa primară utilizator-conţinut Deep Web sau prima cheie de acces.

Rezultate de profunzime se pot obţine şi prin căutarea pe verticală sau specializată pe domenii. Platforme precum www.verticalsearch.com, www.invisible web.com sau www.Lycos.com oferă date integrate din multiple surse, structurate pe categorii de interes. Principalul avantaj constă în faptul că utilizatorul poate introduce un termen strict în segmentul dorit, ceea ce echivalează cu returnarea informaţiilor cu exactitate sporită, organizate pe nişe specifice, omogene. Spre exemplu, un motor general, la introducerea termenului „jaguar”, va afişa simultan elemente referitoare la marca de automobil, versiunea 10.2 a sistemului de operare desktop şi server Mac OS X sau unica specie de panteră din America, spre deosebire de un motor vertical care va trimite direct la pagini din numai unul dintre domeniile posibile asociate cuvântului respectiv, în funcţie de căsuţa în care este inserat.

Deep Web-ul şi activitatea de intelligence anticipativ

Conform Directorului de Studii în domeniul Intelligence, Jennifer Sims, Universitatea Georgetown, SUA, „cheia succeselor reputate în activitatea de intelligence s-ar putea să nu fie atât culegerea de adevăruri obiective, cât furnizarea unor informaţii cruciale sau obţinerea unui avantaj important asupra adversarului. Un astfel de avantaj poate conduce la depăşirea incertitudinilor, oferind factorului decizional posibilitatea de a acţiona. Capacitatea de a simplifica procesul decizional reprezintă adevăratul deziderat al activităţii de intelligence”.

Pentru prevenirea materializării ameninţărilor la adresa securităţii naţionale/regionale/transatlantice este necesar ca decidenţii să primească produse fundamentate de intelligence, abordate pluridisciplinar. Nu se pot realiza prognoze corecte decât cu documentarea şi cercetarea prealabilă, extinsă în sistem multi-sursă, a fenomenului de interes. Cel puţin la nivel primar, resursele Deep Web-ului sunt extrem de utile, dacă luăm în considerare că informaţiile pe care le conţin sunt, înainte de a fi postate, evaluate de experţi, ceea ce le conferă acurateţe, exactitate, într-un cuvânt, calitate.

Utilizate combinativ, portalurile „invizibile” pot oferi rezultate inestimabile, atât de necesare asigurării avantajului în procesul decizional, în circumstanţele în care, conform specialiştilor în materie de securitate, serviciile speciale se confruntă cu provocarea de a acţiona într-un mediu afectat de scurtarea permanentă a variabilei temporale şi deschis afluxului informaţional şi în care sursele şi analizele de intelligence intră în competiţie cu piaţa deschisă a mass- media globalizate. De aici rezultă şi nevoia imperativă a accesării profunde şi permanente a unui spectru cât mai variat, exact şi colaborativ de surse deschise, ale căror rezultate, prelucrate şi coroborate cu informaţiile decelate din activitatea HUMINT, să asigure posibilitatea elaborării de analize profesioniste, în măsură să plaseze beneficiarul, prin judecăţi de valoare, întotdeauna cu un pas înaintea materializării intenţiilor contrare securităţii naţionale.

Dezvoltarea tehnologică a generat numeroase posibilităţi de accesare publică a informaţiei din multiple surse deschise, disponibile în Surface Web, însă, în acelaşi timp, şi falsa percepţie că, beneficiind de un volum imens de date, decidentul (în calitate de consumator) poate fi propriul analist (fenomen cunoscut în lucrările de specialitate sub denumirea de BYOA – Be your own analyst), fiind tentat, uneori, să diminueze importanţa acelor segmente ale produselor de intelligence tangenţiale cu ceea ce cunoaşte din informarea pe cont propriu.

Ori tocmai pentru a completa nivelul de cunoaştere al acestuia, conturat prin simplul act de lectură a ştirilor de presă, şi pentru a-l sprijini real în proiectele destinate atingerii obiectivelor agendei publice şi ale politicilor de securitate, este necesară elaborarea temeinică şi aprofundată de prognoze integrate tactico-strategice, prin coroborarea specializată a datelor obţinute din toate sursele disponibile, context în care, exploatat oportun, conţinutul Deep Web-ului îşi poate dovedi complementaritatea, acurateţea, fiabilitatea şi veridicitatea.

Autor: Tudor Ciuflea

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *

*
*