Promisiunea Big Data

S-au scris tomuri despre planificare, colectare, analiză şi relaţia creată cu beneficiarul prin fluxul de diseminare a produselor informaţionale. De asemenea, nu ducem lipsă de literatură de specialitate despre modul în care aceste activităţi se subordonează logic şi secvenţial scopului de valorificare acţională a informaţiilor – renumitul ciclu de intelligence, arhetipul weberian cu puternice limite explicative şi de aplicabilitate cotidiană, folosit totuşi de aproape toţi practicienii din domeniu în lipsa unui alt cadru conceptual mai bun.

Mai puţină atenţie a fost acordată etapei de procesare, secvenţă rezumată, de regulă, expeditiv prin formulări de genul: „pasul de procesare este etapa în care datele colectate sunt puse într-un format omogen, pentru analiză“.

Procesarea datelor – bridging the gap

Operaţionalizând conceptul, procesarea presupune o serie de sub-procese complexe de manipulare a datelor precum: structurarea datelor colectate (ingestia datelor colectate conform unor reguli de alocare în baza de date), curăţarea conţinutului parazitar (eliminarea „zgomotului“, a datelor corupte sau incomplete etc.), validarea (asigurarea că datele colectate sunt corecte şi relevante), sortarea (aranjarea datelor conform unei ordini, unei secvenţe sau în cadrul unor subseturi), sumarizarea (reducerea conţinutului la cele mai importante puncte comune), agregarea (combinarea unor surse multiple de date într-o singură bază de date) şi clasificarea datelor (separarea datelor în categorii). Mă rezum, din considerente de spaţiu, la a sublinia faptul că fiecare proces acoperă un spectru foarte larg de activităţi, de la foarte simplu la extrem de complicat. Miza aplicării acestor procese este realizarea unei „punţi“ solide, sustenabile şi flexibile între secvenţa de colectare şi cea de analiză, de valorificare informaţională a conţinutului colectat, de regulă, cu mari riscuri şi cu eforturi umane, logistice şi, nu în ultimul rând, financiare pe măsură.

Atunci când datele sunt complexe ca natură şi ca volum, gestionarea etapei de procesare „înghite“ la fel de multe resurse de infrastructură şi cunoaştere ca celelalte etape ale ciclului.

De la simplu la complex

Devine mai uşor de înţeles de ce etapa de procesare este „orfana“ atenţiei literaturii de specialitate dacă luăm în calcul faptul că modelul ciclului de intelligence codifică şi reflectă implicit un praxis organizaţional orientat în mod tradiţional către obţinerea de informaţii prin mijloace secrete – umane şi tehnice. În cazul informaţiilor obţinute prin HUMINT (date şi informaţii obţinute prin exploatarea surselor secrete umane) de către un serviciu extern, de exemplu, procesarea ar presupune traducerea unei serii de documente clasificate obţinute de un agent dintr-o instituţie a statului-ţintă. De asemenea, în ceea ce priveşte „disciplina“ GEOINT (date şi informaţii obţinute prin exploatarea sateliţilor, conţinutului multimedia generat de fotografie şi filmare aeriană, hărţi etc.), o procesare primară a datelor poate presupune realizarea de adnotări pe conţinutul multimedia cu scopul de a explicita natura obiectelor surprinse. Suficient de simplu… cel puţin la nivel declarativ.

Trebuie luat în calcul faptul că, în cadrul „disciplinelor“ cu un nivel de complexitate tehnică şi tehnologică mai accentuată (MASINT, SIGINT, CYBERINT ş.a.m.d.), procesarea ocupă un loc extrem de important în secvenţa de responsabilitate din ciclul de intelligence.

OSINT TECHNICUS

Deşi poate părea contraintuitiv, în domeniul OSINT (Open Source Intelligence), care devine în mod abrupt o disciplină foarte tehnicizată, dimensiunea de procesare vine cu o serie de provocări şi întrebări suplimentare faţă de discipline precum SIGINT (Signals Intelligence) deoarece corpus-ul de date cu care operează un sistem OSINT este mai mare, mai complex, circulă cu o viteză mai mare (rata de ingestie a datelor este mult mai mare ca în cazul altor discipline) şi, mai ales, nu are un caracter strict numeric. În mod abstract, un sistem OSINT captează un output cultural – mesaje, imagini, discursuri, conţinut video, articole de presă ş.a.m.d.. Acest tip de conţinut codifică implicit, discret, valori, scheme de gândire, semnificaţii şi simboluri sociale. De aceea, procesarea acestui tip de date presupune un nivel de rafinament tehnic şi ştiinţific superior.

În condiţiile creşterii exponenţiale a avalanşei informaţionale, un domeniu de cercetare promiţător este cel al „machine learning“ – computere care au abilitatea de a învăţa şi de a se adapta la condiţii noi, fără a fi explicit programate cu privire la cum să facă asta. Sistemele de tip „machine learning“, validate pe eşantioane mici de date şi apoi lăsate să ajusteze algoritmii de funcţionare sub ghidajul (dezirabil minimal al) operatorilor umani, nu doar că nu sunt copleşite de volume mari de date, ci funcţionează mai bine pe măsură ce sunt expuse la noi seturi de date.

În septembrie 2011, la câteva luni după eliminarea lui Bin Laden, o echipă condusă de Kalev Leetaru, cercetător în cadrul Institute for Computing in the Humanities, Arts and Social Science – Universitatea din Illinois, a folosit supercomputer-ul Nautilus (SGI ALTIX) al Universităţii din Tennessee pentru a exemplifica, a posteriori, faptul că analiza a peste 100 de milioane de articole de presă furnizate de Open Source Center, BBC Monitoring şi publicaţii online terţe ar fi putut furniza indicii privind posibila ascunzătoare a liderului terorist. Nautilus a identificat o arie de 200km2 care includea oraşul pakistanez Abbottabad ca fiind zona probabilă unde se ascunde Bin Laden. Evident, analiza rămâne o speculaţie interesantă, ancorată în narativul lui „cum ar fi fost dacă“.

Dincolo de acest exemplu, marea promisiune a Big Data, nu doar în ceea ce priveşte domeniul OSINT, este că strângerea volumelor mari de date nu serveşte doar o lăcomie de infrastructură, ci că punerea la un loc a multor surse de date este precondiţia sine qua non a identificării de corelaţii, relaţii de cauzalitate şi predicţii care altfel ar fi scăpat chiar şi celui mai bun analist.

Ca Big Data să se achite de această promisiune, secvenţa de procesare a datelor trebuie să primească o atenţie egală cu cea acordată capabilităţilor de colectare şi analizei. Fără acest al treilea pilon, arhitectura fluxului de intelligence se află într-un echilibru precar şi depinde nepermis de mult de hazard şi serendipitate.

Abstract

The concept of Big Data Analytics relies heavily on the implicit promise that in huge heaps of data there is insight to be found.
Ideally, the end user usually only deals with data thorugh a easy-to-use interface that allows for intuitive querrying, filtering and reporting but the groundwork for good, reliable and, most important, fast analytics is found within the processing stage.

Processing is a painstaking, no-thrills work that needs reliable architectures and dedicated professionals to man the system. This article explores some tips, tricks and solutions that can aid the data analyst in his quest to „make the data sing”.

Autor: Tudor Raţ

Procesarea datelor – bridging the gap

De la simplu la complex

OSINT TECHNICUS