Petabiţi şi sentimente. Texte, contexte şi inteligenţă artificială

La mijlocul lunii ianuarie 2017, Economist Intelligence Unit (EIU), parte a The Economist Group, lansa raportul „Semnificația securității în secolul 21“ (The meaning of security in the 21st Century), cu privire la principalele riscuri la adresa securității cibernetice a companiilor. Dincolo de realitățile globale, răspândirea inegalității sociale, accesul inegal la resurse și educația precară, raportul identifică și un alt factor de risc prea puțin luat astăzi în seamă. Tehnologizarea masivă și penetrarea aplicațiilor de inteligență artificială în ritm accelerat aduce cu sine și un tip nou de vulnerabilități, în fața cărora capitalurile încearcă să găsească din mers soluții.

Matt Devost, expert în protecția infrastructurilor critice la compania americană de consultanță Accenture (394.000 de angajați și peste 34 mld. de dolari cifră de afaceri în 2016) afirmă în document faptul că în acest domeniu mai sunt multe de făcut. Dificultățile în atribuirea și urmărirea atacurilor informatice fac deosebit de dificilă sarcina celor care trebuie să protejeze sistemele, cu atât mai mult cu cât diferite țări au diferite reguli de abordare a acestui gen de activități criminale. „Putem doar să comprimăm la maximum zona sigură (safe-zone) și astfel să facem problema gestionabilă, cred că asta ar fi valoros“. Valabil din plin și pentru zona de intelligence guvernamental.

Safe-zone

Dincolo de îngrijorări și căutări firești în zona de protejare a infrastructurilor critice, aflăm din adresarea expertului faptul că întotdeauna va exista un teritoriu controlat în care dezvoltarea de noi servicii și soluții va fi liberă de constrângeri, iar societățile vor putea beneficia din plin de avantajele tehnologiilor.

Categoric, în zona serviciilor de informații, din cauze naturale de operare cu informații clasificate, zona sigură va fi întotdeauna mult mai redusă și mult mai bine păzită. Însă în interiorul ei vor trebui găsite soluțiile creative de adaptare a unei meserii vechi la realități noi.

Iar modurile de împachetare a informației, și de livrare instant însoțită de context și referințe încrucișate, vor însemna și o nouă abordare a analizelor pe text. Iar Internetul este „depozitul“ principal.

Petabiţi şi text mining

Prima întrebare care poate fi adresată este „Câtă informație există pe Internet?“ Iar răspunsul nu pare deloc simplu, având în vedere că numărul se modifică la fiecare secundă… Totuși, aproximări pot fi făcute, chiar și doar pentru a remarca ordinul de mărime despre care vorbim. Conform sciencefocus.com, subsidiar al BBC, suma totală a datelor găzduite de doar patru giganți (Google, Amazon, Microsoft și Facebook) este aproximată la cel puțin 1.200 de petabiți. Adică 1,2 milioane de terabiți. Adică 1,2 miliarde de gigabiți.

Ca de obicei, cifrele ajută la sesizarea amplorii subiectului. Și ajută la a ne imagina cât text pur „locuiește“ astăzi în serverele din întreaga lume. Text mining nu poate fi tradus precis în limba română. „Abatajul textual“ : ) nu ne ajută cu nimic la înțelegere, sensul este de scotocire amănunțită a unui text. Termenul poate fi definit în linii mari ca o formă evoluată de analiză a volumelor mari de text.

Implică inclusiv colectarea și sortarea de informații, studiul pattern-urilor și al frecvențelor, distribuția lexicală, asocierea de metadate, referințe încrucișate, precum și vizualizări de evoluții și tendințe. În cele din urmă, text mining are ca scop producerea unor analize predictive majore, pe baza analizei textelor scrise în limbaj natural.

Procesarea limbajului natural

Se pare că eforturile de dezvoltare în inteligență artificială pe termen scurt vor fi orientate către găsirea celor mai bune soluții de a „preda“ computerelor limbajul natural, astfel încât ele să poată înțelege contextualizările și nuanțele, atât de diferite în funcție de limbă sau dialect. Siri, asistentul vocal preinstalat pe unele dintre produsele Apple, este poate cel mai cunoscut exemplu. Nu și cel mai util, așa cum o arată cifrele. Mai puțin de 20 de procente dintre utilizatori afirmă că utilizează frecvent softul.

Cauza este poate aceea că, deși poate răspunde la întrebări cu o sintaxă simplă (care este programul tv sau recomandări de timp liber), adresate într-un mod foarte schematic, Siri, ca de altfel și celelalte softuri de asistență vocală, nu reușește să înțeleagă sensul unor interogări mai complexe. Pentru moment, energia implicată în dezvoltare nu a reușit să găsească o cale de a transpune limbajul uman obișnuit, informal, în formule care să aibă sens pentru mașini. De aceea, acum, nu ne putem aștepta la un răspuns util la întrebarea „Ce film ușurel ar merge într-o duminică după amiază?“

Cu atât mai mult, atunci când vorbim de procesarea automatizată a limbajului natural, este greu de imaginat soluția software care să aducă la un numitor comun milioane de texte scrise în zeci de limbi despre un anumit topic de importanță geostrategică.

Soluțiile par să apară din zona rețelelor neurale (deep neural networks), sisteme care combină soluții hardware și software pentru a replica procesele de gândire specifice oamenilor. Și, pe baza concluziilor și pattern-urilor stabilite la un anumit moment, să poată crea noi legături pentru care nu a fost anterior antrenat.

În decembrie 2016, gigantul Google a lansat public în sistem open source un soft utilizat în trecut de companie în dezvoltarea de produse de procesare a limbajului natural. SyntaxNet este, potrivit relatării wired.net, un instrument care, utilizând deep neural networks, decupează cuvintele din propoziții în încercarea de a stabili relația dintre termeni ca indicator al semnificației finale. Noutatea sistemului este că urmează logica gramaticală a propoziției și, pe baza condiționărilor identificate între cuvinte, determină semnificația întregului enunț.

Universitatea americană Stanford este una dintre entitățile academice extrem de interesate de cercetarea și dezvoltarea instrumentelor de procesare a limbajului natural. „Stanford CoreNLP“ este un set de instrumente de analiză pe principii matematice a unui text. Acesta „parcelează“ o frază complexă subliniind datele, numele proprii, cantitățile numerice și stabilește interdependențele între cuvinte pentru a extrage relații între entitățile menționate și, în final, indică un sentiment general al enunțului.

Analiza sentimentului

În linii mari, analiza sentimentului este procesul prin care se poate determina dacă un text este pozitiv, neutru sau negativ în relație cu un subiect general despre care vorbește. Care este reputația subiectului? Care este percepția publică asupra sa? Cum se vor raporta oamenii în viitor la subiect? Sunt întrebări la care softuri specializate dotate cu inteligență artificială încep să ofere răspunsuri. Ce e drept, încă incomplete și cu aplicare preponderent în sfera comercială, de business intelligence.

Dintr-o analiză a brandswatch.com aflăm principiile de bază în funcționarea unui astfel de sistem. Computerul are nevoie de informație de bază din care să „învețe“ abc-ul analizei dintr-un anume domeniu (etapa de corpus training), utilizând exemple special redactate și adnotate de operatori umani. Cu cât mai multe și mai precise exemple, cu atât se rafinează căutarea și sortarea. Ulterior, pe baza datelor introduse, sunt realizate inferențe utile pe texte absolut noi, redactate în limbaj natural.

Utilizarea imediată se situează clar în spațiul comercial, cel al analizei unei cantități mari de review-uri postate pe diverse platforme, în mai multe feluri. Să ne imaginăm lansarea unui nou model de automobil și miile de comment-uri, rating-uri și analize de specialitate pe facebook, twitter, bloguri, site-uri. Compania producătoare ar fi foarte interesată de percepția produsului, de cuvintele și asocierile pe care le fac utilizatorii în legătură cu acesta, care sunt elementele care duc la decizii și ce trebuie ajustat pe parcurs.

Cercetătorii departamentului de Computer Sciences al Universității Cornell, SUA, identifică în „Opinion mining and sentiment analysis“ (Revelarea opiniilor și analiza sentimentului) faptul că în viitor chiar agențiile de intelligence ar putea utiliza astfel de produse pentru investigarea automatizată a radicalizării, a sentimentelor ostile dintr-o anumită regiune geografică, a raportării publicului la conflicte.

Ca de obicei, istoria ne ajută să aruncăm priviri în viitor. Și să ne raportăm corect la prezent. RAND Corporation, think tank global afiliat US Airforce, este preocupat de cercetare în domeniul analizei limbajului pe baza instrumentelor de inteligență artificială încă din anii `60. În 1986, listând contribuțiile de două decenii ale organizației la studiul fenomenului inteligenței artificiale, nota faptul că progresele făcute în teoriile fundamentale lingvistice și de procesare de text au apărut într-un mod secundar, ca urmare a preocupărilor existente la acea dată pentru o utilizare total diferită. Cei de la RAND căutau o modalitate automatizată de traducere a unui text dintr-o limbă străină în limba engleză, printr-o interfață ergonomică, accesibilă nespecialiștilor. Prozaic și utilitarist, potrivit epocii de război rece care marca întreaga lume.

Și aparent, chiar și în prezent, subiectul rămâne sus în prioritățile oricărei formule de cercetare și dezvoltare. Poate doar limba străină să se fi schimbat. Sau nu.

Abstract

In mid-2017, Economist Intelligence Unit (EIU), part of The Economist Group, launched a report on The meaning of security in the 21st Century. Beyond the current global reality dealing with social inequality, scarcity of resources and poor education, the report touches upon another neglected risk. The fast rythm of technology and the spread of artificial intelligence brings a new type of vulnerabilities.

Given these new technological trends, an intelligence service must be more cautious with securing its huge amount of classified information, as well as to deal with the enormous volume of information online.

One of the most frequent questions on our minds is ”how much information there is on the Internet?” According to sciencefocus.com, the total amount of data hosted by the biggest four IT giants (Google, Amazon, Microsoft and Facebook) is approximately 1.200 petabytes, meaning 1,2 million terrabytes and 1,2 billion gigabytes. This is just a brief example of how much ”pure text” is hosted on global servers worldwide, which makes the issue of artificial intelligence in text mining highly relevant.

Autor: Marius Bercaru

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *

*
*