Conceptul de căutare semantică în mediul Internet

De la tăbliţele de argilă la World Wide Web-ul postmodern

Necesitatea constituirii unei arhive comune, în care să fie stocate, în mod sistematizat, credinţe, reprezentări religioase, toteme, descoperiri, experienţe, diferite mesaje etc., survine încă din era apariţiei scrisului cuneiform, pe măsură ce instinctul de conservare a determinat fiinţele umane să genereze primele mijloace de perpetuare conceptuală a identităţii peste secole: tăbliţele de argilă. Considerate ca suporturi de informaţie, se poate afirma că acestea reprezintă cele mai rudimentare instrumente de căutare, întrucât asigurau funcţia simbolică ce presupune utilizarea unui obiect fizic (prezent, concret, perceptibil) pentru a ne referi la un „obiect” situat într-un alt plan al realităţii (un obiect absent, presupus, ideal, funcţional, o idee sau un sens inteligibil). Prin extrapolare, aceste cvasi-portaluri primare asigurau o funcţie de intermediere între doi sau mai mulţi participanţi la un act de transfer semiotic ce permitea accesul receptorilor la caractere expresive care descriau evenimente la care aceştia nu au participat direct.

Tăbliţele sunt forme primare de comunicare transnaţională şi transtemporală, precursoare ale World Wide Web-ului contemporan şi viitor, modalitate superioară de conectare, în timp real, a persoanelor din diferite spaţii şi culturi, fapt care diferenţiază lectura primară a expresiilor cuneiforme, ce codificau şi stocau mesaje simple, de click-ul de astăzi, generator al milioanelor de răspunsuri şi rezultate informative, în interval de milisecunde. Sub aspect evolutiv, spre sfârşitul secolului al XlX-lea, americanul Melvil Dewey – părintele bibliologiei moderne – a introdus un sistem de clasificare, bazat, preponderent, pe o structură de tip table, care identifica toate cărţile după subiect, utilizând un cod numeric. În anii şaizeci, Gerard Salton, de origine germană – numit frecvent părintele căutării digitale – a dezvoltat sistemul SMART – Salton’s Magical Automatic Retrieval of Text, Recuperatorul Magic Automat de Texte al lui Salton – care poate fi considerat primul motor de căutare digitală. Activitatea lui Salton a declanşat o reală Renaştere în domeniu şi a inspirat o conferinţă anuală a informaţiei digitale, cunoscută sub numele de Conferinţa de Recuperare a Textelor – Text Retrieval Conference (TREC), care, în intervalul anilor optzeci – nouăzeci, a reflectat cele mai înalte niveluri de calitate din căutarea de texte.

Căutarea literală versus căutarea semantică

Pentru a înţelege conceptul de căutare semantică (ce reprezintă capacitatea unui motor de a determina la ce s-a referit utilizatorul în interogarea sa şi de a oferi acestuia rezultate care nu corespund integral cuvintelor pe care le-a introdus, dar care echivalează ca sens), acesta trebuie plasat, comparativ, în contextul unui alt concept: căutarea literală.

Denumită frecvent căutarea navigaţională, cea din urmă identifică perechile exacte ale unora dintre sau ale tuturor termenilor introduşi şi relevă fişiere, pagini Web, produse sau alte unităţi informaţionale – existând posibilitatea generării de rezultate nedorite (spre exemplu, la căutarea termenului „a zbura” pot rezulta şi asocieri cu noţiunea de „zbor”). Pe de altă parte, căutarea semantică (ce pune accent nu pe semnificant – expresie, ci pe semnificat – concept, în accepţia părintelui lingvisticii moderne, cercetătorul elveţian Ferdinand de Saussure) încearcă să „înţeleagă” solicitarea utilizatorului, prin analizarea termenilor şi limbii secvenţei interogative, disociind rezultate relevante dintr-un amalgam de date şi informaţii. Ca efect, nu returnează un set de fişiere, pagini Web sau alte produse, ci încearcă să ofere un răspuns direct la o anumită întrebare. Spre exemplu, dacă întrebăm un motor de căutare semantică „unde s-a născut autorul X”, acesta ar putea răspunde „autorul X s-a născut în localitatea Y”, în timp ce un motor de căutare literală va returna, cel mai probabil, link-uri către pagini Web care conţin, fără legătură semantică directă, cuvintele „născut” şi „autorul X”.

Conform companiei „Hakia” (Manhattan, New York), căutarea semantică (sau echivalarea secvenţei interogative a utilizatorului cu fondul informaţional al Web-ului, la nivel conceptual, în accepţia cercetătorilor americani R. Guha, Rob McCool şi Eric Miller) oferă rezultate cu relevanţă ridicată, deoarece:

– distinge între formele flexionare ale cuvintelor;
– relevă sensul corect al sinonimelor; dă răspunsuri specifice la întrebări directe formulate generic;
– gestionează adecvat sfera de cuprindere a conceptelor (spre exemplu, motorul semantic „Hakia”, la întrebarea „cu ce se pot trata durerile de cap”, include răspunsuri în care „migrena” este recunoscută ca parte componentă a conceptului „durere de cap”);
– are capacitatea operaţională de a indica cele mai relevante secţiuni din documentele identificate, fapt care scuteşte utilizatorul de căutarea paragrafelor dezirabile în conţinutul propriu-zis al documentului;
– operează, fără a se baza pe statistici, profilul online al utilizatorului şi alte mijloace artificiale, ci pe analiza conţinutului paginii (sau a documentului), a sursei sale, autorului şi credibilităţii rezultatelor interogării;
– are funcţia de autodetectare a propriei performanţe, indicând zonele în care i se pot aduce îmbunătăţiri.

Motoarele de căutare semantică

Sunt alcătuite din următoarele module:
– conectorul – importă date din surse externe pe care le introduce în motorul propriu-zis. Scopul conectorului este şi acela de extragere a textului şi a metadatelor relevante din fişiere, respectiv sisteme externe, pe care le transmite mai departe componentelor de procesare;
– analizator ul morfo – sintactic – procesează textul şi îl divizează în lexeme – cuvinte sau expresii, normalizează formele gramaticale, exclude detectorul de cuvinte, sintagme sau propoziţii filtrate înainte sau după prelucrarea datelor limbajului natural. Rezultatul obţinut este structurat cu adnotări suplimentare şi este transmis;
– etichetatorului semantic – adaugă informaţie de ordin semantic fiecărui lexem extras din textul procesat. Tehnic, se referă la adăugarea de identificatori conceptelor relevante stocate în Harta Semantică a fiecărui lexem. Complementar, sintagmele sunt identificate, iar dezambiguizarea se realizează pe contexte derivate;
– indexatorul – transportă toate informaţiile, transformările şi memoriile în indexul de căutare. Acest modul va fi îmbunătăţit cu metode de indexare semantică prin utilizarea Hărţii Semantice şi a instrumentelor lingvistice;
– indexul de căutare – depozitul central al documentelor procesate structurat, astfel încât să gestioneze textul integral al documentelor, metadatele acestora şi toate informaţiile semantice relevante (indexul documentului);
– căutarea – rulează interogările în index şi extrage rezultatele relevante. Algoritmii de căutare vor fi îmbunătăţiţi pentru a utiliza intenţiile internautului (cu respectarea caracterului privat al datelor) şi Harta Semantică, elaborată pentru a echivala informaţiile semantice depozitate în indexul de căutare.

Dintre cele mai performante motoare semantice, menţionăm: Hakia, Sindice, Kosmix, Exalead, SenseBot, Cognition Search, Lexxe, Kngine, Swoogle, Factbites, DeepDyve, DuckDuckGo, Evri.

Utilitatea căutării semantice pentru analistul de intelligence

Derivă din relevanţa şi acurateţea rezultatelor pe care aceasta le oferă la interogare. Ea permite diminuarea timpului de realizare a evaluărilor riscurilor de securitate, în baza surselor deschise, întrucât trimite la produse informa-ţionale superior filtrate, comparativ cu cele puse la dispoziţie de utilizarea motoarelor clasice. Prin aceasta, agenţiile de securitate beneficiază de avantajul de a spori gradul de intervenţie preventivă, în situaţia în care mutaţiile survenite în plan tactico-strategic conturează indicatori negativi, mult mai rapid decelabili în condiţii de utilizare frecventă a instrumentelor semantice online. Analistul de intelligence, actorul care, pentru a realiza evaluări şi estimări de securitate corecte, trebuie să confrunte rezultate obţinute din multiple surse, are la îndemână, prin căutarea semantică, un instrument de încredere, fiabil, pe termen lung, care, aplicat constant, contribuie semnificativ la elaborarea de produse informative de calitate ridicată, utile decizionalilor în adoptarea de soluţii eficiente pentru neutralizarea ameninţărilor manifestate în anumite domenii de activitate. Unul dintre cele mai importante avantaje ale utilizării căutării semantice rezidă în faptul că aceasta poate oferi rezultate şi din sondarea a ceea ce specialiştii în domeniu denumesc Deep Web. Conţinutul acestuia (aproximativ 95% din informaţiile întregului World Wide Web, stocate în baze de date academice, guvernamentale şi corporative ce necesită crearea unui username pentru vizualizare) nu poate fi indexat de motoarele de căutare clasice, însă poate fi accesat prin intermediul tehnologiilor/instrumentelor specifice Web-ului semantic, aflate în plină dezvoltare, ce aplică şi principiile căutării federalizate (interogarea simultană de multiple resurse online, prin intermediul unui singur portal, din categorii precum: www.worldwidescience.org, www.science.gov, www.swets.com, www.scienceresearch.com, www.s.earch.me, www.sciencedirect.com.

Se estimează că adnotarea conţinu-tului oferit de Deep Web cu etichete semantice, pentru implementarea Web-ului 3.0, se va realiza mult mai rapid decât în cazul celui deţinut de actualul Web 2.0, întrucât informaţiile vehiculate de cel dintâi sunt structurate/omogenizate, context în care colectarea şi evaluarea datelor se va realiza la parametri superiori.

Concluzii

World Wide Web-ul de astăzi (Web 2.0) conţine un volum potenţial nelimitat de informaţii sub formă de documente, al căror acces se obţine prin intermediul cuvintelor-cheie (căutarea clasică/literală), însă nu a fost încă perfectat elementul ordonator suprem care să permită afişarea rezultatelor interogării într-un tot semantic comprehensibil, fără a mai fi necesară activarea proceselor analitice umane, prin intermediul cărora internautul să obţină rezultatul dorit prin eforturi proprii.

În prezent, interogarea instrumentelor disponibile în mediul Internet consumă cantităţi preţioase dintr-o resursă predispusă, din ce în ce mai mult, în lumea globală, la a deveni o „rara avis”: timpul.

Conceptul de căutare semantică nu poate fi definit decât împreună cu şi în momentul în care Web 3.0 sau Web-ul semantic va fi integral operaţional (antreprenorul american Nova Spivack consideră că demersurile pentru implementarea acestuia au fost iniţiate în anul 2010 şi se vor finaliza în 2020, deşi, ca termen, a fost menţionat încă din 2006 de către jurnalistul John Markoff în publicaţia „New York Times”).
Adică acel Web care va permite calculatoarelor să proceseze, să transforme, să asambleze şi chiar să intervină creativ asupra date-lor, pentru a pune la dispoziţia utilizator ului, în mod ordonat, cele mai relevante rezultate într-o anumită problematică cercetată online, la un moment dat.

Acest lucru nu poate fi realizat decât după adăugarea metadatelor semantice la resursele informaţionale conţinute în actualul Web 2.0, proces care se află în derulare şi care, pe măsură ce va fi implementat, va permite calculatoarelor să proceseze efectiv datele în baza informaţiilor semantice care le descriu.

Autor: Tudor Ciuflea

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *

*
*