În acest articol din Colțul practic, facem o mică pauză de la simularea neuronilor și abordăm ceva mai ușor. Vom explora cum să generăm un nor de cuvinte din datele de trafic ale site-ului, ce putem învăța din astfel de vizualizări și unele particularități care pot apărea atunci când lucrăm cu date textuale în mai multe limbi. Ca bonus, vom încerca să înțelegem ce caută oamenii înainte de a ajunge pe acest site și vom vedea dacă putem observa diferențe între limbi. Atenție, aceasta nu este o descoperire revoluționară în știința datelor, ci o introducere simplă în subiectul datelor bilingve și al detectării limbii. Dacă vrei să implementezi analizele pe parcurs sau să încerci lucruri mai avansate, poți face acest lucru folosind codul și datele de aici.
Pasul unu: ia datele și fă un nor
Pentru astăzi, vom folosi căutările și numărul de impresii pentru site-ul nostru din aprilie 2025, adică ce au tastat oamenii în Google înainte de a ajunge aici și cât de des s-a întâmplat acest lucru.
Spre deosebire de datele textuale mai obișnuite, care conțin cuvinte cu litere mari și semne de punctuație, căutările sunt relativ curate. Totuși, este o practică bună să curățăm datele de intrare înainte de a le analiza, iar asta am făcut și aici: am transformat totul în litere mici (pentru precauție), am eliminat semnele de punctuație (unele căutări conțineau apostrofuri sau cratime) și m-am asigurat că nu există spații suplimentare între cuvinte.
Apoi am trecut direct la treabă și am aruncat totul în primul nostru nor de cuvinte (și da, l-am făcut în formă de creier, pentru că acesta este un site de neuroștiință și chiar ne plac creierii aici. Hmm, se pare că avem ceva în comun cu zombie.)

Aceasta nu este o analiză sofisticată, dar este frumoasă și ne permite deja să facem câteva observații:
- nesurprinzător, oamenii ne găsesc atât pentru căutări în engleză, cât și în română;
- vedem că cele mai frecvente trei căutări sunt în engleză și se referă la celulele gliale („glial cells”), criza replicării („replication crisis”; cel mai probabil referindu-se la criza replicării din psihologie, care a început în 2015) și efectul nocebo („nocebo effect”; opusul placebo-ului);
- engleza este, de asemenea, limba dominantă, având cele mai multe căutări, dar vom clarifica asta în pasul următor;
- în cele din urmă, există și câteva căutări mari în română, și anume ce este PTSD și neurofeedback pareri.
Până acum, rezultatele arată relativ ok, dar se pare că trebuie să analizăm cele două limbi separat.
Pasul doi: împărțirea pe limbi
Pentru a face asta, trebuie să împart căutările pe limbi. Aș putea face asta manual, dar:
- este incredibil de plictisitor;
- dacă ar fi o mulțime de cereri, aș muri de bătrânețe înainte să termin;
- dacă oamenii ne-ar găsi în multe limbi pe care abia le recunosc, nici n-aș ști de unde să încep.
Din fericire, există pachete de detectare automată a limbii în Python. Cum nu e domeniul meu de expertiză, am început cu cea mai simplă soluție gata de utilizat, un mic pachet numit langid.py. Acesta are o funcție ce clasifică automat un text într-una dintre 97 de limbi diferite și rulează și destul de rapid. Așadar, acestea sunt rezultatele după separarea textelor în limba engleză:

și pentru română:

Diferențele sunt destul de izbitoare, dar haideți să le parcurgem pe rând și să verificăm dacă toate provin din datele de bază și nu din vreo eroare apărută în timpul analizei. În engleză:
- norul de cuvinte este în continuare foarte dens;
- identificăm unele dintre căutările din norul agregat, în special cele legate de glial cells și replication crisis;
- vedem, de asemenea, mai proeminent, unele căutări legate de hill bill. Acestea sunt clar legate de articolul nostru despre Bill din King of the Hill și tulburarea de personalitate borderline;
- dacă mărim mult imaginea, putem observa și câteva căutări mai amuzante, cum ar fi „cum să-ți dai seama dacă o siguranță e stricată” („how to tell if a fuse is bad”; nu știu, dar poate ar trebui să învăț?) sau „ce va fi inventat în următorii 100 de ani” („what will be invented in the next 100 years”; bună întrebare, dacă aș ști răspunsul, sper că m-aș îmbogăți);
- pe un ton mai serios, efectul nocebo a dispărut – ciudat;
- și vedem căutări precum ptsd simptome – aceasta este în română, dar nu ar trebui să fie aici.
Din ultimele două puncte de mai sus, avem deja un indiciu puternic că ceva n-a mers bine, dar haideți să ne uităm la norul de cuvinte în limba română și vom discuta toate problemele împreună la final. Acest nor:
- este mult mai sărac, ceea ce înseamnă că sunt mai puține căutări;
- vedem acum clar că oamenii vor să afle informații despre PTSD;
- aflăm, de asemenea, că sunt interesați de efectele alcoolului asupra creierului, de antidepresivele pe bază de serotonină și de harta gustului;
- din nou, este problematic că neurofeedback pareri a dispărut;
- și avem o căutare în engleză (membrane fluidity) care clar nu își are locul aici.
Ultimele două puncte, și anume căutările lipsă și cele clasificate greșit, indică posibile probleme în etapa de clasificare a limbii.
Pasul trei: diagnostic și o potențială soluție
Căutările clasificate greșit sunt ușor de observat (le vedem în norii de cuvinte corespunzători). Pentru a confirma că și cele lipsă sunt, de fapt, un simptom al unei clasificări greșite a limbii, putem analiza acele căutări care nu au fost clasificate nici ca engleză, nici ca română. Și, într-adevăr, după inspectarea acestor rezultate, vedem că, de exemplu, „nocebo effect” a fost atribuit limbii italiene, iar „neurofeedback păreri” a fost clasificat ca franceză. Multe alte căutări au fost, de asemenea, clasificate eronat de către langid.
Dar de ce se întâmplă asta? Ei bine, din câteva motive. Clasificarea automată a limbii nu este o sarcină ușoară, iar în cazul nostru devine și mai dificilă din cauza textelor scurte. Cu cât ai mai puțin context, cu atât este mai greu să iei o decizie corectă, mai ales când cuvintele sunt identice în mai multe limbi, cum este cazul pentru „nocebo” sau „neurofeedback”. Un alt motiv este că langid nu este cel mai fin instrument din trusă. Dacă arunci o privire la această comparație, vei vedea că pachete precum FastText și CLD3 tind să ofere rezultate mai bune, în special pentru texte scurte.
În acest caz, soluția ar fi să alegem un alt pachet, să-l folosim pentru a clasifica căutările și să refacem norii de cuvinte. Iar dacă mai rămân clasificări greșite pe care niciun instrument nu le poate gestiona, atunci ar trebui să alocăm manual limbile corecte căutărilor. Totuși, am obținut deja ce aveam nevoie din această analiză, așa că asta va rămâne ca exercițiu pentru cititorul curios.
Concluzie și alte îmbunătățiri
Cred că norii de cuvinte sunt excelenți pentru a obține rapid o impresie despre datele de bază și, vizual, arată destul de bine. Totuși, chiar și o analiză aparent simplă ca aceasta poate deveni complicată din cauza dezordinii tipice din datele din lumea reală. După cum am văzut mai sus, textul trebuie curățat și adus într-o formă standardizată.
Notă secundară: nici măcar nu am luat în considerare echivalența semantică. De exemplu, „neurofeedback pareri” și „pareri neurofeedback” înseamnă același lucru, „păreri despre neurofeedback”. Dar ordinea cuvintelor este inversată, deci sunt tratate ca două căutări distincte. La fel, cuvintele scrise greșit sunt în prezent tratate separat. Ideal, toate acestea ar trebui grupate și agregate pentru a obține o imagine mai clară.
Lucrul cu mai multe limbi adaugă un strat suplimentar de complexitate. Clasificarea automată, mai ales în cazul textelor scurte, este o problemă deloc trivială, care necesită combinația potrivită de selecție bună a instrumentelor, verificări ale datelor și, uneori, intervenție manuală.
Per total, chiar și un proiect „rapid și simplu” ca acesta ne poate învăța multe: despre cum să structurăm o sarcină, cum să ne verificăm presupunerile și cum să identificăm limitele instrumentelor pe care le folosim. Iar dacă, la final, ne rămâne și o imagine frumoasă de arătat, cu atât mai bine.
Cum ți s-a părut această postare? Scrie-ne în comentariile de mai jos. Și dacă vrei să ne susții, poți distribui articolul, ne poți cumpăra o cafea aici sau chiar ambele.
Abonează-te la fluxul RSS aici.
Ar putea să-ți placă și:




Lasă un răspuns