Ultima actualizare la
Convertirea „datelor mari” în rezultate semnificative poate părea complicată. Dar, după ce înțelegeți ce este și cum funcționează, a face ca acesta să fie semnificativ nu este atât de complicat.
De-a lungul anilor, o mulțime de cuvinte cheie devin la modă în multe industrii. Există puțini care au devenit atât de populari și, atât de mult timp, ca date mari. Dar care este datele mari, mai exact?
Datele mari se referă la un ocean virtual de informații dintr-o varietate de surse, analizate și filtrate astfel încât să obțină rezultate semnificative și acționabile.
Procesul de convertire a „datelor mari” în rezultate semnificative poate părea complicat și dificil. Cu toate acestea, odată ce ai înțeles care sunt datele mari și cum funcționează, înțelegerea modului în care acestea sunt semnificative nu pare atât de complicat.
Ce este Big Data?
Când auziți că oamenii vorbesc despre „date mari”, este de obicei cu o mulțime de fluturări de mână și cuvinte mari. Însă atunci când reduci toată hiperbola, „datele” reale sunt de fapt mai multe fluxuri de date multiple.
Pentru a înțelege acest lucru, un exemplu vă poate ajuta. Să presupunem că conduci o companie producătoare de umbrele. Departamentul dvs. de marketing caută o modalitate de a prezice mai bine când cererea pieței urmează să crească.
Înainte de zilele de date mari, marketerii ar studia tendințele pieței, ar trimite sondaje ale clienților și multe alte activități.
Aceștia ar colecta toate aceste date și le-ar stoca în bazele de date interne ale propriei companii. Cineva poate fi chiar responsabil de actualizarea datelor de cercetare de marketing anual sau trimestrial.
Cu toate acestea, apariția datelor mari extinde capacitatea de a efectua acest tip de cercetare. În special, datele mari sunt eficiente în special pentru identificarea unor tendințe sau evenimente importante în timp real.
Intrările de date pentru acest tip de analiză „date mari” ar putea include fluxuri de date în timp real prin scrierea codului care se conectează la Interfață de programare a aplicațiilor (API) a multor companii diferite care au făcut publice aceste date:
- Twitter și Facebook: Identificați când și de ce discută oamenii pentru a cumpăra umbrele.
- Vreme: Identificarea conditiile meteo sau previziuni care s-ar putea transforma în vânzări mai mari de umbrele.
- Bursa de valori: Modificări sezoniere în costul materiilor prime pentru producerea umbrelelor.
- Utilizarea web a clienților: Utilizarea informațiilor din cookie-uri de calculator a persoanelor care vizitează catalogul companiei pentru a înțelege comportamentele de cumpărare.
- Istoricul achizițiilor clienților: Urmărirea geografiei și a anotimpurilor din tendințele punctului de vânzare de la comercianți cu amănuntul.
Pentru a utiliza date mari, echipa de marketing a acestei companii ar trebui, în unele cazuri, să instaleze noi tehnologii.
Big Data și Internet
Aceasta ar putea include tehnologia Internet of Things (IoT) la comercianții cu amănuntul care urmărește și raportează comportamentele consumatorilor. Sau ar putea implica un programator să scrie codul necesar pentru a interfața cu API-ul Twitter pentru a filtra orice Tweet-uri care menționează „umbrele” sau numele companiei.
Fiecare dintre aceste tehnologii este acum disponibilă datorită internetului. Internetul permite oricui să apeleze la fluxuri de date de pe tot globul.
Iată cum poate să funcționeze în acest caz configurarea în propriul nostru exemplu.
Această diagramă arată modul în care datele circulă în „lacul de date” al companiei din mai multe surse diferite. Datele primite pot fi structurate diferit, dar important este să colectăm cât mai multe date din toate sursele.
Ce este un lac de date?
Spre deosebire de o bază de date, care conține date structurate organizate în coloane și rânduri specifice, un lac de date este un depozit masiv pentru multe forme diferite de date.
Datele stocate ar putea fi structurate sau nestructurate. În sensul că poate avea rânduri și coloane structurate, sau nu. Datele ar putea fi șiruri care utilizează formatarea specifică pentru a separa datele. Fiecare sursă de date poate trimite date unui lac de date, indiferent de forma pe care o dorește.
Imaginează-ți un lac de date ca o bibliotecă masivă care conține multe forme de media, cum ar fi cărți, imagini pe microfiche și video pe DVD.
Imaginează-ți un inginer inteligent digital și analiza datelor ca patroni ai bibliotecii respective. Acești patroni pot extrage digital date din cărți, microfișe și DVD-uri și pot găsi modalități de a amesteca și combina datele respective și de a învăța lucruri din modul în care se corelează datele.
Din aceste învățături apar informații reale și acționabile. Unele dintre acestea din exemplul nostru pot include:
- Chatter pe Twitter și Facebook indică o furtună care se apropie în New York, mii de clienți intenționând să cumpere umbrele.
- Cookie-urile computerizate care achiziționează date și aparate de vânzare cu amănuntul indică faptul că cumpărătorii din California sunt dispuși să plătească mai mult pentru umbrele de designer decât oamenii din Virginia.
- Un model mare de furtună care se apropie indică că cea mai mare parte a Coastei de Est va fi acoperită cu o furtună pentru o săptămână întreagă.
Toate aceste învățări ar putea determina echipa de marketing să investească în mai multe reclame din punct de vedere geografic, unde cererea de vânzări umbrele este mult mai puternică. Operațiunile de producție și-ar putea muta eforturile de producție spre acele zone ale lumii mai aproape de locul în care vânzările sunt mai susceptibile să urce.
În acest fel, folosind date mari, orice companie își poate eficientiza marketingul și operațiunile.
Ce este Hadoop?
Următoarea întrebare este: cum procesează companiile astfel de volume mari de date și identifică tendințele?
Acest tip de crunching de date necesită resurse masive de calculator. Atât de mult, încât companiile nu mai folosesc computere mainframe mari la fața locului așa cum o făceau înainte. Multe dintre aceste servicii sunt acum achiziții din cloud. Serviciile de informații cloud precum Apache Hadoop oferă numeroase noduri de calculator într-o rețea mare de cloud. Fiecare dintre aceste noduri contribuie la puterea de procesare necesară pentru a analiza fluxuri masive de date din mai multe surse.
Acest tip de putere de procesare este inima mașinii sau a informațiilor digitale și a analizei de date. Hadoop este cadrul software care face ca întreaga rețea de putere de calcul masivă să funcționeze așa cum este necesar pentru inginerii de informații digitale.
Odată ce motorul de calcul produce inteligență acționabilă, acestea sunt de obicei livrate companiei sub formă de tablouri de bord sau rapoarte.
Datele mari nu sunt doar cuvinte cheie
Adevărul este că „big data” este mai mult decât un simplu limbaj corporativ. Multe companii învață că, utilizând mai bine datele, reușesc să realizeze numeroase realizări.
- Producătorii pot îmbunătăți valorile critice ale producției, precum randamentul, calitatea și eficiența.
- Comercianții cu amănuntul pot alinia mai bine investițiile de marketing, publicitate și afaceri pe baza semnalelor pieței.
- Distribuitorii sunt capabili să prezică potențiale probleme într-un lanț de aprovizionare pentru a dezvolta preventiv planurile de urgență.
- Organizațiile de știri pot identifica rapid evenimentele demne de știri, analizând semnale publice pe internet.
- Experți în securitate cibernetică utilizați semnale pe internet pentru a identifica atacurile cibernetice în timp ce acestea sunt în desfășurare.
Deși o mare parte din ceea ce a obținut date mari în ultimii ani rămâne practic invizibil pentru public, datele mari au avut de fapt un impact semnificativ asupra vieții de zi cu zi pentru oamenii din întreaga lume.