വിനീത് രാജന്
ഡാറ്റയാണഖിലസാരമൂഴിയില് – Big data is everywhere… ഈ കാലത്തിന്റെ ചൊല്ലാണത്.
എന്താണ് ബിഗ് ഡാറ്റ?
വളരെ ലളിതമായി പറഞ്ഞാല് വിവിധയിടങ്ങളില് നിന്ന് രൂപപ്പെടുന്ന എല്ലാ ഡാറ്റകളുടെയും ഒരു സങ്കലനത്തെയാണ് ബിഗ് ഡാറ്റ എന്ന് പറയുന്നത്. ഈ ഡാറ്റകളെല്ലാം ഒരേ രൂപത്തിലായിരിക്കുകയില്ല എന്നതാണ് പ്രധാനം. അവ വാക്കുകളാവാം, അക്ഷരങ്ങളാവാം, അക്കങ്ങളാവാം, ചിത്രങ്ങളാവാം, വീഡിയോ ദൃശ്യങ്ങളാവാം, എന്തുമാവാം. ഡാറ്റ എന്നാല് വിവരം (information) എന്നാണ്. വലിയൊരളവിലുള്ള വിവരങ്ങളെയാണ് ബിഗ് ഡാറ്റ എന്ന പദം കൊണ്ട് അര്ത്ഥമാക്കുന്നത്.
ഉദാഹരണത്തിന്, നിങ്ങളുടെ കൈവശം ഒരു ഫോള്ഡറില് നിറയെ സ്പ്രഡ് ഷീറ്റുകളുണ്ട്, മറ്റൊരു ഫോള്ഡറില് ടെക്സ്റ്റ് ഫയലാണുള്ളത്, മറ്റൊന്നില് കുറേ ഫോട്ടോകളും വീഡിയോകളും, മറ്റൊരു ഫോള്ഡര് നിറയെ പി.ഡി.എഫ്. ഫയലുകള്. ഇതെല്ലാം ചേര്ന്നാല് ഒരു ബിഗ് ഡാറ്റയുടെ മിനിയേച്ചര് രൂപമായി.
ഏതൊരു വിവരവും ഡാറ്റയാണ്. നമ്മുടെ പ്രപിതാമഹര് ഓര്മ്മകളിലാണ് അവരുടെ ഡാറ്റയെ സൂക്ഷിച്ചിരുന്നത്. പിന്നീടത് ലിപികളിലേക്ക് പരിവര്ത്തനപ്പെട്ടു. കാരണം, ഡാറ്റ ഓര്മ്മകളില് സൂക്ഷിക്കാനാവുന്നതിലുമേറെയായി. അടുത്ത തലമുറ അത് പുസ്തകങ്ങളിലേക്ക് കൈമാറി. പിന്നീട് കമ്പ്യൂട്ടറുകളിലേക്ക്, ഇപ്പോള് അതില് നിന്നും പുറത്ത് കടന്നിരിക്കുന്നു.
ഡാറ്റയെല്ലാം തന്നെ വ്യത്യസ്തമായ സൈസിലും, വ്യത്യസ്തമായ ഫോര്മാറ്റിലുമാണ് ലഭ്യമാവുന്നത്. അതിന്റെ അടിസ്ഥാനത്തില് ഡാറ്റയെ പലതായി തിരിച്ചിരിക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു RAM-ലോ, മെമ്മറിയിലോ ഉള്ക്കൊള്ളാനാവുന്ന ഡാറ്റയെ സ്മാള് ഡാറ്റ എന്നാണ് വിളിക്കുന്നത്. ഒരു ഹാര്ഡ് ഡിസ്കില് ഉള്ക്കൊള്ളാനാവുന്ന ഡാറ്റയെ മീഡിയം ഡാറ്റ എന്നാണ് പറയുന്നത്. ഒരു ഹാര്ഡ് ഡിസ്കിലോ, ഒരു കമ്പ്യൂട്ടറിലോ ഉള്ക്കൊള്ളാനാവാത്തവയാണ് ബിഗ് ഡാറ്റ. ഏതാണ്ട് ആയിരം ജിബിക്ക് മുകളില് വരുന്ന ഡാറ്റയെ സാധാരണയായി ബിഗ് ഡാറ്റയായി പരിഗണിക്കുന്നുണ്ട്.
ഇന്നത്തെ കാലത്ത് ഡാറ്റയുടെ വളര്ച്ച അതിവേഗമാണ്. ഓരോ നിമിഷത്തിലും നമ്മള് കരുതുന്നതിനേക്കാളുമേറെ ഡാറ്റ ഉണ്ടായിക്കൊണ്ടിരിക്കുകയാണ്. ഇങ്ങനെ ഉണ്ടാവുന്ന ഈ വലിയ അളവിലുള്ള ഡാറ്റയെ കൈകാര്യം ചെയ്യാന് സാമ്പ്രദായികരീതികളോ ഉപകര്ണങ്ങള്ക്കോ, ടെക്നോളജികള്ക്കോ പ്രാപ്തിയില്ല. അങ്ങിനെയാണ് ഈ ഡാറ്റയെ കൈകാര്യം ചെയ്യാനായി വിവിധ ബിഗ് ഡാറ്റ സാങ്കേതികവിദ്യകള് രംഗത്ത് വരുന്നത്.
ബിഗ് ഡാറ്റയെ മൂന്നായി തരം തിരിക്കാം
- വോള്യം– ഇന്ന് ഡാറ്റയുടെ വലിപ്പം ടെറാബൈറ്റുകളിലാണ് കണക്കാക്കപ്പെടുന്നത്. റെക്കോഡുകളുടെയും, ട്രാന്സാക്ഷനുകളുടേയും സൈസ് വലിയ അളവില് വരുന്നതിനെ ഈ കൂട്ടത്തിലാണ് പരിഗണിക്കുന്നത്.
- വെറൈറ്റി– ഈ ഗണത്തില് വിവിധ തരത്തിലുള്ള ഡാറ്റയായിരിക്കും ലഭ്യമാവുക. ഇന്റേണല് ഡാറ്റ, എക്സ്റ്റേണല് ഡാറ്റ, ബിഹേവിയറല് ഡാറ്റ തുടങ്ങിയവയെല്ലാം ഇതിലുള്പ്പെടും. പോരാതെ, ഇഅവയെല്ലാം സ്ട്രച്ച്ചേഡോ, സെമി സ്ട്രച്ച്ചേഡോ, അണ്സ്ട്രച്ച്ചേഡോ ആയിരിക്കുകയും ചെയ്യും.
- വെലോസിറ്റി– ഇത് ഡാറ്റ ഉത്പാദിപ്പിക്കപ്പെടുന്ന സമയത്തിന്റെ തോതിനെ അനുസരിച്ചായിരിക്കും. റിയല് ടൈമില് ശരാശരി എത്ര ഡാറ്റ ഉത്പാദിപ്പിക്കപ്പെടുന്നു എന്നതായിരിക്കും ഇവിടെ പരിഗണിക്കപ്പെടുന്നത്.
സ്ട്രക്ചേഡ് ഡാറ്റയും അൺസ്ട്രക്ചേഡ് ഡാറ്റയും
എന്താണ് സ്ട്രക്ചേഡ് ഡാറ്റ എന്നു നോക്കാം. ഒരു ലളിതമായ എക്സല് ഷീറ്റ് ഉദാഹരണമായെടുത്താല് അതാണ് സ്ട്രക്ക്ച്ചേഡ് ഡാറ്റ. എല്ലാ റോയും കോളവും ഫില് ആയി ഒരു നിയതമായ ഘടനയിലായിരിക്കും അത് ലഭ്യമാവുക. അൺസ്ട്രക്ചേഡ് ഡാറ്റയ്ക്ക് നിയതമായ ഒരു രൂപമായിരിക്കില്ല ഉള്ളത്. ചിതറിക്കിടക്കുന്ന ഡാറ്റകളായിരിക്കും അവ. ഡാറ്റകള് തമ്മില് പരസ്പരബന്ധം പോലും ഉണ്ടാവണമെന്നുമില്ല.
ഇന്ന് ലോകത്തില് ഉത്പാദിപ്പിക്കപ്പെടുന്ന ഡാറ്റയില് എണ്പത് ശതമാനത്തിലധികവും അണ്സ്ട്രച്ചേഡ് ഡാറ്റയാണെന്നാണ് പറയ്പ്പെടുന്നത്. ഇവയെല്ലാം പ്രധാനമായി വരുന്നത് ഓണലൈൻ സെന്സറുകളില് നിന്നും, സോഷ്യല് മീഡിയകളില് നിന്നും, ഓണ്ലൈന് ഇടപാടുകളില് നിന്നുമാണ്.
ബിഗ് ഡാറ്റയുടെ പ്രാധാന്യം
ഇപ്പോള് വിവാദമായിരിക്കുന്ന ബിഗ് ഡാറ്റ പ്രോസസിംഗ് യഥാര്ത്ഥത്തില് എന്താണ്? എന്തിനാണ് ബിഗ് ഡാറ്റ പ്രോസസിംഗ് ചെയ്യുന്നത് ?
ബിഗ് ഡാറ്റ വിശകലനം ചെയ്യുന്ന രീതിയാണ് ബിഗ് ഡാറ്റാ അനാലിസിസ്. ഈ ഡാറ്റ അനാലിസിസ് നടത്തി നമുക്ക് ലഭ്യമായ വിവരങ്ങളുടെ അടിസ്ഥാനത്തില് പല നിരീക്ഷണങ്ങളിലേക്കും നിലപാടുകളിലേക്കും എത്താനാവും. വിവരസാങ്കേതികവിദ്യയില് ബിഗ് ഡാറ്റാ സാങ്കേതികവിദ്യ ഉണ്ടാക്കിയിട്ടുള്ളത് ഒരു വന് വിപ്ലവമാണ്. നിലവിലുള്ള കമ്പനികളെല്ലാം വലിയ ഒരു തുകയാണ് അവരുടെ ബഡ്ജറ്റില് ഡാറ്റാ അനാലിസിസിനായി നീക്കി വച്ചിരിക്കുന്നത് എന്നറിയുമ്പോഴാണ് ബിഗ് ഡാറ്റയുടെ പ്രാധാന്യം എന്താണെന്ന് മനസ്സിലാവുന്നത്.
ഡാറ്റാ മൈനിങ്ങ്, മെഷീന് ലേണിങ്ങ്, നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗ്, സ്റ്റാറ്റിസ്റ്റിക്സ് ഇവയിലെയെല്ലാം പ്രധാന ഘടകം ബിഗ് ഡാറ്റയാണ്. ഒരു സിംഗിള് പ്ലാറ്റ്ഫോമില് നിന്നു തന്നെ പലവിധമായ ഓപ്പറേഷന്സ് സാധ്യമാക്കുന്നുണ്ട് ബിഗ് ഡാറ്റ സാങ്കേതികവിദ്യ. ഉദാഹരണത്തിന്, വളരെ വലിയ അളവിലുള്ള ഡാറ്റ നിങ്ങള്ക്ക് ഒരേ സമയം ശേഖരിക്കാനും, അതിനെ പ്രിപോസസ് ചെയ്യാനും, അനലൈസ് ചെയ്ത് നിഗമനങ്ങളീലെത്താനും, ആ വിശകലനത്തെ ഗ്രാഫുകളും മറ്റുമായി കൂടുതല് എളുപ്പത്തില് വായിക്കാനും ചില ടൂളൂകളുപയോഗിച്ചുകൊണ്ട് സാധിക്കും.
ഒരു വലിയ ഒരു മള്ട്ടി നാഷണല് കമ്പനിക്ക് അവരുടെ ഡാറ്റകള് പരിശോധിച്ച് മാര്ക്കറ്റിലെ പുതിയ അവസരങ്ങള് കണ്ടെത്താനാവും. ഒരു കാലാവസ്ഥാ നിരീക്ഷണ സ്ഥാപനത്തില് അവര്ക്ക് അടുത്ത വര്ഷം എത്ര മഴ ലഭിക്കാനുള്ള സാധ്യതയുണ്ട് എന്ന് പ്രെഡിക്ട് ചെയ്യാന് ഈ ഡാറ്റാ അനാലിസിസ് വഴി സാധിക്കും. എന്തിനേറെ, ഒരു തെരഞ്ഞെടുപ്പില് ഒരു രാഷ്ട്രീയപാര്ട്ടിക്ക് തങ്ങളുടെ പോളിസി രൂപപ്പെടുത്താന് വരെ ഇന്ന് ബിഗ് ഡാറ്റ ഉപയോഗിക്കുന്നുണ്ട് എന്നുള്ളത് കൂടി അറിഞ്ഞാലെ ബിഗ് ഡാറ്റയുടെ പ്രാധാന്യം ഇന്ന് എത്രത്തോളമുണ്ട് എന്ന് മനസ്സിലാക്കാനാവൂ.
ഉദാഹരണത്തിന്, ഞാന് എന്റെ പഞ്ചായത്തിലെ ഒരു വാര്ഡില് മത്സരിക്കുകയാണെന്ന് കരുതുക. എനിക്ക് ആ വാര്ഡിനനുസൃതമായ ഒരു പോളിസി രൂപപ്പെടുത്തണമെന്നുണ്ടെങ്കില്, ഞാനാദ്യം ചെയ്യുക അവിടെ നിന്നുള്ള വിവരശേഖരണമാണ്. ഫേസ്ബുക്കില് ആ വാര്ഡിലെ ആളുകള് എന്താണ് സംസാരിക്കുന്നത് എന്ന ഡാറ്റ ഞാന് ശേഖരിക്കുന്നു, അതുപോലെ മറ്റ് സോഷ്യല് മീഡീയകളില് നിന്നും ഇതേ വിവരങ്ങളെടുക്കുന്നു. വാര്ഡൂമായി ബന്ധപ്പെട്ട വീഡിയോകള്, ചിത്രങ്ങള്, ശാബ്ദസന്ദേശങ്ങള് എന്നിവയെല്ലാം പ്രോസസ് ചെയ്താല് എനിക്ക് അതില് നിന്ന് പല നിഗമനങ്ങളിലേക്കും എത്താനാകും.
ബിഗ് ഡാറ്റയിലെ ടെക്സ്റ്റ് അനലിറ്റിക്സ് എന്ന ഒരു സങ്കേതം ഞാന് ഉപയോഗിക്കുകയാണെന്ന് കരുതുക. എന്റെ വാര്ഡില് എത്രയാളുകള് വിശപ്പ്, റോഡ്, തെരുവു വിളക്ക്, കുടിവെള്ളം എന്നീ വാക്കുകൾ ഫേസ്ബുക്കിലെ പോസ്റ്റുകളിൽ ഉപയോഗിച്ചിട്ടുണ്ട് എന്ന് കണ്ടെത്താനാവും. അതിന് ശേഷം അതിനൊപ്പം നില്ക്കുന്ന വാക്കുകളും കണ്ടെത്തും. അങ്ങനെ കണ്ടെത്തുന്ന വാക്കുകള് ഉപയോഗിച്ച് ചില പ്രസ്താവനകളിലേക്ക് ഞാന് എത്തിച്ചേരുന്നു. ആ പ്രസ്താവനകളെ വീണ്ടും പരിശോധിക്കുകയും അതില് ഏതൊക്കെ പ്രസ്താവനളാണ് നിരന്തരമായി ആവര്ത്തിച്ചിരിക്കുന്നത് എന്ന് കണ്ടെത്തുകയും ചെയ്യുന്നു. ഇവിടെ കുടിവെള്ള, ലഭ്യത, കുറവ് എന്നീ മൂന്ന് വാക്കുകളുടെ ഉപയോഗം പരിശോധിച്ചു കണ്ടെത്തിക്കഴിഞ്ഞാല് എത്താവുന്ന നിഗമനം എന്റെ വാര്ഡിലെ പ്രധാനപ്രശ്നം കുടിവെള്ളമാണ് എന്നതാണ്. പിന്നെ എന്റെ തെരെഞ്ഞെടുപ്പ് ക്യാമ്പൈനുകളില് എനിക്ക് ഈ വിഷയത്തെ അടിസ്ഥാനപ്പെടുത്തിയുള്ള പ്രചാരണങ്ങള് നടത്തിയാല് മതിയല്ലോ.
ഇങ്ങനെ നാനാവിധമായ സാധ്യതകളാണ് ബിഗ് ഡാറ്റ ഈ ലോകത്തില് തുറന്നിട്ടിരിക്കുന്നത്. കച്ചവട സ്ഥാപനങ്ങള്ക്കും ഇതേ രീതിയില് അവരുടെ കച്ചവടം വര്ദ്ധിപ്പിക്കാനും, പുതിയ ഉല്പന്നങ്ങൾ രൂപപ്പെടുത്താനുമൊക്കെ ഈ സാധ്യതകള് ഉപയോഗപ്പെടുത്താറുണ്ട്. അതുവഴി അവര്ക്ക് തങ്ങളുടെ സ്ഥാപനത്തിന്റെ കാര്യക്ഷമത വര്ദ്ധിപ്പിക്കാനും, മനുഷ്യരുടെ ഇടപെടലുകള് കുറയ്ക്കുവാനും, കൂടുതല് ലാഭമുണ്ടാക്കാനും സാധിക്കും. ഇതിനെല്ലാം പല തരത്തിലുള്ള സാങ്കേതികവിദ്യകളും അല്ഗോരിതങ്ങളുമാണ് ഉപയോഗിച്ച് വരുന്നത്.
ബിഗ് ഡാറ്റ നിത്യജീവിതത്തില്
ബിഗ് ഡാറ്റയുടെ ഉപയോഗം നമ്മുടെ കൺമുമ്പില് തന്നെ ധാരാളമുണ്ട്. അത് ഓരോ മേഖലയിലും വ്യത്യസ്തമായിരിക്കും എന്നു മാത്രം. ബാങ്കിംഗ്, ഇന്ഫോര്മേഷന് ടെക്നോളജി, കണ്സ്യൂമര് ഇന്ഡസ്ട്രി, മാനുഫാക്ചറിങ്ങ് ഇന്ഡസ്ട്രി എന്നിവിടങ്ങളിലാണ് ബിഗ് ഡാറ്റ ധാരാളമായി ഉപയോഗിച്ചു വരുന്നത്. പ്രത്യേക്കിച്ച് ബാങ്കിംഗ് സെക്ടറിലാണ് ബിഗ് ഡാറ്റയുടെ സ്വാധീനം ഏറെയുള്ളത്. നമ്മള് ഒരു ഇടപാട് നടത്തുമ്പോഴേക്കും എത്രയോ ഡാറ്റ അവിടെ ഉത്പാദിപ്പിക്കപ്പെട്ടിട്ടുണ്ടായിരിക്കും. ആ ഡാറ്റ അവര് വിശകലനം ചെയ്താണ് നമുക്ക് ഇടക്കിടെ ലോണ് തുക പാസായിട്ടുണ്ട്, ക്രെഡിറ്റ് കാര്ഡ് അനുവദിച്ചിട്ടുണ്ട് എന്നെല്ലാം പറഞ്ഞ് എക്സിക്യൂട്ടീവിന്റെ ഫോണ് കോളുകള് വരുന്നത്. അതുപോലെ നിങ്ങള് നിങ്ങളുടെ കഴിഞ്ഞ പത്ത് വര്ഷത്തെ ട്രാന്സാക്ഷന് ഹിസ്റ്ററി നോക്കുമ്പോള് ഒരൊറ്റ ക്ലിക്കില് അത് വരുന്നതും ഇതിന്റെ ചെറുരൂപമാണ്. അവരുടെ ഇന് മെമ്മറി ഡാറ്റാബേസില് നിന്നാണ് ഈ വിവരങ്ങളെല്ലാം ഞൊടിയിടയില് ജെനറേറ്റ് ചെയ്യപ്പെടുന്നത്.
ഒരു കമ്പനി അവരുടെ മാര്ക്കറ്റിങ്ങിനായി ഡാറ്റ ഉപയോഗപ്പെടുത്തുന്നത് എങ്ങനെയാണ്. ഉദാഹരണത്തിന് ഒരു മൊബൈല് ഫോണ് കമ്പനിയെ എടുക്കാം. അവര് ഇക്കാലം കൊണ്ട് തന്നെ എത്രയോ പരസ്യങ്ങള് പല മാധ്യമങ്ങളിലായി ചെയ്തിരിക്കും. ആ പരസ്യങ്ങളുടെയെല്ലാം ഡാറ്റ അവരുടെ ഡാറ്റാബേസില് ലഭ്യമായിരിക്കുകയും ചെയ്യും. അതില് എത്ര രൂപയുടെ പരസ്യം, ഏതൊക്കെ സ്ഥലങ്ങളില് കൊടുത്തത്, ഏതൊക്കെ മാധ്യമങ്ങളീല്, ഏത് സമയത്ത്, ഏത് ദിവസങ്ങളില്, എത്ര സമയം എന്നൊക്കെയുള്ള വിവരങ്ങള് ഉണ്ടാവും. അതോടൊപ്പം തങ്ങളുടെ ഫോണിനെ കുറിച്ചു വന്നിട്ടുള്ള റിവ്യൂകള്, കസ്റ്റമര് നല്കിയ റേറ്റിംഗുകള്, പരാതികള് എന്നിവയെല്ലാം ഇതോടൊപ്പം വിശകലനം ചെയ്യും. അങ്ങനെ ഏത് സ്ഥലത്താണ് മോശമായ വില്പന എന്ന് കണ്ടെത്തി അതിന്റെ കാരണം കണ്ടെത്താന് ഈ വിശകലനം കൊണ്ട് സാധിക്കും. പിന്നെ, ആ കാരണത്തെ മറികടക്കാനുള്ള മാര്ക്കറ്റിംഗ് തന്ത്രങ്ങളാവും കമ്പനി അതാത് സ്ഥലങ്ങളില് പ്രയോഗിക്കുക.
മാര്ക്കറ്റ് ബാസ്കറ്റ് അനാലിസിസ് എന്നൊരു സങ്കേതമുണ്ട്. നിത്യജീവിതത്തില് നാമെല്ലാം പതിവായി കാണുന്ന ഒന്നാണത്. ഒരു സാധാരണ ബേക്കറിയില് നിങ്ങള് പോവുന്നു. അവിടെ ബ്രെഡ് നിരത്തി വച്ചിരിക്കുന്ന ഷെല്ഫിനൊപ്പം തന്നെ ജാമുകളും വച്ചിട്ടുണ്ടായിരിക്കും. അതൊരു പാറ്റേണ് ആണ്. ബ്രഡ് വാങ്ങുന്ന ഒരു കസ്റ്റമര് അവിടെ സാധാരണയായി ജാമും വാങ്ങുന്നുണ്ട് അതുകൊണ്ടാണ് ആ ബേക്കറി അങ്ങനെയാണ് അതൊരുക്കി വയ്ക്കുന്നത്. ഏറ്റവും ലളിതമായ ഒരുദാഹരണമാണത്. ആ പാറ്റേണ് ബേക്കറി ഉടമ തന്റെ അനുഭവത്തില് നിന്ന് ഉണ്ടാക്കി എടുക്കുന്നതാണ്. എന്നാല് വമ്പന് വ്യവസായ സ്ഥാപനങ്ങള് ഇതൊരുക്കുന്നത് ഡാറ്റയെ അനലൈസ് ചെയ്തുകൊണ്ടാണ്. കോമ്പോ പാക്കുകളും മറ്റും തയ്യാറാക്കുന്നതിന് ഇങ്ങനെയുള്ള പാറ്റേണുകളാണ് കമ്പനികള് സ്വീകരിക്കുന്നത്.
ഈ കാലഘട്ടത്തില് ഇങ്ങനെയൊക്കെയാണ് ഡാറ്റ ഉപയോഗിച്ചുകൊണ്ട് കമ്പനികള് പ്രവര്ത്തിച്ചു വരുന്നത്. അതുകൊണ്ടു തന്നെയാണ് Data is the new oil എന്നു പറയുന്നത്. നിങ്ങള് നല്കിയ വിവരങ്ങളെല്ലാം ഉപയോഗിച്ച് എത്രയെത്ര കമ്പനികള് അവരുടെ ബിസിനസ് സാധ്യതകളെ ഉപയോഗിച്ചുകൊണ്ടിരിക്കുന്നുണ്ടാകും എന്ന് ഇപ്പോഴൊന്ന് ഓര്ത്തു നോക്കൂ.
ലൂക്കയില് വായിക്കാം