Read Time:14 Minute

Deep Seek – ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് രംഗത്തെ ഇന്നൊവേഷൻ! പുറത്തിറങ്ങി ഒരാഴ്ച കൊണ്ട് അമേരിക്കൻ ടെക്ക് ഭീമന്മാരുടെയൊക്കെ ഓഹരി വിലയ്ക്ക് ഇളക്കം തട്ടിച്ച കുഞ്ഞൻ ചൈനീസ് കമ്പനിയും അവരുടെ കഥകളും വാർത്തകളിൽ നിറയുകയാണ്.

കഴിഞ്ഞയാഴ്ച അവർ റിലീസ് ചെയ്ത Deep Seek R1 എന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ടൂൾ ആണ് താരം. ഈ മേഖലയിലെ വമ്പന്മാരായ ചാറ്റ് ജിപിടി, ഗൂഗിൾ ജെമിനൈ , മെറ്റാ, മറ്റനേകം പ്രൊഡക്ടുകൾ എന്നിവയ്ക്കൊക്കെ Deep Seek R1 വെല്ലുവിളി ഉയർത്തികഴിഞ്ഞു. എല്ലാ ടെക് ഓഹരികളിലും ചാഞ്ചാട്ടം ഉണ്ടായെങ്കിലും ഏറ്റവും വലിയ ഇടിവുണ്ടായത് NVIDIA എന്ന ഹാർഡ് വെയർ ചിപ്പ് നിർമ്മാണ കമ്പനിക്ക് ആയിരുന്നു. കഴിഞ്ഞ അഞ്ച് ദിവസങ്ങൾക്കിടെ അവരുടെ ഓഹരി 15% ഇടിഞ്ഞു.

അമേരിക്കയ്ക്ക് പുറത്ത് നിന്ന് ടെക് ലോകത്ത് ആദ്യമായി ഇത്ര വലിയ ചലനം ഉണ്ടാക്കിയ Deep Seek എന്താണ് ചെയ്തത് എന്ന് അന്വേഷിക്കുന്നതിന് മുൻപ് കുറച്ച് സംഗതികൾ മനസ്സിലാക്കേണ്ടതുണ്ട്. നിലവിലുള്ള മുൻനിര ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകളെ ട്രെയിൻ ചെയ്യാൻ വമ്പൻ കംപ്യൂട്ടിംഗ് ശേഷിയും അതൊക്കെ പ്രവർത്തിപ്പിക്കാൻ വൻതോതിൽ ഊർജ്ജവും ഉപയോഗിക്കുന്നുണ്ട്. ഉദാഹരണത്തിന് ഓപ്പൺ എഐ യുടെ ജിപിടി -4 മോഡലിനെ ട്രെയിൻ ചെയ്യാൻ എസ്റ്റിമേറ്റ് ചെയ്ത തുക ഏകദേശം 100 മില്യൺ ഡോളർ (850 കോടി രൂപ) ആയിരുന്നു. ഇതെല്ലാം ചെലവാക്കിയത് കംപ്യൂട്ടിംഗ് ശേഷിക്ക് ആവശ്യമായ CPU, GPU എന്നിവയ്ക്കും ഡാറ്റാ സെന്ററിലേക്ക് വേണ്ട ഊർജ്ജാവശ്യങ്ങൾക്കും വേണ്ടി മാത്രമായിരുന്നു. പ്രോഡക്ട് റിസർച്ച്, എഞ്ചിനീയറിംഗ് ചെലവുകൾ ഇതിന് പുറമെയാണ്.

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന് ആവശ്യമുള്ള കംപ്യൂട്ടിംഗ് ശേഷിക്ക് വേണ്ടി എല്ലാവരും ഇപ്പോൾ ആശ്രയിക്കുന്നത് NVIDIA യെ ആണ്. അവരുടെ പുതുതലമുറ ജി പി യു കൾ ആണ് ഒട്ടു മിക്ക എ ഐ മോഡലുകളെയും പ്രവർത്തിപ്പിക്കുന്നത്. ഏകദേശം 35 ലക്ഷത്തോളം രൂപ ഒരെണ്ണത്തിന് വിലയുള്ള പതിനായിരക്കണക്കിന് NVIDIA H100 GPU കൾ ആണ് മുൻനിരക്കാരൊക്കെ എ ഐ ട്രെയിനിങ്ങിനും മോഡലുകളെ പ്രവർത്തിപ്പിക്കാനുമായി ഒരേ സമയം ഉപയോഗിക്കുന്നത്. ഈ മേഖലയിലെ കുത്തക ആയി മാറിയതോടെയാണ് വിപണിമൂല്യത്തിൽ ലോകത്തെ മുൻനിരയിലേക്ക് NVIDIA അടുത്ത കാലത്ത് എത്തിയത്. ഇത്തരം ഭീമമായ തുക ആവശ്യമുള്ളത് കൊണ്ട് മൾട്ടി മില്ല്യൻ ഡോളർ വിപണി മൂല്യമുള്ള കമ്പനികൾക്ക് പോലും ഒരു പക്ഷേ അപ്രാപ്യമായ രീതിയിൽ ആയിരുന്നു എ ഐ ഡെവലപ്പ്മെന്റിന്റെ പോക്ക്.

അവിടെയാണ് ഈ മേഖലയിൽ ഇത് വരെ കേട്ടിട്ടില്ലാത്ത Deep Seek, അഞ്ചര മില്ല്യൻ ഡോളർ (അൻപത് കോടി രൂപ) ചെലവിൽ വമ്പൻമാരോട് കിടപിടിക്കുന്നതോ അതിനേക്കാൾ മികച്ചതോ ആയ എ ഐ മോഡലുമായി കടന്നുവന്ന് അത്ഭുതം സൃഷ്ടിച്ചത്. പല മേഖലയിലും ജിപിടി -4 നേക്കാളും മികച്ച റിസൾട്ട് Deep Seek തരുന്നുണ്ട് എന്ന് എ ഐ മോഡലുകളെ ബെഞ്ച്മാർക്ക് ചെയ്യുന്ന പല പരീക്ഷണങ്ങൾ വഴി ഇതിനകം തന്നെ തെളിഞ്ഞു കഴിഞ്ഞു.

Deep Seek അവരുടെ പ്രോഡക്ട് അവതരിപ്പിക്കുക മാത്രമല്ല ചെയ്തത്. അതിന്റെ സോഴ്സ് കോഡും, എങ്ങിനെ ഇത് സാധിച്ചു എന്ന വിശദമായ ടെക്നിക്കൽ റിപ്പോർട്ടും പബ്ലിഷ് ചെയ്തു. ഓപ്പൺ സോഴ്സ് ആയിട്ട് കോഡ് ലഭ്യമാക്കിയിട്ടുള്ളത് കൊണ്ട് അതുപയോഗിച്ച് മറ്റുള്ളവർക്ക് പുതിയ പ്രൊഡക്ടുകൾ നിർമ്മിക്കാനും കോഡ് മെച്ചപ്പെടുത്തി ഇതിനേക്കാൾ മികച്ച എ ഐ മോഡലുകൾ നിർമ്മിക്കാനും കഴിയും. ഓപ്പൺ സോഴ്സിൽ വൻകിട മോഡലുകൾ പലതും ഇപ്പോൾ തന്നെ ലഭ്യമാണെങ്കിലും പ്രവർത്തിപ്പിക്കാൻ വൻകിട മൂലധന നിക്ഷേപം വേണ്ടത് കൊണ്ട് മാത്രം മാറി നിന്ന പലർക്കും എ ഐയുടെ കോർ ഡെവലപ്പ്മെന്റിലേക്ക് തിരിച്ച് പ്രവേശിക്കാൻ ഇത് വഴി തുറന്നു.

“മികച്ച എ ഐ ക്ക് കൂടുതൽ എണ്ണം കരുത്തുറ്റ GPU കൾ” എന്നതായിരുന്നു ഈ മേഖലയിലെ പൊതുവായ വിജയമന്ത്രം. ലളിതമായി പറഞ്ഞാൽ Deep Seek അത് മാറ്റി മറിച്ചു. പുറത്ത് ലഭ്യമായ കണക്കുകൾ ശരിയാണെങ്കിൽ ഒരു ലക്ഷത്തോളം ഏറ്റവും ആധുനിക GPU കൾ ഉപയോഗിച്ച് ഓപ്പൺ എ ഐ ജിപിടി -4 നെ ട്രെയിൻ ചെയ്തതെങ്കിൽ അത്ര നൂതനമൊന്നുമല്ലാത്ത ആയിരത്തോളം GPU കൾ ഉപയോഗിച്ചാണ് Deep Seek അതേ കാര്യം സാധ്യമാക്കിയത്. നൂറിൽ ഒന്ന് കംപ്യൂട്ടിംഗ് ശേഷി ഉപയോഗിച്ച്!

ഏറ്റവും നൂതനമായ കംപ്യൂട്ടിംഗ് ചിപ്പുകളും അറിവും ചൈനക്ക് ലഭിക്കുന്നതിൽ അമേരിക്കയുടെ നിരോധനം നിലനിൽക്കുന്ന സമയത്ത് ഇതെങ്ങിനെ സാധിച്ചു എന്ന് എല്ലാവരും മൂക്കത്ത് വിരൽ വെയ്ക്കുന്നുണ്ട്. പലവിധ സിദ്ധാന്തങ്ങളും അഭിപ്രായങ്ങളും ഇതേ കുറിച്ച് വരുന്നുണ്ടെങ്കിലും വിശ്വസനീയമായി തോന്നിയത് “ആവശ്യം സൃഷ്ടിയുടെ മാതാവാകും” എന്നാരോ ഇതേ കുറിച്ച് കമന്റ് ചെയ്തതാണ്. അതേ, ചൈനയുടെ മേലെയുള്ള ഉപരോധങ്ങൾ തന്നെയാണ് ഇപ്പോൾ ലോകത്തെ മുഴുവൻ ജനതയ്ക്കും ഭാവിയിൽ പ്രയോജനം ചെയ്തേക്കാവുന്ന ഒന്നിലേക്ക് ഇത്ര വേഗം എത്തിച്ചത്. അല്ലെങ്കിൽ ഒരു പക്ഷേ ഭീമൻ കമ്പനികളുടെ കുത്തക ആയി മാറിയേക്കാമായിരുന്ന ഒന്നിനെ മാറ്റിമറിച്ചത്.

എങ്ങിനെ ഇത് സാധിച്ചു? ഹാർഡ് വെയർ റിസോഴ്സുകളുടെ ഉപയോഗം പരമാവധി കുറയ്ക്കുന്ന രീതിയിൽ അവർ നടത്തിയ സോഫ്റ്റ് വെയർ തലത്തിലുള്ള ഒപ്റ്റിമൈസേഷൻ ആണ് ഇതിൽ ഏറ്റവും പ്രധാനം. ഉദാഹരണത്തിന് എല്ലാ മോഡലുകളിലും ദശാംശസംഖ്യകളുടെ കൃത്യതയ്ക്ക് വേണ്ടി 32 ബിറ്റുകൾ ഉപയോഗിക്കുമ്പോൾ Deep Seek അത് 8 ബിറ്റുകൾ ആയി കുറച്ചു. അത് വഴി ഒറ്റയടിക്ക് 75% മെമ്മറി ഉപയോഗം കുറക്കാൻ അവർക്ക് കഴിഞ്ഞു.

ജിപിടി -4 ഉൾപ്പടെയുള്ള മുൻനിര മോഡലുകൾ എല്ലാം മാസീവ് മോഡലുകൾ ആണ്. ജിപിടി -4 ൽ ഏകദേശം 1.8 ട്രില്യൻ പരാമീറ്ററുകൾ ആക്ടീവ് ആയി നിന്നിട്ടാണ് നമ്മുടെ ചോദ്യങ്ങൾക്ക് ഉത്തരം അത് തരുന്നത്. ഇത്തരം ലാർജ്ജ് ലാംഗ്വേജ് മോഡലുകൾ പ്രവർത്തിക്കാൻ ആവശ്യമായ പരാമീറ്ററുകളുടെ എണ്ണവും Deep Seek ഓപ്റ്റിമൈസ് ചെയ്തു ആകെ 671 ബില്ല്യൻ ആക്കി ചുരുക്കി. ജി പി ടി 4 നു ആവശ്യമുള്ളവയുടെ മുന്നിൽ ഒന്ന് മാത്രം. ഇതിൽ തന്നെ ഒരേ സമയം ആക്ടീവ് ആകുന്നത് 37 ബില്ല്യൻ എണ്ണവും.

Deep Seek സത്യത്തിൽ ഒട്ടനവധി എക്സ്പേർട്ട് സിസ്റ്റങ്ങളുടെ ഒരു കളക്ഷൻ ആണെന്ന് പറയാം. അതായത് അതിനോടുള്ള ചോദ്യത്തിന്റെ കോൺടെക്സ്റ്റ് മനസ്സിലാക്കി ആവശ്യമുള്ള എക്സ്പേർട്ട് സിസ്റ്റം മാത്രമാണ് ആക്ടീവ് ആകുക. ഉദാഹരണത്തിന് മെഡിക്കൽ ചോദ്യമാണെങ്കിൽ അതുമായി ബന്ധപ്പെട്ട എക്സ്പേർട്ട് സിസ്റ്റവും ലീഗൽ ചോദ്യം ആണെങ്കിൽ അതുമായി ബന്ധപ്പെട്ട സിസ്റ്റവും ആയിരിക്കും ആക്ടീവ് ആകുക. ഇങ്ങനെ പലവിധ മാറ്റങ്ങൾ വരുത്തിയാണ് GPU ഉപയോഗം ചിന്തിക്കാനാവാത്ത വിധം കുറച്ചത്.

DeepSeek ഒരു സാധാരണ ഗെയിമിംഗ് കമ്പ്യൂട്ടറിൽ പോലും നിങ്ങൾക്ക് ലോഡ് ചെയ്യിച്ചു ട്രെയിനിങ് നടത്താനും പ്രവർത്തിപ്പിക്കാനും കഴിയും എന്നതാണ് ഇതിലെ ഏറ്റവും പ്രധാന സംഗതി. NVIDIA യുടേതായി പുറത്തിറങ്ങിയതും ഭാവിയിലേക്ക് അനൗൺസ് ചെയ്തിട്ടൂള്ളതുമായ സൂപ്പർ ചിപ്പുകൾ ഉപയോഗിക്കാതെ തന്നെ എ ഐ ഗവേഷണവും ഡെവലപ്പ്മെന്റും ഉപയോഗവും സാധ്യമാകും.

എ ഐ ഇപ്പോൾ ക്ലൗഡിൽ നിന്നും SAAS ആയി ഉപയോഗിക്കുന്നവർക്ക് ഓപ്പൺ എ ഐ യിൽ ഒരു മില്ല്യൻ ടോക്കണുകൾക്ക് 4.4 ഡോളർ (400 രൂപ) ചെലവുണ്ടെങ്കിൽ Deep Seek ഒരു മില്ല്യൻ ടോക്കണുകൾ ഓഫർ ചെയ്യുന്നത് വെറും 10 സെന്റിന് (8 രൂപ) ആണെന്നതും കൂടി ചേർത്ത് വായിക്കുമ്പോഴാണ് ഈ കുഞ്ഞൻ ചൈനീസ് കമ്പനി കൊണ്ട് വരുന്ന ഡിസ്റപ്ഷന്റെ ആഴവും പരപ്പും മനസ്സിലാകൂ.

Deep Seek ടെക്നിക്കൽ റിപ്പോർട്ട് വായിക്കാം.

സാങ്കേതികവിദ്യയും സമൂഹവും

ലേഖനങ്ങൾ വായിക്കാം

Happy
Happy
20 %
Sad
Sad
0 %
Excited
Excited
50 %
Sleepy
Sleepy
0 %
Angry
Angry
0 %
Surprise
Surprise
30 %

Leave a Reply

Previous post കേരളത്തിലെ ഉരുൾപൊട്ടലുകൾ പ്രവചിക്കാൻ കഴിയുമോ? എങ്കിൽ എങ്ങനെ? ഒരു ഭൗമ പഠനം – Kerala Science Slam
Next post എങ്ങനെ ലളിതമായി GenAI മോഡലുകൾ പ്രോംപ്റ്റ് ചെയ്യാം ?
Close