നിർമിത ബുദ്ധി പരിശീലനം ലഭിച്ച ചാറ്റ്ജിപിടി (ChatGPT) എന്ന ഒരു ചാറ്റ് ബോട്ട്, ആശയങ്ങളെ ചിത്രങ്ങളാക്കി മാറ്റുന്ന എഞ്ചിനുകളായ ഡീപ്എഐ (DeepAI), മിഡ്ജേണി (Midjourney), ഡാൾ-ഇ (DALL-E), അതിശയകരമായ സെൽഫി ചിത്രങ്ങൾ സൃഷ്ടിക്കുന്ന ലെൻസ (Lensa) പോലുള്ള ആപ്പുകൾ, എന്നിവയെല്ലാം അടുത്ത കാലത്തായി വലിയ വാർത്ത പ്രാധാന്യം നേടിയിട്ടുണ്ട്. ഡീപ് ലേണിംഗ് (Deep Learning) എന്ന മെഷീൻ ലേണിങ് സാങ്കേതികവിദ്യ ഉപയോഗിച്ചാണ് ഇവയെല്ലാം പ്രവർത്തിക്കുന്നത്.
സ്വാഭാവിക ഭാഷയിൽ ചോദ്യങ്ങൾ ചോദിക്കാൻ നമ്മളെ അനുവദിക്കുന്ന ഒരു സംഭാഷണ ഇന്റർഫേസ് നൽകുന്ന ഒരു നിർമിത ബുദ്ധി ഉപകരണമാണ് ചാറ്റ്ജിപിടി (ChatGPT). ജനറേറ്റീവ് പ്രീ-ട്രെയിൻഡ് ട്രാൻസ്ഫോർമർ (GPT) എന്ന ഒരു ഭാഷാ മാതൃക ഉപയോഗിച്ചിട്ടുള്ള ചാറ്റ് ഇൻറർഫേസ് ആണ് ചാറ്റ്ജിപിടി. സാങ്കേതികവിദ്യ പരിജ്ഞാനം ഇല്ലാത്തവർക്ക് പോലും ഉപയോഗിക്കാവുന്ന രീതിയിലാണ് ഇത് ക്രമീകരിച്ചിരിക്കുന്നത്.
2022 നവംബറിൽ അവതരിപ്പിച്ച ഇത് 5 ദിവസത്തിന് ശേഷം 1 ദശലക്ഷം ഉപയോക്താക്കളിൽ എത്തി. അലക് റാഡ്ഫോർഡും സഹപ്രവർത്തകരും എഴുതി, 2018 ജൂൺ 11-ന് പ്രസിദ്ധീകരിച്ച സ്വാഭാവിക ഭാഷാ മോഡലിനെക്കുറിച്ചുള്ള ഒരു പ്രബന്ധം ഒരു ഭാഷാ മോഡലിന് പൊതു വിജ്ഞാനം നേടാൻ കഴിയുമെന്ന് വെളിപ്പെടുത്തി. ഒരു വാചകത്തിലെ വാക്കുകൾ എങ്ങിനെയാണ് പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നതെന്ന് മെഷീൻ ലേണിംഗ് ഉപയോഗിച്ചുള്ള പരിശീലനത്തിലൂടെ മനസ്സിലാക്കാൻ സാധിക്കുമെന്ന് ഈ പ്രബന്ധം വിശദീകരിക്കുന്നു. മേൽനോട്ടമില്ലാതെ പരിശീലിപ്പിക്കുന്ന മെഷീൻ ലേണിംഗ് ഭാഷാ മാതൃകയാണ് ഇതിനായി ഉപയോഗിക്കുന്നത്. ഈ പ്രബന്ധത്തിന്റെ ചുവട് പിടിച്ചാണ് ഓപ്പൺഎഐ ലബോറട്ടറി വിവിധ ജിപിടി മാതൃകകൾ നിർമ്മിച്ചിരിക്കുന്നത്. ലാഭേച്ഛയില്ലാതെ പ്രവർത്തിക്കുന്ന ഓപ്പൺഎഐയുടെ (OpenAI) ഗവേഷണ ലബോറട്ടറിയാണ്. ജിപിടി മാതൃകകളുടെ പ്രവർത്തനം എങ്ങിനെയെന്ന് നമുക്കൊന്ന് പരിശോധിക്കാം.
ഭാഷയും നിർമിതബുദ്ധിയും
പരസ്പരം ആശയവിനിമയം നടത്താനുള്ള കഴിവ് മനുഷ്യ കുലത്തിന്റെ പുരോഗതിയിൽ ചെറിയ പങ്കല്ല വഹിച്ചിരിക്കുന്നത്. മറ്റ് പല ജീവിവർഗങ്ങൾക്കും ഇത്തരം കഴിവ് ഉണ്ടെങ്കിൽ തന്നെ അവ വളരെ പരിമിതമാണ്. ഭൂമുഖത്ത് ആകമാനം ഏകദേശം ഏഴായിരത്തിൽ പരം ഭാഷകൾ ഉണ്ട് എന്നാണ് കരുതപ്പെടുന്നത്. ഒരു കുട്ടി ജനിക്കുമ്പോൾ ഭാഷ ഉപയോഗിക്കുന്നതിൽ അവളുടെ /ന്റെ പരിശീലനം ആരംഭിക്കുന്നു. തുടർന്നങ്ങോട്ട് എഴുതുന്നതിനും, വായിക്കുന്നതിനും, കല, സാഹിത്യം, സംസ്കാരം എന്നിവ മനസ്സിലാക്കുന്നതിനും, പ്രയോഗത്തിൽ വരുത്തുന്നതിനും ഭാഷാ സ്വാധീനം വലിയ പങ്ക് വഹിക്കുന്നുണ്ട്.
നിർമിത ബുദ്ധി (ആർട്ടിഫിഷ്യൽ ഇൻറലിജൻസ്) ഗവേഷണങ്ങൾ തുടങ്ങിയ കാലം മുതൽ കമ്പ്യൂട്ടറുകൾക്ക് മനുഷ്യർക്ക് സാധ്യമാകുന്നത് പോലെയുള്ള ഭാഷാ സ്വാധീനം നൽകാൻ സാധിക്കുമോ എന്ന് ഗവേഷകർ ശ്രമിക്കുന്നുണ്ട്. ഇതിനായി വിവിധതരം ഭാഷ മാതൃകകളെപ്പറ്റി പഠിക്കുന്ന നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസിംഗ് (NLP) എന്ന ഒരു ഉപശാഖ തന്നെ ഈ വിഷയത്തിൽ ഉരുത്തിരിഞ്ഞു വന്നിട്ടുണ്ട്. ഒരു മനുഷ്യ ഭാഷയെ കമ്പ്യൂട്ടർ മോഡലുകൾ ആക്കി മാറ്റുക എന്നത് വളരെ സങ്കീർണമായ ഒരു പ്രശ്നമാണ്. നമ്മൾ പറയുന്ന ഓരോ വാക്കും അതിന് മുൻപുള്ളതും പിന്നീട് വരുന്നതുമായ വാക്കുകളോട് ചേർത്തുവച്ചാണ് ഒരു ആശയമായി നാം ആവിഷ്കരിക്കുന്നത്. ഉദാഹരണത്തിന് ഒരാൾ “ഞാൻ” എന്ന് പറഞ്ഞാൽ അതിനു പിന്നാലെ അയാൾ ആ സമയത്ത് ചെയ്യാൻ ഉദ്ദേശിക്കുന്നത് ചെയ്തു കഴിഞ്ഞതോ ആയ ഒരു പ്രവർത്തിയെ പറ്റിയാകാം പരാമർശിക്കാൻ പോകുന്നത്.
സന്ദർഭത്തിനനുസരിച്ച് വരുന്ന വാക്കുകൾ കൃത്യമായി ഉപയോഗിക്കുന്നതിന് സഹായിക്കുന്ന ഒരു ഭാഷാ മാതൃക നമ്മുടെ തലച്ചോറിനുള്ളിൽ പരിശീലിപ്പിച്ച് വെച്ചിട്ടുണ്ട്. തലച്ചോറിനുള്ളിൽ ലഭ്യമായ വലിയ ഒരു പദസഞ്ചയത്തിൽ നിന്നും ഏറ്റവും ഉചിതമായ ഒരു വാക്കായിരിക്കും ഒരാൾ പറയുക. ഓരോ തവണയും നമ്മൾ സംസാരിക്കുമ്പോൾ ആ മോഡലിനുള്ളിൽ നിന്ന് ഉചിതമായ പദങ്ങൾ സന്ദർഭത്തിനനുസരിച്ച് തിരഞ്ഞെടുത്ത് ഉപയോഗിക്കാനുള്ള കഴിവാണ് ഒരാളുടെ ഭാഷാ സ്വാധീനം. കവികൾക്കും എഴുത്തുകാർക്കും പ്രാസംഗികർക്കും ഒക്കെ ഈ കഴിവ് കൂടുതലായിരിക്കും.
ഭാഷാ മോഡലുകളുടെ പിന്നിൽ
ഭാഷാ മാതൃകകൾ (language models) എന്നാൽ മുന്നേ നൽകിയ പദങ്ങളുടെ ക്രമത്തിൽ നിന്ന് അടുത്ത വാക്ക് പ്രവചിക്കാൻ കഴിയുന്ന പ്രോബബിലിസ്റ്റിക് മോഡലുകളാണ്. മെഷീൻ വിവർത്തനം, ചോദ്യോത്തരം, ആശയങ്ങളെ സംഗ്രഹിക്കുക, ചിത്രങ്ങളുടെ അടിക്കുറിപ്പ് തയ്യാറാക്കുക പോലുള്ള നിരവധി കാര്യങ്ങൾ അനായാസം ചെയ്യാൻ ഇവയ്ക്ക് കഴിയും. കമ്പ്യൂട്ടറുകളെ കൊണ്ട് ഇത്തരം മോഡലുകളെ ഉണ്ടാക്കുന്നതിന് വ്യത്യസ്ത നിർമിത ബുദ്ധി സങ്കേതങ്ങൾ ഉപയോഗിക്കാം. മനുഷ്യന്റെ ഭാഷയെ വിശകലനം ചെയ്ത് ആശയങ്ങളെ മാത്രം കണ്ടെത്തി പലതരത്തിലുള്ള പ്രോസസിങ്ങുകളും നടത്താൻ കഴിവുള്ള സാങ്കേതികവിദ്യകൾ ഗവേഷകർ ആവിഷ്കരിച്ചിട്ടുണ്ട്. ഇതിൻറെ സഹായത്താലാണ് പലപ്പോഴും നമുക്ക് തർജ്ജമ, ടെക്സ്റ്റ്-ടു-സ്പീച്ച്, സ്പീച്-ടു-ടെക്സ്റ്റ് തുടങ്ങിയ സൗകര്യങ്ങൾ മൊബൈൽ ഫോണിലും മറ്റും ലഭിക്കുന്നത്.
ഇത്തരം ഒരു ഭാഷാ മാതൃകയാണ് ജിപിടി അഥവാ ജെനറേറ്റിവ് പ്രീട്രെയിൻഡ് ട്രാൻസ്ഫോമർ (Generative Pre-trained Transformer). മനുഷ്യരെപ്പോലെ, സന്ദർഭോചിതമായി വാക്കുകൾ ഉപയോഗിക്കാൻ കഴിയുന്ന ഒരു നിർമിത ബുദ്ധി സംവിധാനമാണിത്. നമുക്ക് ഇതിലെ ഓരോ ഘടകവും എന്താണെന്ന് നോക്കാം:
മെഷീൻ ലേണിംഗ് മോഡലുകൾ
വസ്തുക്കളെ തരംതിരിക്കാൻ സ്റ്റാറ്റിസ്റ്റിക്സിൽ പൊതുവെ രണ്ട് തരം മോഡലുകൾ ഉപയോഗിക്കുന്നു. ഡിസ്ക്രിമിനേറ്റീവ് എന്നും, ജനറേറ്റീവ് എന്നും വിളിക്കുന്ന ഈ മോഡലുകളിൽ ആദ്യത്തേത് ടാർഗെറ്റ് വേരിയബിളുകളുടെ സോപാധിക പ്രോബബിലിറ്റിയും (conditional probability), ജനറേറ്റീവ് മോഡലുകൾ സംയുക്ത പ്രോബബിലിറ്റിയും (joint probability) കണക്കാക്കുന്നു. ജനറേറ്റീവ് മോഡലുകൾക്ക് നിലവിലുള്ള ഡാറ്റയ്ക്ക് സമാനമായി പുതിയ ഡാറ്റ സൃഷ്ടിക്കാൻ” കഴിയും.
ഡിസ്ക്രിമിനേറ്റീവ് മോഡൽ:
നമ്മുടെ കാറുകളെയും ബസുകളുടെയും ചിത്രങ്ങൾ കണ്ടാൽ തിരിച്ച് അറിയാൻകഴിവുള്ള ഒരു നിർമ്മിത ബുദ്ധി സംവിധനം ഉണ്ടാക്കണം എന്നിരിക്കട്ടെ. കാറുകളുടെയും ബസ്സുകളുടെയും ആയിരക്കണക്കിന് ചിത്രങ്ങൾ കാണിച്ച് ഇതിനുള്ള മോഡലിനെ പരിശീലിപ്പിക്കും. ഇതുവരെ കണ്ടിട്ടില്ലാത്ത പുതിയ ഒരു കാറിന്റെയൊ ബസിൻറെ ചിത്രം കണ്ടാൽ ഇത്തരം മോഡലിന് കൃത്യമായി തിരിച്ചറിയാൻ കഴിയും. എന്നാൽ ഈ മോഡലിനെ ഒരു പൂച്ചയുടെ ചിത്രമാണ് കാണിക്കുന്നത് എങ്കിൽ ഈ സംവിധാനം ആ ചിത്രത്തെ കാർ ആയോ ബസ് ആയോ മാത്രമേ തിരിച്ചറിയുകയുള്ളൂ . നമ്മൾ കാണിക്കുന്ന ചിത്രത്തിന് ഏറ്റവും കൂടുതൽ സാമ്യമുള്ളത് കാറിനോടാണോ ബസിനോടാണോ എന്നാണ് ഈ ഡിസ്ക്രിമിനേറ്റീവ് മോഡൽ പരിശോധിക്കുന്നത് കാരണം നമ്മുടെ മോഡൽ കാറിനെയും ബസ്സിനെയും മാത്രം തിരിച്ചറിയാനുള്ള പരിശീലനമാണ് നേടിയിട്ടുള്ളത് അത് ഇതുവരെ പൂച്ചയെ ചിത്രങ്ങൾ തിരിച്ചറിയാനുള്ള പരിശീലനം നേടിയിട്ടില്ല.
നമ്മുടെ തലച്ചോറ് ഒരു ഒന്നാന്തരം ഡിസ്ക്രിമിനെറ്റിവ് മോഡലാണ്. ഒറ്റ തവണ കണ്ടാൽ തന്നെ നമുക്ക് പിന്നീട് വസ്തുക്കളെ തിരിച്ചറിയാനാകും. ഇക്കാര്യത്തിൽ ഇപ്പോഴത്തെ നിർമ്മിത ബുദ്ധി സംവിധാനങ്ങൾ ഒന്നും തന്നെ തലച്ചോറിന് അടുത്തെങ്ങും എത്തിയിട്ടില്ല. ഇത്തരം മോഡലുകളെ നിർമിക്കാൻ നൂറൽ ശൃംഖലകൾ പോലെയുള്ള നിരവധി സങ്കേതങ്ങൾ ലഭ്യമാണ്.
ജനറേറ്റീവ് മോഡലുകൾ:
കൃത്രിമമായി മുഖങ്ങളുടെ ചിത്രങ്ങൾ ഉണ്ടാക്കുന്ന ഒരു മോഡൽ നമുക്ക് ആവശ്യമുണ്ടെന്ന് ഇരിക്കട്ടെ. (ഇത്തരം ചില വെബ്സൈറ്റുകൾ ഇപ്പോൾ ലഭ്യമാണ് https://thispersondoesnotexist.com/). മുഖങ്ങളുടെ കൃത്രിമവും യഥാർത്ഥവുമായ ചിത്രങ്ങൾ ഒരു കൂട്ടം റാൻഡം വേരിയബിളുകളുടെ ഒരു പ്രത്യേക കോമ്പിനേഷനാണ്. ഓരോ മുഖത്തിന്റെയും സവിശേഷമായ പ്രത്യേകതകൾ ഇത്തരത്തിലുള്ള റാൻഡം വേരിയബിൾകളുടെ വ്യതിയാനങ്ങൾക്ക് അനുസരിച്ചാണ് ഉണ്ടാകുന്നത്. ഈ വേരിയബിൾ എല്ലാം കൂടി മുഖത്തിന്റെ ആകൃതിയിൽ ചേർന്നു വരുന്നതിന് ഒരു പ്രോബബിലിറ്റി ഉണ്ട്. ഇങ്ങനെ മുഖത്തിന്റെ ആകൃതിയിൽ ഇവയെല്ലാം കൂടി ചേർന്ന് വരുന്നതിനു വേണ്ടിയുള്ള ജോയിന്റ് പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷൻ എസ്റ്റിമേറ്റ് ചെയ്യുകയാണ് എങ്കിൽ നമുക്ക് കൃത്രിമമായി മുഖങ്ങളുടെ ചിത്രങ്ങൾ ഉണ്ടാക്കിയെടുക്കാനാകും. ഇത്തരം പ്രോബബിലിറ്റി ഡിസ്ട്രിബുഷനിലെ ഓരോ ബിന്ദുവും ഒരു പുതിയ മുഖമായി മാപ്പ് ചെയ്യാനാകും. ഇത്തരത്തിൽ പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷൻ കണ്ടെത്തി അതിൽ നിന്ന് ഒരു പോയിൻറ് തെരഞ്ഞെടുത്താൽ ആ ബിന്ദുവിൽ എത്തിച്ചേരാൻ ഉപയോഗിച്ച റാൻഡം വേരിയബിളുകളുടെ പ്രോബബിലിറ്റിയുടെ കോമ്പിനേഷനിൽ നിന്ന് ഒരു മുഖത്തിന്റെ ചിത്രം നിർമ്മിക്കാം.
നമുക്ക് ലഭ്യമായ ഡേറ്റ ഉപയോഗിച്ച് ഇത്തരത്തിലുള്ള പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷനുകളെ എസ്റ്റിമേറ്റ് ചെയ്യുക എന്നതാണ് ജനറേറ്റീവ് മോഡലുകൾ ചെയ്യുന്നത്. ഇത്തരത്തിൽ ഡിസ്ട്രിബൂഷനുകൾ എസ്റ്റിമേറ്റ് ചെയ്യാൻ അതീവ സങ്കീർണമായ മോഡലുകൾ ഉണ്ടാക്കി ലക്ഷക്കണക്കിന് ചിത്രങ്ങൾ ഉപയോഗിച്ച് മോഡലിനെ പരിശീലിപ്പിക്കണം. ഇങ്ങനെ മുൻകൂട്ടി പരിശീലിപ്പിക്കപ്പെട്ടിട്ടുള്ള ഒരു വലിയ മോഡലാണ് ജിപിടി. മോഡൽ ചെയ്യുന്ന ഡാറ്റയിൽ നിന്ന് എല്ലാ രീതിയിലുള്ള സാധ്യതകളും പ്രവചിക്കാൻ ഈ മാതൃക ഉപയോഗിക്കാം. ഈ ജനറേറ്റീവ് മോഡലിൽ ഇനി വരാൻ പോകുന്ന വാക്കിൻറെ പ്രോബബിലിറ്റി കണ്ടുപിടിക്കാനായി സെൽഫ് അറ്റൻഷൻ മെക്കാനിസം എന്ന സങ്കേതവും ഉപയോഗിക്കുന്നു. ഇവയ്ക്ക് പിന്നിൽ കുറെക്കൂടി സങ്കീർണമായ ഗണിത ശാസ്ത്രനിർദ്ധാരണങ്ങൾ ഉണ്ട്.
ട്രാൻസ്ഫോമറുകൾ:
ട്രാൻസ്ഫോർമർ എന്നത് ഭാഷാ വിവർത്തനം, ടെക്സ്റ്റ് സൃഷ്ടിക്കൽ തുടങ്ങിയ സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗ് ജോലികൾക്കായി ഉപയോഗിക്കുന്ന ഒരു തരം ന്യൂറൽ നെറ്റ്വർക്ക് ആർക്കിടെക്ചറാണ്. ഗൂഗിൾ ഗവേഷകർ 2017 ലെ “attention is all you need” എന്ന പേപ്പറിൽ ഇത് അവതരിപ്പിച്ചു.
ഒരു പ്രവചനം നടത്തുമ്പോൾ ഇൻപുട്ടിന്റെ വിവിധ ഭാഗങ്ങളുടെ പ്രാധാന്യം കണക്കാക്കാൻ മോഡലിനെ അനുവദിക്കുന്ന self-attention മെക്കാനിസങ്ങളുടെ ഉപയോഗമാണ് ട്രാൻസ്ഫോർമറിന്റെ പ്രധാന സവിശേഷത. ഇൻപുട്ട് തുടർച്ചയായി പ്രോസസ്സ് ചെയ്യുന്ന റെകരെന്റ് ന്യൂറൽ നെറ്റ്വർക്കുകളിൽ (RNN) നിന്ന് ഇത് വ്യത്യസ്തമാണ്.
ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചറിൽ ഒരു എൻകോഡറും ഡീകോഡറും അടങ്ങിയിരിക്കുന്നു, ഇവ രണ്ടും self attention ഉള്ള ഫീഡ്ഫോർവേഡ് ന്യൂറൽ നെറ്റ്വർക്കുകളുടെ ഒന്നിലധികം പാളികൾ ചേർന്നതാണ്. എൻകോഡർ ഇൻപുട്ട് സീക്വൻസ് എടുക്കുകയും ഒരു കൂട്ടം മറഞ്ഞിരിക്കുന്ന അവസ്ഥകൾ സൃഷ്ടിക്കുകയും ചെയ്യുന്നു, അത് ഔട്ട്പുട്ട് സീക്വൻസ് സൃഷ്ടിക്കാൻ ഡീകോഡർ ഉപയോഗിക്കുന്നു.
നമ്മൾ ട്രാൻസ്ഫോമറിന് കൊടുക്കുന്ന ഒരു വാചകം അതിന് മറ്റൊരു ഭാഷയിലേക്ക് വിവർത്തനം ചെയ്യാനാവും. ഇതിനായി ചിത്രം 2-ൽ കാണിച്ചിരിക്കുന്ന ഉദാഹരണം ശ്രദ്ധിക്കുക.
ഇതിന്റെ പ്രവർത്തനം കുറച്ചുകൂടി വിശദമായി സൂചിപ്പിക്കുന്ന ചിത്രം 3 കാണുക.
എൻകോഡർ അതിന് ലഭിച്ച വാചകത്തിൽ നിന്നും ആശയത്തെ മനസ്സിലാക്കി ഡികോഡറുകൾക്ക് മനസ്സിലാക്കുന്ന ഫീച്ചറുകൾ ആയി ആശയത്തെ രൂപാന്തരപ്പെടുത്തി എടുക്കും. ഇങ്ങനെ രൂപാന്തരീകരണം വന്ന ആശയത്തെ മറ്റൊരു ഭാഷയിൽ പ്രകടിപ്പിക്കുക എന്നതാണ് ജോലി.
അറ്റൻഷൻ മെക്കാനിസം:
മനുഷ്യൻ ഭാഷ ഉഉപയോഗിച്ചാണ്പയോഗിക്കുന്നത് വിവിധ പദങ്ങൾ ഉപയോഗിച്ചാണ്. ഭാഷയുടെ വ്യാകരണ നിയമങ്ങൾ അനുസരിച്ച് വാക്കുകൾ ചേർത്ത് വാചകങ്ങളാക്കും. ഇങ്ങനെ ഉണ്ടാക്കുന്ന വാചകങ്ങളിൽ ആണ് ആശയങ്ങൾ അടങ്ങിയിരിക്കുന്നത്. ഒരു വാചകത്തിലെ വിവിധ വാക്കുകൾ തമ്മിലുള്ള ബന്ധങ്ങളും ഓരോ വാക്കിനുമുള്ള പ്രാധാന്യവും കണ്ടെത്താനാണ് അറ്റൻഷൻ മോഡലുകൾ ഉപയോഗിക്കുന്നത്.
“ടോമി ഒരു നായ്ക്കുട്ടി ആണ്, അവന് കുരയ്ക്കാൻ ആകും” എന്ന ഒരു വാചകം ഉണ്ടെന്നിരിക്കട്ടെ. ഈ വാചകത്തിലെ വാക്കുകൾ തമ്മിലുള്ള പരസ്പരബന്ധം ചിത്രത്തിൽ കാണിച്ചിരിക്കുന്നു. ഈ വാചകത്തിലെ “ടോമി” തന്നെയാണ് “അവൻ.” “ടോമി,“ “നായ്ക്കുട്ടി,” “കുരയ്ക്കാൻ, എന്നീ വാക്കുകൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നു ഈ ബന്ധമാണ് മേൽ വാചകത്തിന് അർത്ഥം നൽകുന്നത്. ജിപിടി ഇത്തരം ബന്ധങ്ങളെ പരിഗണിച്ചാണ് ഭാഷയുടെ മോഡൽ നിർമ്മിച്ചിരിക്കുന്നത്.
പ്രീ-ട്രെയിനിംഗ്:
ജിപിടിയിലെ പ്രീ-ട്രെയിനിംഗ് എന്ന പദം ഒരു വലിയ ഭാഷാ മോഡലിനെ ഒരു പ്രത്യേക പ്രവർത്തിക്കായി പരുവപ്പെടുത്തുന്നതിനു മുന്നേ ഒരു വലിയ അളവിലുള്ള ടെക്സ്റ്റ് ഡാറ്റയിൽ പരിശീലിപ്പിക്കുന്ന പ്രക്രിയയെ സൂചിപ്പിക്കുന്നു. നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് ടാസ്ക്കുകളുടെ പ്രാരംഭമായി ഉപയോഗിക്കാവുന്ന പൊതുവായ ഭാഷാ പ്രാതിനിധ്യങ്ങൾ (language representation) പഠിക്കുക എന്നതാണ് പ്രീ-ട്രെയിനിംഗിന്റെ ലക്ഷ്യം. പ്രീ-ട്രെയിനിംഗ് സമയത്ത്, വാക്യത്തിലെ മുൻ വാക്കുകൾ നൽകി ഒരു വാക്യത്തിലെ അടുത്ത വാക്ക് പ്രവചിക്കാൻ ജിപിടി പരിശീലിപ്പിക്കപ്പെടുന്നു.
പ്രീ-ട്രെയിനിംഗ് പൂർത്തിയായിക്കഴിഞ്ഞാൽ, മറ്റ് ഡാറ്റാസെറ്റുകളിൽ പരിശീലനം നൽകി ഭാഷാ വിവർത്തനം, ചോദ്യത്തിന് ഉത്തരം നൽകൽ അല്ലെങ്കിൽ ടെക്സ്റ്റ് സംഗ്രഹം എന്നിവ പോലുള്ള നിർദ്ദിഷ്ട ജോലികൾക്കായി മോഡൽ മികച്ചതാക്കാൻ കഴിയും. ഇതിനെ ഫൈൻ ട്യൂണിംഗ് എന്നാണ് വിളിക്കുന്നത്.
മേൽനോട്ടമില്ലാത്ത (unsupervised) പ്രീ-ട്രെയിനിംഗും, സൂപ്പർവൈസ്ഡ് ഫൈൻ ട്യൂണിങ്ങും സംയോജിപ്പിക്കുന്ന ഒരു പരിശീലന മാതൃകയാണ് ജിപിടിയിൽ ഉപയോഗിക്കുന്നത്. ഈ മാതൃക രണ്ട് പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു: ഒന്നാമത് ചെലവേറിയ ലേബൽ ചെയ്ത ഡേറ്റ ആവശ്യമില്ല, രണ്ടാമത് വലിയ ഡേറ്റാസെറ്റുകളില്ലാതെ തന്നെ പ്രവർത്തികൾ ചെയ്യാൻ കഴിയും. ചുവടെയുള്ള ചിത്രം 6 കാണുക:
ഡേറ്റാസെറ്റ്:
GPT-3-യിൽ ഏതാണ്ട് 30,000 കോടി വാക്കുകൾ (ടോക്കണുകൾ) ഉപയോഗിച്ച് പരിശീലനം നൽകിയിരിക്കുന്നു. നമ്മൾ നൽകുന്ന വാക്കുകളിൽ നിന്നും നമ്മളുമായി സംവദിക്കാൻ ആവശ്യമായ വാക്കുകൾ പ്രവചിക്കുക എന്ന പ്രവർത്തിക്കുള്ള പരിശീലനമാണ് ഇതിന് നൽകിയിട്ടുള്ളത്. ഉദാഹരണത്തിന്:
നമ്മൾ: “സാധനം കയ്യിൽ?” ജിപിടി: “സാധനം കയ്യിൽ ഉണ്ടോ?”
ഇതെങ്ങനെയാണ് നടക്കുന്നതെന്ന് നോക്കാം. “സാധനം” + “കയ്യിൽ” എന്നീ ടോക്കണുകൾ വച്ച് അടുത്തതായി വരേണ്ട 2048 ടോക്കണുകളുടെ ഒരു വിൻഡോയിലൂടെ ജിപിടി ഒരു ഓട്ടം നടത്തി അതിൽ ഏറ്റവും സാധ്യതയുള്ള വാക്ക് തെരഞ്ഞെടുക്കുന്നു. ഓരോ വാക്കുകളെ ഒരു വെക്ടർ ആയി എടുത്ത് അവയുടെ അർത്ഥം വെളിവാക്കുന്ന 96 ട്രാൻസ്ഫോമർ ഡീക്കോഡർ ലേയറുകളിലൂടെ കടത്തി വിട്ടാണ് ഇത് സാധിക്കുന്നതെന്ന് വേണമെങ്കിൽ ലളിതമായി പറയാം. അതല്ലാതെ “സാധനം കയ്യിൽ ഉണ്ടോ?” എന്ന വാചകം ഇൻറർനെറ്റിൽ പരതി നൽകുകയോ, അതല്ലെങ്കിൽ ഓർത്ത് വച്ച് പറയുകയോ അല്ല. അതിനാലാണ് ചാറ്റ്ജിപിടി പോലുള്ള സാങ്കേതികവിദ്യകൾ മനുഷ്യരെപ്പോലെ പ്രവർത്തിക്കുന്നു എന്ന് പറയുന്നത്.
ചാറ്റ്ജിപിടിയുടെ സാധ്യതകൾ
ഒരു ആശയം നൽകിയാൽ അതിനു യോജിച്ച വെബ്സൈറ്റ് ഉണ്ടാക്കാനുള്ള കോഡ് സൃഷ്ടിക്കുക, സ്പ്രെഡ്ഷീറ്റുകളിൽ പ്രവർത്തിച്ച് പ്രവചനങ്ങൾ നടത്തുക, നമുക്കാവശ്യമുള്ള ഒരു വിവരം ക്രോഡീകരിച്ച് നൽകുക, വിവിധ ഭാഷകളിലേക്ക് തർജ്ജമ നടത്തുക, ഇത്യാദിയെല്ലാം ചെയ്യുന്ന ഒരു ട്രാൻസ്ഫോമർ മാതൃകയിൽ പ്രവർത്തിക്കുന്ന ചാറ്റ്ബോട്ടാണ് ഇത്. പരസ്പരബന്ധമില്ലാത്ത മറുപടികൾ ചിലപ്പോൾ തരുമെങ്കിലും ചാറ്റ്ജിപിടിയുടെ കഴിവിനെ അക്കാദമിക സമൂഹം കരുതലോടെയാണ് സമീപിക്കുന്നത്. ഇന്റർനെറ്റിൽ ലഭ്യമായ എല്ലാ അറിവുകളും, ആശയവിനിമയങ്ങളും നൽകി പരിശീലിപ്പിച്ചിരിക്കുന്ന ഈ സങ്കേതത്തിന് മനുഷ്യനേക്കാൾ മെച്ചമായ കൃതികൾ സൃഷ്ടിക്കാനാവുന്നതിൽ അത്ഭുതമില്ല. ഒരു കോളേജ് വിദ്യാർത്ഥിയെക്കാൾ മെച്ചമായി ഇതിന് എഴുതാനാവും. കലാസാഹിത്യ ലോകം മാത്രമേ പേടിക്കേണ്ടതുള്ളൂ എന്ന് കരുതാൻ വരട്ടെ. ഒരു ശരാശരി കമ്പ്യൂട്ടർ പ്രോഗ്രാമറെക്കാൾ നന്നായി പ്രോഗ്രാമുകൾ എഴുതാനും അതിന് സാധിക്കും. ഉദാഹരണത്തിന് ഒരു സംഖ്യയുടെ ഫാക്ടോറിയൽ കണ്ട് പിടിക്കാനുള്ള പൈതൺ പ്രോഗ്രാം എഴുതാമോ എന്ന ചോദ്യത്തിന് ആ പ്രോഗ്രാം മാത്രമല്ല, അതിന്റെ അൽഗോരിതം, അതുപയോഗിച്ചുള്ള ഒരു ഉപയോഗം എന്നിവ സോദാഹരണ സഹിതം നൽകാൻ ചാറ്റ്ജിപിടിയ്ക്ക് ഇരുപത് സെക്കന്റുകളേ വേണ്ടി വന്നുള്ളൂ.
ഇംഗ്ലീഷിൽ നടത്തുന്ന സംഭാഷണങ്ങൾക്ക് വളരെ വേഗത്തിലും കൃത്യവുമായ പ്രതികരണങ്ങൾ ചാറ്റ്ജിപിടി നൽകുന്നുണ്ടെങ്കിലും മലയാളം പോലുള്ള ഭാഷകളിൽ ഉള്ളവ അല്പം സാവധാനത്തിൽ ആണെന്ന് മാത്രമല്ല പ്രത്യേകിച്ച് യാതൊരു അർത്ഥവുമില്ലാത്തവയുമാണ്. ലേഖനങ്ങൾക്ക് വലിയ തെറ്റ് പറയാൻ പറ്റില്ലെങ്കിലും മലയാളത്തിൽ എഴുതുന്ന കവിതയൊക്കെ ശുദ്ധ അബദ്ധമാണ്. ഒരു മൂന്നാം തലമുറ ചാറ്റ് എഞ്ചിനായ ജിപിടി-3 ഏകദേശം 17500 കോടി ഘടകങ്ങൾ ഉപയോഗിച്ച് പരിശീലനം നല്കപ്പെട്ടതാണ്. വിവിധ ഭാഷകളിലേക്ക് വിവർത്തനങ്ങൾ അനായാസം ചെയ്യാൻ കഴിയുന്ന ഇതിന്, വാക്യഘടന മനസ്സിലാക്കുക, ജീവചരിത്രപരമായ ഉപന്യാസങ്ങളും കാല്പനിക കവിതകളും രാഷ്ട്രീയ വിമർശനങ്ങളും എഴുതുക , ഗണിത സമവാക്യങ്ങൾ ക്രിയാത്മകമായി പരിഹരിക്കുക എന്നീ ക്രിയകളും ചെയ്യാൻ കഴിയും. കുമാരനാശാന്റെ കവികളെക്കുറിച്ച് ഏതാനും വാചകങ്ങൾ എഴുതാൻ ആവശ്യപ്പെട്ടപ്പോൾ താഴെക്കൊടുത്ത പ്രതികരണം ലഭിക്കാൻ പത്ത് നിമിഷങ്ങളേ വേണ്ടിവന്നുള്ളൂ (ചാറ്റ്ജിപിടിയുടെ തർജ്ജമ മോശമായതിനാലും, അത് മലയാളത്തിൽ നൽകുന്ന വാക്യങ്ങളുടെ വ്യാകരണം ശരിയല്ലാത്തതിനാലും ഇംഗ്ലീഷിൽ സൃഷ്ടിച്ച് ഗൂഗിൾ തർജ്ജമ ചെയ്തത്):
“കുമാരനാശാൻ (ആശാൻ എന്നും അറിയപ്പെടുന്നു) ഇന്ത്യയിലെ പ്രശസ്തനായ കവിയും തത്ത്വചിന്തകനുമായിരുന്നു. വള്ളത്തോൾ നാരായണ മേനോൻ, ഉള്ളൂർ എസ്. പരമേശ്വര അയ്യർ എന്നിവരോടൊപ്പം ആധുനിക മലയാള സാഹിത്യത്തിലെ ത്രിമൂർത്തികളിലൊരാളായി അദ്ദേഹം കണക്കാക്കപ്പെടുന്നു. കുമാരനാശാന്റെ കവിതകൾ പ്രണയം, പ്രകൃതി, ആത്മീയ വിമോചനം എന്നിവയുടെ പ്രമേയങ്ങൾ പര്യവേക്ഷണം ചെയ്യുന്നു. “വീണ പൂവ്”, “ആ ദിവ്യ ചരിത്രം”, “കരുണ”, “ആത്മോപദേശ ശതകം” എന്നിവ അദ്ദേഹത്തിന്റെ പ്രശസ്തമായ കവിതകളിൽ ചിലതാണ്. ഭഗവദ് ഗീത മലയാളത്തിലേക്ക് വിവർത്തനം ചെയ്തതിലും അദ്ദേഹം പ്രശസ്തനാണ്.”
മേൽപ്പറഞ്ഞ കാര്യം എല്ലാം സത്യമാണോ എന്നത് ആ വിഷയത്തിൽ അറിവുള്ള ഒരാൾക്കേ മനസ്സിലാക്കാനാവൂ എങ്കിലും ഈ പ്രതികരണം അവിശ്വസനീയമാണ്. ഇത്തരം കാര്യങ്ങളിൽ പ്രതികരണം വലിയ മോശമല്ലെങ്കിലും വിവിധ ഭാഷകളിലുള്ള സാഹിത്യ കൃതികളൊക്കെ സൃഷ്ടിക്കാൻ ഇതിന് ഇനിയും കഴിവ് വേണ്ടവിധം ആർജ്ജിക്കാനായിട്ടില്ല. 2022 ആദ്യത്തോടെ പരിശീലനം പൂർത്തിയായ ചാറ്റ്ജിപിടി-3നു പകരം 2023 ആദ്യം പുറത്തിറങ്ങുന്ന ചാറ്റ്ജിപിടി-4 ഇത്തരം പോരായ്മകൾ മറികടന്നേക്കാം.
ജിപിടി-4
ഒരു ലക്ഷം കോടി ഘടകങ്ങൾ (1 trillion parameters) ഉപയോഗിച്ച് പരിശീലനം നൽകിക്കൊണ്ടിരിക്കുന്ന GPT-4ന് ഒരു മനുഷ്യ മസ്തിഷ്ക്കത്തിന് സമാനമായ ചിന്താശേഷി ഉണ്ടാവും. കമ്പ്യൂട്ടർ ഹാർഡ്വെയർ മേഖലയിലുണ്ടായ വളർച്ചയാണ് ഇതിനു പിന്നിൽ. മനുഷ്യ മസ്തിഷ്ക്കത്തിൽ ശരാശരി 8600 കോടി ന്യൂറോണുകൾ ഉള്ളപ്പോൾ ജിപിടി-4ന് ഒരു ലക്ഷം കോടി ന്യൂറൽ നെറ്റ്വർക്കുകൾ ലഭ്യമാണ്. നിലവിൽ വാക്കുകൾ ടൈപ്പ് ചെയ്ത് കൊടുക്കുന്ന അവസ്ഥയ്ക്ക് പകരം ഓഡിയോ, വീഡിയോ ഇൻപുട്ടുകൾ സ്വീകരിക്കാൻ ചാറ്റ്ജിപിടി-4ക്ക് കഴിയും. മൾട്ടിമോഡൽ ഇൻപുട്ട്-ഔട്ട്പുട്ട് മോഡൽ എന്നറിയപ്പെടുന്ന ഇതിന് മുൻപേയുള്ള മോഡലുകളെക്കാൾ പരിശീലന ചെലവ് കുറവുമാണ്. കോപ്പിയെഴുത്ത്, കസ്റ്റമർ സപ്പോർട്ട്, കമ്പ്യൂട്ടർ പ്രോഗ്രാമിംഗ് തുടങ്ങിയ മേഖലകളിൽ ഇത് മനുഷ്യരുടെ ജോലി ഇല്ലാതാക്കിയേക്കാം. ഭാവിയിൽ ഒരു പിഎച്ച്ഡി പ്രബന്ധമൊക്കെ എളുപ്പത്തിൽ എഴുതിയുണ്ടാക്കാൻ ഇതിനു അനായാസം സാധിച്ചേക്കാം എന്ന് കരുതപ്പെടുന്നു.
കൃത്യതയും ഭാവിയും
നിലവിൽ ചാറ്റ്ജിപിടി-3 ഉപയോഗിച്ച് നടത്തിയ ഒരു പരീക്ഷണത്തിൽ ഒരു ശാസ്ത്ര വിഷയത്തിൽ സൂചികകൾ സഹിതം ഒരു ലേഖനം എഴുതാൻ അതിനു സാധിച്ചെങ്കിലും എല്ലാ സൂചികകളും കൃത്യമായിരുന്നില്ല. പക്ഷെ ഈ ലേഖനം കോപ്പിയടി ടെസ്റ്റിനു വിധേയമാക്കിയപ്പോൾ ഒരു വിധ കോപ്പിയടിയും ഇല്ലാ എന്നാണ് സോഫ്ട്വെയർ കാണിച്ചത്. ഇത് മനുഷ്യർ എഴുതുന്ന ലേഖനങ്ങളിൽ വരികയെന്നത് വളരെ വിഷമം പിടിച്ച കാര്യമാണ്. എന്നാൽ ഇത്തരം സാങ്കേതിവിദ്യ വിദ്യാർത്ഥികൾ സ്വപ്രയത്നമില്ലാതെ സൃഷ്ടികൾ നടത്തി കബളിപ്പിക്കുമെന്ന ആശങ്ക അസ്ഥാനത്താണ്. കാരണം, അത് കണ്ട് പിടിക്കുന്ന സോഫ്റ്റ്വെയർ ഇറങ്ങിക്കഴിഞ്ഞു. എന്നിരുന്നാലും നമ്മുടെ വിദ്യാഭ്യാസ സമ്പ്രദായത്തിന്റെ ഘടന മാറ്റിമറിച്ചേക്കാവുന്ന ഒരു കണ്ടുപിടിത്തമാണിതെന്നതിൽ സംശയം വേണ്ട. വിദ്യാർത്ഥികളെ സംബന്ധിച്ചിടത്തോളം ഇന്റർനെറ്റിൽ തെരയലും, തർജ്ജമയ്ക്കുമൊക്കെ അപ്പുറം അവർക്ക് പഠിക്കേണ്ട വിഷയങ്ങളെപ്പറ്റി ചർച്ച നടത്താനും ആവശ്യമായ ഉത്തരങ്ങൾ നൽകാനും ഉള്ള ഒരു സഹായിയായി മാറാൻ ചാറ്റ്ജിപിടിയ്ക്ക് കഴിയുമെന്നത് ഒരു വലിയ മാറ്റമാണ്. നിരവധി ലിങ്കുകൾ പരതി സമയം മെനക്കെടുത്താതെ കൃത്യമായ ഉത്തരങ്ങൾ നിമിഷങ്ങൾക്കുള്ളിൽ നല്കുമെന്നത് വളരെ സൗകര്യപ്രദമായ കാര്യമാണ്.
ഇതൊക്കെയാണെങ്കിലും ഇത്തരം സാങ്കേതികവിദ്യയിൽ ഇപ്പോഴും മുന്നിൽ നിൽക്കുന്നത് ഗൂഗിളാണ്. പാം (PaLM – പാത്വെയ്സ് ലാംഗ്വേജ് മോഡൽ) എന്ന ന്യൂറൽ നെറ്റ്വർക്ക് അധിഷ്ഠിത മാതൃക 54,000 കോടി ഘടകങ്ങൾ ഉപയോഗിക്കുന്നതും ഈ മേഖലയിൽ ഏറ്റവും മുന്നിൽ നിൽക്കുന്നതുമാണ്. ഗൂഗിൾ, മെറ്റാ, ആപ്പിൾ തുടങ്ങിയ കമ്പനികൾ ചാറ്റ്ജിപിടിയെ വെല്ലുന്ന സാങ്കേതികവിദ്യ സൃഷ്ടിക്കാനുള്ള പണിപ്പുരയിലാണ്. ആൻഡ്രോയ്ഡ് ഉപകരണങ്ങളിലുള്ള ഗൂഗിൾ അസിസ്റ്റന്റ്, ഗൂഗിൾ ട്രാൻസ്ലേറ്റ്, അതുപോലെ ഗൂഗിൾ ക്ളൗഡിൽ പ്രവർത്തിക്കുന്ന ഡോക്സ്, ഷീറ്റ് തുടങ്ങിയ ആപ്പുകളൊക്കെ നിർമിതബുദ്ധി സേവനങ്ങൾ നൽകുന്നവയാണ്. ബെർട്ട് (BERT – Bidirectional Encoder Representations from Transformers) എന്ന മോഡൽ കാലങ്ങളായി അവരുടെ സെർച്ചിനെ സഹായിക്കുന്നുണ്ട്. ഗൂഗിൾ ചാറ്റിൽ ഉപയോഗിക്കുന്ന ലാംഡ (LaMDA) ചാറ്റ്ബോട്ടും നിർമിതബുദ്ധി അധിഷ്ടിതമാണ്.
പൊതുവേ, GPT-4 പോലെയുള്ള ഭാഷാ മോഡലുകൾക്ക് മനുഷ്യനെപ്പോലെ വാക്കുകൾ സൃഷ്ടിക്കാനും മനുഷ്യന്റേതിൽ നിന്ന് വേർതിരിച്ചറിയാൻ പ്രയാസമുള്ള സംഭാഷണങ്ങൾ തുടരാനും കഴിയും. എന്നിരുന്നാലും, ഒരു മനുഷ്യനെപ്പോലെ അവരുടെ പ്രതികരണങ്ങളുടെ ഉള്ളടക്കം മനസ്സിലാക്കാനോ ന്യായവാദം ചെയ്യാനോ ഉള്ള കഴിവ് നിലവിൽ അവയ്ക്കില്ല. അതിവേഗം പുരോഗമിച്ചു കൊണ്ടിരിക്കുന്ന നിർമ്മിത ബുദ്ധി ഗവേഷണങ്ങളുടെ ഭാവി പ്രവചിക്കുക എന്നത് അത്ര എളുപ്പമല്ല. അതോടൊപ്പം ഓരോ ദിവസവും പുതിയ പുതിയ ഉപയോഗങ്ങൾ കണ്ടെത്തിക്കൊണ്ട് ഇരിക്കുന്നതിനാൽ വരും കാലം ആവേശകരമായിരിക്കുമെന്ന് തീർച്ച.
അധിക വായനയ്ക്ക്
- Attention Is All You Need, 31st Conference on Neural Information Processing Systems -NIPS 2017
- The Illustrated Transformer, Jay Alammar
- റെഡ്ഡിറ്റിന്റെ ഓപ്പൺ എ ഐ ത്രെഡിൽ നിന്നുള്ള പോസ്റ്റുകൾ
- Open AI – https://openai.com/blog/chatgpt/
One thought on “ജിപിടി – നിർമ്മിത ബുദ്ധിയിലെ പുതിയ താരം”