70-ലധികം ഭാഷകൾ തിരിച്ചറിയാനും അവയ്ക്കിടയിൽ തടസ്സമില്ലാതെ മാറാനും ഈ പുതിയ ഭാഷാന്തരണ സംവിധാനത്തിന് സാധിക്കുമെന്ന് ഗൂഗിൾ വ്യക്തമാക്കി.
Photo Credit: Google
ഡെവലപ്പർമാർക്ക് പബ്ലിക് പ്രിവ്യൂ വഴി ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ് ഉപയോഗിക്കാവുന്നതാണ്
ഗൂഗിൾ തങ്ങളുടെ ഏറ്റവും പുതിയ സ്പീച്ച്-ടു-സ്പീച്ച് വിവർത്തന മോഡലായ 'ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ്' ബുധനാഴ്ച പുറത്തിറക്കി. വിവിധ ഭാഷകൾ തമ്മിലുള്ള സംഭാഷണങ്ങൾ കൂടുതൽ സ്വാഭാവികമാക്കാൻ സഹായിക്കുന്നതിനാണ് ഈ മോഡൽ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്. 70-ലധികം ഭാഷകൾ തിരിച്ചറിയാനും അവ തത്സമയം വിവർത്തനം ചെയ്ത് ശബ്ദ രൂപത്തിൽ ലഭ്യമാക്കാനും ഇതിന് സാധിക്കും. സംസാരത്തിലെ ശൈലി, വേഗത, സ്വരഭേദം എന്നിവ ഒട്ടും നഷ്ടപ്പെടാതെ തന്നെ വിവർത്തനം നൽകുന്നു എന്നതാണ് ഇതിന്റെ പ്രത്യേകത. ഗൂഗിൾ ട്രാൻസ്ലേറ്റ്, ഗൂഗിൾ മീറ്റ്, ഗൂഗിൾ എഐ സ്റ്റുഡിയോ, ഡെവലപ്പർമാർക്കായുള്ള ജെമിനി ലൈവ് എപിഐ എന്നിവയിലൂടെ ഈ സേവനം ലഭ്യമാകും.
തങ്ങളുടെ രണ്ട് പതിറ്റാണ്ട് നീണ്ട യന്ത്ര പഠന (machine learning) പരീക്ഷണങ്ങളുടെ അടുത്ത ഘട്ടമാണ് 'ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ്' എന്ന് ഗൂഗിൾ ഔദ്യോഗിക ബ്ലോഗ് പോസ്റ്റിലൂടെ വ്യക്തമാക്കി. ബഹുഭാഷാ മീറ്റിംഗുകൾ, തത്സമയ സംപ്രേഷണങ്ങൾ, ക്ലാസുകൾ, ഉപഭോക്തൃ സേവന സംഭാഷണങ്ങൾ, തത്സമയ പരിഭാഷാ ആവശ്യങ്ങൾ എന്നിവയ്ക്ക് ഈ സാങ്കേതികവിദ്യ ഏറെ അനുയോജ്യമാണെന്ന് കമ്പനി അവകാശപ്പെടുന്നു.
ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ് വളരെ കുറഞ്ഞ കാലതാമസത്തിൽ തത്സമയ ഭാഷാന്തരണം നിർവഹിക്കുന്നു. ഓഡിയോ സ്ട്രീം ചെയ്യുന്ന സമയത്ത് തന്നെ അത് പ്രോസസ്സ് ചെയ്യുകയും, സംസാരിക്കുന്ന വ്യക്തിക്ക് ഏതാനും നിമിഷങ്ങൾക്ക് പിന്നിലായി വിവർത്തനം ചെയ്ത ശബ്ദം ലഭ്യമാക്കുകയും ചെയ്യുന്നു. പരമ്പരാഗതമായ വിവർത്തന സംവിധാനങ്ങളിൽ കണ്ടുവരുന്ന ഇടവേളകൾ (pauses) ഒഴിവാക്കാൻ ഇതിലൂടെ സാധിക്കുന്നു.
ഈ പുതിയ സ്പീച്ച്-ടു-സ്പീച്ച് മോഡലിന് 70-ലധികം ഭാഷകൾ തിരിച്ചറിയാനും അവയ്ക്കിടയിൽ സ്വയം മാറി പ്രവർത്തിക്കാനും കഴിയും. ഇതിനായി ഭാഷാ ക്രമീകരണങ്ങൾ മാനുവലായി മാറ്റേണ്ട ആവശ്യമില്ല. ബഹളങ്ങൾ നിറഞ്ഞതും അപ്രതീക്ഷിതവുമായ സാഹചര്യങ്ങളിലും ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ് മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു എന്ന് ഗൂഗിൾ വ്യക്തമാക്കുന്നു.
ഗൂഗിൾ മീറ്റിൽ വിപുലമായ ഭാഷാന്തരണ സൗകര്യങ്ങൾ കൊണ്ടുവരുമെന്ന് കമ്പനി അറിയിച്ചു. ലൈവ് ട്രാൻസ്ലേറ്റിനെപ്പോലെ തന്നെ, മീറ്റിലും ഇനി 70-ലധികം ഭാഷകളിൽ വിവർത്തനം ലഭ്യമാകും. മുൻപ് ഉണ്ടായിരുന്ന അഞ്ച് ഭാഷകൾ എന്ന പരിധിയിൽ നിന്നുള്ള വലിയൊരു കുതിച്ചുകയറ്റമാണിത്. ഇതുകൂടാതെ, ആൻഡ്രോയിഡ്, ഐഒഎസ് പ്ലാറ്റ്ഫോമുകളിലെ ഗൂഗിൾ ട്രാൻസ്ലേറ്റ് ആപ്പിലേക്കും ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ് ഗൂഗിൾ കൊണ്ടുവരികയാണ്. ലൈവ് ട്രാൻസ്ലേറ്റ് വഴി ഈ സേവനം ലഭ്യമാകും, കൂടാതെ വിവർത്തനം ചെയ്ത ശബ്ദം ബ്ലൂടൂത്ത് ഹെഡ്ഫോണുകളിലൂടെ കേൾക്കാനും സാധിക്കും.
ആൻഡ്രോയിഡ് ഫോണുകളിൽ, വിവർത്തനം ചെയ്ത ഓഡിയോ ഫോണിന്റെ ഇയർപീസിലൂടെ നേരിട്ട് കേൾക്കാൻ സഹായിക്കുന്ന 'ലിസണിംഗ് മോഡ്' (Listening Mode) ഗൂഗിൾ അവതരിപ്പിക്കുന്നുണ്ട്.
എഐ നിർമ്മിത ഉള്ളടക്കങ്ങളെക്കുറിച്ചുള്ള ആശങ്കകൾ പരിഹരിക്കുന്നതിന്റെ ഭാഗമായി, ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ് വഴി നിർമ്മിക്കുന്ന എല്ലാ ഓഡിയോകളിലും ഗൂഗിളിന്റെ വാട്ടർമാർക്കിംഗ് സാങ്കേതികവിദ്യയായ 'സിന്ത് ഐഡി' (SynthID) ഉൾപ്പെടുത്തിയിട്ടുണ്ടെന്ന് കമ്പനി വ്യക്തമാക്കി. ഇത് ജനറേറ്റ് ചെയ്യപ്പെടുന്ന ഓഡിയോയിൽ നേരിട്ട് സംയോജിപ്പിച്ചിരിക്കുന്നു, കൂടാതെ എഐ നിർമ്മിത ഉള്ളടക്കങ്ങളെ തിരിച്ചറിയാൻ ഇത് സഹായിക്കുന്നു.
ഡെവലപ്പർമാർക്ക് ജെമിനി ലൈവ് എപിഐ (Gemini Live API), ഗൂഗിൾ എഐ സ്റ്റുഡിയോ എന്നിവ വഴി ജെമിനി 3.5 ലൈവ് ട്രാൻസ്ലേറ്റ് പബ്ലിക് പ്രിവ്യൂവിൽ ലഭ്യമാണ്. അഗോറ (Agora), ഫിഷ്ജാം (Fishjam), ലൈവ്കിറ്റ് (LiveKit), പൈപ്പ്ക്യാറ്റ് (Pipecat), വിഷൻ ഏജന്റ്സ് (Vision Agents) തുടങ്ങിയ പ്ലാറ്റ്ഫോമുകളുമായുള്ള സംയോജനത്തിലൂടെ, വോയ്സ് ട്രാൻസ്ലേഷൻ ആപ്ലിക്കേഷനുകൾ കൂടുതൽ എളുപ്പത്തിൽ നിർമ്മിക്കാനും വിന്യസിക്കാനും ഡെവലപ്പർമാർക്ക് കഴിയും. പിന്തുണയ്ക്കുന്ന ഗൂഗിൾ ഉൽപ്പന്നങ്ങളിലുടനീളം ഈ എഐ മോഡൽ ഇന്ന് മുതൽ ആഗോളതലത്തിൽ ലഭ്യമായിത്തുടങ്ങും.
പരസ്യം
പരസ്യം
Ubisoft Shuts Down 2 More Studios, Lays Off Up to 380 Employees in Latest Round of Cost Cuts