
जटिल वातावरण में, मनुष्य एआई से बेहतर भाषण के अर्थ को समझ सकते हैं, क्योंकि हम न केवल अपने कानों बल्कि हमारी आंखों का भी उपयोग करते हैं।
उदाहरण के लिए, हम किसी के मुंह को हिलाते हुए देखते हैं और यह जानबूझकर जान सकते हैं कि हम जो ध्वनि सुनते हैं, उसे उस व्यक्ति से आना चाहिए।
मेटा एआई एक नए एआई संवाद प्रणाली पर काम कर रहा है, जो एआई को सिखाने के लिए है कि वह बातचीत में जो कुछ भी देखता है और सुनता है, उसके बीच सूक्ष्म सहसंबंधों को पहचानना सीखता है।
VisualVoice इसी तरह से सीखता है कि कैसे मनुष्य नए कौशल में महारत हासिल करना सीखते हैं, जिससे अनबेल्ड वीडियो से दृश्य और श्रवण संकेत सीखकर ऑडियो-विजुअल स्पीच पृथक्करण को सक्षम किया जाता है।
मशीनों के लिए, यह बेहतर धारणा बनाता है, जबकि मानवीय धारणा में सुधार होता है।
कल्पना कीजिए कि दुनिया भर के सहकर्मियों के साथ मेटावर्स में समूह की बैठकों में भाग लेने में सक्षम होने के नाते, छोटे समूह की बैठकों में शामिल होने के साथ ही वे आभासी स्थान के माध्यम से आगे बढ़ते हैं, जिसके दौरान दृश्य में ध्वनि रेवर्स और टाइमब्रेस पर्यावरण के अनुसार करते हैं।
यही है, यह एक ही समय में ऑडियो, वीडियो और पाठ जानकारी प्राप्त कर सकता है, और एक समृद्ध पर्यावरणीय समझ मॉडल है, जिससे उपयोगकर्ताओं को "बहुत वाह" ध्वनि अनुभव हो सकता है।
पोस्ट टाइम: जुलाई -20-2022