जटिल वातावरण में मनुष्य भाषण का अर्थ एआई से बेहतर समझ सकते हैं, क्योंकि हम न केवल अपने कानों का बल्कि अपनी आंखों का भी उपयोग करते हैं।
उदाहरण के लिए, हम किसी के मुँह को हिलते हुए देखते हैं और सहज रूप से जान सकते हैं कि जो ध्वनि हम सुन रहे हैं वह उसी व्यक्ति की ओर से आ रही होगी।
मेटा एआई एक नई एआई संवाद प्रणाली पर काम कर रहा है, जो एआई को बातचीत में जो देखता है और सुनता है, उसके बीच सूक्ष्म सहसंबंधों को पहचानना भी सिखाता है।
विज़ुअलवॉइस उसी तरह सीखता है जैसे मनुष्य नए कौशल में महारत हासिल करना सीखते हैं, बिना लेबल वाले वीडियो से दृश्य और श्रवण संकेतों को सीखकर ऑडियो-विज़ुअल भाषण पृथक्करण को सक्षम करते हैं।
मशीनों के लिए, यह बेहतर धारणा बनाता है, जबकि मानवीय धारणा में सुधार होता है।
कल्पना कीजिए कि आप दुनिया भर के सहकर्मियों के साथ मेटावर्स में समूह बैठकों में भाग लेने में सक्षम हो सकते हैं, वर्चुअल स्पेस के माध्यम से आगे बढ़ते हुए छोटे समूह की बैठकों में शामिल हो सकते हैं, जिसके दौरान दृश्य में ध्वनि गूंज और समय वातावरण के अनुसार समायोजित होती है।
यानी, यह एक ही समय में ऑडियो, वीडियो और टेक्स्ट जानकारी प्राप्त कर सकता है, और इसमें एक समृद्ध पर्यावरण समझ मॉडल है, जो उपयोगकर्ताओं को "बहुत वाह" ध्वनि अनुभव प्राप्त करने की अनुमति देता है।
पोस्ट करने का समय: जुलाई-20-2022