
2023 लेखक: Bryan Walter | [email protected]. अंतिम बार संशोधित: 2023-05-21 22:25

अमेरिकी शोधकर्ताओं ने वीडियो रिकॉर्डिंग के बीच लोगों के चेहरे के भावों के वास्तविक हस्तांतरण के लिए एक तंत्रिका नेटवर्क बनाया है। पिछले समान विकास के विपरीत, यह मानव सिर के कई मापदंडों को बदलता है: इसका झुकाव, मुंह का आकार, टकटकी की दिशा और अन्य। काम SIGGRAPH 2018 सम्मेलन में प्रस्तुत किया जाएगा।
पिछले कुछ वर्षों में, बड़ी संख्या में कार्य और सेवाएं सामने आई हैं जो विभिन्न छवियों के बीच शैली या विवरण स्थानांतरित करने के लिए तंत्रिका नेटवर्क का उपयोग करती हैं। लेकिन कुछ शोधकर्ता अधिक कठिन कार्य कर रहे हैं - लोगों के दो वीडियो के बीच आंदोलनों और चेहरे के भावों का यथार्थवादी स्थानांतरण। इस क्षेत्र में पहले से ही काफी गंभीर विकास हुए हैं, हालांकि, उन सभी में गंभीर कमियां हैं और चेहरे के भावों को चेहरों के बीच पूरी तरह से स्थानांतरित नहीं कर सकते हैं। उदाहरण के लिए, वाशिंगटन विश्वविद्यालय के वैज्ञानिकों ने चेहरे की अभिव्यक्ति और उसके झुकाव को किसी अन्य व्यक्ति के चेहरे के त्रि-आयामी मॉडल में स्थानांतरित करना सीखा है, साथ ही वीडियो में होठों की स्थिति को बदलकर वीडियो में भाषण को वास्तविक रूप से सम्मिलित करना सीखा है। अन्य शोधकर्ताओं ने चेहरे के अधिकांश भावों को किसी अन्य व्यक्ति के साथ वास्तविक वीडियो में स्थानांतरित करना सीख लिया है, लेकिन उनका एल्गोरिथ्म रोलर पर सिर की स्थिति को ध्यान में नहीं रखता है जिससे स्थानांतरण किया जाता है।
अब, मैक्स प्लैंक इंस्टीट्यूट फॉर इंफॉर्मेटिक्स और अन्य जर्मन संस्थानों के इन शोधकर्ताओं ने एल्गोरिदम का अधिक उन्नत संस्करण बनाने के लिए फ्रांस, यूके और यूएस के सहयोगियों के साथ मिलकर काम किया है जो आपको वास्तविक रूप से मानव व्यवहार को एक वीडियो से दूसरे में स्थानांतरित करने की अनुमति देता है।. प्रारंभिक डेटा के रूप में, कार्यक्रम दो वीडियो लेता है, जिसमें एक व्यक्ति को क्लोज-अप में फिल्माया जाता है। फिर, दोनों वीडियो से चेहरों के मुख्य पैरामीटर निकाले जाते हैं - चेहरे की अभिव्यक्ति कई विशेषताओं, सिर की स्थिति और टकटकी की दिशा द्वारा वर्णित है। उसके बाद, लक्ष्य फिल्म से चेहरे के मॉडल को स्रोत मूवी-नमूना से मॉडल के आंदोलनों के मापदंडों को सौंपा जाता है, हालांकि चेहरे को फिल्म से ही उस व्यक्ति के साथ लिया जाता है जिसे नई भावनाएं सौंपी जाती हैं। एल्गोरिथ्म तब नए मापदंडों के साथ लक्ष्य चेहरे के फोटोरिअलिस्टिक रेंडर बनाता है, और ये रेंडर जनरेटिव न्यूरल नेटवर्क को पास कर दिए जाते हैं, जो रेंडर को एक यथार्थवादी फिल्म में बदल देता है।

आंदोलनों और चेहरे के भावों के हस्तांतरण के चरण
इस क्षेत्र में नए एल्गोरिदम और पिछले विकास के बीच मुख्य अंतर यह है कि यह वास्तविक रूप से मूल चेहरे के सभी आंदोलनों को स्थानांतरित करता है, और वीडियो से अन्य फ़्रेमों का विश्लेषण करते हुए, चेहरे के पीछे की पृष्ठभूमि को वास्तविक रूप से समायोजित करता है। इसके अलावा, एल्गोरिथ्म आपको वास्तविक समय में वीडियो पर चेहरे की स्थिति और अभिव्यक्ति को मैन्युअल रूप से बदलने की अनुमति देता है। डेवलपर्स ने तंत्रिका नेटवर्क का उपयोग करने और समान एल्गोरिदम के साथ तुलना करने के लिए विभिन्न परिदृश्यों का प्रदर्शन किया:
लेखकों ने स्वयंसेवकों पर एक अध्ययन किया और दिखाया कि लोगों के लिए यह समझना मुश्किल है कि उन्हें दिखाया गया वीडियो वास्तव में किसी अन्य व्यक्ति के साथ वीडियो पर आधारित तंत्रिका नेटवर्क द्वारा बनाया गया है। डेवलपर्स ने विधि की कमियों के बारे में भी बात की। उदाहरण के लिए, एल्गोरिथ्म की दक्षता, अन्य तंत्रिका नेटवर्क की तरह, प्रशिक्षण डेटा पर दृढ़ता से निर्भर करती है, और यदि यह एक अपरिचित चेहरे की अभिव्यक्ति का सामना करती है, तो वास्तविक रूप से स्थानांतरित चेहरे के भावों के बजाय अंतिम वीडियो में ध्यान देने योग्य कलाकृतियां दिखाई दे सकती हैं।
चूंकि ऐसी प्रौद्योगिकियां, जो अन्य लोगों के साथ यथार्थवादी वीडियो बनाने की अनुमति देती हैं, समाज में चिंता का कारण बनती हैं, हाल ही में वैज्ञानिकों के एक समूह, जिसमें एक नए काम के दो लेखक शामिल हैं, ने इस तरह के जालसाजी की पहचान करने के लिए एक एल्गोरिथ्म बनाया। यह चेहरे के भावों के प्रतिस्थापन या वीडियो में स्वयं चेहरों को प्रभावी ढंग से पहचान सकता है, यहां तक कि संकुचित वाले भी।