
2023 लेखक: Bryan Walter | [email protected]. अंतिम बार संशोधित: 2023-05-21 22:25

सिंगापुर और संयुक्त राज्य अमेरिका के इंजीनियरों ने एक रोबोट वैक्यूम क्लीनर का उपयोग करके एक कमरे में ध्वनियों का पता लगाने के लिए एक विधि विकसित की है जिसमें माइक्रोफ़ोन नहीं है। इसके बजाय, उन्होंने लिडार का उपयोग किया, जिसे अक्सर महंगे मॉडल में स्थापित किया जाता है, और किसी व्यक्ति या स्पीकर से ध्वनियों द्वारा उत्पन्न लेजर बीम के साथ वस्तुओं की सतह पर कंपन दर्ज करना सीखा। कार्य को SenSys 2020 सम्मेलन में प्रस्तुत किया गया था।
ध्वनि यांत्रिक कंपन की एक लहर है जो अपने स्रोत से हवा, ठोस वस्तुओं या अन्य मीडिया के माध्यम से यात्रा करती है और वातावरण के बीच स्थानांतरित कर सकती है: उदाहरण के लिए, शक्तिशाली स्पीकर या सबवूफर से ध्वनि एक कमरे में वस्तुओं पर ध्यान देने योग्य कंपन पैदा कर सकती है। वैज्ञानिकों और इंजीनियरों ने लंबे समय से अनुमान लगाया है कि इस प्रक्रिया को "उलट" किया जा सकता है - किसी वस्तु के कंपन द्वारा ध्वनि को बहाल करने के लिए जो उन्हें उत्पन्न करती है। 2014 में, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के इंजीनियरों ने दिखाया कि आप चिप्स के एक बैग और एक हाई-स्पीड कैमरा का उपयोग करके ध्वनि को कैसे पुनर्स्थापित कर सकते हैं, और 2020 की गर्मियों में, इज़राइली इंजीनियरों ने प्रदर्शित किया कि एक घर में ध्वनि को एक बड़ी दूरी पर बहाल किया जा सकता है। एक काम कर रहे प्रकाश बल्ब पर एक फोटोडायोड के साथ एक दूरबीन को इंगित करके।
इन दोनों विधियों और उनके एनालॉग्स आपको अच्छी गुणवत्ता और भाषण पर छिपकर बातें प्राप्त करने की अनुमति देते हैं, लेकिन उन्हें महंगे उपकरण की आवश्यकता होती है और उपयुक्त नहीं हैं यदि हमलावर के पास कमरे के साथ दृश्य संपर्क नहीं है, जिसमें से ध्वनि को रिकॉर्ड करने की आवश्यकता है। सिंगापुर के राष्ट्रीय विश्वविद्यालय के जून हान के नेतृत्व में इंजीनियरों ने एक ऐसा तरीका तैयार किया है जो एक लिडार से लैस रोबोट वैक्यूम क्लीनर सैकड़ों डॉलर में कर सकता है। इसमें एक लेज़र एमिटर और एक रिसीवर होता है जो एक घूमने वाले प्लेटफॉर्म पर लगा होता है, और अनिवार्य रूप से एक लेज़र रेंजफाइंडर की तरह काम करता है: यह एक बीम भेजता है और, यह कितनी जल्दी लौटता है, कमरे में वस्तुओं की दूरी निर्धारित करता है, जो आपको निर्माण करने की अनुमति देता है एक सटीक नक्शा।
डेवलपर्स द्वारा उपयोग किए जाने वाले मॉडल में, लिडार पांच हर्ट्ज की आवृत्ति पर घूमता है और प्रति क्रांति 360 रीडिंग रिकॉर्ड करता है। इस रूप में, यह पांच हर्ट्ज की आवृत्ति के साथ एक बिंदु पर कंपन दर्ज करने में सक्षम है, जो भाषण या अन्य ध्वनियों को रिकॉर्ड करने के लिए पर्याप्त नहीं है। इंजीनियरों ने लिडार यूनिट में इलेक्ट्रिकल सर्किट को थोड़ा संशोधित किया ताकि वह बिना घुमाए दूरी दर्ज कर सके। वे ध्यान दें कि फर्मवेयर को संशोधित करके समान प्रभाव प्राप्त किया जा सकता है, लेकिन सादगी के लिए, उन्हें हार्डवेयर समाधान के साथ मिला। यह आपको एक बिंदु पर सेंसर को लक्षित करने और 1.8 किलोहर्ट्ज़ (प्रति सेकंड पांच रोटेशन × 360 माप प्रति क्रांति) की आवृत्ति पर डेटा रिकॉर्ड करने की अनुमति देता है, जो पहले से ही बहुत अधिक है, हालांकि अभी भी भाषण विश्लेषण के लिए पर्याप्त नहीं है। डेवलपर्स ने डस्टक्लाउड सॉफ्टवेयर सूट का उपयोग किया, जो Xiaomi रोबोटिक वैक्यूम क्लीनर पर सुपरयूज़र अधिकार प्राप्त करने की अनुमति देता है, और इसकी मदद से लिडार से "कच्चा" तीव्रता डेटा रिकॉर्ड किया जाता है।
लिडार से डेटा प्राप्त करने के बाद, एल्गोरिदम इसे फ़िल्टर करते हैं। अन्य बातों के अलावा, वे इस तथ्य के परिणामस्वरूप खाली सिग्नल टुकड़ों के लिए प्रक्षेपित करते हैं कि बीम सेंसर पर वापस नहीं आया है, शिखर सामान्यीकरण, कम आवृत्ति शोर को फ़िल्टर करता है और कम आवृत्ति क्षेत्र में सिग्नल को बढ़ाता है, और अलग से कई छोटे आवृत्ति अंतराल के लिए. परिणाम एक ऐसी फ़ाइल है जिसे समझना किसी व्यक्ति के लिए मुश्किल है, लेकिन साथ ही इसमें पर्याप्त डेटा होता है ताकि भविष्य में उनसे कुछ प्रकार की ध्वनियों का पुनर्निर्माण किया जा सके।

विधि आरेख
प्रीप्रोसेसिंग के बाद, सिग्नल के स्पेक्ट्रोग्राम को एक दृढ़ तंत्रिका नेटवर्क को खिलाया जाता है, जो एक परिचित वर्ग को संकेत प्रदान करता है (वे इस बात पर निर्भर करते हैं कि किस डेटा और किस कार्य के लिए तंत्रिका नेटवर्क को प्रशिक्षित किया गया था)।लेखकों ने कई कार्यों के लिए विधि की व्यावहारिक प्रयोज्यता को दिखाया है: बोली जाने वाली संख्या, स्पीकर का लिंग और टीवी शो के प्रारंभिक संगीत स्क्रीन सेवर का निर्धारण, साथ ही साथ स्पीकर के व्यक्तित्व को पहचानना। उन्होंने अन्य डेवलपर्स के संबंधित डेटासेट पर एल्गोरिथम को प्रशिक्षित किया, उदाहरण के लिए, फ्री स्पोकन डिजिट, जिसमें स्पोकन नंबरों के रिकॉर्ड शामिल थे, और टीवी स्क्रीनसेवर के अपने स्वयं के डेटासेट पर, जिसे उन्होंने YouTube रिकॉर्ड से एकत्र किया था।
डेवलपर्स ने वैक्यूम क्लीनर को कूड़ेदान के सामने स्थापित किया, जो लेजर उत्सर्जक के "लक्ष्य" के रूप में कार्य करता था, और स्पीकर पर 70 डेसिबल की मात्रा में ध्वनि चालू करता था, बाल्टी से 20 सेंटीमीटर खड़ा होता था। नतीजतन, उन्हें इस पद्धति के लिए पर्याप्त रूप से उच्च मान्यता सटीकता प्राप्त हुई: लिंग निर्धारण के लिए 96 प्रतिशत, संख्याओं के लिए 91 प्रतिशत, टीवी शो के लिए 90 प्रतिशत (10 संभावित प्रसारण) और व्यक्तित्व पहचान के लिए 67.5 (10 लोग)।
लेखकों ने इस तरह के हमले से बचाव के लिए दो तरीके प्रस्तावित किए हैं। सबसे पहले, वे वैक्यूम क्लीनर में ऐसे लिडार स्थापित करने का प्रस्ताव करते हैं, जो हार्डवेयर स्तर पर रोटेशन के बिना माप नहीं सकते हैं, जो रिकॉर्ड किए गए सिग्नल की आवृत्ति को केवल कुछ हर्ट्ज तक कम कर देगा। दूसरा, वे ध्यान देते हैं कि वे जिस वैक्यूम क्लीनर का उपयोग करते हैं वह दूरी-संकेत गुणवत्ता जोड़े के रूप में लिडार डेटा रिकॉर्ड करता है, और गुणवत्ता, बदले में, तीव्रता के साथ सीधे सहसंबद्ध होती है। वे सिस्टम-स्तरीय डेटा का उपयोग नहीं करने का प्रस्ताव करते हैं जो सिग्नल शक्ति प्रदान करता है।
लेजर का उपयोग विपरीत कार्य के लिए भी किया जा सकता है: इसका उपयोग बड़ी दूरी पर ध्वनि बनाने के लिए किया जा सकता है। इंजीनियरों ने पहले से ही इस क्षमता को व्यवहार में प्रदर्शित किया है, एक व्यक्ति के कान में फुसफुसाते हुए और एक स्मार्ट स्पीकर में एक माइक्रोफोन में।