आवाज दृष्टि-आधारित पहनने योग्य उपकरणों (AR/VR wearables) को कैसे बढ़ाती है?

Favicon Vivoka Author

Written by Vivoka

No Results Found

The page you requested could not be found. Try refining your search, or use the navigation above to locate the post.

हम दृढ़ता से मानते हैं कि स्मार्ट आईवियर में क्रांति लाने के लिए आवाज का उपयोग सबसे उत्साहजनक तरीका है (Vision-based AR/VR wearables)। स्मार्ट ग्लास ज्ञान में इस अंतर को भरने के लिए, हमने आवाज के लाभों पर हमारी विचार प्रक्रिया में शामिल होने के लिए AMA के उत्पाद और साझेदारी के VP, Guillaume Campion, सहायक वास्तविकता और वर्कफ़्लो प्रबंधन सॉफ़्टवेयर समाधानों के अग्रणी को आमंत्रित किया है।

 

जानकारी के लिए: AMA अब कुछ वर्षों से हमारे साथ काम कर रहा है, वे विभिन्न स्मार्ट ग्लास निर्माताओं जैसे (Vuzix, RealWear, Google Glass, LIvision …) के साथ काम करने के आदी हैं, साथ ही उनमें कस्टम सॉफ़्टवेयर लेयर जोड़कर जैसा कि विवोका की वॉयस डेवलपमेंट किट के माध्यम से एम्बेडेड वॉयस टेक्नोलॉजीज को जोड़ा गया है।

 

पहनने योग्य उपकरणों के माध्यम से प्रौद्योगिकी अपना आकार बदलती हैतो इसकी उपयोगकर्ता गाइडबुक भी!

स्मार्ट ग्लास मूल रूप से कंप्यूटर होते हैं जिन्हें हम अपने सिर पर लगाते हैं। लेकिन वे हमारे हाथों से उपयोग करने के लिए डिज़ाइन नहीं किए गए हैं क्योंकि उन्हें 5 अन्य मानव इंद्रियों में से 4 के पास रखा गया है: सुनना, दृष्टि और आवाज।

वास्तव में, गुइलौम चालाकी से जो कह रहा है वह यह है कि हम अपनी तकनीकों के बारे में उन्हीं तरीकों से सोचना जारी नहीं रख सकते हैं जैसा कि हम तब
से लेकर आए हैं। बेशक कंप्यूटर पहनने के लिए नए उपयोग की अवधारणाओं की आवश्यकता होती है। विज्ञान-कथा में, लोग हमेशा ऐसी तकनीक का उपयोग
करते हैं जो इशारों, दृष्टि, विचार और आवाज में कंप्यूटर के समान नहीं होती है।

 

केवल विरोधाभास जो हमारे पास ड्रैगन बॉल जेड सीरीज़ और “पावर स्कैनर” से आया है, जिसमें अजीब तरह से एक बटन दबाने की आवश्यकता होती है।
लोगों के लिए यह विचार करना भी शायद बहुत जल्दी था कि आवाज एक विकल्प था, यह मत भूलो कि DBZ पहली बार 1989 में सामने आया था।

 

स्मार्ट चश्मों के साथ आवाज का उपयोग करने के मुख्य लाभ क्या हैं?

 

वास्तविक हाथों से मुक्त नेविगेशन, स्मार्ट चश्मा मूल रूप से क्या करने के लिए डिज़ाइन किए गए हैं

 

आजकल, हमारे उपकरणों के अंदर नेविगेशन के सबसे सामान्य तरीके टचस्क्रीन या बटन हैं। यहां तक ​​कि सबसे कम उम्र के लोगों ने भी इससे कहीं ज्यादा इसे इंटिरियर किया है। लेकिन कुछ मामलों में, जिनमें स्मार्ट ग्लास से संबंधित मामले भी शामिल हैं, दोनों हाथों की पूरी उपलब्धता अनिवार्य के करीब है। वॉयस रिकग्निशन 100% हैंड्स-फ्री नेविगेशन प्रदान करता है और इसे उपयोगकर्ताओं के लिए नेविगेट करने में तेज़ बनाता है। यदि आपने पहले ही किसी प्रकार का स्मार्ट चश्मा आज़माया है, तो आप जानते हैं कि हम किस बारे में बात कर रहे हैं। स्मार्ट आईवियर जैसे उपकरण वास्तव में छोटे और सिर पर लगे होते हैं। वे डिजाइनरों को एम्बेड बटन या बड़े टचपैड के लिए अधिक स्थान प्रदान नहीं करते हैं जिन्हें आसानी से और सटीक रूप से उपयोग किया जा सकता है। आवाज और स्पर्श के साथ समान कार्यप्रवाह की तुलना करने के लिए हमने एक छोटा वीडियो बनाया है।

 

 

साथ ही, मान लें कि आप नोट्स लेना चाहते हैं, संदेश या ईमेल भेजना चाहते हैं। स्मार्टफोन जैसे बाहरी उपकरणों पर निर्भर हुए बिना आप संभवतः मध्यम से
लंबे टेक्स्ट कैसे लिख सकते हैं? ऐसा करना नितांत जटिल है। आवाज ऐसे “असंगत” डिवाइस पर श्रुतलेख या प्रतिलेखन के माध्यम से पाठ्य सूचना को संप्रेषित
करने की क्षमता प्रदान करती है। उससे भी बड़ी बात यह है कि मनुष्य जितना लिखते हैं, उससे कहीं अधिक तेजी से लिख सकते हैं: 150 शब्द बनाम लिखते
या टाइप करते समय केवल 60…

 

 

पेशेवर वातावरण के लिए डिवाइस का उपयोग करते समय हाथों को पूरी तरह से मुक्त रखने में सक्षम होना आवश्यक है। हम जिन क्षेत्रों के बारे में बात कर रहे
हैं, उनके आधार पर यह और भी महत्वपूर्ण हो सकता है। टेलीमेडिसिन, फ़ैक्टरी कर्मचारी, रिमोट ऑपरेटर… इन सभी उपयोग मामलों में ऐसे पेशेवर शामिल
होते हैं जो मैन्युअल कार्य से संबंधित होते हैं जिनके लिए सटीकता और विशेषज्ञता की आवश्यकता होती है। एक सर्जन होने की कल्पना करें, जिसे विभिन्न
अनुप्रयोगों के बीच स्विच करना पड़े:

 

महत्वपूर्ण संकेतों की जाँच

फ्लैश लाइट को सक्रिय करना

रिकॉर्डिंग

और साथ ही स्केलपेल पकड़कर रोगी की सर्जरी कर रहे हैं।

 

यह आवश्यक सुरक्षा के स्तर के साथ वास्तव में संगत प्रतीत नहीं होता है।

आवाज आधारित उपकरण सुरक्षा और दक्षता में सुधार कर रहे हैं

 

वॉयस-आधारित और हाथों से मुक्त विकल्प के साथ डिवाइस के नेविगेशन सिद्धांतों को संबोधित करके, स्मार्ट चश्मा और समग्र पहनने योग्य सुरक्षा के मामले में
सुधार कर रहे हैं। गुइलौमे के साथ बात करते समय, हम इस बात पर सहमत हुए कि कैसे तकनीक ध्यान भंग कर सकती है क्योंकि हमें इसे ठीक से काम
करने के लिए एक निश्चित मात्रा में ध्यान केंद्रित करने की आवश्यकता है। एएमए और विवोका का उपयोग विभिन्न प्रकार के उद्योगों के साथ काम करने के लिए
किया जाता है। इस तरह के क्षेत्र बहुत सारे सुरक्षा दिशानिर्देशों, मानदंडों और विनियमों के अधीन हैं। इस उद्देश्य को पूरा करने के लिए, हमने पाया कि स्मार्ट
ग्लास वास्तव में कार्य क्षेत्रों में सुरक्षा बढ़ा रहे थे क्योंकि वे काम करते समय आपके रास्ते में नहीं आते थे। वे वास्तव में उपयोगकर्ता की सहायता कर रहे हैं,
वे जो सुविधाएँ प्रदान कर रहे हैं, लेकिन जिस तरह से लोग उनका उपयोग करते हैं, आवाज और दृष्टि के माध्यम से भी

 

यदि हम कल्पना करते हैं कि भविष्य क्या हो सकता है (ईमानदार होने के लिए इतना दूर नहीं), टेक्स्ट-टू-स्पीच तकनीक उपयोगकर्ताओं को कार्य निर्देशों के
आकार में क्या करना है या छवि पहचान के माध्यम से कह रही है कि डिवाइस के लिए सुरक्षा आवश्यकताओं को उपयोगकर्ता देख रहा है पर, खेल बदलने
वाली विशेषताएं होंगी।

 

ये सुनवाई-आधारित विशेषताएं 100% पूर्ण कर सकती हैं जो वर्तमान में दृष्टि और आवाज प्रदान कर रही हैं, किसी प्रकार में एक संज्ञानात्मक बातचीत तिकड़ी
को आकार देने के लिए।

 

वॉइस स्मार्ट चश्मे और पहनने योग्य उपकरणों का उपयोग करने में मदद करती है

 

“बात यह है कि आवाज और जिस तरह से आवाज के आदेश स्क्रीन पर प्रदर्शित होते हैं, कोई भी उपयोगकर्ता जो पढ़ और बोल सकता है (डिवाइस
की भाषा समर्थन के अनुसार कम से कम) इंटरफ़ेस से जल्दी से परिचित होने और चीजों को पूरा करने में सक्षम है।”

 

एर्गोनॉमिक्स, दक्षता, गति या सुरक्षा के मामले में हर लाभ किसी ऐसी चीज के साथ मदद करने के लिए शामिल हो रहा है जो डिवाइस के भविष्य को परिभाषित
कर सकता है: उपयोगकर्ताओं द्वारा इसे अपनाना। यह सभी के लिए महत्वपूर्ण बात है। लेकिन यह उन कंपनियों के लिए और भी महत्वपूर्ण होता जा रहा है जो
स्मार्ट ग्लास को अपने सहयोगियों के लिए एक पेशेवर उपकरण बनाना चाहती हैं। परिवर्तन का प्रतिरोध किसी भी कंपनी और संगठन में वास्तविक है। यदि
उपयोगकर्ता किसी ऐसी चीज़ को मना नहीं करते हैं जिसे वे आसानी से समझ या उपयोग नहीं कर सकते हैं, तो उन्हें कम से कम समय लगेगा और चीजों
को सुचारू रूप से चलाने के लिए बहुत प्रयास करने की आवश्यकता होगी।

 

याद रखें जब लोग टचपैड पर टाइप करने के लिए अपने अच्छे पुराने पेपर से स्विच करना चाहते थे… स्मार्ट ग्लास अधिक विघटनकारी लग सकते हैं लेकिन
मूल रूप से वे अपने पूर्ववर्तियों की तुलना में उसी स्थिति का सामना कर रहे हैं। और वास्तव में, कुछ तकनीकी लोकतांत्रीकरण पहले भी किया जा चुका है!

 

उपयोग अपनाने के मामले में आवाज बहुत अच्छी है। जितना संभव हो सके प्राकृतिक और सहज ज्ञान युक्त आदेशों के आधार पर, ऐसी कई बाधाएं नहीं हैं
जो उपयोगकर्ताओं को जल्दी और आसानी से इसका उपयोग करने से रोकती हैं। एचएमआई (ह्यूमन-मशीन इंटरफेस) के पाठ्यक्रम के बाद, वॉयस यूजर
एक्सपीरियंस (वीयूएक्स) आदेशों और कार्यों को यथासंभव “मानव” बनाने के लिए दिशानिर्देश बनाता है ताकि उपयोगकर्ता वास्तव में प्रौद्योगिकी के साथ बातचीत
कर सकें जैसे वे किसी और के साथ करते हैं।

Vuzix के स्मार्ट ग्लासेज़ (M400 सीरीज़) पर इस्तेमाल किए जा सकने वाले कुछ वॉइस कमांड

वॉइस इन वीयरेबल्स को एकमात्र समाधान नहीं माना जाना चाहिए, इसे हमेशा दूसरों को पूरा करना चाहिए

 

भले ही हम इस निष्कर्ष पर पहुंचे कि हेड-माउंटेड तकनीकों (और सभी प्रकार के वियरेबल्स डिवाइस) के साथ बातचीत करने के लिए आवाज का उपयोग करना
सबसे वैध समाधानों में से एक है, यह अभी भी जितना लगता है उससे कहीं अधिक जटिल है। और हम केवल प्रौद्योगिकियों के बारे में बात नहीं कर रहे हैं। इसका
उत्तर मुख्य रूप से इस बात पर निर्भर करता है कि उपकरण का उपयोग कौन कर रहा है, कहां और किस लिए कर रहा है।

 

डिवाइस का उपयोग कौन कर रहा है?

 

दरअसल, हम सब बराबर नहीं हैं। लोगों में वाक् दोष हो सकते हैं जो उन्हें किसी भी ध्वनि-आधारित सुविधाओं का उपयोग करने से रोकते हैं। या तो इसलिए कि
वे बोल नहीं सकते या इसलिए कि जिस तरह से वे बोल रहे हैं, उस पर स्पीच इंजन द्वारा ध्यान नहीं दिया जाता है। साथ ही आवाज पहचानने वाले इंजन अभी भी
दुनिया की सभी भाषाओं या बोलियों को कवर नहीं करते हैं… अभी भी कुछ लोग ऐसे हैं जिन्हें अपनी मातृभाषा की पहचान नहीं होगी…

 

इसका उपयोग कहाँ किया जा रहा है?

 

आप नहीं चाहते कि हर कोई यह जाने कि आप क्या कर रहे हैं या खोज रहे हैं। अधिकांश स्थितियों में गोपनीयता एक बड़ी चिंता का विषय है… यही कारण है कि एम्बेड की गई वाक् पहचान की बहुत माँग की जाती है। सब कुछ डिवाइस में रहता है, नहीं डेटा स्थानांतरित, कोई अवांछित रिकॉर्डिंग नहीं…”

 

शोर के स्तर का आवाज प्रौद्योगिकियों पर भी प्रभाव पड़ सकता है। इन समस्याओं को पूरा करने के लिए कई समाधान हैं (विशिष्ट माइक्रोफोन, शोर-रोधी मॉडल…) लेकिन कभी-कभी, बहुत अधिक शोर… बहुत अधिक शोर होता है। लेकिन इस स्थिति तक पहुंचने के लिए आपको 100 डेसिबल के आसपास जाना होगा। सीईएस के दौरान हमारे पास वुज़िक्स के स्मार्ट ग्लास जैसे प्रदर्शन भी थे जो भीड़ की परवाह किए बिना पूरी तरह से काम करते थे!

 

इसका उपयोग किसके लिए होता है?

 

उसी तरह कुछ लोग बोलने में सक्षम नहीं हैं, कुछ अच्छी तरह से सुनने या सुनने में सक्षम नहीं हैं, जो इस तरह के उपकरणों में टेक्स्ट-टू-स्पीच समाधान को विशेष नहीं बना सकते हैं। वॉयस बायोमेट्रिक्स को सुरक्षा और सुविधा के लिए अन्य प्रमाणीकरण विधियों के साथ जोड़ा जाना चाहिए। सभी मामलों में डिवाइस पूरी तरह से वॉयस कमांड पर निर्भर नहीं हो सकता है। डिवाइस के इंटरैक्शन को हर उस व्यक्ति के साथ फ़िट होने के लिए मल्टीमॉडल होना चाहिए जिससे उनका सामना होता है।

“स्मार्ट ग्लास का उपयोग किस चीज के लिए किया जाता है, इससे भी जुड़ा हुआ है। कंपनियां आज ऐसे समाधानों की तलाश कर रही हैं जो उनके डेटा और समग्र गोपनीयता को सुरक्षित रखते हैं। लेकिन एम्बेडेड प्रौद्योगिकियां क्लाउड के साथ प्रतिस्पर्धा नहीं कर सकती हैं, जब हम जिन सुविधाओं की मांग करते हैं, वे बहुत भविष्यवादी होती जा रही हैं। कंपनियों को चाहिए लचीलापन और क्षमताओं के बीच संतुलन का पता लगाने के लिए वास्तव में खुद से सवाल करें।”

 

क्या आप जानते हैं कि हमने इस विशिष्ट विषय पर एक वेबिनार बनाया है?

 

मार्च के अंत में वुज़िक्स, एएमए और विवोका के हमारे विशेषज्ञों द्वारा की गई 30 मिनट की चर्चा का एक त्वरित ट्रेलर यहां दिया गया है।

 

आप पूरा सम्मेलन देखना चाहते हैं? यहां क्लिक करें!

 

अक्सर पूछे जाने वाले प्रश्न: सामान्य आपत्तियों का समाधान करके ध्वनि तकनीकों के उपयोग को रहस्य से मुक्त करना

 

“स्मार्ट ग्लास व्यवसाय के लिए वॉयस डेवलपमेंट किट (वीडीके) जैसे उपकरण होना बहुत अच्छा है क्योंकि यह स्मार्ट ग्लास निर्माता के लिए वॉयस
कमांड के आधार पर शानदार यूएक्स रखना आसान बनाता है। और रियलवियर और अन्य खिलाड़ियों के लिए धन्यवाद, हम जानते हैं कि यह कैसे
उपयोगकर्ता को अपनाने के लिए एक वास्तविक गेम परिवर्तक है।”

 

आइए देखें कि वॉयस डेवलपमेंट किट जो हम प्रदान कर रहे हैं, और वर्तमान में स्मार्ट ग्लास (या अन्य संदर्भों के साथ ऐसा करने के दौरान …) को शक्ति
प्रदान करता है, आम आपत्तियों के साथ प्रतिस्पर्धा कर रहा है:

 

“एम्बेडेड भाषण प्रौद्योगिकियों में भाषा समर्थन की कमी है।”

  • हम वॉयस कमांड के लिए 40 से अधिक विभिन्न भाषाओं और 60+ भाषाओं का समर्थन करते हैं जिन्हें संश्लेषित किया जा सकता है।

 

शोर ऑडियो गुणवत्ता को बर्बाद कर रहा है, जैसे भाषण पहचान।”

  • हमने CES (दुनिया का सबसे बड़ा इनोवेशन शो) के दौरान Vuzix स्मार्ट ग्लास के कई पूर्ण प्रदर्शन किए, और शोर के बावजूद डिवाइस ने पूरी तरह से प्रतिक्रिया दी। आप सभी की जरूरत कुशल हार्डवेयर है जो सॉफ्टवेयर आवश्यकताओं से मेल खाता है।

 

“वाक् पहचान सटीक नहीं है।”

  • हम विशेष व्याकरण-आधारित आदेशों के लिए जाना पसंद करते हैं जो अपेक्षित आदेशों को पूरी तरह से पहचानने के लिए बनाए गए हैं।

 

“एक सहज अनुभव के लिए आपको हमेशा एक इंटरनेट कनेक्शन की आवश्यकता होती है।”

  • एंबेडेड प्रौद्योगिकियां डिवाइस को इंटरनेट से लचीला और स्वायत्त बनाती हैं। आवाज कहीं भी, कभी भी।

 

“आवाज सहायक हमेशा सुन रहे हैं और रिकॉर्ड कर रहे हैं।”

  • डेटा गोपनीयता को ऑन-डिवाइस प्रोसेसिंग के साथ सुरक्षित किया जा सकता है।

 

“आवाज प्रौद्योगिकियां महंगी हैं।”

  • यदि हम इसकी तुलना “प्रति अनुरोध” या सदस्यता व्यवसाय मॉडल से करते हैं, तो हाँ यह महंगा है। ऑन-डिवाइस प्रोसेसिंग के लिए जाते समय, आप एक बार के लाइसेंसिंग विकल्प पा सकते हैं जैसे हम प्रदान कर सकते हैं।

 

“हमारे पास तकनीकी टीम नहीं है और न ही आवाज क्षमता विकसित करने का कौशल है।”

For developers, by developers

Start developing your voice AI solution with the VDK

1

Sign up to request a free trial

Share your information to access the VDK's evaluation.

2

Develop and test your use cases

Design, create and try all of your features.

3

Export and integrate

Available for Windows, Android or Linux devices.

 

It's always the right time to learn more about voice technologies and their applications