Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
चिकित्सा परीक्षण के परिणामों की प्रतीक्षा करने वाला कोई भी व्यक्ति इस चिंताजनक प्रश्न को जानता है: ‘क्या मेरा जीवन पूरी तरह से बदल जाएगा जब मुझे पता चलेगा?’ और अगर आप नकारात्मक परीक्षण करते हैं तो राहत मिलती है।
आजकल, जीवन-धमकी देने वाली बीमारी की भविष्यवाणी करने के लिए आर्टिफिशियल इंटेलिजेंस (एआई) का अधिक से अधिक उपयोग किया जाता है। लेकिन मशीन लर्निंग (एमएल) एल्गोरिदम को सटीक रूप से प्राप्त करने में एक बड़ी चुनौती बनी हुई है। विशेष रूप से, अगर कोई बीमार है तो सही ढंग से निदान करने के लिए एल्गोरिदम प्राप्त करना।
मशीन लर्निंग (एमएल) एआई की शाखा है जहां एल्गोरिदम डेटासेट से सीखते हैं और इस प्रक्रिया में होशियार हो जाते हैं।
मान लें कि एक गंभीर बीमारी के बारे में डेटासेट है। डेटासेट में 90 लोग हैं जिन्हें यह बीमारी नहीं है। लेकिन 10 लोगों को यह बीमारी है।”
डॉ इबोमोये डोमोर मिएनये। मिएनये, पोस्ट-डॉक्टोरल एआई शोधकर्ता। जोहान्सबर्ग विश्वविद्यालय (यूजे)
“एक उदाहरण के रूप में, एक एमएल एल्गोरिथ्म कहता है कि 90 में बीमारी नहीं है। यह अब तक सही है। लेकिन यह उन 10 का निदान करने में विफल रहता है जिन्हें बीमारी है। एल्गोरिथ्म को अभी भी 90% सटीक माना जाता है”, वे कहते हैं .
ऐसा इसलिए है क्योंकि सटीकता को इस तरह परिभाषित किया गया है। लेकिन स्वास्थ्य परिणामों के लिए, बीमारी से पीड़ित 10 लोगों का निदान करना और उनका इलाज करना अत्यावश्यक हो सकता है। उन्होंने कहा कि 90 के बारे में पूरी सटीकता से अधिक महत्वपूर्ण हो सकता है, जिनके पास यह शर्त नहीं है।
में प्रकाशित एक शोध अध्ययन में चिकित्सा में सूचना विज्ञान खुला, मिएनये और प्रो यान्क्सिया सन दिखाते हैं कि चिकित्सा उद्देश्यों के लिए एमएल एल्गोरिदम को कैसे महत्वपूर्ण रूप से बेहतर बनाया जा सकता है। उन्होंने लॉजिस्टिक रिग्रेशन, डिसीजन ट्री, XGBoost और रैंडम फ़ॉरेस्ट एल्गोरिदम का इस्तेमाल किया।
ये पर्यवेक्षित बाइनरी वर्गीकरण एल्गोरिदम हैं। इसका मतलब है कि वे केवल उन्हें प्रदान किए गए ‘हां/नहीं’ डेटासेट से सीखते हैं।
डॉ मिएनये और प्रो सन दोनों यूजे में इलेक्ट्रिकल और इंजीनियरिंग विज्ञान विभाग से हैं।
शोधकर्ताओं ने प्रत्येक एल्गोरिदम में लागत संवेदनशीलता का निर्माण किया।
इसका मतलब है कि डेटासेट में बीमार व्यक्ति को यह बताने के लिए एल्गोरिदम को बहुत बड़ा जुर्माना मिलता है कि वे दूसरे तरीके से स्वस्थ हैं। चिकित्सा के संदर्भ में, एल्गोरिदम को झूठी सकारात्मकता की तुलना में झूठी नकारात्मक के लिए बड़ा दंड मिलता है।
डॉ मिएनये और प्रो सन ने मधुमेह, स्तन कैंसर, सर्वाइकल कैंसर (858 रिकॉर्ड) और क्रोनिक किडनी रोग (400 रिकॉर्ड) के लिए सार्वजनिक शिक्षण डेटासेट का इस्तेमाल किया।
डेटासेट बड़े अस्पतालों या स्वास्थ्य देखभाल कार्यक्रमों से आते हैं। इन बाइनरी डेटासेट में, लोगों को या तो बीमारी होने या बिल्कुल नहीं होने के रूप में वर्गीकृत किया जाता है।
उनके द्वारा उपयोग किए जाने वाले एल्गोरिदम बाइनरी भी हैं। ये कह सकते हैं “हाँ व्यक्ति को बीमारी है” या “नहीं, उन्हें यह नहीं है।” उन्होंने प्रत्येक डेटासेट पर बिना लागत-संवेदनशीलता के सभी एल्गोरिदम का परीक्षण किया।
परिणाम यह स्पष्ट करते हैं कि दंड इन डेटासेट में अपेक्षित रूप से कार्य करते हैं।
उदाहरण के लिए क्रोनिक किडनी रोग के लिए, रैंडम फ़ॉरेस्ट एल्गोरिथम में 0.972 पर सटीकता थी और 0.946 पर याद किया गया था, एक पूर्ण 1.000 में से।
लागत-संवेदनशीलता जोड़े जाने के बाद, एल्गोरिथम 0.990 पर सटीक रूप से सुधार हुआ और एक परिपूर्ण 1.000 पर याद किया गया।
सीकेडी के लिए, तीन अन्य एल्गोरिदम की याद उच्च स्कोर से बढ़कर 1.000 हो गई।
1.000 पर प्रेसिजन का मतलब है कि एल्गोरिथ्म ने एक या अधिक गलत की भविष्यवाणी नहीं की थी सकारात्मक पूरे डेटासेट में। 1.000 पर रिकॉल का मतलब है कि एल्गोरिथम ने एक या अधिक गलत की भविष्यवाणी नहीं की थी नकारा मक पूरे डेटासेट में।
अन्य डेटासेट के साथ, परिणाम अलग-अलग एल्गोरिदम के लिए भिन्न थे।
सर्वाइकल कैंसर के लिए, लागत-संवेदनशील रैंडम फ़ॉरेस्ट और XGBoost एल्गोरिदम उच्च स्कोर से बेहतर सटीकता और रिकॉल में सुधार हुआ है। हालांकि, लॉजिस्टिक रिग्रेशन और डिसीजन ट्री एल्गोरिदम बहुत अधिक स्कोर में सुधार हुआ लेकिन 1.000 तक नहीं पहुंचा।
सामान्य तौर पर, एल्गोरिदम यह कहने में अधिक सटीक रहे हैं कि लोगों को कोई बीमारी नहीं है, बीमार लोगों की पहचान करने की तुलना में, मिएनये कहते हैं। हेल्थकेयर एआई में यह एक सतत चुनौती है।
इसका कारण एल्गोरिदम सीखने का तरीका है। एल्गोरिदम बड़े अस्पतालों या राज्य स्वास्थ्य देखभाल कार्यक्रमों से आने वाले डेटासेट से सीखते हैं।
लेकिन उन डेटासेट के अधिकांश लोगों के पास वे शर्तें नहीं हैं जिनके लिए उनका परीक्षण किया जा रहा है, मिएनये कहते हैं।
“एक बड़े अस्पताल में, एक व्यक्ति क्रोनिक किडनी रोग (सीकेडी) के परीक्षण के लिए आता है। उनके डॉक्टर ने उन्हें वहां भेजा क्योंकि उनके कुछ लक्षण सीकेडी के लक्षण हैं। डॉक्टर सीकेडी से इंकार करना चाहेंगे। पता चला, व्यक्ति करता है सीकेडी नहीं है।
“यह बहुत से लोगों के साथ होता है। डेटासेट उन लोगों की तुलना में अधिक लोगों के साथ समाप्त होता है जिनके पास सीकेडी नहीं है। हम इसे असंतुलित डेटासेट कहते हैं।”
जब एक एल्गोरिथ्म डेटासेट से सीखना शुरू करता है, तो यह सीकेडी के बारे में उससे बहुत कम सीखता है, और बीमार रोगियों के निदान में पर्याप्त सटीक नहीं है – जब तक कि एल्गोरिथम को असंतुलन के लिए समायोजित नहीं किया जाता है।
Mienye अटलांटिक महासागर के पास एक गाँव में पले-बढ़े, जहाँ सड़क मार्ग से पहुँचा नहीं जा सकता।
“आपको वहां पहुंचने के लिए निकटतम शहर से स्पीडबोट का उपयोग करना होगा। नाव की सवारी में दो से तीन घंटे लगते हैं,” वे कहते हैं।
निकटतम क्लिनिक नाव की सवारी के दूसरी तरफ बड़े शहर में है।
उनके गृह गांव की गहरी ग्रामीण सेटिंग ने उन्हें यह देखने के लिए प्रेरित किया कि कैसे एआई उन लोगों की मदद कर सकता है जिनकी स्वास्थ्य सेवा कम या बिल्कुल नहीं है।
उनके गांव की एक बूढ़ी औरत इस बात का एक अच्छा उदाहरण है कि भविष्य में और अधिक उन्नत एआई एल्गोरिदम कैसे मदद कर सकते हैं, वे कहते हैं। एक लागत-संवेदनशील मल्टीक्लास एमएल एल्गोरिथम उसके रक्तचाप, सोडियम स्तर, रक्त शर्करा और अधिक के लिए मापा डेटा का आकलन कर सकता है।
यदि उसका डेटा कंप्यूटर पर सही ढंग से रिकॉर्ड किया गया है, और एल्गोरिदम एक मल्टीक्लास डेटासेट से सीखता है, तो भविष्य में एआई क्लिनिक के कर्मचारियों को बता सकता है कि वह क्रोनिक किडनी रोग के किस चरण में है।
हालाँकि, यह गाँव का परिदृश्य भविष्य में है।
इस बीच लागत संवेदनशीलता के साथ अध्ययन के चार एल्गोरिदम, उनके संख्यात्मक डेटासेट में बीमारी के निदान में कहीं अधिक सटीक हैं।
और वे सामान्य कंप्यूटर का उपयोग करके जल्दी से सीखते हैं, जिसकी उम्मीद किसी दूरस्थ शहर में की जा सकती है।
स्रोत:
जर्नल संदर्भ:
Mienye, ID & Sun, Y., (2021) असंतुलित चिकित्सा डेटा के अनुप्रयोग के साथ लागत-संवेदनशील शिक्षण विधियों का प्रदर्शन विश्लेषण। चिकित्सा में सूचना विज्ञान खुला। doi.org/10.1016/j.imu.2021.100690.