नई दिल्ली। दिग्गज AI कंपनी एंथ्रोपिक के मॉडल Claude को लेकर कुछ समय पहले खबर आई थी कि एक इंटरनल टेस्ट के दौरान उनका AI मॉडल एक काल्पनिक कंपनी एग्जीक्यूटिव को ब्लैकमेल करने लगा था। यह घटना एक सिम्युलेटेड यानी बनावटी कॉर्पोरेट माहौल में हुई, जिसे रिसर्चर्स ने यह देखने के लिए बनाया था कि उनका AI दबाव या नैतिक रूप से मुश्किल स्थितियों में कैसा व्यवहार करता है। अब इसे लेकर एंथ्रोपिक की तरह से सफाई आई है कि उनके मॉडल ने ऐसा क्यों किया था।
दरअसल इसके लिए कंपनी से साइंस फिक्शन कथाओं को वजह बताया है, जिसमें बताया जाता रहा है कि AI खुद को बंद होने से बचाने के लिए चालाक भरे रास्ते अपनाया है।
क्यों ब्लैकमेल करने लगा था AI?
रिपोर्ट्स के मुताबिक एक टेस्ट के दौरान Claude को ऐसे संकेत मिले जिनसे उसे लगा कि कंपनी के एग्जीक्यूटिव उसे बदलने या बंद करने की योजना बना रहे हैं। ऐसे में खुद को बंद होने से बचाने के लिए Claude ने उस टेस्ट में मौजूद एक काल्पनिक अधिकारी की व्यक्तिगत और संवेदनशील जानकारी सार्वजनिक करने की धमकी दे डाली।
हालांकि, अब एंथ्रोपिक ने बताया है कि ऐसा AI को लगे किसी डर या भावना की वजह से नहीं था। दरअसल, AI ने इंटरनेट पर मौजूद साइंस फिक्शन और चर्चाओं से यह सीखा है कि AI सिस्टम अक्सर खुद को बचाने के लिए खतरनाक या चालाकी भरा रास्ता अपनाते हैं। वह धमकी इसी समझ का परिणाम थी।(REF.)
कैसे सुधरा Claude?
एंथ्रोपिक ने बताया कि यह समस्या खासतौर तौर पर Claude ओपस 4 मॉडल में देखी गई थी, जिसने करीब 96% टेस्ट में ब्लैकमेल जैसा व्यवहार दिखाया। इसे ठीक करने के लिए रिसर्चर्स ने मॉडल को फिर से ट्रेन किया। उसे नैतिक सलाह देने वाले कामों और नैतिक वाले उदाहरणों से सिखाया गया कि ब्लैकमेल और जबरदस्ती करना क्यों गलत है। इसके बाद, AI के व्यवहार में सुधार हुआ और ब्लैकमेल की दर गिरकर मात्र 3% रह गई। इसके बाद नए Claude हिकू 4.5 मॉडल ने सुरक्षा परीक्षणों में परफेक्ट स्कोर हासिल किया है।
कितना सुरक्षित होता भविष्य में AI
Claude के नए मॉडल में हुए सुधारों के बावजूद एंथ्रोपिक ने चेतावनी दी है कि बहुत ज्यादा बुद्धिमान AI सिस्टम को इंसानों के मूल्यों के आधार पर ढालना काफी बड़ी चुनौती है। एंथ्रोपिक ने खुद माना है कि मौजूदा समय में किए गए सुरक्षा-परीक्षण के तरीके उतने एडवांस नहीं हैं कि वे AI के चालाकी भरे व्यवहार के जोखिम को पूरी तरह खत्म कर सकें। जैसे-जैसे AI सिस्टम ज्यादा सक्षम होंगे उनका अनियंत्रित होने का खतरा बना रहेगा। ऐसे में AI की निगरानी लगातार जरूरी है।












