AI පුහුණු කිරීම සඳහා ඔබේ දත්ත භාවිතා කළේ නම්, එය අනුන් අතට විය හැකිය – හෝ නොවිය හැකිය. ValeryBrozhinsky/iStock via Getty Images

යන්ත්‍ර ඉගෙනීම ඔබේ පෞද්ගලිකත්වය උල්ලංඝනය කළ හැකි ආකාර

පර්ඩියු විශ්ව විද්‍යාලයේ සංඛ්‍යාලේඛන පිළිබඳ සහකාර මහාචාර්ය, Jordan Awan

යන්ත්‍ර ඉගෙනීම මගින් පුද්ගලපාදක ඖෂධ, ස්වයං ධාවන මෝටර් රථ සහ අභිරුචි කළ වෙළඳ දැන්වීම්  ඇතුළු ක්ෂේත්‍ර කිහිපයක සීමාවන් තල්ලු කරනු ලැබ ඇත . කෙසේ වෙතත්, පර්යේෂණයන් පෙන්වා දී ඇත්තේ, මෙම පද්ධති රටා ඉගෙන ගැනීම සඳහා ඒවා පුහුණු කරන ලද දත්තවල අංග මතක තබා ගන්නා බවත්, එය පෞද්ගලිකත්වයට අදාල්  ප්‍රශ්නවලට හේතු විය හැකි බවත්ය.

සංඛ්‍යාලේඛන සහ යන්ත්‍ර ඉගෙනීමේදී, අනාගත දත්ත පිළිබඳ නව අනාවැකි පළකිරීම හෝ අනුමාන කිරීම සඳහා අතීත දත්තවලින් ඉගෙනීම ඉලක්කය වේ. මෙම ඉලක්කය සාක්ෂාත් කර ගැනීම සඳහා, සංඛ්යාලේඛනඥයා හෝ යන්ත්ර ඉගෙනුම් විශේෂඥයා  දත්ත තුළ ඇතැයි සැක කරන රටා හසු කර ගැනීමට ආකෘතියක් තෝරා ගනී. ආකෘතියක් දත්ත සඳහා සරල කිරීමේ ව්‍යුහයක් යොදයි; එමඟින් රටා ඉගෙන ගැනීමට සහ අනාවැකි පළකිරීමට හැකි වේ.

සංකීර්ණ යන්ත්‍ර ඉගෙනුම් ආකෘති වලට ඒවාටම ආවේනික වාසි මෙන්  අවාසි ද ඇත. ධනාත්මක පැත්තෙන් ගත් විට, ඒවාට වඩාත් සංකීර්ණ රටා ඉගෙන ගත හැකි අතර ප්‍රතිබිම්බ හඳුනාගැනීම සහ නිශ්චිත පුද්ගලයෙකු ප්‍රතිකාරයකට ප්‍රතිචාර දක්වන ආකාරය පුරෝකථනය කිරීමවැනි කාර්යයන් සඳහා වඩාත් සරු දත්ත කට්ටල සමඟ වැඩ කළ හැකිය .

කෙසේ වෙතත්, දත්ත ඒවායේ කාර්ය අභිබවා ක්‍රියා කිරිමේ  අවදානමක් ද ඇත.. මෙයින් අදහස් කරන්නේ ඒවා පුහුණු කරන ලද දත්ත පිළිබඳ නිවැරදි අනාවැකි පළ කරන නමුත් පැවරී ඇති කාර්යයට සෘජුවම සම්බන්ධ නොවන දත්තවල අතිරේක අංග ඉගෙන ගැනීමට පටන් ගන්නා බවයි. මෙය සාමාන්‍යකරණය නොකළ ආකෘති වලට මග පාදයි, එනම් ඒවා එකම වර්ගයේ නමුත් පුහුණු දත්ත වලට සමාන නොවන නව දත්ත මත දුර්වල ලෙස ක්‍රියා කරයි.

අභිබවා ක්‍රියාකිරීම හා සම්බන්ධ පුරොකථ්‍ය දෝෂය ආමන්ත්‍රණය කිරීමට ශිල්පීය ක්‍රම ඇති අතර, දත්ත වලින් බොහෝ දේ ඉගෙන ගැනීමට හැකි වීමෙන් පුද්ගලිකත්වය පිළිබඳ ගැටළු ද මතුවේ.

යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම අනුමාන කරන ආකාරය

සෑම ආකෘතියකටම පරාමිති නිශ්චිත සංඛ්යාවක් ඇත. පරාමිතියක් යනු වෙනස් කළ හැකි ආකෘතියක අංගයකි. සෑම පරාමිතියකටම අගයක් හෝ සැකසීමක් ඇත;  ආකෘතිය එය පුහුණු දත්ත වලින් ලබා ගනී. ඇල්ගොරිතමයේ ක්‍රියාකාරීත්වයට බලපෑම් කිරීමට ක්‍රිය කරවිය හැකි විවිධ බොත්තම් ලෙස පරාමිති සැලකිය හැකිය. සරල රේඛා රටාවකට ඇත්තේ slope සහ intercept යන බොත්තම් දෙකක් පමණක් වන නමුත්,  යන්ත්‍ර ඉගෙනුම් ආකෘතිවල පරාමිතීන් විශාල ප්‍රමාණයක් ඇත . උදාහරණයක් ලෙස, GPT-3 භාෂා ආකෘතියෙ බිලියන 175 ක් ඇත.

පරාමිති තෝරා ගැනීම සඳහා, යන්ත්‍ර ඉගෙනීමේ ක්‍රම, පුහුණු දත්ත මත පුරොකථ්‍ය දෝෂය (predictive error) අවම කිරීමේ අරමුණින් පුහුණු දත්ත භාවිතා කරයි  . උදාහරණයක් ලෙස, ඉලක්කය වන්නේ යම් පුද්ගලයෙකු තම වෛද්‍ය ඉතිහාසය මත පදනම්ව යම් වෛද්‍ය ප්‍රතිකාරයකට හොඳින් ප්‍රතිචාර දක්වයිද යන්න පුරෝකථනය කිරීම නම්,  යමෙකු හොඳින් හෝ දුර්වල ලෙස ප්‍රතිචාර දැක්වූවාද යන්න පිළිබඳව ආකෘතියේ සංවර්ධකයින් දන්නා දත්ත ගැන යන්ත්‍ර ඉගෙනුම් ආකෘතිය මඟින් අනාවැකි පළ කරනු ලබයි. මෙම ආකෘතියට නිවැරදි අනාවැකි සඳහා ත්‍යාග පිරිනමනු ලබන අතර වැරදි අනාවැකි සඳහා දඬුවම් කරනු ලැබේ, එමඟින් ඇල්ගොරිතම එහි පරාමිතීන් සකස් කිරීමට – එනම්, සමහර “බොත්තම්” එහා මෙහා හරවා –  පරාමිතීන් සකස් කිරීමට නැවත උත්සාහ කරන්න.

යන්ත්‍ර ඉගෙනීමේ මූලික කරුණු පැහැදිලි කිරීම

පුහුණු දත්ත අභිබවා ක්‍රියාකිරීම හෙවත් අධි ගැළපීම වැළැක්වීම සඳහා යන්ත්‍ර ඉගෙනුම් ආකෘති  සප්‍රමාණත දත්ත කට්ටලයක්(a validation dataset) ද හා ගලපමින් පරීක්ෂා කරනු ලැබේ. . සප්‍රමාණත දත්ත කට්ටලය පුහුණු ක්‍රියාවලියේදී භාවිතා නොකරන වෙනම දත්ත කට්ටලයකි. මෙම සප්‍රමාණත දත්ත  කට්ටලය මත යන්ත්‍ර ඉගෙනුම් ආකෘතියේ ක්‍රියාකාරිත්වය පරීක්ෂා කිරීමෙන්, සංවර්ධකයින්හට,   එහි පුහුණු දත්ත ඉක්මවා ඉගෙනීම, අභිබවා ක්‍රියාකිරීම වළක්වාලමින් ආකෘතියට සාමාන්යකරණය කළ හැකි බව සහතික කළ හැක. 

මෙම ක්‍රියාවලිය යන්ත්‍ර ඉගෙනුම් ආකෘතියේ හොඳ කාර්ය සාධනයක් සහතික කිරීමට සමත් වන නමුත්, පුහුණු දත්තවල තොරතුරු මතක තබා ගැනීමෙන් යන්ත්‍ර ඉගෙනුම් ආකෘතිය සෘජුවම වළක්වන්නේ නැත.

පෞද්ගලිකත්ව(Privacy) ගැටළු

යන්ත්‍ර ඉගෙනුම් ආකෘතිවල පරාමිති විශාල සංඛ්‍යාවක් නිසා යන්ත්‍ර ඉගෙනීමේ ක්‍රමය පුහුණු කරන ලද සමහර දත්ත කටපාඩම් කිරීමේ හැකියාවක්, විභවයක් පවතී. ඇත්ත වශයෙන්ම, මෙය පුලුල්ව පැතිරුනු සංසිද්ධියක් වන අතර දත්ත ලබා ගැනීම සඳහා සකස් කරන ලද විමසුම් භාවිතයෙන්  එම මතක තබා ගත් දත්ත යන්ත්‍ර ඉගෙනුම් ආකෘතියෙන් පරිශීලකයින්ට උපුටා ගත හැක .

පුහුණු දත්තවල වෛද්‍ය හෝ ප්‍රවේණික දත්ත වැනි සංවේදී තොරතුරු අඩංගුව තිබේ නම්, ආකෘතිය පුහුණු කිරීම සඳහා දත්ත භාවිතා කළ පුද්ගලයින්ගේ පෞද්ගලිකත්වය, අවදානමට ලක් විය හැකිය. මෑත කාලීන පර්යේෂණ පෙන්නුම් කළේ  ඇතැම් ගැටළු විසඳීම සඳහා ප්රශස්ත කාර්ය සාධනයක් ලබා ගැනීමට නම් පුහුණු දත්තවල අංගයන්   යන්ත්‍ර ඉගෙනුම් ආකෘතිවලට මතක තබා ගැනීම ඇත්ත වශයෙන්ම අවශ්‍ය බවයි. යන්ත්‍ර ඉගෙනීමේ ක්‍රමයක ක්‍රියාකාරීත්වය සහ පෞද්ගලිකත්වය අතර මූලික ‘ගණුදෙනුවක්’ තිබිය හැකි බව මෙයින් පෙන්නුම් කෙරේ.

යන්ත්‍ර ඉගෙනුම් ආකෘති මගින් සංවේදී නොවන බවක් පෙනීයන දත්ත භාවිතයෙන් සංවේදී තොරතුරු පුරෝකථනය කිරීමට ද හැකි වේ. උදාහරණයක් ලෙස, Target සාපු සංකීර්ණයේ ළදරු රෙජිස්ට්රිවල  ලියාපදිංචි වූ ගනුදෙනුකරුවන්ගේ මිලදී ගැනීමේ පුරුදු විශ්ලේෂණය කිරීමෙන් Target සමාගට,  කුමන ගනුදෙනුකරුවන් ගැබ්ගෙන ඇත්දැයි අනාවැකි කිව හැකි විය . මෙම දත්ත කට්ටලය මත ආකෘතිය පුහුණු කළ පසු, එය ගැබිනි බවට සැක කරන පාරිභෝගිකයින්ට ගැබ් ගැනීම සම්බන්ධ වෙළඳ දැන්වීම් යැවීමට හැකි වූයේ ඔවුන් ආහාර අතිරේක වර්ග හෝ සුවඳ නැති දියර වැනි භාණ්ඩ මිලදී ගත් බැවිනි.

පුද්ගලිකත්වය ආරක්ෂා කිරීම  කළ හැකි වැඩක් ද?

යන්ත්‍ර ඉගෙනීමේ ක්‍රමවල කටපාඩම් කිරීම අඩු කිරීමට බොහෝ යෝජිත ක්‍රම තිබී ඇතත්, බොහොමයක් දුරට අකාර්යක්ෂම වී ඇත. වර්තමානයේ, මෙම ගැටලුවට වඩාත්ම බලාපොරොතුතු තැබිය හැකි විසඳුම වන්නේ පුද්ගලිකත්ව අවදානම පිළිබඳ ගණිතමය සීමාවක් සහතික කිරීමයි.

විධිමත් රහස්‍යතා ආරක්ෂණය සඳහා වූ අති නවීන ක්‍රමය වන්නේ අවකල්‍ය පෞද්ගලිකත්වය(differential privacy). පුහුණු දත්ත කට්ටලය තුළ එක් පුද්ගලයෙකුගේ දත්ත වෙනස් කළ පමණින් යන්ත්‍ර ඉගෙනුම් ආකෘතියක් බොහෝ වෙනස් නොවීම අවකල පෞද්ගලිකත්වය අපේක්ෂා කරන අවශ්‍යතාවකි. ඕනෑම විශේෂිත පුද්ගලයෙකුගේ දායකත්වය “වසංකරන්නාවු” ඇල්ගොරිතම ඉගෙනීමට අමතර අහඹුතාවක් හඳුන්වා දීමෙන් අවකල පෞද්ගලිකත්ව ක්‍රම මෙය සහතික කර ගනී. ක්‍රමයක්, අවකල්‍ය පෞද්ගලිකත්වයකින් ආරක්ෂා කළ පසු, කිසිම ප්‍රහාරයකින්  එම පෞද්ගලිකත්ව සහතිකය උල්ලංඝනය කළ නොහැකය.

යන්ත්‍ර ඉගෙනුම් ආකෘතියක් අවකල්‍ය පෞද්ගලිකත්වය භාවිතයෙන් පුහුණු කර ඇතත්, ඉහත දැක් වූ Target උදාහරණය වැනි සංවේදී නිගමන කිරීමෙන් එය වළක්වන්නේ නැත. මෙම පෞද්ගලිකත්වතා උල්ලංඝනයන් වැලැක්වීම සඳහා, සංවිධානය වෙත සම්ප්‍රේෂණය කරන ලද සියලුම දත්ත ආරක්ෂා කිරීම අවශ්‍ය වේ. මෙම ප්රවේශය  ස්ථානික අවකල පෞද්ගලිකත්වය(local differential privacy) ලෙස හැඳින්වෙන අතර ඇපල් සහ ගූගල් එය ක්රියාත්මක කර ඇත.

අවකල්‍ය පෞද්ගලිකත්වය යනු පුද්ගලයන්ගේ දත්ත විශාල දත්ත කට්ටලවලට ඇතුළත් කර ඇති විට ඔවුන්ගේ පෞද්ගලිකත්වය ආරක්ෂා කිරීමේ ක්‍රමයකි.

යන්ත්‍ර ඉගෙනීමේ ආකෘතිය එක් පුද්ගලයෙකුගේ දත්ත මත රඳා පවතින ප්‍රමාණය අවකල්‍ය පෞද්ගලිකත්වය මගින් සීමා කරනු ලබන බැවින්, වනපොත් කිරීම වළක්වයි. අවාසනාවකට මෙන්, එය යන්ත්‍ර ඉගෙනීමේ ක්‍රමවල ක්‍රියාකාරිත්වය ද සීමා කරයි. මෙම ‘ගණ්දෙනුව’ නිසා, අවකල්‍ය පෞද්ගලිකත්වයේ ප්‍රයෝජනය පිළිබඳ විවේචන ද ඇත. මන්ද එය බොහෝ විට කාර්ය සාධනයෙහි සැලකිය යුතු පහත වැටීමක් ඇති කරන හැයිනි.

ඉදිරිය බලා ගමන් කිරීම

අනුමේය ඉගෙනීම සහ පෞද්ගලිකත්ව ගැටළු අතර ආතතිය හේතුවෙන්, අවසානයේ සමාජගත ප්‍රශ්නයක් ඇති වන්නේ කුමන සන්දර්භයන් තුළ කුමක් වඩා වැදගත්ද යනුවෙනි. දත්ත අතරේ සංවේදී තොරතුරු අඩංගු නොවන විට, පවතින බලවත්ම යන්ත්‍ර ඉගෙනුම් ක්‍රම භාවිතා කිරීම නිර්දේශ කිරීම පහසුය.

කෙසේ වෙතත්, සංවේදී දත්ත සමඟ වැඩ කරන විට, රහස්‍යතා කාන්දුවීම්වල ප්‍රතිවිපාක කිරා මැන බැලීම වැදගත් වේ. එමෙන්ම, දත්ත ආකෘතිය පුහුණු කළ පුද්ගලයින්ගේ පෞද්ගලිකත්වය ආරක්ෂා කිරීම සඳහා යම් යන්ත්‍ර ඉගෙනීමේ කාර්ය සාධනයක් කැප කිරීම ද අවශ්‍ය විය හැකිය.

ප්‍රතිචාරයක් ලබාදෙන්න

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Trending