DeepSeek AI ආකෘතිය පිළිබඳ ප්රථම සම සමාලෝචිත (peer-reviewed) අධ්යයනය මගින්, චීන නවක ව්යාපාරයක් විසින් වෙළඳපොළ කම්පනයට ලක් කළ මහා පරිමාණ භාෂා ආකෘතිය (LLM) ඇමරිකානු ඩොලර් 300,000ක් වැනි සුළු මුදලකට නිර්මාණය කළ ආකාරය පෙන්වා දෙයි.
DeepSeek සමාගම පවසන්නේ තම R1 ආකෘතිය අනෙකුත් මහා පරිමාණ භාෂා ආකෘති (LLM) මගින් ජනනය කරන ලද උදාහරණ පිටපත් කිරීමෙන් පුහුණු නොවූ බවයි. ජනවාරි මාසයේදී නිකුත් කළ විට ඇමරිකානු කොටස් වෙළඳපොළ පවා පහත වැටීමට හේතු වූ, DeepSeek සමාගමේ බලවත් කෘත්රිම බුද්ධි (AI) ආකෘතිය වන R1 හි සාර්ථකත්වය, තරඟකාරී ආකෘතිවල ප්රතිදානයන් මත පුහුණු වීම මත රඳා නොපවතින බව එම චීන සමාගමේ පර්යේෂකයෝ පවසා සිටිති. මෙම ප්රකාශය සිදුකර ඇත්තේ, අද දින නේචර් (Nature) සඟරාවේ ප්රකාශයට පත් කරන ලද, R1 ආකෘතියේ සම සමාලෝචනයට ලක් වූ අනුවාදය සමඟ නිකුත් කළ ලේඛනවලය.
R1 ආකෘතිය ගණිතය සහ කේතීකරණය (coding) වැනි ‘තර්කන’ (reasoning) කාර්යයන් සඳහා විශිෂ්ට දස්කම් දැක්වීමට නිර්මාණය කර ඇති අතර, එය ඇමරිකානු තාක්ෂණික සමාගම් විසින් නිපදවන ලද මෙවලම්වලට වඩා ලාභදායී තරඟකරුවෙකි. ‘විවෘත-ැර’ (open weight) ආකෘතියක් ලෙස, ඕනෑම කෙනෙකුට එය බාගත කර ගැනීමට හැකියාව ඇත. තවද මේ දක්වා AI ප්රජා වේදිකාවක් වන ‘හගින් ෆේස්’ (Hugging Face) හි ඇති වඩාත්ම ජනප්රියතම එවැනි ආකෘතිය මෙය වන අතර, එය මිලියන 10.9 වාරයක් බාගත කර ඇත.
මෙම පර්යේෂණ පත්රිකාව, පසුගිය ජනවාරි මාසයේදී නිකුත් කරන ලද පූර්ව මුද්රණයක යාවත්කාලීන කිරීමක් වන අතර, තර්කන කාර්යයන් හැසිරවීම සඳහා DeepSeek සමාගම සම්මත මහා පරිමාණ භාෂා ආකෘතියක් (LLM) වැඩි දියුණු කළ ආකාරය එහි විස්තර කෙරේ. එහි පරිපූරක තොරතුරු මගින් R1 පුහුණු කිරීමට කොපමණ මුදලක් වැය වූයේ දැයි ප්රථම වරට හෙළිදරව් කරයි: එනම් ඇමරිකානු ඩොලර් 294,000ක් වැනි සුළු මුදලකි. මෙය, හැංෂෝ (Hangzhou) හි පිහිටි සමාගම විසින් R1 ගොඩනගා ඇති මූලික LLM ආකෘතිය නිර්මාණය කිරීමට වැය කළ ඩොලර් මිලියන 6කට පමණ අමතරවය. නමුත් මෙම සම්පූර්ණ මුදල පවා, තරඟකාරී ආකෘති සඳහා වැය වෙතැයි සිතන ඩොලර් මිලියන දස ගණනකට වඩා සැලකිය යුතු ලෙස අඩුය. DeepSeek පවසන්නේ R1 ප්රධාන වශයෙන් පුහුණු කරන ලද්දේ Nvidia සමාගමේ H800 චිපය මත බවත්, 2023 දී ඇමරිකානු අපනයන පාලනයන් යටතේ මෙම චිප චීනයට විකිණීම තහනම් කරන ලද බවත්ය.
දැඩි සමාලෝචනයක්
R1 යනු සම සමාලෝචන ක්රියාවලියට භාජනය වූ ප්රථම ප්රධාන LLM ආකෘතිය ලෙස සැලකේ. “මෙය ඉතා සාදරයෙන් පිළිගත යුතු පූර්වාදර්ශයක්,” යැයි නේචර් පත්රිකාව සමාලෝචනය කළ, හගින් ෆේස් හි යන්ත්ර ඉගෙනුම් ඉංජිනේරුවෙකු වන ලුවිස් ටන්ස්ටෝල් පවසයි. “මෙම ක්රියාවලියේ විශාල කොටසක් ප්රසිද්ධියේ බෙදා ගැනීමේ සම්මතයක් අපට නොමැති නම්, මෙම පද්ධති මගින් අවදානම් ඇති කරන්නේද නැද්ද යන්න ඇගයීම ඉතා අපහසු වෙනවා.”
සම සමාලෝචන අදහස්වලට ප්රතිචාර වශයෙන්, DeepSeek කණ්ඩායම ඔවුන්ගේ විස්තරවල මානවරූපීකරණය (anthropomorphizing) අඩු කර ඇති අතර, ආකෘතිය පුහුණු කළ දත්ත වර්ග සහ එහි ආරක්ෂාව ඇතුළු තාක්ෂණික තොරතුරු පැහැදිලි කිරීම් එකතු කර ඇත. “දැඩි සම සමාලෝචන ක්රියාවලියක් හරහා යාම නිසැකවම ආකෘතියේ වලංගුභාවය සහ ප්රයෝජනවත් බව සනාථ කිරීමට උපකාරී වෙනවා,” යැයි කොලොම්බස් හි ඔහියෝ රාජ්ය විශ්ව විද්යාලයේ AI පර්යේෂකයෙකු වන හුවාන් සන් පවසයි. “අනෙකුත් සමාගම් ද එසේ කළ යුතුයි.”
DeepSeek සමාගමේ ප්රධාන නවෝත්පාදනය වූයේ R1 නිර්මාණය කිරීමේදී ‘පිරිසිදු ශක්තිමත් ඉගෙනුම’ (pure reinforcement learning) ලෙස හැඳින්වෙන, උත්සාහය සහ දෝෂය (trial-and-error) මත පදනම් වූ ස්වයංක්රීය ක්රමවේදයක් භාවිතා කිරීමයි. මෙම ක්රියාවලිය මගින්, මිනිසුන් විසින් තෝරාගත් තර්කන උදාහරණ අනුගමනය කිරීමට ඉගැන්වීමට වඩා, නිවැරදි පිළිතුරුවලට ළඟා වීම සඳහා ආකෘතියටම ‘ත්යාග’ ලබා දෙන ලදී. සමාගම පවසන්නේ, මිනිසුන් විසින් නියම කරන ලද උපක්රම අනුගමනය නොකර, තමන්ගේම ක්රියාකාරකම් සත්යාපනය කරගන්නේ කෙසේද වැනි, තමන්ටම ආවේණික වූ තර්කන-මය උපාය මාර්ග ආකෘතිය ඉගෙන ගත්තේ මෙමගින් බවයි. කාර්යක්ෂමතාව ඉහළ නැංවීම සඳහා, වෙනම ඇල්ගොරිතමයක් භාවිතා කරනවා වෙනුවට, ‘සමූහ සාපේක්ෂ ප්රතිපත්ති ප්රශස්තකරණය’ (group relative policy optimization) ලෙස හැඳින්වෙන තාක්ෂණයක් මගින්, ආකෘතිය විසින්ම ඇස්තමේන්තු භාවිතා කරමින් තම උත්සාහයන් සඳහා ලකුණු ලබා දෙන ලදී.
මෙම ආකෘතිය AI පර්යේෂකයන් අතර “ඉතා බලගතු” වී ඇති බව සන් පවසයි. “2025 වසරේ මේ දක්වා LLM වල ශක්තිමත් ඉගෙනුම සිදු කරන ලද සියලුම පර්යේෂණ පාහේ, එක් ආකාරයකින් හෝ වෙනත් ආකාරයකින් R1 වෙතින් ආභාෂය ලබා ඇතැයි කිව හැකියි.”
ජනවාරි මාසයේදී මාධ්ය වාර්තා පෙන්වා දුන්නේ, ChatGPT සහ ‘o’ ශ්රේණියේ තර්කන ආකෘති නිර්මාණය කළ, කැලිෆෝනියාවේ සැන් ෆ්රැන්සිස්කෝ හි පිහිටි OpenAI සමාගමේ පර්යේෂකයන්, DeepSeek විසින් R1 පුහුණු කිරීම සඳහා OpenAI ආකෘතිවල ප්රතිදානයන් භාවිතා කර ඇති බවට සැක කළ බවයි. මෙය, අඩු සම්පත් ප්රමාණයක් භාවිතා කරමින් ආකෘතියක හැකියාවන් වේගවත් කළ හැකි ක්රමයකි.
DeepSeek සිය පර්යේෂණ පත්රිකාවේ කොටසක් ලෙස තම පුහුණු දත්ත ප්රකාශයට පත් කර නොමැත. නමුත්, විනිසුරුවන් සමඟ කළ සාකච්ඡාවලදී, සමාගමේ පර්යේෂකයන් ප්රකාශ කර ඇත්තේ, OpenAI ආකෘති මගින් ජනනය කරන ලද තර්කන උදාහරණ පිටපත් කිරීමෙන් R1 පුහුණු නොවූ බවයි. කෙසේ වෙතත්, අනෙකුත් බොහෝ LLM මෙන්ම, R1 හි මූලික ආකෘතිය ද අන්තර්ජාලය මත පුහුණු කර ඇති බවත්, එබැවින් දැනටමත් අන්තර්ජාලයේ ඇති ඕනෑම AI-ජනිත අන්තර්ගතයක් එයට ඇතුළත් වී තිබිය හැකි බවත් ඔවුහු පිළිගත්හ.
මෙම ප්රතික්ෂේප කිරීම “ඕනෑම ප්රකාශනයක අපට දැකිය හැකි තරම්ම පිළිගත හැකි” බව සන් පවසයි. තමාට 100% ක්ම R1, OpenAI උදාහරණ මත පුහුණු නොකළ බවට සහතික විය නොහැකි වුවද, අනෙකුත් පර්යේෂණාගාර මගින් සිදු කළ ප්රතිනිර්මාණ උත්සාහයන් පෙන්වා දෙන්නේ DeepSeek සමාගමේ තර්කන ක්රමවේදය එය අවශ්ය නොවන තරමටම හොඳ බව යැයි ටන්ස්ටෝල් වැඩිදුරටත් පවසයි. “පිරිසිදු ශක්තිමත් ඉගෙනුම පමණක් භාවිතා කර ඉතා ඉහළ කාර්ය සාධනයක් ලබා ගත හැකි බවට සාක්ෂි දැන් පැහැදිලියි කියා මම සිතනවා,” ඔහු පවසයි.
පර්යේෂකයන් සඳහා, R1 තවමත් ඉතා තරඟකාරී ආකෘතියක් බව සන් පවසයි. දත්ත විශ්ලේෂණය සහ දෘශ්යකරණය වැනි විද්යාත්මක කාර්යයන් සම්පූර්ණ කිරීමේ අභියෝගයක් වන ‘සයන්ස්ඒජන්ට්බෙන්ච්’ (ScienceAgentBench) හිදී, R1 නිරවද්යතාවයෙන් පළමු තැන නොගත්තද, හැකියාව සහ පිරිවැය තුලනය කිරීම අතින් එය හොඳම ආකෘතියක් වූ බව සන් සහ ඔහුගේ සගයන් සොයා ගන්නා ලදී.
අනෙකුත් පර්යේෂකයන් දැන් R1 නිර්මාණය කිරීමට භාවිතා කළ ක්රම, පවතින LLM වල තර්කන-මය හැකියාවන් වැඩි දියුණු කිරීමටත්, ගණිතය සහ කේතීකරණයෙන් ඔබ්බට ගිය වසම් දක්වා ඒවා දීර්ඝ කිරීමටත් උත්සාහ කරමින් සිටින බව ටන්ස්ටෝල් පවසයි. එමගින්, R1 “විප්ලවයක් ආරම්භ කර” ඇති බව ඔහු වැඩිදුරටත් පැවසීය.





ප්රතිචාරයක් ලබාදෙන්න