تیمی تحقیقاتی از دانشگاه کالیفرنیا برکلی به رهبری جیایی پان، دانشجوی دکتری، ادعا میکند که توانسته است فناوریهای اصلی دیپسیک R1-Zero را با تنها ۳۰ دلار بازتولید کند و نشان دهد که مدلهای پیشرفتهی هوش مصنوعی را میتوان با هزینهای بسیار کم پیادهسازی کرد.
به گفتهی پان در پلتفرم Nitter، این تیم مدل دیپسیک R1-Zero را در بازی Countdown بازتولید کردهاند. این مدل زبانی کوچک که ۳ میلیارد پارامتر دارد، با استفاده از یادگیری تقویتی، قابلیتهایی مانند خودبازبینی و جستوجو را توسعه داده است.
پان توضیح داد که تیمش کار را با مدل زبانی پایه و پرامپت اولیه (نقطه شروع برای مدل زبانی) و پاداش مبتنیبر دادههای صحیح آغاز کرد. سپس، فرایند یادگیری تقویتی را براساس بازی Countdown اجرا کردند. بازی Countdown از برنامهی تلویزیونی بریتانیایی الهام گرفته شده که در آن بازیکنان باید با استفاده از عملیات ریاضی ساده، عددی تصادفی را با ترکیب مجموعهای از اعداد دادهشده پیدا کنند.
در ابتدای پروژهی تیم تحقیقاتی دانشگاه کالیفرنیا، مدل تنها خروجیهای تصادفی تولید میکرد؛ اما بهتدریج استراتژیهای اصلاح و جستوجو را توسعه داد تا پاسخ صحیح را بیابد. در نمونهای، مدل ابتدا جوابی را ارائه داد و سپس آن را بررسی و چندین بار اصلاح کرد تا به پاسخ درست رسید.
علاوهبر بازی Countdown، تیم دانشگاه کالیفرنیا آزمایش ضرب اعداد را نیز روی مدل اجرا کرد. مدل از ویژگی توزیعی ضرب برای تجزیه و حل گامبهگام مسائل استفاده کرد؛ مشابه روشی که برخی از افراد هنگام محاسبه ذهنی اعداد بزرگ به کار میبرند.
محققان دنشگاه کالیفرنیا آزمایش خود را با مدلهایی در مقیاسهای مختلف انجام دادند. در ابتدا، مدلی با ۵۰۰ میلیون پارامتر را آزمایش کردند که تنها پاسخ تصادفی ارائه میداد و بدون بررسی بیشتر متوقف میشد. بااینحال، با افزایش تعداد پارامترها به ۱٫۵ میلیارد، مدل روشهای پیچیدهتری برای افزایش دقت پاسخ خود یاد گرفت. در مقیاسهای ۳ تا ۷ میلیارد پارامتر، مدل میتوانست با مراحل کمتر پاسخ صحیح را پیدا کند.
نکتهی شگفتانگیز این است که تیم برکلی ادعا میکند که تنها با ۳۰ دلار این پروژه را اجرا کرده است. در مقام مقایسه، API مدلهای OpenAI برای هر میلیون توکن ورودی ۱۵ دلار هزینه دارد؛ درحالیکه هزینهی دیپسیک R1 فقط ۰٫۵۵ دلار بهازای هر میلیون توکن ورودی است؛ یعنی ۲۷ برابر ارزانتر. پان میگوید که این پروژه در راستای دسترسپذیرکردن تحقیق روی مقیاسپذیری یادگیری تقویتی انجام شده است.
-
هوش مصنوعی دیپ سیک چیست؟ آموزش استفاده از DeepSeek
-
ادامه طوفان دیپسیک؛ شرکتهای هوش مصنوعی همچنان شوکهاند
-
هوش مصنوعی چینی دیپسیک پس از بورس آمریکا، بورس استرالیا را هم قرمز کرد
بااینحال، نیتن لمبرت، متخصص یادگیری ماشینی، دربارهی هزینه واقعی دیپسیک تردید دارد. او اشاره کرده است که هزینه اعلامشده ۵ میلیون دلاری برای آموزش مدل ۶۷۱ میلیارد پارامتری تمام واقعیت را نشان نمیدهد.
لمبرت دربارهی هزینهی توسعهی دیپسیک میافزاید که هزینههایی مانند حقوق محققان و زیرساختها و برق در محاسبات لحاظ نشدهاند و او تخمین میزند که هزینهی سالانه اجرای دیپسیک AI بین ۵۰۰ میلیون تا بیش از ۱ میلیارد دلار باشد. بااینحال، این پروژه همچنان دستاوردی بزرگ محسوب میشود؛ مخصوصاً وقتی در نظر بگیریم که مدلهای آمریکایی در حال رقابت، سالانه ۱۰ میلیارد دلار برای توسعهی هوش مصنوعی هزینه میکنند.