مدل هوش مصنوعی دیپسیک V3.1 با پنجره محتوایی بزرگتر انتشار شد_آفتاب وطن
                 [ad_1]
به گزارش آفتاب وطن
شرکت چینی دیپسیک نسخه ۳.۱ مدل بزرگ زبانی خود را معارفه کرد که با افزایش طول پنجره متنی تا ۱۲۸ هزارتوکن و افزایش تعداد پارامترها به ۶۸۵ میلیارد، توانایی پردازش و کارکرد مدل را بهشکل قابل توجهی بهبود داده است.
تغییرات نسخه ۳.۱ دیپسیک
بر پایه گزارشها ویژگی نزدیک دیپسیک V3.1، توانایی مدیریت متنهای طویل است؛ این مدل اکنون قادر است اطلاعات معادل یک کتاب ۳۰۰ تا ۴۰۰ صفحهای را پردازش کند. این قابلیت علتبهبود کارکرد در تشکیل محتوای طویل، تحلیل اسناد و انجام مکالمات چندمرحلهای میشود. شرکت اظهار کرده که این امکان پیشتر در نسخه داخلی V3 وجود داشت، اما اکنون در همه رابطها بهطور رسمی فعال شده است.
DeepSeek 3.1 هم چنان بر پایه معماری Mixture-of-Experts (MoE) ساخته شده است و فقط ۳۷ میلیارد پارامتر در هر توکن فعال میشود. این مدل از فرمتهای گوناگون دقت شامل BF16 ،FP8 و F32 حمایتمیکند تا در محیطهای متنوع انعطافپذیری بیشتری داشته باشد. گسترشدهندگان میتوانند از طریق API یا از طریق Hugging Face به این مدل دسترسی اشکار کنند.
در برسیهای اولیه، دیپسیک V3.1 با کسب امتیاز ۷۱.۶ درصد در آزمون کدنویسی Aider، عملکردی بالاتر از Claude Opus 4 داشت و به یکی از نیرومندترین مدلهای متنباز برای برنامهنویسی تبدیل شد. این مدل این چنین در حل مسائل ریاضی و منطقی پیشرفت چشمگیری نشان داد، اگرچه برخی کاربران تحول قابل توجهی در توانایی استدلال آن نسبت به مدل R1-0528 قبلی مشاهده نکردند.
شرکت دیپسیک همه ارجاعات به مدل R1 را از رابط چتبات حذف کرده و به سمت معماری هیبریدی پیش رفته است. قابلیتهای استدلال اکنون در V3.1 ادغام شدهاند و دیگر نیازی به مدل جداگانه نیست. هزینه آموزش این نسخه تا این مدت اشکار نشده، اما نسخه مهم V3 با منفعت گیری از ۲.۷۸۸ میلیون ساعت GPU روی تراشههای انویدیا H800 و با هزینه تقریبی ۵.۶ میلیون دلار آموزش داده شده می بود که پایهای برای نسخه تازه بهشمار میرود.
در شرایطی که انتظار میرفت مدل بعدی R2 با تمرکز بر بهبود توانمندیهای استدلال انتشار شود، دیپسیک اکنون نسخه V3.1 را انتشار کرده است. گزارشها مشخص می کند که مشکلات فنی تراشههای Huawei Ascend جهت تأخیر در اراعه R2 شده است. انگارً آموزش مدل روی تراشههای Ascend بهعلت ناسازگاریها پیروزیآمیز نبوده و شرکت ناچار شده از پردازشگرهای گرافیکی انویدیا برای آموزش منفعت گیری کند و Ascend را تنها برای استنتاج نگه دارد. این رویکرد ترکیبی علتپیچیدگی و کندی روال گسترش شده و اراعه را به تعویق انداخته است.
تا زمان اراعه مدل دیپسیک R2، نسخه V3.1 بهگفتن پرچمدار جاری دیپسیک باقی میماند و قادر است هم ماموریت های استدلالی و هم غیراستدلالی را در یک چارچوب یکپارچه اجرا و مدیریت کند.
دسته بنی مطالب
[ad_2]