مدل هوش مصنوعی دیپ‌سیک V3.1 با پنجره محتوایی بزرگ‌تر انتشار شد_آفتاب وطن

1755700323 مدل هوش مصنوعی دیپ‌سیک V31 با پنجره محتوایی بزرگ‌تر انتشار.webp

[ad_1]
به گزارش آفتاب وطن

شرکت چینی دیپ‌سیک نسخه ۳.۱ مدل بزرگ زبانی خود را معارفه کرد که با افزایش طول پنجره متنی تا ۱۲۸ هزارتوکن و افزایش تعداد پارامترها به ۶۸۵ میلیارد، توانایی پردازش و کارکرد مدل را به‌شکل قابل توجهی بهبود داده است.

تغییرات نسخه ۳.۱ دیپ‌سیک

بر پایه گزارش‌ها ویژگی نزدیک دیپ‌سیک V3.1، توانایی مدیریت متن‌های طویل است؛ این مدل اکنون قادر است اطلاعات معادل یک کتاب ۳۰۰ تا ۴۰۰ صفحه‌ای را پردازش کند. این قابلیت علتبهبود کارکرد در تشکیل محتوای طویل، تحلیل اسناد و انجام مکالمات چندمرحله‌ای می‌شود. شرکت اظهار کرده که این امکان پیش‌تر در نسخه داخلی V3 وجود داشت، اما اکنون در همه رابط‌ها به‌طور رسمی فعال شده است.

DeepSeek 3.1 هم چنان بر پایه معماری Mixture-of-Experts (MoE) ساخته شده است و فقط ۳۷ میلیارد پارامتر در هر توکن فعال می‌شود. این مدل از فرمت‌های گوناگون دقت شامل BF16 ،FP8 و F32 حمایتمی‌کند تا در محیط‌های متنوع انعطاف‌پذیری بیشتری داشته باشد. گسترش‌دهندگان می‌توانند از طریق API یا از طریق Hugging Face به این مدل دسترسی اشکار کنند.

در برسی‌های اولیه، دیپ‌سیک V3.1 با کسب امتیاز ۷۱.۶ درصد در آزمون کدنویسی Aider، عملکردی بالاتر از Claude Opus 4 داشت و به یکی از نیرومندترین مدل‌های متن‌باز برای برنامه‌نویسی تبدیل شد. این مدل این چنین در حل مسائل ریاضی و منطقی پیشرفت چشمگیری نشان داد، اگرچه برخی کاربران تحول قابل توجهی در توانایی استدلال آن نسبت به مدل R1-0528 قبلی مشاهده نکردند.

شرکت دیپ‌سیک همه ارجاعات به مدل R1 را از رابط چت‌بات حذف کرده و به سمت معماری هیبریدی پیش رفته است. قابلیت‌های استدلال اکنون در V3.1 ادغام شده‌اند و دیگر نیازی به مدل جداگانه نیست. هزینه آموزش این نسخه تا این مدت اشکار نشده، اما نسخه مهم V3 با منفعت گیری از ۲.۷۸۸ میلیون ساعت GPU روی تراشه‌های انویدیا H800 و با هزینه تقریبی ۵.۶ میلیون دلار آموزش داده شده می بود که پایه‌ای برای نسخه تازه به‌شمار می‌رود.

در شرایطی که انتظار می‌رفت مدل بعدی R2 با تمرکز بر بهبود توانمندیهای استدلال انتشار شود، دیپ‌سیک اکنون نسخه V3.1 را انتشار کرده است. گزارش‌ها مشخص می کند که مشکلات فنی تراشه‌های Huawei Ascend جهت تأخیر در اراعه R2 شده است. انگارً آموزش مدل روی تراشه‌های Ascend به‌علت ناسازگاری‌ها پیروزی‌آمیز نبوده و شرکت ناچار شده از پردازشگرهای گرافیکی انویدیا برای آموزش منفعت گیری کند و Ascend را تنها برای استنتاج نگه دارد. این رویکرد ترکیبی علتپیچیدگی و کندی روال گسترش شده و اراعه را به تعویق انداخته است.

تا زمان اراعه مدل دیپ‌سیک R2، نسخه V3.1 به‌گفتن پرچمدار جاری دیپ‌سیک باقی می‌ماند و قادر است هم ماموریت های استدلالی و هم غیراستدلالی را در یک چارچوب یکپارچه اجرا و مدیریت کند.

دسته بنی مطالب

خبرهای ورزشی

اخبار پزشکی

اخبار اجتماعی

اخبار فرهنگی

کسب وکار

تازه‌ترین اخبار و تحلیل‌ها درباره انتخابات، سیاست، اقتصاد، ورزش، حوادث، فرهنگ و گردشگری را در آفتاب وطن بخوانید.

اخبار فناوری

[ad_2]