ادعاها درباره استفاده DeepSeek از داده های مدل های هوش مصنوعی گوگل | فارسی جی‌ پی‌ تی نسخه فارسی Chat GPT
ادعاها درباره استفاده DeepSeek از داده های مدل های هوش مصنوعی گوگل

ادعاها درباره استفاده DeepSeek از داده های مدل های هوش مصنوعی گوگل

۱۴۰۴-۰۳-۱۴
0 نظرات نرگس محمدزاده

3 دقیقه

استارت‌آپ رو به رشد DeepSeek اخیراً جدیدترین مدل هوش مصنوعی خود به نام R1 را معرفی کرده است؛ مدلی که بر اساس ارزیابی‌ها عملکرد قابل توجهی در استدلال ریاضی و انجام وظایف برنامه‌نویسی از خود نشان داده است. با این حال، منابع داده‌های استفاده شده برای آموزش مدل R1 به‌صورت عمومی منتشر نشده و همین مسئله باعث شده تا برخی پژوهشگران هوش مصنوعی گمانه‌زنی کنند که بخشی از داده‌ها ممکن است از مدل‌های Gemini گوگل استخراج شده باشد.

اتهامات مربوط به استفاده از داده‌ها سام پیچ، توسعه‌دهنده اهل ملبورن که به طراحی ارزیابی برای سنجش «هوش هیجانی» مدل‌های هوش مصنوعی شهرت دارد، مدعی است شواهدی در اختیار دارد که نشان می‌دهد مدل R1-0528 دیپ‌سیک گرایش به واژگان و ساختارهایی دارد که مختص مدل Gemini 2.5 Pro هستند. او در شبکه اجتماعی X اعلام کرده است که الگوهای زبانی منتخب در مدل R1-0528 با الگوهای مشابه در Gemini 2.5 Pro تطابق دارند. گرچه ادعای پیچ به‌تنهایی اثبات قطعی محسوب نمی‌شود، اما توسعه‌دهنده دیگری با نام مستعار SpeechMap که روی ارزیابی «آزادی بیان» در مدل‌های هوش مصنوعی کار می‌کند، اشاره کرده است که الگوهای پردازش و استدلال مدل‌های DeepSeek هنگام ارائه پاسخ‌ها، شباهت زیادی با مدل‌های Gemini دارد.

زمینه تاریخی و اتهامات پیشین این نخستین بار نیست که DeepSeek با اتهاماتی درباره روش‌های آموزش مدل‌های هوش مصنوعی خود مواجه می‌شود. پیش‌تر نیز برخی توسعه‌دهندگان گزارش داده‌اند که مدل V3 این شرکت گاهی خود را به عنوان ChatGPT معرفی می‌کند که می‌تواند نشان‌دهنده استفاده از داده‌های مکالمه ChatGPT در فرایند آموزش باشد. OpenAI نیز پیش‌تر اعلام کرده شواهدی وجود دارد که DeepSeek از روش «تقطیر» (Distillation) برای آموزش مدل‌هایش بهره می‌برد؛ روشی که در آن داده‌ها از مدل‌هایی قدرتمندتر استخراج شده و برای بهبود مدل‌های کوچک‌تر به‌کار می‌رود.

چالش‌های آموزش مدل‌های هوش مصنوعی جامعه هوش مصنوعی اذعان دارد که بسیاری از مدل‌ها ممکن است ناخواسته نام خود را اشتباه معرفی کنند یا الگوهای زبانی مشابهی انتخاب کنند؛ چرا که بخش عمده‌ای از محتوای اینترنت، که گزینش اصلی برای آموزش مدل‌های زبانی هوش مصنوعی است، توسط مدل‌های دیگر تولید شده و همین امر سبب همپوشانی در رفتار و زبان مدل‌ها می‌شود. این اشباع داده‌ها تشخیص مدل‌هایی که به‌طور مستقل توسعه یافته‌اند را از مدل‌هایی که احتمالاً از مدل‌های موجود الهام یا تأثیر پذیرفته‌اند، دشوار می‌کند.

جمع‌بندی ادعاها درباره نحوه آموزش مدل R1 دیپ‌سیک بار دیگر پیچیدگی‌ها و ملاحظات اخلاقی مربوط به آموزش مدل‌های هوش مصنوعی را برجسته می‌کند. با پیشرفت و رشد سریع این حوزه، شفافیت درباره منابع داده و روش‌های آموزش برای حفظ اعتماد و انسجام جامعه هوش مصنوعی ضروری است. تداوم نظارت و گفت‌وگوها، نقش مهمی در رفع ابهامات و تضمین توسعه مسئولانه فناوری‌های هوش مصنوعی خواهد داشت.

منبع: smarti

عاشق دنبال کردن تازه‌ترین اتفاقات در دنیای هوش مصنوعی هستم. هر روز ساعت‌ها وقت می‌ذارم تا بدونید شرکت‌های بزرگ دنیا چه پروژه‌هایی رو دارن جلو می‌برن و چطور AI داره دنیامون رو تغییر می‌ده.

نظرات

ارسال نظر

مطالب مرتبط