کاهش دقت ChatGPT در پاسخ به مسائل ریاضی در چهار ماه گذشته

به نظر می‌رسد دقت ChatGPT مبتنی بر هوش مصنوعی OpenAI با گذشت زمان بدتر می‌شود.

تیر ۳۰, ۱۴۰۲آخرین به روز رسانی: تیر ۳۰, ۱۴۰۲

۰ ۶۳ خواندن این مطلب 1 دقیقه زمان میبرد

کاهش دقت ChatGPT در پاسخ به مسائل ریاضی در چهار ماه گذشته

برخی از پاسخ‌های ChatGPT نشان داده‌اند که دقت این ربات چت در چند ماه گذشته کاهش یافته است و محققان نمی‌توانند دلیل آن را بفهمند.

در مطالعه‌ای در ۱۸ ژوئیه، محققان استنفورد و دانشگاه برکلی دریافتند که دقت جدیدترین مدل‌های ChatGPT در عرض چند ماه افت کرده و در مقایسه با قبل کمتر قادر به ارائه پاسخ‌های دقیق به مجموعه‌ای از سؤالات یکسان شده‌اند.

نویسندگان این مطالعه نتوانستند پاسخ روشنی در مورد اینکه چرا قابلیت‌های ChatGPT هوش مصنوعی بدتر شده است، ارائه دهند.

محققین Lingjiao Chen، Matei Zaharia و James Zou برای آزمایش اینکه مدل‌های مختلف ChatGPT چقدر قابل اعتماد هستند، از مدل‌های ChatGPT-3.5 و ChatGPT-4 برای حل یک سری مسائل ریاضی، پاسخ به سؤالات حساس، نوشتن خطوط جدید کد و انجام استدلال فضایی درخواست کردند.

طبق تحقیقات انجام شده، ChatGPT-4 در ماه مارس قادر به شناسایی اعداد اول با دقت ۹۷/۶ درصد بود. در همان آزمایشی که در ژوئن انجام شد، دقت GPT-4 به تنها ۲/۴ درصد کاهش یافت.

در مقابل، مدل قبلی GPT-3.5 در شناسایی اعداد اول در همان چارچوب زمانی بهبود یافته بود.

وقتی نوبت به تولید کدهای جدید رسید، توانایی‌های هر دو مدل بین مارس و ژوئن به میزان قابل‌توجهی کاهش یافته بود.

این مطالعه همچنین نشان داد که پاسخ‌های ChatGPT به سؤالات حساس–با تمرکز بر قومیت و جنسیت–بعداً مختصر شده و در مواردی از پاسخگویی امتناع کرده است.

در موارد قبلی چت بات استدلالی ارائه داد برای اینکه چرا نمی‌تواند به برخی سؤالات حساس پاسخ دهد. با این حال، در ماه ژوئن، مدل‌ها چت‌بات از کاربر عذرخواهی کردند و از پاسخ دادن خودداری کردند.

محققان با اشاره به نیاز به نظارت مستمر بر کیفیت مدل هوش مصنوعی نوشتند: «رفتار مدل‌های زبان بزرگ می‌تواند در مدت‌زمان نسبتاً کوتاهی تغییر کند.»

محققان به کاربران و شرکت‌هایی که به خدمات LLM به‌عنوان جزئی از پروسه کار خود متکی هستند، توصیه کرد نوعی تحلیل نظارتی را برای اطمینان از به‌روز ماندن ChatGPT انجام دهند.

در ۶ ژوئن، OpenAI از برنامه‌های خود برای ایجاد تیمی پرده‌برداری کرد که به مدیریت خطرات ناشی از یک سیستم هوش مصنوعی فوق هوشمند کمک می‌کند، چیزی که انتظار دارد در دهه آینده به آن برسد.

برچسب ها