کاهش دقت ChatGPT در پاسخ به مسائل ریاضی در چهار ماه گذشته
به نظر میرسد دقت ChatGPT مبتنی بر هوش مصنوعی OpenAI با گذشت زمان بدتر میشود.
برخی از پاسخهای ChatGPT نشان دادهاند که دقت این ربات چت در چند ماه گذشته کاهش یافته است و محققان نمیتوانند دلیل آن را بفهمند.
در مطالعهای در ۱۸ ژوئیه، محققان استنفورد و دانشگاه برکلی دریافتند که دقت جدیدترین مدلهای ChatGPT در عرض چند ماه افت کرده و در مقایسه با قبل کمتر قادر به ارائه پاسخهای دقیق به مجموعهای از سؤالات یکسان شدهاند.
نویسندگان این مطالعه نتوانستند پاسخ روشنی در مورد اینکه چرا قابلیتهای ChatGPT هوش مصنوعی بدتر شده است، ارائه دهند.
محققین Lingjiao Chen، Matei Zaharia و James Zou برای آزمایش اینکه مدلهای مختلف ChatGPT چقدر قابل اعتماد هستند، از مدلهای ChatGPT-3.5 و ChatGPT-4 برای حل یک سری مسائل ریاضی، پاسخ به سؤالات حساس، نوشتن خطوط جدید کد و انجام استدلال فضایی درخواست کردند.
طبق تحقیقات انجام شده، ChatGPT-4 در ماه مارس قادر به شناسایی اعداد اول با دقت ۹۷/۶ درصد بود. در همان آزمایشی که در ژوئن انجام شد، دقت GPT-4 به تنها ۲/۴ درصد کاهش یافت.
در مقابل، مدل قبلی GPT-3.5 در شناسایی اعداد اول در همان چارچوب زمانی بهبود یافته بود.
وقتی نوبت به تولید کدهای جدید رسید، تواناییهای هر دو مدل بین مارس و ژوئن به میزان قابلتوجهی کاهش یافته بود.
این مطالعه همچنین نشان داد که پاسخهای ChatGPT به سؤالات حساس–با تمرکز بر قومیت و جنسیت–بعداً مختصر شده و در مواردی از پاسخگویی امتناع کرده است.
در موارد قبلی چت بات استدلالی ارائه داد برای اینکه چرا نمیتواند به برخی سؤالات حساس پاسخ دهد. با این حال، در ماه ژوئن، مدلها چتبات از کاربر عذرخواهی کردند و از پاسخ دادن خودداری کردند.
محققان با اشاره به نیاز به نظارت مستمر بر کیفیت مدل هوش مصنوعی نوشتند: «رفتار مدلهای زبان بزرگ میتواند در مدتزمان نسبتاً کوتاهی تغییر کند.»
محققان به کاربران و شرکتهایی که به خدمات LLM بهعنوان جزئی از پروسه کار خود متکی هستند، توصیه کرد نوعی تحلیل نظارتی را برای اطمینان از بهروز ماندن ChatGPT انجام دهند.
در ۶ ژوئن، OpenAI از برنامههای خود برای ایجاد تیمی پردهبرداری کرد که به مدیریت خطرات ناشی از یک سیستم هوش مصنوعی فوق هوشمند کمک میکند، چیزی که انتظار دارد در دهه آینده به آن برسد.