خطر ارائه اطلاعات نادرست پزشکی در چت‌بات‌ها

مطالعه‌ جدیدی نشان می‌دهد نیمی از پاسخ‌های چت‌بات‌های محبوب به سؤالات پزشکی نادرست یا ناقص است و خطر گسترش اطلاعات غلط را افزایش می‌دهد.

به گزارش پایگاه خبری سیمای شهرآنلاین؛نتایج یک مطالعه منتشرشده در مجله BMJ Open نشان می‌دهد که حجم قابل‌توجهی از اطلاعات پزشکی ارائه‌شده توسط پنج چت‌بات محبوب، نادرست و ناقص است و نیمی از پاسخ‌ها به سؤالات شفاف بر اساس شواهد علمی تا حدی یا شدیداً مشکل‌دار ارزیابی شده است. پژوهشگران هشدار داده‌اند که ادامه استفاده از این چت‌بات‌ها بدون آموزش عمومی و نظارت کافی، خطر گسترش اطلاعات نادرست را افزایش می‌دهد.

به گفته محققان، چت‌بات‌های مولد هوش مصنوعی به سرعت در حوزه‌های پژوهش، آموزش، کسب‌وکار، بازاریابی و پزشکی مورد استقبال قرار گرفته‌اند و بسیاری از مردم از آن‌ها مانند موتورهای جستجو برای پرسش‌های روزمره سلامت و پزشکی استفاده می‌کنند. محققان برای سنجش میزان دقت اطلاعات در حوزه‌های سلامت و پزشکی که از قبل مستعد اطلاعات نادرست هستند، در فوریه ۲۰۲۵ پنج چت‌بات مولد هوش مصنوعی محبوب و در دسترس عموم از جمله جمینای، دیپ‌سیک، متال ای‌آی، چت جی‌پی‌تی و گروک ر را مورد آزمایش قرار دادند.

به هر چت‌بات در پنج دسته سرطان، واکسن‌ها، سلول‌های بنیادی، تغذیه و عملکرد ورزشی، ۱۰ سؤال باز و بسته داده شد. سؤالات به‌گونه‌ای طراحی شده بودند که شبیه پرسش‌های رایج جستجوی اطلاعات سلامت و پزشکی و همچنین روایت‌های نادرست رایج در فضای آنلاین و مباحث علمی باشد. محققان تأکید می‌کنند که این پرسش‌ها برای فشار آوردن مدل‌ها به سمت اطلاعات نادرست یا توصیه‌های منع‌شده طراحی شده بودند؛ استراتژی که به طور فزاینده‌ای برای آزمایش استرس چت‌بات‌های هوش مصنوعی و شناسایی آسیب‌پذیری‌های رفتاری استفاده می‌شود.

پرسش‌های بسته نیازمند پاسخ‌های از پیش تعریف‌شده، اغلب با یک پاسخ صحیح، بودند که با اجماع علمی هماهنگی داشت. پرسش‌های باز نیز معمولاً نیازمند پاسخ‌های چندگانه در قالب فهرست بودند. پاسخ‌ها با استفاده از معیارهای عینی از پیش تعیین‌شده در سه دسته بدون مشکل، تا حدی مشکل‌دار و شدیداً مشکل‌دار طبقه‌بندی شدند. پاسخ مشکل‌دار به پاسخی گفته می‌شد که می‌توانست کاربران عادی را به سمت درمان‌های بالقوه ناکارآمد هدایت کند یا در صورت پیروی بدون راهنمایی حرفه‌ای، به آن‌ها آسیب برساند.

محققان همچنین بررسی کردند که آیا چت‌بات بدون توجه به قدرت شواهد علمی، تعادل نادرستی بین ادعاهای علمی و غیرعلمی برقرار می‌کند یا خیر. افزون بر این، خوانایی هر پاسخ نیز ارزیابی شد.

نیمی از پاسخ‌ها مشکل‌دار بود؛ از مجموع پاسخ‌ها، ۵۰ درصد مشکل‌دار ارزیابی شدند که ۳۰ درصد تا حدی مشکل‌دار و ۲۰ درصد شدیداً مشکل‌دار بودند. پرسش‌های باز به‌طور قابل‌توجهی پاسخ‌های شدیداً مشکل‌دار بیشتری تولید کردند (۴۰ پاسخ) و پاسخ‌های بدون مشکل کمتری (۵۱ پاسخ). وضعیت معکوس برای پرسش‌های بسته صادق بود.

محققان به این نتیجه رسیدند که عملکرد چت‌بات‌ها متفاوت بود، اگرچه کیفیت پاسخ‌ها در میان پنج چت‌بات تفاوت معناداری نداشت، اما گروک به‌طور قابل‌توجهی بیشترین پاسخ‌های شدیداً مشکل‌دار را تولید کرد (۲۹ پاسخ از ۵۰ پاسخ؛ ۵۸ درصد). در مقابل، جمینای کمترین تعداد پاسخ‌های شدیداً مشکل‌دار و بیشترین پاسخ‌های بدون مشکل را داشت.

همچنین، چت‌بات‌ها در حوزه واکسن و سرطان بهترین عملکرد را داشتند و در حوزه‌های سلول‌های بنیادی، عملکرد ورزشی و تغذیه ضعیف‌ترین عملکرد را نشان دادند. پاسخ‌ها همواره با اعتماد و قطعیت کامل بیان می‌شدند و به‌ندرت شامل توضیح یا هشدار بودند. از مجموع ۲۵۰ سؤال، تنها دو مورد خودداری از پاسخ مشاهده شد که هر دو مربوط به متا ای‌آی در پاسخ به سؤالات درباره استروئیدهای آنابولیک و درمان‌های جایگزین سرطان بود.

کیفیت منابع ارائه‌شده پایین بود و میانگین نمره کامل بودن تنها ۴۰ درصد بود. توهمات و استنادات جعلی چت‌بات‌ها باعث شد هیچ یک از آن‌ها فهرست ارجاعات کاملاً دقیقی ارائه ندهد. تمام نمرات خوانایی در سطح دشوار ارزیابی شد که از نظر پیچیدگی معادل متن مناسب برای دانش‌آموختگان دانشگاهی است.

حققان اذعان می‌کنند که تنها پنج چت‌بات را ارزیابی کرده‌اند و هوش مصنوعی تجاری به‌سرعت در حال تحول است، بنابراین یافته‌های آن‌ها ممکن است به‌طور جهانی قابل تعمیم نباشد. همچنین رویکرد آن‌ها برای طراحی پرسش‌های عمداً خصمانه ممکن است شیوع محتوای مشکل‌دار را بیش از حد واقعی نشان داده باشد.

پژوهشگران تأکید می‌کنند که یافته‌های آن‌ها در مورد دقت علمی، کیفیت ارجاعات و خوانایی پاسخ‌ها، محدودیت‌های رفتاری مهمی را نشان می‌دهد و نیاز به بازنگری در نحوه استفاده از چت‌بات‌های هوش مصنوعی در ارتباطات سلامت و پزشکی عمومی وجود دارد.

به گفته آن‌ها، چت‌بات‌ها به‌طور پیش‌فرض به داده‌های لحظه‌ای دسترسی ندارند، بلکه با استنباط الگوهای آماری از داده‌های آموزشی خود و پیش‌بینی توالی کلمات محتمل، خروجی تولید می‌کنند. آن‌ها استدلال نمی‌کنند، شواهد را وزن نمی‌کنند و قادر به قضاوت اخلاقی یا ارزشی نیستند. این محدودیت رفتاری به این معناست که چت‌بات‌ها می‌توانند پاسخ‌های معتبر به‌نظر برسند اما در عین حال عمیقاً مشکل‌دار باشند.

داده‌هایی که چت‌بات‌ها از آن استفاده می‌کنند شامل انجمن‌های پرسش و پاسخ و رسانه‌های اجتماعی نیز می‌شود، دسترسی چت‌بات‌ها به محتوای علمی به مقاله‌های رایگان و عمومی محدود می‌شود در حالی که چنین مقاله‌هایی فقط ۳۰ تا ۵۰ درصد از کل مطالعات منتشرشده را تشکیل می‌دهد. به عبارت دیگر، چت‌بات به نیمی از دانش علمی جهان دسترسی ندارد.

پژوهشگران در پایان هشدار می‌دهند: « با گسترش روزافزون استفاده از چت‌بات‌های هوش مصنوعی، یافته‌های ما نشان می‌دهد که آموزش عمومی، تربیت حرفه‌ای و نظارت قانونی ضرورتی انکارناپذیر است تا اطمینان حاصل شود که هوش مصنوعی مولد از سلامت عمومی حمایت می‌کند، نه آن را به مخاطره می‌اندازد.»