دانشمندان کشف کردهاند که مدلهای پیشرفته هوش مصنوعی، حتی زمانی که هیچ تصویری به آنها نشان داده نمیشود، با اطمینان کامل جزئیات خیالی را توصیف میکنند؛ این پدیده که در بیش از ۶۰ درصد موارد رخ میدهد، زنگ خطری برای کاربرد هوش مصنوعی در تشخیص پزشکی است.
به گزارش ایرنا، وبگاه تِکاِکسپلور در گزارشی آورده است:
چند سال پیش، خبرهایی منتشر شد مبنی بر اینکه هوش مصنوعی ممکن است بهزودی به رادیولوژیستها در تفسیر عکسهای شکستگی استخوان و تحلیل ماموگرافی کمک کند. اما یک مطالعه جدید نشان میدهد که هنوز تا رسیدن به این هدف فاصله زیادی داریم.
گروهی از پژوهشگران دانشگاه استنفورد آزمایشی به نام فانتوم- صفر (Phantom-0) طراحی کردند. آنها از جدیدترین مدلهای هوش مصنوعی مانند جیپیتی- ۵، جمینای ۳ پرو، کلود سونت ۴.۵ و کلود اپوس ۴.۵ سوالات بسیار دقیقی درباره تصاویر پرسیدند، اما هیچ تصویری در اختیار آنها قرار ندادند.
نتایج شگفتانگیز بود: مدلهای هوش مصنوعی به جای اینکه بپذیرند چیزی نمیبینند، با اطمینان کامل جزئیات خیالی را توصیف کردند. از شماره پلاک ماشین و زبان یک روزنامه گرفته تا شرایط تهدیدکننده حیات که اصلاً وجود نداشتند.
به طور متوسط، این رفتار در بیش از ۶۰ درصد موارد در میان مدلهای پیشرفته مشاهده شد.
در پنج سال گذشته، پیشرفت چشمگیری در مدلهای هوش مصنوعی که هم متن و هم تصویر را پردازش میکنند، دیده شده است. این قابلیت چندوجهی کاربردهایی در پزشکی و رباتیک پیدا کرده است. بیش از ۲۳۰ میلیون نفر روزانه سوالات مربوط به حوزه سلامت را از هوش مصنوعی میپرسند.
برای سنجش عملکرد این مدلها، آزمونهای استانداردی طراحی شده است. فرض اولیه این است که نمره بالاتر به معنای درک بصری بهتر است؛ اما این مطالعه جدید، این سامانه ارزیابی را زیر سؤال میبرد.
آزمایشها نشان داد مدلهای هوش مصنوعی حتی زمانی که تصاویر کاملاً حذف شده بودند، نمرات به طرز شگفتآور خوبی در آزمونهای بصری کسب کردند.
گروه پژوهشی یک قدم فراتر رفت و یک مدل فقط متنی (بدون دسترسی به دادههای بصری) را برای پاسخ به سؤالات مربوط به عکسهای قفسه سینه آموزش داد.
نتیجه شگفتآور بود: این مدل متنی در یک آزمون استاندارد تفسیر عکس قفسه سینه، هم از سامانههای پیشرفته هوش مصنوعی و هم از پزشکان انسانی بهتر عمل کرد.
این یافتهها نشان میدهد که سامانههای ارزیابی فعلی ممکن است بیش از حد به الگوهای متنی تکیه کنند تا درک بصری واقعی.
پژوهشگران الگوی جالب دیگری نیز مشاهده کردند: وقتی به مدل هوش مصنوعی به صراحت گفته میشد که تصویری وجود ندارد و از او خواسته میشد حدس بزند، دقت پاسخها بهشدت کاهش مییافت.
اما وقتی سؤال به گونهای پرسیده میشد که مدل تصور میکرد تصویری وجود دارد، وارد حالت سراب میشد و عملکردش بهبود مییافت، زیرا میتوانست از سرنخها و الگوهای پنهان متنی برای تولید پاسخ استفاده کند.
پژوهشگران بر نیاز فوری به معیارهای ارزیابی بهتر و امنتر، بهویژه در محیطهای پزشکی که پاسخهای ساختگی میتوانند عواقب جدی داشته باشند، تأکید میکنند.
آنها روش ارزیابی جدیدی به نام بی-کلین (B-Clean) را بهعنوان راهحلی بالقوه معرفی کردند. این روش سؤالاتی را که بدون تصویر قابل پاسخگویی هستند، حذف میکند و مدلهای چندوجهی را بر اساس درک بصری واقعی آزمایش میکند، نه بر اساس حدسهای از روی سرنخهای متنی.
برای تعیین اینکه آیا بی-کلین و روشهای مشابه میتوانند به طور مؤثر پدیده سراب را حذف کنند، به مطالعات بیشتری نیاز است.