آیا هوش مصنوعی وضعیتهای پزشکی را بهتر از پزشکان تشخیص میدهد؟
نویسنده: شارلوت هو*
گروههای تحقیقاتی مختلفی در نیم دهه گذشته ایده هوش مصنوعی به مثابه پزشک را به بوتۀ آزمون گذاشتهاند. در اواخر دسامبر، دانشمندان کامپیوتر با بهرهگیری از Google و DeepMind نسخه خود از یک پزشک بالینی هوش مصنوعی ارائه کردند که میتواند مشکل بیمار را بر اساس علائم و با استفاده از یک مدل زبان بزرگ به نام PaLM تشخیص دهد.
بر اساس یک مقالهای که در قالب پیشچاپ منتشر شده این گروه مدعی شدهاند، مدل آنها در یک آزمون معیار حاوی سؤالاتی از آزمون رسمی پزشکی ایالات متحده، ۱۷ درصد از نرم افزارهای پیشرفته قبلی پیشی گرفته و امتیاز ۶۷.۶ را کسب کرده است. در آزمون دیگر این نرمافزار عملکرد مشابهی در مقایسۀ با پزشکان انسانی نشان داد. اما، هشدارهای زیادی دربارۀ این الگوریتم و موارد مشابه وجود دارد.
این مدل بر روی مجموعه دادههای بیش از ۳۰۰۰ سؤال پزشکی رایج آموزش دیده و شش مجموعه دیگر از دادههای باز موجود در مصاحبۀ پزشکی، از جمله معاینات و پژوهشهای در آموزش آن نقش داشتهاند. در مرحله آزمایشی، پژوهشگران پاسخهای دو نسخه هوش مصنوعی را با پزشک انسانی مقایسه کردند و این پاسخها را از نظر دقت، واقعی بودن، مرتبط بودن، مفید بودن، سازگاری با اجماع علمی فعلی، ایمنی و سوگیری ارزیابی کردند.
آدریانا پورتر فلت، مهندس نرمافزاری که در گوگل کروم کار میکند، در توییتر خاطرنشان کرد که به نسخهای از مدل که به سؤالات پزشکی مشابه حسابهای پزشکان انسانی پاسخ میدهد، ویژگی اضافه شده است که «تنظیم سریع دستورالعمل (instruction prompt tuning )» نام دارد که فرآیند انسانی است که هم پرزحمت و هم فاقد مقیاس است.» در این فرآیند اصلاح دقیق عبارت سوال به شکلی دقیق چنان اصلاح میشود که به هوش مصنوعی اجازه می دهد اطلاعات صحیح و مرتبط را بازیابی (retrieve) کند.
در مقاله آمده است مدل «به طرز دلگرمکنندهای عمل میکند، اما عملکرد آن نسبت به پزشکان پایینتر است» و «درک زمینه (context) بالینی، یادآوری دانش و استدلال بالینی مدل با تنظیم مقیاس مدل و تنظیم سریع دستورالعمل بهبود مییابد». به عنوان مثال، هر نسخه از هوش مصنوعی اطلاعات مهمی را از دست داده و محتوای نادرست یا نامناسب را با نرخ بالاتری نسبت به انسانی در پاسخهای خود گنجانده است.
مدلهای زبان در تجزیه اطلاعات با پیچیدگی و حجم بیشتر بهتر میشوند. و به نظر می رسد که آنها با وظایفی که نیاز به دانش و استدلال علمی دارند خوب عمل میکنند. چندین مدل کوچک، از جمله SciBERT و PubMedBERT، مرزهای مدلهای زبان را برای درک متون مملو از اصطلاحات و اصطلاحات تخصصی جابجا کردهاند.
اما در زمینههای علوم زیست پزشکی ، عوامل پیچیده و ناشناختۀ بسیاری وجود دارند. پرسش این است که اگر هوش مصنوعی اشتباه کند، چه کسی مسئولیت اشتباه را بر عهده می گیرد؟ آیا زمانی که بسیاری از الگوریتم ها مانند جعبه سیاه کار می کنند، چگونه میتوان منبع خطا را به ردیابی کرد؟ افزون بر این، الگوریتمهایی که برنامهنویسان وارد رایانه میکنند و دستورالعملهای ریاضی هستند، ناقص هستند و به داده های بیشتر برای تکمیل و تصحیح نیاز دارند، که همیشه برای شرایط مختلف در جمعیت های مختلف در دسترس نیست. بعلاوه، خرید و سازماندهی دادههای مرتبط با سلامت میتواند پرهزینه باشد.
پاسخ صحیح به سوالات در آزمون استاندارد چند گزینهای، به معنای هوشمندی مدل نیست و اگر یک مورد بالینی واقعی ارائه شود، ممکن است توانایی تحلیلی کامپیوتر کم باشد. بنابراین در حالی که این آزمایش ها روی کاغذ چشمگیر به نظر می رسند، بیشتر این هوش مصنوعی ها برای استقرار در محیط واقعی آماده نیستند. پروژه سلامت واتسون AI IBM را در نظر بگیرید. حتی با وجود میلیون ها دلار سرمایهگذاری، باز هم مشکلات متعددی داشت و در مقیاس به اندازه کافی کاربردی یا انعطاف پذیر نبود (در نهایت متلاشی، قطعاتش از هم باز و فروخته شد).
گوگل و دیپ مایند محدودیتهای این فناوری را تشخیص می دهند. در مقاله اذعان شده است که هنوز چندین زمینه وجود دارد برای توسعه و بهبود وجود دارد تا مدل واقعاً مفید و کارآمد باشد، مانند زمینهسازی پاسخ ها، روزآمدسازی در منابع پزشکی و تشخیص و برقراری ارتباط دربارۀ عدم قطعیتها به طور موثر با عامل انسانی پزشک یا بیمار.
منبع: Popular Science
شارلوت دستیار سردبیر در Popular Science است. او علاقه مند به درک چگونگی تغییر رابطه ما با فناوری و نحوه زندگی آنلاین ما است.