نگاهی تازه به فلسفه پزشکی بیندازید.

آیا هوش مصنوعی وضعیت‌های پزشکی را بهتر از پزشکان تشخیص می‌دهد؟

0

نویسنده: شارلوت هو*

 

گروه‌های تحقیقاتی مختلفی در نیم دهه گذشته ایده هوش مصنوعی به مثابه پزشک را به بوتۀ آزمون گذاشته‌اند. در اواخر دسامبر، دانشمندان کامپیوتر با بهره‌گیری از Google و DeepMind نسخه خود از یک پزشک بالینی هوش مصنوعی ارائه کردند که می‌تواند مشکل بیمار را بر اساس علائم و با استفاده از یک مدل زبان بزرگ به نام PaLM تشخیص دهد.

بر اساس یک مقاله‌ای که در قالب پیش‌چاپ منتشر شده این گروه مدعی شده‌اند، مدل آنها در یک آزمون معیار حاوی سؤالاتی از آزمون رسمی پزشکی ایالات متحده، ۱۷ درصد از نرم افزارهای پیشرفته قبلی پیشی گرفته و امتیاز ۶۷.۶ را کسب کرده است. در آزمون دیگر این نرم‌افزار عملکرد مشابهی در مقایسۀ با پزشکان انسانی نشان داد. اما، هشدارهای زیادی دربارۀ این الگوریتم و موارد مشابه وجود دارد.

این مدل بر روی مجموعه داده‌های بیش از ۳۰۰۰ سؤال پزشکی رایج آموزش دیده و شش مجموعه دیگر از داده‌های باز موجود در مصاحبۀ پزشکی، از جمله معاینات و پژوهش‌های در آموزش آن نقش داشته‌اند. در مرحله آزمایشی، پژوهشگران پاسخ‌های دو نسخه هوش مصنوعی را با پزشک انسانی مقایسه کردند و این پاسخ‌ها را از نظر دقت، واقعی بودن، مرتبط بودن، مفید بودن، سازگاری با اجماع علمی فعلی، ایمنی و سوگیری ارزیابی کردند.

آدریانا پورتر فلت، مهندس نرم‌افزاری که در گوگل کروم کار می‌کند، در توییتر خاطرنشان کرد که به نسخه‌ای از مدل که به سؤالات پزشکی مشابه حساب‌های پزشکان انسانی پاسخ می‌دهد، ویژگی اضافه شده است که «تنظیم سریع دستورالعمل (instruction prompt tuning )» نام دارد که فرآیند انسانی است که هم پرزحمت و هم فاقد مقیاس است.» در این فرآیند اصلاح دقیق عبارت سوال به شکلی دقیق چنان اصلاح می‌شود که به هوش مصنوعی اجازه می دهد اطلاعات صحیح و مرتبط را بازیابی (retrieve) کند.

در مقاله آمده است مدل «به طرز دلگرم‌کننده‌ای عمل می‌کند، اما عملکرد آن نسبت به پزشکان پایین‌تر است» و «درک زمینه (context) بالینی، یادآوری دانش و استدلال بالینی مدل با تنظیم مقیاس مدل و تنظیم سریع دستورالعمل بهبود می‌یابد». به عنوان مثال، هر نسخه از هوش مصنوعی اطلاعات مهمی را از دست داده و محتوای نادرست یا نامناسب را با نرخ بالاتری نسبت به انسانی در پاسخ‌های خود گنجانده است.

مدل‌های زبان در تجزیه اطلاعات با پیچیدگی و حجم بیشتر بهتر می‌شوند. و به نظر می رسد که آنها با وظایفی که نیاز به دانش و استدلال علمی دارند خوب عمل می‌کنند. چندین مدل کوچک، از جمله SciBERT و PubMedBERT، مرزهای مدل‌های زبان را برای درک متون مملو از اصطلاحات و اصطلاحات تخصصی جابجا کرده‌اند.

اما در زمینه‌های علوم زیست پزشکی ، عوامل پیچیده و ناشناختۀ بسیاری وجود دارند. پرسش این است که اگر هوش مصنوعی اشتباه کند، چه کسی مسئولیت اشتباه را بر عهده می گیرد؟ آیا زمانی که بسیاری از الگوریتم ها مانند جعبه سیاه کار می کنند، چگونه می‌توان منبع خطا را به ردیابی کرد؟ افزون بر این، الگوریتم‌هایی که برنامه‌نویسان وارد رایانه می‌کنند و دستورالعمل‌های ریاضی هستند، ناقص هستند و به داده های بیشتر برای تکمیل و تصحیح نیاز دارند، که همیشه برای شرایط مختلف در جمعیت های مختلف در دسترس نیست. بعلاوه، خرید و سازماندهی داده‌های مرتبط با سلامت می‌تواند پرهزینه باشد.

پاسخ صحیح به سوالات در آزمون استاندارد چند گزینه‌ای، به معنای هوشمندی مدل نیست و اگر یک مورد بالینی واقعی ارائه شود، ممکن است توانایی تحلیلی کامپیوتر کم باشد. بنابراین در حالی که این آزمایش ها روی کاغذ چشمگیر به نظر می رسند، بیشتر این هوش مصنوعی ها برای استقرار در محیط واقعی آماده نیستند. پروژه سلامت واتسون AI IBM را در نظر بگیرید. حتی با وجود میلیون ها دلار سرمایه‌گذاری، باز هم مشکلات متعددی داشت و در مقیاس به اندازه کافی کاربردی یا انعطاف پذیر نبود (در نهایت متلاشی، قطعاتش از هم باز و فروخته شد).

گوگل و دیپ مایند محدودیت‌های این فناوری را تشخیص می دهند. در مقاله اذعان شده است که هنوز چندین زمینه وجود دارد برای توسعه و بهبود وجود دارد تا مدل واقعاً مفید و کارآمد باشد، مانند زمینه‌سازی پاسخ ها، روزآمدسازی در منابع پزشکی و تشخیص و برقراری ارتباط دربارۀ عدم قطعیت‌ها به طور موثر با عامل انسانی پزشک یا بیمار.

 

منبع: Popular Science

شارلوت دستیار سردبیر در Popular Science است. او علاقه مند به درک چگونگی تغییر رابطه ما با فناوری و نحوه زندگی آنلاین ما است.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.