عصر ایران- یکی از مقالات تولید شده در دانشگاه وست کلیف آمریکا درباره یک موضوع مهم در پزشکی و هوش مصنوعی صحبت می کند: ساخت داده های پزشکی مصنوعی برای آموزش هوش مصنوعی. این داده ها که به آن ها «پرونده الکترونیک سلامت مصنوعی» یا Synthetic EHR گفته می شود، نسخه های شبیه سازی شده از اطلاعات واقعی بیماران هستند، اما بدون این که اطلاعات واقعی یا شخصی یک فرد در آن ها وجود داشته باشد.
در دنیای پزشکی امروز، بیشتر بیمارستان ها اطلاعات بیماران را به صورت دیجیتال ذخیره می کنند. این اطلاعات شامل چیزهایی مثل بیماری ها، آزمایش خون، داروها، علائم حیاتی و حتی یادداشت های پزشک است. این مجموعه داده ها برای آموزش سیستم های هوش مصنوعی بسیار مهم هستند، چون به کمک آن ها می توان بیماری ها را پیش بینی کرد، درمان مناسب پیشنهاد داد و مدیریت بیمارستان را بهتر انجام داد.
اما یک مشکل بزرگ وجود دارد. این داده ها خیلی حساس هستند و نمی توان به راحتی آن ها را در اختیار محققان قرار داد. قوانین سخت گیرانه ای مثل قوانین حریم خصوصی در اروپا و آمریکا باعث می شود دسترسی به این داده ها محدود شود. از طرف دیگر، جمع آوری و اشتراک گذاری این اطلاعات بین بیمارستان ها هم سخت و زمان بر است. نتیجه این می شود که هوش مصنوعی در پزشکی با کمبود داده های مناسب روبه رو است.
اینجا ایده مهمی وارد می شود: استفاده از هوش مصنوعی برای ساخت داده های مصنوعی. یعنی به جای استفاده از اطلاعات واقعی بیماران، داده هایی ساخته می شود که از نظر آماری و ساختاری شبیه داده های واقعی هستند، اما به هیچ فرد واقعی تعلق ندارند. این کار باعث می شود هم مشکل کمبود داده حل شود و هم حریم خصوصی بیماران حفظ شود.
برای ساخت این داده های مصنوعی، از مدل های پیشرفته هوش مصنوعی استفاده می شود. سه مدل اصلی که در این مقاله بررسی شده اند عبارتند از:
اول مدل GAN که می تواند داده های بسیار واقعی و دقیق تولید کند، اما آموزش آن سخت است و گاهی دچار مشکل می شود.
دوم مدل VAE که آموزش آن پایدارتر است و کنترل بهتری روی داده های تولیدی می دهد، اما خروجی آن گاهی کمی ساده تر است.
سوم مدل Diffusion که جدیدتر است و می تواند داده های بسیار متنوع و واقعی تری تولید کند، اما به قدرت پردازشی زیادی نیاز دارد.
در این تحقیق این سه مدل با هم مقایسه شده اند تا مشخص شود کدام یک بهتر می تواند داده های پزشکی مصنوعی تولید کند.
محققان برای آزمایش، از چند مجموعه داده واقعی بیمارستانی استفاده کردند. این داده ها شامل اطلاعات بیماران آی سی یو، پرونده های درمانی و داده های چند مرکز درمانی بودند. سپس این داده ها پاک سازی و آماده سازی شدند تا بتوانند وارد مدل های هوش مصنوعی شوند. مثلا اطلاعات ناقص حذف شد، داده های عددی استاندارد شدند و داده های متنی به شکل قابل فهم برای کامپیوتر تبدیل شدند.
بعد از آموزش مدل ها، هر مدل شروع به ساخت پرونده های پزشکی مصنوعی کرد. این پرونده ها شامل اطلاعات کامل بیماران فرضی بودند، مثل سن، بیماری، نتایج آزمایش و درمان ها. برای اینکه این داده ها منطقی باشند، قوانین پزشکی هم روی آن ها اعمال شد. مثلا یک مرد نمی تواند نتیجه بارداری داشته باشد یا مقادیر آزمایش ها باید در محدوده واقعی باشند.
برای بررسی کیفیت این داده ها، سه معیار اصلی استفاده شد:
اول شباهت آماری به داده های واقعی
دوم توانایی این داده ها در آموزش مدل های پیش بینی بیماری
سوم میزان حفظ حریم خصوصی و جلوگیری از شناسایی افراد واقعی
نتایج نشان داد که داده های مصنوعی تولید شده بسیار شبیه داده های واقعی هستند. در بسیاری از موارد، مدل هایی که با داده مصنوعی آموزش دیده بودند تقریبا به همان دقت مدل های آموزش دیده با داده واقعی رسیدند. در بعضی موارد حتی ترکیب داده واقعی و مصنوعی باعث شد عملکرد بهتر هم شود.
از نظر حریم خصوصی هم نتایج بسیار امیدوارکننده بود. تقریبا امکان شناسایی بیماران واقعی از روی داده های مصنوعی وجود نداشت. یعنی اگر کسی بخواهد از این داده ها سوء استفاده کند، نمی تواند به اطلاعات واقعی افراد برسد.
یک نکته مهم دیگر این بود که این داده های مصنوعی می توانند به کشورها و مراکز درمانی کم امکانات کمک کنند. خیلی از بیمارستان های کوچک یا کشورهای در حال توسعه به داده های پزشکی بزرگ و با کیفیت دسترسی ندارند. اما با استفاده از داده های مصنوعی می توانند مدل های هوش مصنوعی پیشرفته بسازند و کیفیت خدمات درمانی را بهتر کنند.
با این حال، این فناوری بدون مشکل نیست. یکی از مشکلات این است که گاهی روابط پیچیده پزشکی به درستی در داده های مصنوعی بازسازی نمی شود. مثلا ارتباط دقیق بین بیماری های طولانی مدت و تغییرات بدن ممکن است کامل دقیق نباشد. همچنین ساخت این مدل ها به قدرت پردازشی زیادی نیاز دارد و هزینه بالایی دارد.
از نظر آینده، این مقاله پیشنهاد می کند که این فناوری با سیستم های دیگر مثل یادگیری فدرال و بلاک چین ترکیب شود. یادگیری فدرال یعنی هر بیمارستان مدل را روی داده های خودش آموزش دهد بدون اینکه داده ها را خارج کند. بلاک چین هم می تواند برای ثبت و کنترل داده های مصنوعی استفاده شود تا شفافیت و امنیت بیشتر شود.
در نهایت، نتیجه کلی مقاله این است که استفاده از هوش مصنوعی برای ساخت داده های پزشکی مصنوعی یک راه حل بسیار امیدوارکننده است. این روش می تواند هم مشکل کمبود داده را حل کند، هم حریم خصوصی بیماران را حفظ کند و هم باعث شود هوش مصنوعی در پزشکی سریع تر پیشرفت کند.
اما هنوز نیاز به تحقیق بیشتر وجود دارد تا این داده ها دقیق تر، قابل اعتمادتر و منطبق تر با واقعیت شوند. اگر این مشکلات حل شود، داده های مصنوعی می توانند یکی از پایه های اصلی آینده هوش مصنوعی در پزشکی باشند.