سیدمحمدصادق دشتی، عمید خطیبی بردسیری، مهدی جعفری شهباززاده،
دوره 18، شماره 1 - ( 1-1403 )
چکیده
زمینه و هدف: گزارشهای پزشکی و پروندههای الکترونیک سلامت برای تشخیص و درمان بیماران و تحقیقات پزشکی اهمیت فراوان دارند. تصحیح غلطهای املایی موجود در متون پزشکی برای اطمینان از تفسیر صحیح اطلاعات امری ضروری است. این پژوهش برای تصحیح خودکار متون پزشکی زبان فارسی به کمک شبکههای عصبی انجام پذیرفته است.
روش بررسی: در این پژوهش که در سال ۱۴۰۲ انجام شد، مدل کامپیوتری جدیدی مبتنی بر شبکههای عصبی مصنوعی و تکنیک جایگذاری دوگانه با استفاده از زبان برنامهنویسی پایتون در محیط ویندوز توسعه یافت. مدل جایگذاری دوگانه کلمات به طور خاص برای تصحیح املا در حوزه متون سونوگرافی فارسی تنظیم شد. مدل پیشنهادی، از تکنیکهای متنوعی برای تشخیص خودکار خطا، از جمله تطابق با فرهنگ واژگان ومحاسبه میزان مشابهت متنی استفاده میکند. همچنین برای انتخاب خودکار مناسبترین کلمه جایگزین با غلطهای املایی، از ویژگیهای خاصی همچون فاصله ویرایش(Edit-Distance)، همراه با امتیاز مشابهت استفاده شده است. دادههای آموزش و آزمایش مدل جاری، بخشی از مجموعه متون کلینیک سونوگرافی بیمارستان امام خمینی تهران است.
یافتهها: مدل پیشنهادی بر اساس شبکههای عصبی مصنوعی توسعه یافته و از یک معماری جدید جایگذاری دوگانه کلمات جهت انتخاب بهترین کلمات کاندید، به منظور جایگزینی با غلطهای املایی و معنایی بهره میبرد. مطابق بررسی انجام شده بر روی متون سونوگرافی فارسی، دقت مدل پیشنهادی بر حسب معیار-F(F-Measure) در تشخیص و تصحیح خودکار خطاهای معنایی به ترتیب برابر با ۹۰/۵% و ۹۰% میباشد. به علاوه، دقت ۹۰/۸% در زمینه تصحیح خطاهای شکلی کسب گردید.
نتیجهگیری: مطابق نتایج ارزیابی، روش پیشنهادی میتواند به طور مؤثر طیف گستردهای از خطاهای شکلی و معنایی، از جمله جایگزینی، جابهجایی، درج و حذف را در متون پزشکی مدیریت کند. استفاده و ادغام معیار فاصله ویرایش با امتیاز مشابهت متنی مستخرج از مدل جایگذاری دوگانه بهطور قابلتوجهی دقت تصحیح غلطهای املایی را در متون سونوگرافی فارسی افزایش داده که این امر متضمن صحت بیشتر محتوای این گونه اسناد خواهد بود. به باور نویسندگان، مدل پیشنهادی، پیشرفت قابلتوجهی در زمینهی تشخیص و تصحیح غلطهای املایی برای متون سونوگرافی زبان فارسی است.