تصحیح خودکار غلط‌های املایی در متون سونوگرافی فارسی با استفاده از شبکه‌های عصبی

دشتی, سیدمحمدصادق; خطیبی بردسیری, عمید; جعفری شهباززاده, مهدی

دوره 18، شماره 1 - ( 1-1403 ) جلد 18 شماره 1 صفحات 31-19 | برگشت به فهرست نسخه ها

Ethics code: IR.IAU.KERMAN.REC.1402.124

Mendeley

Zotero

RefWorks

Dashti S M S, Khatibi Bardsiri A, Jafari Shahbazzadeh M. Automatic Spelling Correction in Persian Sonography Text with Neural Networks. Payavard Salamat. 2024; 18 (1) :19-31
URL: http://payavard.tums.ac.ir/article-1-7613-fa.html

دشتی سیدمحمدصادق، خطیبی بردسیری عمید، جعفری شهباززاده مهدی. تصحیح خودکار غلط‌های املایی در متون سونوگرافی فارسی با استفاده از شبکه‌های عصبی. پیاورد سلامت. 1403; 18 (1) :19-31

URL: http://payavard.tums.ac.ir/article-1-7613-fa.html

تصحیح خودکار غلط‌های املایی در متون سونوگرافی فارسی با استفاده از شبکه‌های عصبی

سیدمحمدصادق دشتی¹، عمید خطیبی بردسیری^*²، مهدی جعفری شهباززاده³

1- دکتری مهندسی کامپیوتر، دانشکده علوم پایه، واحد کرمان، دانشگاه آزاد اسلامی کرمان، ایران
2- استادیار گروه مهندسی کامپیوتر، دانشکده علوم پایه، واحد کرمان، دانشگاه آزاد اسلامی کرمان، ایران ، a.khatibi@srbiau.ac.ir
3- استادیار گروه مهندسی برق، دانشکده فنی و مهندسی، واحد کرمان، دانشگاه آزاد اسلامی کرمان، ایران

چکیده: (2879 مشاهده)

زمینه و هدف: گزارش‌های پزشکی و پرونده‌های الکترونیک سلامت برای تشخیص و درمان بیماران و تحقیقات پزشکی اهمیت فراوان دارند. تصحیح غلط‌های املایی موجود در متون پزشکی برای اطمینان از تفسیر صحیح اطلاعات امری ضروری است. این پژوهش برای تصحیح خودکار متون پزشکی زبان فارسی به کمک شبکه‌های عصبی انجام پذیرفته است.
روش بررسی: در این پژوهش که در سال ۱۴۰۲ انجام شد، مدل کامپیوتری جدیدی مبتنی بر شبکه‌های عصبی مصنوعی و تکنیک جای‌گذاری دوگانه با استفاده از زبان برنامه‌نویسی پایتون در محیط ویندوز توسعه یافت. مدل جای‌گذاری دوگانه کلمات به طور خاص برای تصحیح املا در حوزه متون سونوگرافی فارسی تنظیم شد. مدل پیشنهادی، از تکنیک‌های متنوعی برای تشخیص خودکار خطا، از جمله تطابق با فرهنگ واژگان ومحاسبه میزان مشابهت متنی استفاده می‌کند. همچنین برای انتخاب خودکار مناسب‌ترین کلمه جایگزین با غلط‌های املایی، از ویژگی‌های خاصی همچون فاصله ویرایش(Edit-Distance)، همراه با امتیاز مشابهت استفاده شده است. داده‌های آموزش و آزمایش مدل جاری، بخشی از مجموعه متون کلینیک سونوگرافی بیمارستان امام خمینی تهران است.
یافته‌ها: مدل پیشنهادی بر اساس شبکه‌های عصبی مصنوعی توسعه یافته و از یک معماری جدید جای‌گذاری دوگانه کلمات جهت انتخاب بهترین کلمات کاندید، به منظور جایگزینی با غلط‌های املایی و معنایی بهره می‌برد. مطابق بررسی انجام شده بر روی متون سونوگرافی فارسی، دقت مدل پیشنهادی بر حسب معیار-F(F-Measure) در تشخیص و تصحیح خودکار خطاهای معنایی به ترتیب برابر با ۹۰/۵% و ۹۰% می‌باشد. به علاوه، دقت ۹۰/۸% در زمینه تصحیح خطاهای شکلی کسب گردید.
نتیجه‌گیری: مطابق نتایج ارزیابی، روش پیشنهادی می‌تواند به طور مؤثر طیف گسترده‌ای از خطاهای شکلی و معنایی، از جمله جایگزینی، جابه‌جایی، درج و حذف را در متون پزشکی مدیریت کند. استفاده و ادغام معیار فاصله ویرایش با امتیاز مشابهت متنی مستخرج از مدل جای‌گذاری دوگانه به‌طور قابل‌توجهی دقت تصحیح غلط‌های املایی را در متون سونوگرافی فارسی افزایش داده که این امر متضمن صحت بیش‌تر محتوای این گونه اسناد خواهد بود. به باور نویسندگان، مدل پیشنهادی، پیشرفت قابل‌توجهی در زمینه‌ی تشخیص و تصحیح غلط‌های املایی برای متون سونوگرافی زبان فارسی است.

واژه‌های کلیدی: تصحیح خطا، جای‌گذاری عصبی، شبکه‌های عصبی، متون سونوگرافی، پردازش زبان فارسی

متن کامل [PDF 640 kb] (889 دریافت)

نوع مطالعه: پژوهشی اصيل | موضوع مقاله: فناوری اطلاعات سلامت

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.