تارا غفوری، نگین معنویزاده،
دوره ۸۰، شماره ۷ - ( مهر ۱۴۰۱ )
چکیده
زمینه و هدف: در مطالعه حاضر، یک رویکرد انتخاب ویژگی ترکیبی از روشهای فیلتر و بستهبندی، با هدف تشخیص وضعیت بیماری و بقای بیمار، برای تعدادی از مجموعه دادگان علوم زیستی با تعداد متفاوت نمونه، ویژگی و کلاس پیادهسازی میشود؛ بنابراین، این راهبرد از مزایای هر دو روش، شامل سرعت عملکرد، تعمیمپذیری و دقت بالا بهره میبرد.
روش بررسی: الگوریتمهای انتخاب ویژگی در چارچوب بازشناسی آماری الگو در نرمافزار Matlab R۲۰۲۱a طی فروردین و اردیبهشت ۱۴۰۱ مدلسازی شدهاند. ابتدا ویژگیها بر پایه اطلاعات متقابل بهنجار شده رتبهبندی میشوند و یک زیرمجموعه ویژگی بهینه با بالاترین دقت دستهبند انتخاب میشود. پس از خوشهبندی مجموعه داده بهروش Mini Batch K-means و استخراج ویژگیهای رتبهبندیشده، الگوریتمهای شمول و خروج ویژگی به مجموعه دادگان اعمال میشوند.
یافتهها: رویکردهای انتخاب ویژگی پیشنهادی برای مجموعه دادگان زیستشناسی مولکولی، ویروس هپاتیت C و باکتری E.coli، امتیاز صحت و فراخوانی بالای ۹۸% را نتیجه میدهند، که به معنای حضور تعداد بسیار کم موارد مثبت کاذب و منفی کاذب در دستهبندی با ماشین بردار پشتیبان خطی است. برای مجموعه داده ویروس هپاتیت C، با انتخاب ۹ ویژگی مرتبط از ۱۳ ویژگی موجود با روش خروج ویژگی، دقت دستهبندی ۹۲/۹۸% و امتیاز F۱ ۰۲/%۹۹ بهدست میآید. رویکرد شمول ویژگی نیز با یک اختلاف جزیی، دقت ۷۸/۹۸% را نتیجه میدهد.
نتیجهگیری: نتایج حاصل نشاندهنده توانمندی رویکردهای انتخاب ویژگی بهکار رفته برای مجموعه دادگان علوم زیستی با ابعاد بالای ویژگی همچون مجموعه داده بیان پروتیین میباشد. قابلیت تعمیمپذیری به سایر دستهبندها و تعیین خودکار تعداد ویژگیهای بهینه در طول فرآیند انتخاب ویژگی، این رویکردها را در بسیاری از کاربردهای دادهکاوی برای علوم زیستی انعطافپذیر میسازد.