Tireh H, Shakeri M T, Rasoulinezhad S, Esmaily H, Yousefi R. Comparison of the efficiency of data mining methods in predicting type 2 diabetes. Tehran Univ Med J 2019; 77 (5) :301-307
URL:
http://tumj.tums.ac.ir/article-1-9873-fa.html
تیره حسین، شاکری محمدتقی، رسولینژاد صادق، اسماعیلی حبیباله، یوسفی راضیه. مقایسه کارایی روشهای دادهکاوی در پیشبینی ابتلا به بیماری دیابت نوع 2. مجله دانشکده پزشکی، دانشگاه علوم پزشکی تهران. 1398; 77 (5) :301-307
URL: http://tumj.tums.ac.ir/article-1-9873-fa.html
1- گروه اپیدمیولوژی و آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی مشهد، مشهد، ایران.
2- مرکز تحقیقات عوامل اجتماعی موثر بر سلامت، دانشگاه علوم پزشکی مشهد، مشهد، ایران.
3- گروه اپیدمیولوژی و آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی مشهد، مشهد، ایران. ، yousefir9@mums.ac.ir
چکیده: (2515 مشاهده)
زمینه و هدف: دیابت بیماری مزمنی است که شایعترین بیماری اختلالات متابولیسم و یکی از عمدهترین مسایل بهداشتی-درمانی در سرتاسر دنیا است. امروزه تکنیکهای دادهکاوی (Data mining techniques) با توجه به توانمندی آنها، در حوزههای مختلف بهکار برده میشوند. بنابراین در این پژوهش به مقایسه کارایی روشهای دادهکاوی در پیشبینی ابتلا به بیماری دیابت نوع ۲ پرداخته شد.
روش بررسی: در این مطالعه تحلیلی-مقطعی، از مجموع ۷۰۰۰ نفر شرکتکننده در طرح غربالگری دیابت سال ۱۳۹۵ در منطقه ثامن مشهد که شامل بررسی میزان قندخون، چشمها، آسیب کلیوی و سلامت پاها بود، تعداد ۵۴۰ نفر مبتلا به بیماری دیابت (درمان نشده) بودند و برای حفظ توازن ۶۰۰ فرد سالم بهصورت نمونهگیری متناسب با حجم انتخاب شدند (حجم کل نمونه ۱۱۴۰ نفر). در این مطالعه مبتلایان به دیابت بالای ۳۰ سال وارد مطالعه گردیدند و افرادی که از پیش سابقهی دیابت نوع ۲ داشتند و اکنون بهسبب استفاده از دارو و یا رعایت سایر نکات مقدار قندخون طبیعی داشتند از مطالعه حذف گردیدند.
یافتهها: صحت هر سه مدل برابر بود (۸۶%) اما از نظر سطح زیرمنحنی راک (Receiver operating characteristic, ROC)، مدلهای رگرسیون لجستیک (Logistic regression model) و بیزین ساده (Simple Bayesian model) با۹۰% سطح زیرمنحنی راک عملکرد بهتری داشتند. در مدل بیزین ساده و رگرسیون لجستیک بهترتیب متغیرهای شاخص توده بدنی و سن دارای بیشترین میزان اهمیت بودند، درحالیکه در مدل ماشینبردار پشتیبان (Support vector machine, SVM)، متغیرهای شاخص توده بدنی و فشارخون دارای بیشترین اهمیت بودند.
نتیجهگیری: صحت هر سه مدل برابر بود. از نظر سطح زیرمنحنی راک، مدلهای رگرسیون لجستیک و بیزین ساده مناسبتر بودند. در مجموع هر سه مدل عملکرد مشابهی داشتند. در هر سه مدل شاخص توده بدنی دارای بیشترین اهمیت بود.