ارزیابی الگوریتم‌های درخت تصمیم، در کشف تقلبات بیمه اتومبیل

website manager

همه پست ها

ارزیابی الگوریتم‌های درخت تصمیم، در کشف تقلبات بیمه اتومبیل

درخت تصمیم در تقلبات بیمه

درخت تصمیم تقلبات بیمه، ارزیابی الگوریتم‌های درخت از منظر علوم اقتصادی و با مراجعه به آمار و اطلاعات، تخلفات مالی در صنعت بیمه به‌صورت فزاینده‌ای در حال تبدیل‌شدن به یک مسئله جدی و قابل تأمل است. یکی از روش‌های مناسب جهت ارزیابی و مدل‌سازی تخلفات و تقلبات، تکنیک‌های داده‌کاوی است که می‌تواند نقش مهمی در کشف و پیش‌بینی تقلبات مالی ایفا نماید. این شیوه برای آشکار نمودن حقایق پنهان در ورای حجم انبوهی از داده‌ها بکار گرفته می‌شود. شرکت‌های بیمه می‌توانند الگوی پنهان در داده‌ها را کشف کرده و با مدل‌سازی و طراحی الگوهای مناسب اقدامات جدی در راستای کاهش تقلبات، مدیریت ریسک‌ها و ایفای تعهدات به عمل‌آورند.
در این مقاله، تکنیک‌های رایج جهت کشف تقلب در بیمه‌های اتومبیل (شامل رگرسیون لجستیک، درخت تصمیم و دسته بندی بیز ساده) مورداستفاده قرار می‌گیرد. ابزارهای داده‌کاوی به‌طور معمول با هدف تعمیم مدل‌های کشف ادعاهای تقلبی و ارائه پیش‌بینی به کار گرفته می‌شوند. متغیرهای توضیحی که در سه مدل این مطالعه مورداستفاده قرار می‌گیرند، عبارت‌اند از: سابقه بیمه‌ای، تعداد ادعاهای خسارت، تأخیر در اعلان خسارت، سن، جنس، کروکی و مبلغ خسارت (شکوری ۱۳۹۰) داده‌های موردنیاز از یکی از شرکت‌های بزرگ بیمه، پس از اخذ مجوزهای لازم، جمع‌آوری شده است. داده‌ها به دو بخش تقسیم شده است. از بخش نخست برای ساخت مدل و از بخش دوم برای دسته‌بندی استفاده شده است. یافته‌های این مطالعه مؤید آن است که مدل رگرسیون لجستیک دقت بیشتری برای پیش‌بینی کل ادعاها(تقلبی و غیر تقلبی) نسبت به دو مدل دیگر، یعنی درخت تصمیم و روش بیز داشته است

مقدمه

شرکت‌های بیمه در سراسر جهان به‌طور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیت‌های تخصصی و سرمایه‌گذاری می‌توانستند خدمات مناسب‌تری به مشتریان خود ارائه نمایند. عوامل فروش می‌توانند داده‌کاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش

مقدمه

افرادی که مرتکب تقلب می‌شوند، می‌کوشند تا منفعت بیشتری از بیمه‌نامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمه‌شده اقدام به تقلب نماید. نخست در شرایطی که یک شخص به‌صورت عمدی تلاش می‌کند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمه‌شده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بی‌احتیاطی می‌کند.

براین‌اساس، می‌توان اهم هزینه‌های وارده ناشی ازاین‌گونه تقلبات را به شرح زیر طبقه‌بندی نمود:

به‌طور میانگین خانواده‌ها حق بیمه بالاتری برای جبران هزینه‌های ناشی از تقلب می‌پردازند.
قیمت کالاها به دلیل پرداخت حق بیمه بیشتر(به سبب هزینه‌های مربوط به تقلب‌های بیمه‌ای)، افزایش می‌یابد.
هزینه‌های بیمه سلامت به دلیل وقوع تقلب در ادعاهای خسارت به‌ویژه در مناطقی که پوشش نامحدود هستند، افزایش پیدا می‌کند.
عموم بیمه‌شده‌ها با دقت بیشتری موردبررسی قرار می‌گیرند و زمان رسیدگی و تسویه مطالبات طولانی می‌شود.
به ازای هر واحد پولی که برای تقلب بیمه‌ای هزینه می‌شود؛ سودآوری شرکت بیمه به‌طور مستقیم متأثر می‌شود.
با استخدام واحدهای بازرسی، هزینه‌های نیروی انسانی شرکت‌های بیمه افزایش می‌یابد.
شرکت‌های بیمه‌ای که به‌طور مؤثر از تقلب جلوگیری به عمل نمی‌آورند، ممکن است ظرفیت‌های رقابت‌پذیری خود را از دست دهند؛ خصوصاً زمانی که نرخ‌ها به دلیل تقلب افزایش یابد.
داده‌کاوی تکنیک‌های مختلفی را برای استخراج اطلاعات از داده‌ها فر اهم می‌کند. لذا، شرکت‌های بیمه برای کشف روندها و مدل‌ها در میان انبوهی از داده‌ها از تکنیک‌های داده‌کاوی استفاده می‌نمایند(رابرت[۱] ۲۰۱۰). استفاده از علم داده‌کاوی در حوزه تقلب چه کمکی در کنترل این هزینه‌ها می‌تواند داشته باشد؟ در صورت وجود و جمع‌آوری دادههای تقلبات چگونه می‌توان از آن در کاهش این تخلفات در آتی استفاده نمود؟
در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفته‌شده در این تحقیق براساس تکنیک‌های مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از داده‌های اخذشده از یکی از شرکت‌های بزرگ بیمه به کمک نرم‌افزار SPSS Clementine خروجی‌های سه روش آنالیز شده‌اند و نهایتاً در بخش پنجم به ارائه نتیجه‌گیری و پیشنهاد‌ها براساس روش‌های مورداستفاده در مدل پرداخته شده است.
ادبیات تحقیق
در این مقاله تصویری از روش‌های دسته‌بندی برای کاربرد کشف تقلب بیمه‌ای با استفاده از تکنیک‌های داده‌کاوی ارائه می‌شود. این ساختار در شکل ۱ انعکاس یافته است(نگای[۲] و دیگران ۲۰۱۱).
تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع داده‌ها، روش‌های مختلفی برای کشف تقلبات بیمه معرفی شده است. این روش‌ها می‌توانند در دو طیف با ناظر یا بی ناظر طبقه‌بندی شوند. در روش‌های با ناظر، نمونه‌هایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی می‌شود که قابلیت تشخیص و پیش‌بینی تقلبی بودن یا نبودن نمونه‌های جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشته‌اند. روش‌های بی ناظر به دنبال کشف نمونه‌هایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.
ویسبرگ و دریگ[۳] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[۴] نیز مطالعاتی را با استفاده از داده‌های بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[۵] از مدل‌های لوجیت چندگانه و مدل‌های لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[۶] با ترکیب الگوریتم‌های شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[۷] علاوه بر شناسایی خسارت‌های تقلبی و دسته‌بندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[۸] دسته‌بندی بیز ساده و درخت تصمیم مبتنی بر الگوریتم‌های پیش‌بینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدل‌های متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.
مبانی نظری درخت تصمیم در تقلبات بیمه
بیمه اتومبیل در میان رشته های مختلف بیمه‌ای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینه‌های شرکت بیمه را افزایش و درآمدهای آنها را کاهش می‌دهد و در نهایت سبب افت عملکرد شرکت بیمه می‌شود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز می‌شود و پس از بررسی‌های لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده می‌شوند. لذا برای بررسی، پرونده‏ها به دو دسته ی جعلی و غیر جعلی تقسیم می‌شوند. دسته‌بندی داده‌های مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز داده‌ها است که می‌تواند برای استخراج مدل‌ها و کلاس‌بندی داده‌ها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از داده‌های انبوه محسوب می‌شود(ویلسون[۹] ۲۰۰۵). در طی مراحل انجام فرایند داده‌کاوی سه بخش مهم وجود دارد:
- حذف داده‌ها: داده‌های بی ارزش و غیر قابل استفاده حذف می‌شوند.
- فشرده کردن داده‌ها: این مرحله با کد گذاری داده‌ها انجام می‌شود.
- کشف الگوها: ا
- الگوهای موجود در پایگاه داده‌ها از جمله دسته‌بندی و…. کشف می‌شوند.
روش‌های دسته‌بندی می‌تواند براساس مؤلفه ها و معیار های زیر طبقه‌بندی و ارزیابی شود:
- دقت: توانایی یک دسته‌بندی مشخص برای پیش‌بینی درست یک داده جدید یا مشاهده نشده ی قبلی، رانشان میدهد.
- سرعت: سرعت هزینه‌های محاسباتی در تثبیت و استفاده از دسته‌بندی کننده‏ها یا پیش‌بینی کننده‏ها است.
- توانایی: توانایی دسته‏بندی کننده برای ایجاد پیش‌بینی های صحیح با داده‌های اغتشاش یا ازدست‌رفته مشخص را منعکس می‌نماید.
- مقیاس‌پذیری: توانایی ایجاد کلاس‌های کارآمد با داده‌های انبوه را نشان می‌دهد.
- تفسیرپذیری: سطح مفهوم‌رسانی توسط کلاس‌ها می‌باشد، که یک موضوع ذهنی و کمتر قابل‌دسترسی است(کامینس و تنیسون[۱۰] ۱۹۹۲).
رگرسیون لجستیک
رگرسیون لجستیک یکی از ابزارهای مهم داده‌کاوی است و اغلب در مواقعی کاربرد می‌یابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[۱۱] ۲۰۱۰). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.
که در آن احتمال تقلبی بودن یک ادعاست، _Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت _Yبه قرار زیر است:
Logit Y = b_۰ + b_۱ X_۱ +…..b_nX_n
درخت تصمیم
درخت تصمیم یک ابزار پیش‌بینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه می‌دهد. درخت تصمیم می‌تواند با الگوریتم‌های مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیش‌بینی ها به‌وسیله برگ‌ها و شاخه‌ها به صفات موردبررسی متصل می‌شوند. درواقع یک مجموعه از گره‌های تصمیم با شاخه‌ها به هم متصل می‌شوند و از ریشه گره گسترش پیدا می‌کنند تا برگ و گره‌های نهایی ادامه می‌یابد. الگوریتم رده‌بندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردن‌های بهینه، انتخاب می‌شود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:
روزبه عبادی نمین کد۹۷۷ بیمه آرمان
شماره تماس ۰۹۱۱۸۰۳۹۲۸۲
بیمه با شما