ارزیابی الگوریتمهای درخت تصمیم، در کشف تقلبات بیمه اتومبیل
درخت تصمیم در تقلبات بیمه
درخت تصمیم تقلبات بیمه، ارزیابی الگوریتمهای درخت از منظر علوم اقتصادی و با مراجعه به آمار و اطلاعات، تخلفات مالی در صنعت بیمه بهصورت فزایندهای در حال تبدیلشدن به یک مسئله جدی و قابل تأمل است. یکی از روشهای مناسب جهت ارزیابی و مدلسازی تخلفات و تقلبات، تکنیکهای دادهکاوی است که میتواند نقش مهمی در کشف و پیشبینی تقلبات مالی ایفا نماید. این شیوه برای آشکار نمودن حقایق پنهان در ورای حجم انبوهی از دادهها بکار گرفته میشود. شرکتهای بیمه میتوانند الگوی پنهان در دادهها را کشف کرده و با مدلسازی و طراحی الگوهای مناسب اقدامات جدی در راستای کاهش تقلبات، مدیریت ریسکها و ایفای تعهدات به عملآورند.
در این مقاله، تکنیکهای رایج جهت کشف تقلب در بیمههای اتومبیل (شامل رگرسیون لجستیک، درخت تصمیم و دسته بندی بیز ساده) مورداستفاده قرار میگیرد. ابزارهای دادهکاوی بهطور معمول با هدف تعمیم مدلهای کشف ادعاهای تقلبی و ارائه پیشبینی به کار گرفته میشوند. متغیرهای توضیحی که در سه مدل این مطالعه مورداستفاده قرار میگیرند، عبارتاند از: سابقه بیمهای، تعداد ادعاهای خسارت، تأخیر در اعلان خسارت، سن، جنس، کروکی و مبلغ خسارت (شکوری ۱۳۹۰) دادههای موردنیاز از یکی از شرکتهای بزرگ بیمه، پس از اخذ مجوزهای لازم، جمعآوری شده است. دادهها به دو بخش تقسیم شده است. از بخش نخست برای ساخت مدل و از بخش دوم برای دستهبندی استفاده شده است. یافتههای این مطالعه مؤید آن است که مدل رگرسیون لجستیک دقت بیشتری برای پیشبینی کل ادعاها(تقلبی و غیر تقلبی) نسبت به دو مدل دیگر، یعنی درخت تصمیم و روش بیز داشته است
مقدمه
شرکتهای بیمه در سراسر جهان بهطور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیتهای تخصصی و سرمایهگذاری میتوانستند خدمات مناسبتری به مشتریان خود ارائه نمایند. عوامل فروش میتوانند دادهکاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش
مقدمه
شرکتهای بیمه در سراسر جهان بهطور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیتهای تخصصی و سرمایهگذاری میتوانستند خدمات مناسبتری به مشتریان خود ارائه نمایند. عوامل فروش میتوانند دادهکاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش مییابد. نتیجه این اقدامات درنهایت میتواند به کمینه نمودن خسارات منجر شود.
افرادی که مرتکب تقلب میشوند، میکوشند تا منفعت بیشتری از بیمهنامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمهشده اقدام به تقلب نماید. نخست در شرایطی که یک شخص بهصورت عمدی تلاش میکند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمهشده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بیاحتیاطی میکند.
برایناساس، میتوان اهم هزینههای وارده ناشی ازاینگونه تقلبات را به شرح زیر طبقهبندی نمود:
- بهطور میانگین خانوادهها حق بیمه بالاتری برای جبران هزینههای ناشی از تقلب میپردازند.
- قیمت کالاها به دلیل پرداخت حق بیمه بیشتر(به سبب هزینههای مربوط به تقلبهای بیمهای)، افزایش مییابد.
- هزینههای بیمه سلامت به دلیل وقوع تقلب در ادعاهای خسارت بهویژه در مناطقی که پوشش نامحدود هستند، افزایش پیدا میکند.
- عموم بیمهشدهها با دقت بیشتری موردبررسی قرار میگیرند و زمان رسیدگی و تسویه مطالبات طولانی میشود.
- به ازای هر واحد پولی که برای تقلب بیمهای هزینه میشود؛ سودآوری شرکت بیمه بهطور مستقیم متأثر میشود.
- با استخدام واحدهای بازرسی، هزینههای نیروی انسانی شرکتهای بیمه افزایش مییابد.
- شرکتهای بیمهای که بهطور مؤثر از تقلب جلوگیری به عمل نمیآورند، ممکن است ظرفیتهای رقابتپذیری خود را از دست دهند؛ خصوصاً زمانی که نرخها به دلیل تقلب افزایش یابد.
دادهکاوی تکنیکهای مختلفی را برای استخراج اطلاعات از دادهها فر اهم میکند. لذا، شرکتهای بیمه برای کشف روندها و مدلها در میان انبوهی از دادهها از تکنیکهای دادهکاوی استفاده مینمایند(رابرت[۱] ۲۰۱۰). استفاده از علم دادهکاوی در حوزه تقلب چه کمکی در کنترل این هزینهها میتواند داشته باشد؟ در صورت وجود و جمعآوری دادههای تقلبات چگونه میتوان از آن در کاهش این تخلفات در آتی استفاده نمود؟
در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفتهشده در این تحقیق براساس تکنیکهای مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از دادههای اخذشده از یکی از شرکتهای بزرگ بیمه به کمک نرمافزار SPSS Clementine خروجیهای سه روش آنالیز شدهاند و نهایتاً در بخش پنجم به ارائه نتیجهگیری و پیشنهادها براساس روشهای مورداستفاده در مدل پرداخته شده است.
ادبیات تحقیق
در این مقاله تصویری از روشهای دستهبندی برای کاربرد کشف تقلب بیمهای با استفاده از تکنیکهای دادهکاوی ارائه میشود. این ساختار در شکل ۱ انعکاس یافته است(نگای[۲] و دیگران ۲۰۱۱).
تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع دادهها، روشهای مختلفی برای کشف تقلبات بیمه معرفی شده است. این روشها میتوانند در دو طیف با ناظر یا بی ناظر طبقهبندی شوند. در روشهای با ناظر، نمونههایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی میشود که قابلیت تشخیص و پیشبینی تقلبی بودن یا نبودن نمونههای جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشتهاند. روشهای بی ناظر به دنبال کشف نمونههایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.
ویسبرگ و دریگ[۳] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[۴] نیز مطالعاتی را با استفاده از دادههای بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[۵] از مدلهای لوجیت چندگانه و مدلهای لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[۶] با ترکیب الگوریتمهای شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[۷] علاوه بر شناسایی خسارتهای تقلبی و دستهبندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[۸] دستهبندی بیز ساده و درخت تصمیم مبتنی بر الگوریتمهای پیشبینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدلهای متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.
مبانی نظری درخت تصمیم در تقلبات بیمه
بیمه اتومبیل در میان رشته های مختلف بیمهای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینههای شرکت بیمه را افزایش و درآمدهای آنها را کاهش میدهد و در نهایت سبب افت عملکرد شرکت بیمه میشود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز میشود و پس از بررسیهای لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده میشوند. لذا برای بررسی، پروندهها به دو دسته ی جعلی و غیر جعلی تقسیم میشوند. دستهبندی دادههای مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز دادهها است که میتواند برای استخراج مدلها و کلاسبندی دادهها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از دادههای انبوه محسوب میشود(ویلسون[۹] ۲۰۰۵). در طی مراحل انجام فرایند دادهکاوی سه بخش مهم وجود دارد:
- حذف دادهها: دادههای بی ارزش و غیر قابل استفاده حذف میشوند.
- فشرده کردن دادهها: این مرحله با کد گذاری دادهها انجام میشود.
- کشف الگوها: ا
- الگوهای موجود در پایگاه دادهها از جمله دستهبندی و…. کشف میشوند.
روشهای دستهبندی میتواند براساس مؤلفه ها و معیار های زیر طبقهبندی و ارزیابی شود:
- دقت: توانایی یک دستهبندی مشخص برای پیشبینی درست یک داده جدید یا مشاهده نشده ی قبلی، رانشان میدهد.
- سرعت: سرعت هزینههای محاسباتی در تثبیت و استفاده از دستهبندی کنندهها یا پیشبینی کنندهها است.
- توانایی: توانایی دستهبندی کننده برای ایجاد پیشبینی های صحیح با دادههای اغتشاش یا ازدسترفته مشخص را منعکس مینماید.
- مقیاسپذیری: توانایی ایجاد کلاسهای کارآمد با دادههای انبوه را نشان میدهد.
- تفسیرپذیری: سطح مفهومرسانی توسط کلاسها میباشد، که یک موضوع ذهنی و کمتر قابلدسترسی است(کامینس و تنیسون[۱۰] ۱۹۹۲).
رگرسیون لجستیک
رگرسیون لجستیک یکی از ابزارهای مهم دادهکاوی است و اغلب در مواقعی کاربرد مییابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[۱۱] ۲۰۱۰). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.
که در آن احتمال تقلبی بودن یک ادعاست، Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت Yبه قرار زیر است:
Logit Y = b۰ + b۱ X۱ +…..bnXn
درخت تصمیم
درخت تصمیم یک ابزار پیشبینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه میدهد. درخت تصمیم میتواند با الگوریتمهای مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیشبینی ها بهوسیله برگها و شاخهها به صفات موردبررسی متصل میشوند. درواقع یک مجموعه از گرههای تصمیم با شاخهها به هم متصل میشوند و از ریشه گره گسترش پیدا میکنند تا برگ و گرههای نهایی ادامه مییابد. الگوریتم ردهبندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردنهای بهینه، انتخاب میشود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:
روزبه عبادی نمین کد۹۷۷ بیمه آرمان
- شماره تماس ۰۹۱۱۸۰۳۹۲۸۲
- بیمه با شما