بخش پنجم شناسایی ویروس دگرگون شده

فرض کنید که Y یک متغیر آماری از یک توزیعِ تحت مشاهده است. هدف ما ارزیابی خصوصیات اصلی توزیع احتمال P از Y است.

به گزارش بسیج مهندسین فارس،این مقاله یکی از جدیدترین مقالات در مورد بدافزارها و امنیت اطلاعات است که از مقالات ISI 2014 می باشد . ترجمه دقیق عنوان مقاله "فاصله ی مجذور کای و شناسایی ویروس دگرگون شده " است.
این بخش پس از مقدمه و تعاریف و تکنیکهای مبهم سازی ـآورده شده .

7.2 فاصله ی مجذور کای

در این بخش، بحث را به طور کلی با تست های مجذور کای آغاز می کنیم. سپس به بررسی کاربرد این تست ها در شناسایی بدافزار می پردازیم.

1.7.2 نماد CSD

فرض کنید که Y یک متغیر آماری از یک توزیعِ تحت مشاهده است. هدف ما ارزیابی خصوصیات اصلی توزیع احتمال P از Y است. متغیرهای Y₁,Y₂, …, Y_n به طور تصادفی از عناصر این توزیع انتخاب می کنیم. این نمونه ها، اطلاعاتی درمورد پارامترهای ناشناخته به ما می دهد؛ یعنی θ از توزیع احتمال P.

f (Y₁,Y₂, …, Y_n)، تابعی را نشان می دهد که برای محاسبه ی θ به کار می رود؛ f در واقع یک تابع ارزیابی است. یک تابع ارزیابی را می توان برای محاسبه ی توزیع احتمال یک نمونه ی ارائه شده به کار برد.

فضای پارامتری که θ از آن گرفته شده، می تواند قراردادی باشد اما معمولا بستگی به f دارد. برای مثال ممکن است θ ∈ N را داشته باشیم که در آن N مجموعه ی اعداد طبیعی است، یا θ ∈ R^k را داشته باشیم که در آن R مجموعه اعداد حقیقی است. مثلا اگر θنمایانگر پارامترهای توزیع نرمال باشد، پس θ دو بعد واقعی خواهد داشت که با μ (میانگین) و σ (واریانس) متناظر است. برای تجزیه و تحلیل بدافزارها، فضای پارامتر را به بردارهای k بعدی با عناصری از مجموعه اعداد طبیعی محدود می سازیم؛ یعنی θ ∈ N^k. فرض بر این است که شکل کلی P، شناخته شده و مشخص است.

تست آماری برای تشخیص اینکه کدام فرضیه بهتر با توالی مشاهده ی نمونه ها (Y₁,Y₂, …, Y_n) سازگار است استفاده می شود. در تست آماری، فرضیه های اولیه پیشنهاد می شود، این فرضیه ها پس از ارزیابی احتمال وقوع آنها با توجه به قانون احتمال P از Y، یا مورد قبول واقع می گردد و یا رد می شود.

فرضیه ی اول را با H₀ نشان می دهند که نمایانگر فرضیه ی صفر است. فرضیه ی آلترناتیو با نماد H₁نشان داده می شود. تست هایی که استفاده می کنیم یا فرضیه ی صفر را می پذیرد یا آن را رد می کند. برای ساختن چنین تستی، یک ارزیاب را مشخص می کنیم که ارزش های محتمل تست را در مجموعه های گسسته، تفکیک می کند. این مجموعه ها از یک بخش پذیرش و یک بخش عدم پذیرش تشکیل شده اند. سپس با در نظر گرفتن یک الگو، ارزش ارزیابی محاسبه شده و با حد آستانه مقایسه می شود تا مشخص شود آیا فرضیه ی صفر را می پذیریم یا رد می کنیم.

دو نوع خطا در خصوص شناسایی این مشکل وجود دارد.

1. خطای نوع I، زمانی اتفاق می افتد که فرضیه ی صفر را رد می کنیم، هرچند که این فرضیه صحیح باشد. احتمال وقوع چنین خطایی به صورت α نشان داده می شود و متناظر با میزان مثبت کاذب است.

2. خطای نوع II زمانی اتفاق می افتد که فرضیه ی صفر را بپذیریم، هرچند که این فرضیه غلط باشد. این احتمال با میزان منفی کاذب متناظر است.

ترجمه: مهران وثوقی - دانشجوی دکترای فناوری اطلاعات
/224224

مطالب مرتبط

بخش دهم شناسایی ویروس دگرگون شده

بخش نهم شناسایی ویروس دگرگون شده

بخش هشتم شناسایی ویروس دگرگون شده

بخش هفتم شناسایی ویروس دگرگون شده

بخش ششم شناسایی ویروس دگرگون شده

بخش چهارم شناسایی ویروس دگرگون شده

بخش سوم شناسایی ویروس دگرگون شده

بخش دوم شناسایی ویروس دگرگون شده

بخش اول شناسایی ویروس دگرگون شده

برچسب ها: بسیج فرهنگیان فارس ، بدافزار ، ویروس دگرگون شده

X Share

Stumble Upon Delicious Cloob

Digg