داده های دوتایی در r

ساخت وبلاگ

نسبت ها کسری از اعضای جمعیتی را که دارای یک ویژگی خاص هستند ، می دهد. ما این احتمال مشابه را از 0. 0-1. 0 بیان می کنیم.

آزمایش دوتایی به ما امکان می دهد احتمال رویدادی را که دارای توزیع دوتایی است ، تعیین کنیم ، به این معنی که هر فرد می تواند یکی از دو نتیجه ممکن را داشته باشد (به عنوان مثال ، موفقیت/شکست ، زنده/مرده ، مهره داران/بی مهره و غیره). ما آنچه را که ما به عنوان "ضربه" یا یک محاکمه با یک نتیجه خاص حساب می کنیم ، بیان می کنیم. به عنوان مثال ، "این احتمال وجود دارد که من 12 زن در یک کلاس 20 داشته باشم؟""ضربه" در اینجا به جای یک پسر ، یک زن را مشاهده می کند.

معادله دومی

برای محاسبه احتمالات دوتایی ، ما از این معادله استفاده می کنیم:

با پیشروی ، خواهیم دید که هر آزمایشی به عنوان فرضیه هایی که باید در مورد داده های شما صادق باشد تا شما را از "تقلب" آزمون جلوگیری کند. آزمون دوتایی نیاز دارد که:

تعداد آزمایشات (N) ثابت است

هر محاکمه مستقل از هر محاکمه دیگر است

احتمال موفقیت (یا "ضربه") در هر آزمایش یکسان است

محاسبه دست کمی کار است ، اما خبر خوب این است که R یک روش آسان برای محاسبه احتمال یک رویداد واحد با استفاده از عملکرد dbinom () دارد. این شکل کلی دارد

در جایی که n تعداد بازدیدها است ، اندازه تعداد آزمایشات است و احتمالاً احتمال ضربه است. توجه داشته باشید که معادله در دست x تعداد بازدیدها است اما r از n استفاده می کند. متاسف.

یک مثال

من یک کلاس دارم که در آن 80 ٪ دانش آموزانم رشته های زیست شناسی و 20 ٪ از آنها رشته های شیمیایی هستند. من می خواستم بدانم که آیا دانش آموزان این کلاس را نمونه برداری کردم ، در صورت انتخاب آنها در گروه های 5 نفری ، احتمال انتخاب 2 رشته شیمی و 3 رشته زیست شناسی چیست.

من به عنوان یک رشته اصلی می خواهم که برای اهداف این مثال مورد توجه قرار گیرد. بنابراین ، در این حالت ، p = 0. 8 ، n = 5 و x = 3 ، که این را به من می دهد:

بنابراین ، اگر نمونه آنها را در گروه های 5 نفری نمونه برداری کنم ، حدود 20. 5 ٪ احتمال انتخاب 3 رشته زیستی از این گروه را خواهم داشت.

چه می شود اگر می خواستم احتمال دریافت 3 یا بیشتر رشته های زیستی در گروه های 5 نفری را بدانم؟این خواهد بود

pr [3 یا بیشتر] = pr [3] + pr [4] + pr [5]

بنابراین ، شما می توانید عملکرد dbinom () را دو بار دیگر انجام دهید و آنها را خلاصه کنید:

PR [3 یا بیشتر] = 0. 21 + 0. 41 + 0. 33 = 0. 95. این بدان معنی است که من انتظار دارم که با نمونه گیری مکرر ، 3 یا بیشتر رشته های زیستی را 95 ٪ از زمان دریافت کنم.

یا می توانید از این استفاده کنید:

به دنبال این توابع ، می توانید نتایج را به عنوان هیستوگرام نشان دهید:

Barplot (قد = probx ، names. arg = xsuccesses ، فضا = 0 ، las = 1 ، ylab = "احتمال" ، xlab = "تعداد رشته های زیست شناسی")

(من می دانم که ما از عملکرد Barplot برای ایجاد هیستوگرام استفاده می کنیم ، اما این کار برای داده های دوتایی بر اساس نحوه محاسبه اشیاء بهتر عمل می کند.)

آزمایش فرضیه ها با آزمون دوتایی

ما از آزمایش دوتایی برای محاسبه احتمالات یک نتیجه استفاده می کنیم تا ببینیم آیا آنها با آنچه انتظار داریم به طور اتفاقی متفاوت باشد ، متفاوت است. مثلا:

در طول 10 سال گذشته ، من در آزمایشگاه تحقیقاتی خود با 50 دانش آموز کار کرده ام. امسال 6 نفر دارم اما فقط یک پسر است. آیا این یک فلوک است؟آیا باید در آزمایشگاه خود توزیع جنسی متعادل تری داشته باشم؟با نگاهی به فهرست های کلاس قدیمی من ، دریافتم که 72 ٪ دانش آموزانی که کلاس های من را گرفته اند زن بودند (داده های واقعی در اینجا ، FYI.). بنابراین ، PR [بچه ها] = 0. 28. به طور کلی ، 10 نفر از 50 دانش آموز در آزمایشگاه من بچه ها بوده اند.

سؤال: آیا نسبت جنسی در آزمایشگاه من (0. 20) کوچکتر از نسبت متوسط بچه ها در Suffolk (0. 28) است؟بیایید از ( alpha ) = 0. 05 به عنوان سطح رد ما استفاده کنیم.

فرضیه ها:

(H_0 ): نسبت جنسی در آزمایشگاه من شامل همان نسبت یا بیشتر از بچه ها نسبت به CAS به طور کلی است (به عبارت دیگر ، PR [11 یا بیشتر] 0. 05 ≥).

(H_A ): نسبت جنسی آزمایشگاه من شامل بچه های کمتری از آنچه انتظار می رود (یا PR [10 یا کمتر]<0.05).

تطبیق کد بالا:

بنابراین ، با توجه به نسبت بچه ها در Suffolkمن انتظار دارم این نسبت بچه ها در آزمایشگاه (20 ٪ یا کمتر) حداقل 13 ٪ از زمانبشرمن نمی توانم فرضیه تهی را رد کنم زیرا احتمال محاسبه شده بیشتر از سطح اطمینان من 0. 05 است. بنابراین نتیجه می گیرم که نسبت جنسی آزمایشگاه من تفاوت معنی داری با نسبت جنسی دانش آموزان در کلاسهای من ندارد.

اگر برای ترسیم آنها به تمام احتمالات فردی احتیاج ندارید ، یک روش حتی کوتاه تر برای انجام این آزمایش وجود دارد:

با این رویکرد توجه کنید:

این عملکرد به طور پیش فرض یک تست دو دم انجام می دهد ، اما من Argust Alteative = "کمتر" را اضافه کردم تا مشخص کنم که من فقط به 10 یا کمتر اهمیت می دهم ، نه 10 یا کمتر و 40 یا بیشتر ، که این آزمایش دو دم خواهد بود. برای آرگومان ها به RStudio برای binom. test () مراجعه کنید.

این احتمال نمونه من به عنوان 0. 2 است.

این همچنین فاصله اطمینان 95 ٪ تخمین نمونه را برای من و بدون هیچ کار اضافی محاسبه می کند.

توزیع نمونه از یک نسبت

مانند هر تخمین ، نسبت نمونه PHAT تخمینی از نسبت جمعیت p است. نکته مهم این است که می توانیم فاصله اطمینان 95 ٪ را محاسبه کنیم. شما می توانید خطای استاندارد P و فاصله اطمینان 95 ٪ را با دست محاسبه کنید ، اما چرا باید؟R به نجات!

اگر از binom. test () مانند گذشته استفاده کرده اید ، 95 ٪ CI را در خروجی دریافت کرده اید. بعضی اوقات ما باید نسبت پارامتری را تخمین بزنیم ، و این نیاز به اصلاح به نام روش Agresti-Coull ، که در Whitlock و Schluter مورد بحث قرار می گیرد ، نیاز دارد.

برای انجام این کار آسان در R ، باید بسته ای را برای افزودن به Base R. بارگیری کنید. شما فقط نیاز به نصب این بسته داریدیک بار در هر رایانه.

با نصب ، بسته را بارگیری کنید تا بتوانید از توابع آن استفاده کنید. شما نیاز داریدبسته را در هر جلسه R بارگیری کنیداگر می خواهید از دستورات آن استفاده کنید:

متن به روش Agresti-Coull محاسبه CI 95 ٪ اشاره دارد. عملکرد فوق این کار را انجام می دهد (با استفاده از روش = "AC"). CI 95 ٪ با آنچه برای آزمایشگاه من در بالا به دست آوردیم متفاوت است زیرا مقدار پارامتری P را با استفاده از داده های مشاهده شده تخمین می زند تا اینکه ما در بالا این کار را انجام دادیم ، با استفاده از 0. 28 به عنوان پارامتر بر اساس مشاهدات قبلی دانش آموزان در کلاس هابشر

اگر از آن بدون آرگومان روش استفاده کنید ، R CIS را بر اساس 11 روش مختلف باز می گرداند.

چرا روی زمین چنین شمع CIS می خواهید؟هر یک از این روشها از یک الگوریتم کمی متفاوت استفاده می کنند و ممکن است یکی را بر اساس داده های خود انتخاب کنید. یا اگر داده های شما کثیف باشد ، ممکن است بخواهید به دنبال اجماع در بین روشهای مختلف باشید.

نتیجه

محاسبه احتمالات مستقیم با استفاده از معادله binomial ابزاری قدرتمند برای آزمایش فرضیه ها برای داده هایی است که "یا این نتیجه یا آن" از نظر ماهیت است.(یک آزمایش "قدرتمند" به این معنی است که توانایی خوبی برای تمایز تفاوت های واقعی از مواردی که به طور اتفاقی انتظار می رود وجود دارد.) تست های آینده به ما امکان می دهد تا با مشاهدات متغیرهای در مقیاس اسمی که بیش از بله/بدون نتایج هستند ، کارهای بیشتری انجام دهیم.

نرم افزار مفید تریدر...
ما را در سایت نرم افزار مفید تریدر دنبال می کنید

برچسب : نویسنده : احمد شاملو بازدید : 32 تاريخ : پنجشنبه 1 تير 1402 ساعت: 12:22