این ماژول توابع محاسبه آمار ریاضی داده های عددی (با ارزش واقعی) را فراهم می کند.
این ماژول در نظر گرفته نشده است که رقیب کتابخانه های شخص ثالث مانند Numpy ، Scipy یا بسته های آماری کامل با هدف اصلی با هدف آماری حرفه ای مانند Minitab ، SAS و Matlab باشد. این هدف در سطح گرافیک و ماشین حساب های علمی است.
مگر در مواردی که صریحاً ذکر شود ، این توابع از Int ، شناور ، اعشاری و کسری پشتیبانی می کنند. رفتار با انواع دیگر (چه در برج عددی یا نه) در حال حاضر پشتیبانی نشده است. مجموعه هایی با ترکیبی از انواع نیز تعریف نشده و وابسته به اجرای هستند. اگر داده های ورودی شما از انواع مختلط تشکیل شده است ، ممکن است بتوانید از نقشه () برای اطمینان از نتیجه مداوم استفاده کنید ، به عنوان مثال: MAP (شناور ، input_data).
برخی از مجموعه داده ها برای نشان دادن داده های گمشده از مقادیر NAN (نه یک عدد) استفاده می کنند. از آنجا که NAN ها معناشناسی مقایسه غیرمعمول دارند ، آنها در توابع آماری که داده ها را مرتب می کنند یا وقایع را به خود اختصاص می دهند ، رفتارهای تعجب آور یا نامشخصی ایجاد می کنند. توابع تحت تأثیر میانه () ، median_low () ، median_high () ، median_grouped () ، mode () ، multimode () و مقدار (). مقادیر نان باید قبل از فراخوانی این توابع سلب شوند:
میانگین ها و اقدامات مکان مرکزی
این توابع یک مقدار متوسط یا معمولی را از یک جمعیت یا نمونه محاسبه می کنند.
میانگین حسابی ("متوسط") داده ها.
میانگین حسابی سریع و شناور ، با وزن اختیاری.
میانگین هندسی داده ها.
میانگین هارمونیک داده ها.
متوسط (ارزش متوسط) داده ها.
متوسط داده ها.
متوسط داده ها.
داده های گروه بندی شده متوسط یا صدک 50.
حالت منفرد (رایج ترین مقدار) داده های گسسته یا اسمی.
لیست حالت ها (متداول ترین مقادیر) داده های گسسته یا اسمی.
داده ها را به فواصل با احتمال برابر تقسیم کنید.
اقدامات گسترش
این توابع اندازه گیری از میزان جمعیت یا نمونه را از مقادیر معمولی یا متوسط محاسبه می کند.
انحراف استاندارد جمعیت داده ها.
واریانس جمعیت داده ها.
نمونه انحراف استاندارد داده ها.
واریانس نمونه داده ها.
آمار روابط بین دو ورودی
این توابع آمار مربوط به روابط بین دو ورودی را محاسبه می کند.
نمونه کواریانس برای دو متغیر.
ضریب همبستگی پیرسون برای دو متغیر.
شیب و رهگیری برای رگرسیون خطی ساده.
جزئیات عملکرد
توجه: توابع نیازی به طبقه بندی داده های داده شده به آنها ندارند. با این حال ، برای خواندن راحتی ، بیشتر مثالها توالی های مرتب شده را نشان می دهند.
آمار. میانگین (داده)
میانگین حساب نمونه داده ها را برگردانید که می تواند یک توالی یا قابل تکرار باشد.
میانگین حسابی مجموع داده های تقسیم شده بر تعداد نقاط داده است. معمولاً "متوسط" نامیده می شود ، اگرچه تنها یکی از میانگین های مختلف ریاضی است. این یک اندازه گیری از محل مرکزی داده ها است.
اگر داده ها خالی باشد ، StatisticsError مطرح می شود.
برخی از نمونه های استفاده:
میانگین به شدت تحت تأثیر خارج از کشور قرار دارد و لزوماً نمونه بارز نقاط داده نیست. برای اندازه گیری قوی تر ، اگرچه کارآمدتر ، اندازه گرایش مرکزی ، به میانه مراجعه کنید ().
میانگین نمونه تخمین بی طرفانه از میانگین جمعیت واقعی را نشان می دهد ، به طوری که وقتی به طور متوسط بیش از همه نمونه های ممکن گرفته شود ، میانگین (نمونه) در میانگین واقعی کل جمعیت همگرا می شود. اگر داده ها کل جمعیت را به جای یک نمونه نشان دهند ، میانگین (داده ها) معادل محاسبه میانگین جمعیت واقعی است.
تبدیل داده ها به شناورها و محاسبه میانگین حسابی.
این سریعتر از عملکرد میانگین () اجرا می شود و همیشه یک شناور را برمی گرداند. داده ها ممکن است یک توالی یا قابل تکرار باشد. اگر مجموعه داده ورودی خالی است ، یک StationsRor را بالا می برد.
وزن اختیاری پشتیبانی می شود. به عنوان مثال ، یک استاد با وزنه برداری از آزمونها در 20 ٪ ، 20 ٪ مشق شب ، یک امتحان میان مدت در 30 ٪ و یک امتحان نهایی در 30 ٪ ، یک درجه را برای یک دوره اختصاص می دهد:
در صورت تأمین وزن ، باید به همان طول داده ها یا یک ارزش ارزشمند افزایش یابد.
جدید در نسخه 3. 8.
تغییر در نسخه 3. 11: پشتیبانی اضافه شده برای وزنه ها.
تبدیل داده ها به شناورها و محاسبه میانگین هندسی.
میانگین هندسی نشانگر گرایش اصلی یا مقدار معمولی داده ها با استفاده از محصول مقادیر (بر خلاف میانگین حسابی که از جمع آنها استفاده می کند).
اگر مجموعه داده ورودی خالی باشد ، اگر حاوی صفر باشد ، یا اگر مقدار منفی داشته باشد ، یک آمار را ایجاد می کند. داده ها ممکن است یک توالی یا قابل تکرار باشد.
هیچ تلاش خاصی برای دستیابی به نتایج دقیق انجام نشده است.(با این حال ، این ممکن است در آینده تغییر کند.)
جدید در نسخه 3. 8.
میانگین هارمونیک داده ها ، دنباله یا قابل تکرار اعداد با ارزش واقعی را برگردانید. اگر وزن حذف شود یا هیچ کدام ، وزن برابر فرض می شود.
میانگین هارمونیک متقابل میانگین حسابی () متقابل داده ها است. به عنوان مثال ، میانگین هارمونیک سه مقدار A ، B و C معادل 3/(1/A + 1/B + 1/C) خواهد بود. اگر یکی از مقادیر صفر باشد ، نتیجه صفر خواهد بود.
میانگین هارمونیک نوعی متوسط است ، اندازه گیری محل مرکزی داده ها. اغلب در هنگام میانگین نسبت ها یا نرخ ها ، به عنوان مثال سرعت مناسب است.
فرض کنید یک ماشین 10 کیلومتر در ساعت 40 کیلومتر در ساعت حرکت می کند ، سپس 10 کیلومتر دیگر با سرعت 60 کیلومتر در ساعت. سرعت متوسط چقدر است؟
فرض کنید یک اتومبیل 40 کیلومتر در ساعت به مدت 5 کیلومتر حرکت می کند و هنگامی که ترافیک پاک می شود ، برای 30 کیلومتر باقی مانده از سفر به 60 کیلومتر در ساعت سرعت می یابد. سرعت متوسط چقدر است؟
در صورت خالی بودن داده ها ، statisticserror مطرح می شود ، هر عنصر کمتر از صفر است ، یا اگر مبلغ وزنی مثبت نباشد.
الگوریتم فعلی هنگام برخورد با صفر در ورودی ، زودهنگام دارد. این بدان معنی است که ورودی های بعدی برای اعتبار آزمایش نمی شوند.(این رفتار ممکن است در آینده تغییر کند.)
جدید در نسخه 3. 6.
تغییر در نسخه 3. 10: پشتیبانی اضافه شده برای وزنه ها.
با استفاده از روش مشترک "میانگین دو میانه" ، میانگین (ارزش متوسط) داده های عددی را برگردانید. اگر داده ها خالی باشد ، StationSerror مطرح می شود. داده ها می توانند یک توالی یا قابل تکرار باشند.
میانه یک اندازه گیری قوی از مکان مرکزی است و کمتر از حضور افراد دور دیده می شود. هنگامی که تعداد نقاط داده عجیب است ، نقطه داده میانی بازگردانده می شود:
هنگامی که تعداد نقاط داده یکنواخت باشد ، میانگین با گرفتن میانگین دو مقدار میانی درون یابی می شود:
این مناسب برای زمانی است که داده های شما گسسته است ، و شما مهم نیست که میانه ممکن است یک نقطه داده واقعی نباشد.
اگر داده ها به ترتیب ترتیب داده شده است (از عملیات سفارش پشتیبانی می کند) اما عددی نیست (علاوه بر این پشتیبانی نمی کند) ، به جای آن استفاده از median_low () یا median_high () را در نظر بگیرید.
آمار. median_low (داده)
میانگین کم داده های عددی را برگردانید. اگر داده ها خالی باشد ، StationSerror مطرح می شود. داده ها می توانند یک توالی یا قابل تکرار باشند.
میانه کم همیشه عضو مجموعه داده ها است. وقتی تعداد نقاط داده عجیب باشد ، ارزش متوسط بازگردانده می شود. وقتی یکنواخت باشد ، کوچکتر از دو ارزش میانی بازگردانده می شود.
هنگامی که داده های شما گسسته هستند ، از میانه کم استفاده کنید و ترجیح می دهید میانه به جای اینکه درون یابی شود ، یک نقطه داده واقعی باشد.
آمار. median_high (داده)
میانگین بالای داده ها را برگردانید. اگر داده ها خالی باشد ، StationSerror مطرح می شود. داده ها می توانند یک توالی یا قابل تکرار باشند.
میانه بالا همیشه عضوی از مجموعه داده است. وقتی تعداد نقاط داده فرد باشد، مقدار وسط برگردانده می شود. هنگامی که یکنواخت است، بزرگتر از دو مقدار میانی برگردانده می شود.
وقتی داده های شما گسسته هستند و ترجیح می دهید میانه یک نقطه داده واقعی باشد به جای درونیابی، از میانه بالا استفاده کنید.
آمار. میانه_گروهی (داده، بازه = 1) ¶
میانه داده های پیوسته گروه بندی شده را که به عنوان صدک 50 محاسبه شده است، با استفاده از درون یابی برگردانید. اگر داده خالی باشد، StatisticsError افزایش می یابد. داده ها می توانند دنباله ای یا تکرار شونده باشند.
در مثال زیر، داده ها گرد شده اند، به طوری که هر مقدار نشان دهنده نقطه میانی کلاس های داده است، به عنوان مثال. 1 نقطه میانی کلاس 0. 5-1. 5، 2 نقطه میانی 1. 5-2. 5، 3 نقطه میانی 2. 5-3. 5، و غیره است. با داده های داده شده، مقدار وسط جایی در کلاس 3. 5-4. 5، و درون یابی است. برای برآورد آن استفاده می شود:
فاصله آرگومان اختیاری بازه کلاس را نشان می دهد و به طور پیش فرض 1 است. تغییر فاصله کلاس به طور طبیعی باعث تغییر درون یابی می شود:
این تابع بررسی نمی کند که آیا نقاط داده حداقل فاصله دارند یا خیر.
جزئیات پیاده سازی CPython: تحت برخی شرایط، median_grouped() ممکن است نقاط داده را به شناورها وادار کند. این رفتار احتمالاً در آینده تغییر خواهد کرد.
"آمار برای علوم رفتاری"، فردریک جی گریوتر و لری بی والناو (ویرایش هشتم).
تابع SSMEDIAN در صفحه گسترده Gnome Gnumeric، شامل این بحث است.
رایج ترین نقطه داده را از داده های گسسته یا اسمی برگردانید. حالت (زمانی که وجود دارد) معمولی ترین مقدار است و به عنوان معیاری برای مکان مرکزی عمل می کند.
اگر چندین حالت با فرکانس یکسان وجود داشته باشد، اولین حالتی را که در داده ها با آن مواجه شده است برمی گرداند. اگر کوچک ترین یا بزرگ ترین آنها مورد نظر است، از min(multimode(data)) یا max(multimode(data)) استفاده کنید. اگر داده های ورودی خالی باشد، StatisticsError افزایش می یابد.
mode داده های گسسته را فرض می کند و یک مقدار واحد را برمی گرداند. این درمان استاندارد حالتی است که معمولاً در مدارس آموزش داده می شود:
حالت منحصر به فرد است زیرا تنها آمار موجود در این بسته است که برای داده های اسمی (غیر عددی) نیز اعمال می شود:
تغییر در نسخه 3. 8: اکنون مجموعه داده های چندوجهی را با بازگرداندن اولین حالتی که با آن مواجه شده است، مدیریت می کند. قبلاً هنگامی که بیش از یک حالت پیدا می شد StatisticsError را افزایش می داد.
لیستی از مقادیر متداول را به ترتیب مورد نظر برای اولین بار در داده ها برگردانید. در صورت خالی بودن داده ها بیش از یک نتیجه باز می گردد:
جدید در نسخه 3. 8.
انحراف استاندارد جمعیت (ریشه مربع واریانس جمعیت) را برگردانید. برای استدلال ها و جزئیات دیگر به Pviarsce () مراجعه کنید.
واریانس جمعیت داده ها ، یک دنباله غیر خالی یا تکرار اعداد با ارزش واقعی را برگردانید. واریانس یا لحظه دوم در مورد میانگین ، اندازه گیری تنوع (گسترش یا پراکندگی) داده ها است. یک واریانس بزرگ نشان می دهد که داده ها پخش شده است. یک واریانس کوچک نشان می دهد که از نزدیک در اطراف میانگین جمع شده است.
اگر آرگومان دوم اختیاری MU داده شود ، به طور معمول میانگین داده ها است. همچنین می توان از آن برای محاسبه لحظه دوم در اطراف یک نقطه استفاده کرد که میانگین آن نیست. اگر از دست رفته باشد یا هیچ کدام (پیش فرض) ، میانگین حسابی به طور خودکار محاسبه می شود.
برای محاسبه واریانس کل جمعیت از این تابع استفاده کنید. برای برآورد واریانس از یک نمونه ، عملکرد واریانس () معمولاً انتخاب بهتری است.
اگر قبلاً میانگین داده های خود را محاسبه کرده اید ، می توانید آن را به عنوان استدلال دوم اختیاری MU برای جلوگیری از محاسبه مجدد منتقل کنید:
اعشار و کسری پشتیبانی می شوند:
هنگامی که با کل جمعیت فراخوانی می شود ، این به واریانس جمعیت σ² می دهد. در عوض ، وقتی به یک نمونه فراخوانده می شود ، این واریانس نمونه مغرضانه S² است ، همچنین به عنوان واریانس با درجه N از آزادی شناخته می شود.
اگر به نوعی جمعیت واقعی μ را می دانید ، ممکن است از این عملکرد برای محاسبه واریانس یک نمونه استفاده کنید و به جمعیت شناخته شده میانگین استدلال دوم می پردازید. مشروط بر اینکه نقاط داده یک نمونه تصادفی از جمعیت باشد ، نتیجه تخمین بی طرفانه از واریانس جمعیت خواهد بود.
انحراف استاندارد نمونه (ریشه مربع واریانس نمونه) را برگردانید. برای آرگومان ها و سایر جزئیات به واریانس () مراجعه کنید.
واریانس نمونه داده ها را برگردانید ، حداقل دو عدد با ارزش واقعی. واریانس یا لحظه دوم در مورد میانگین ، اندازه گیری تنوع (گسترش یا پراکندگی) داده ها است. یک واریانس بزرگ نشان می دهد که داده ها پخش شده است. یک واریانس کوچک نشان می دهد که از نزدیک در اطراف میانگین جمع شده است.
اگر آرگومان دوم اختیاری XBAR ارائه شود ، باید میانگین داده ها باشد. اگر از دست رفته باشد یا هیچ کدام (پیش فرض) ، میانگین به طور خودکار محاسبه می شود.
وقتی داده های شما نمونه ای از جمعیت است از این عملکرد استفاده کنید. برای محاسبه واریانس از کل جمعیت ، به Pvariance () مراجعه کنید.
اگر داده ها کمتر از دو مقدار داشته باشند ، آمار را افزایش می دهد.
اگر قبلاً میانگین داده های خود را محاسبه کرده اید ، می توانید آن را به عنوان آرگومان دوم اختیاری XBAR برای جلوگیری از محاسبه مجدد منتقل کنید:
این عملکرد تلاش نمی کند تا تأیید کند که شما میانگین واقعی را به عنوان XBAR تصویب کرده اید. استفاده از مقادیر دلخواه برای XBAR می تواند به نتایج نامعتبر یا غیرممکن منجر شود.
مقادیر اعشاری و کسری پشتیبانی می شوند:
این واریانس نمونه با تصحیح بسل است که به عنوان واریانس با درجه N-1 آزادی نیز شناخته می شود. مشروط بر اینکه نقاط داده نماینده باشند (به عنوان مثال مستقل و یکسان توزیع شده) ، نتیجه باید یک تخمین بی طرفانه از واریانس جمعیت واقعی باشد.
اگر به نوعی جمعیت واقعی را می دانید که μ می توانید آن را به عنوان پارامتر MU به عنوان پارامتر MU منتقل کنید تا واریانس یک نمونه را بدست آورید.
داده ها را به فواصل مداوم N با احتمال برابر تقسیم کنید. لیستی از نقاط برش N - 1 را که فواصل را از هم جدا می کند ، برمی گرداند.
N را برای کوارتیل ها (پیش فرض) تنظیم کنید. N را برای 10 مورد قرار دهید. N را برای صدک هایی که 99 نقطه برش را که داده ها را به 100 گروه با اندازه مساوی جدا می کند ، تنظیم کنید. اگر n حداقل 1 باشد ، stationsror را افزایش می دهد.
داده ها می توانند هر نوع داده نمونه ای قابل تکرار باشند. برای نتایج معنی دار ، تعداد نقاط داده در داده ها باید بزرگتر از n باشد. اگر حداقل دو نقطه داده وجود نداشته باشد ، stationserror را افزایش می دهد.
نقاط برش به صورت خطی از دو نزدیکترین نقطه داده درون یابی می شوند. به عنوان مثال ، اگر یک نقطه برش یک سوم از فاصله بین دو مقدار نمونه ، 100 و 112 قرار بگیرد ، نقطه برش به 104 ارزیابی می شود.
روش محاسبه مقادیر بسته به اینکه داده ها شامل کمترین و بالاترین مقادیر ممکن از جمعیت باشد ، می تواند متفاوت باشد.
روش پیش فرض "منحصر به فرد" است و برای داده های نمونه برداری از جمعیتی که می توانند مقادیر شدیدتری نسبت به نمونه ها داشته باشند استفاده می شود. بخشی از جمعیت که در زیر I-Th از نقاط داده مرتب شده M قرار می گیرند ، به عنوان I / (M + 1) محاسبه می شود. با توجه به نه مقدار نمونه ، این روش آنها را مرتب کرده و صدک های زیر را اختصاص می دهد: 10 ٪ ، 20 ٪ ، 30 ٪ ، 40 ٪ ، 50 ٪ ، 60 ٪ ، 70 ٪ ، 80 ٪ ، 90 ٪.
تنظیم روش به "فراگیر" برای توصیف داده های جمعیت یا برای نمونه هایی که شناخته شده ترین مقادیر جمعیت است ، استفاده می شود. حداقل مقدار در داده ها به عنوان صدک 0 درمان می شود و حداکثر مقدار به عنوان صدک 100 درمان می شود. بخشی از جمعیت که در زیر I-Th از نقاط داده طبقه بندی شده M قرار می گیرند ، به صورت (I - 1) / (M - 1) محاسبه می شود. با توجه به 11 مقدار نمونه ، این روش آنها را مرتب کرده و صدک های زیر را اختصاص می دهد: 0 ٪ ، 10 ٪ ، 20 ٪ ، 30 ٪ ، 40 ٪ ، 50 ٪ ، 60 ٪ ، 70 ٪ ، 80 ٪ ، 90 ٪ ، 100 ٪.
جدید در نسخه 3. 8.
کواریانس نمونه دو ورودی x و y را برگردانید. کواریانس اندازه گیری تنوع مشترک دو ورودی است.
هر دو ورودی باید از طول یکسان باشند (نه کمتر از دو) ، در غیر این صورت StatisticSerror مطرح می شود.
جدید در نسخه 3. 10.
ضریب همبستگی پیرسون را برای دو ورودی برگردانید. ضریب همبستگی پیرسون مقادیر بی ن-1 و 1+ را می گیرد. این قدرت و جهت رابطه خطی را اندازه گیری می کند ، جایی که +1 به معنای رابطه خطی بسیار قوی ، مثبت ، -1 بسیار قوی ، رابطه خطی منفی و 0 رابطه خطی نیست.
هر دو ورودی باید از طول یکسان باشند (نه کمتر از دو) ، و نیازی به ثابت بودن نیست ، در غیر این صورت StatisticSerror مطرح می شود.
جدید در نسخه 3. 10.
شیب و رهگیری پارامترهای رگرسیون خطی ساده تخمین زده شده با استفاده از حداقل مربعات معمولی را برگردانید. رگرسیون خطی ساده رابطه بین یک متغیر مستقل X و یک متغیر وابسته Y را از نظر این عملکرد خطی توصیف می کند:
y = شیب * x + رهگیری + سر و صدا
در جایی که شیب و رهگیری پارامترهای رگرسیون هستند که تخمین زده می شوند ، و نویز نشان دهنده تنوع داده هایی است که توسط رگرسیون خطی توضیح داده نشده است (این برابر با تفاوت بین مقادیر پیش بینی شده و واقعی متغیر وابسته است).
هر دو ورودی باید از طول یکسان باشند (نه کمتر از دو) ، و متغیر مستقل X نمی تواند ثابت باشد. در غیر این صورت یک stationserror مطرح می شود.
به عنوان مثال ، ما می توانیم از تاریخ انتشار فیلم های Monty Python برای پیش بینی تعداد تجمعی فیلم های مونی پایتون استفاده کنیم که تا سال 2019 تولید می شد با فرض اینکه آنها سرعت را حفظ کرده اند.
اگر متناسب صحیح باشد ، متغیر مستقل X و متغیر وابسته Y فرض می شود که مستقیماً متناسب باشد. داده ها متناسب با خطی است که از منشأ عبور می کند. از آنجا که رهگیری همیشه 0. 0 خواهد بود ، عملکرد خطی زیرین ساده است:
y = شیب * x + سر و صدا
جدید در نسخه 3. 10.
تغییر در نسخه 3. 11: پشتیبانی اضافه شده برای متناسب . R
استثناها¶
یک استثناء واحد تعریف شده است:
آمار استثناstatisticserror
زیر کلاس ValueError برای استثنائات مربوط به آمار.
اشیاء عادی
NormalDist ابزاری برای ایجاد و دستکاری توزیع عادی یک متغیر تصادفی است. این کلاس است که میانگین و انحراف استاندارد از اندازه گیری داده ها را به عنوان یک نهاد واحد درمان می کند.
توزیع های عادی از قضیه محدودیت مرکزی ناشی می شود و طیف گسترده ای از برنامه های کاربردی در آمار دارند.
آمار کلاسNormalDist (MU = 0. 0 ، سیگما = 1. 0)
یک شیء NormalDist جدید را برمی گرداند که در آن MU میانگین حسابی را نشان می دهد و سیگما نشان دهنده انحراف استاندارد است.
یک ویژگی فقط خواندنی برای میانگین حسابی از توزیع عادی.
یک خاصیت فقط خواندنی برای میانگین توزیع عادی.
یک ویژگی فقط خواندنی برای نحوه توزیع عادی.
یک ویژگی فقط خواندنی برای انحراف استاندارد از توزیع عادی.
یک ویژگی فقط خواندنی برای واریانس توزیع عادی. برابر با مربع انحراف استاندارد.
ClassMethod از_samples (داده ها)
یک نمونه توزیع عادی با پارامترهای MU و Sigma از داده ها با استفاده از FMEAN () و stdev () تخمین زده می شود.
داده ها می توانند هرگونه قابل تکرار باشند و باید از مقادیری تشکیل شود که می توانند به نوع شناور تبدیل شوند. اگر داده ها حداقل دو عنصر را شامل نمی شود ، StatisticSerror را افزایش می دهد زیرا برای برآورد پراکندگی حداقل یک امتیاز برای تخمین یک مقدار مرکزی و حداقل دو امتیاز لازم است.
برای یک میانگین و انحراف استاندارد ، نمونه تصادفی تولید می کند. لیستی از مقادیر شناور را برمی گرداند.
اگر بذر داده شود ، نمونه جدیدی از ژنراتور شماره تصادفی اساسی ایجاد می کند. این برای ایجاد نتایج قابل تکرار ، حتی در یک زمینه چند رشته ای مفید است.
با استفاده از یک تابع چگالی احتمال (PDF) ، احتمال نسبی را محاسبه کنید که یک متغیر تصادفی X نزدیک به مقدار X باشد. از نظر ریاضی ، این حد نسبت P است (X DX به صفر نزدیک می شود.
احتمال نسبی به عنوان احتمال نمونه ای که در یک محدوده باریک وجود دارد که با عرض دامنه تقسیم می شود (از این رو کلمه "تراکم") محاسبه می شود. از آنجا که احتمال آن نسبت به سایر نقاط است ، مقدار آن می تواند بیشتر از 1. 0 باشد.
با استفاده از یک تابع توزیع تجمعی (CDF) ، این احتمال را محاسبه کنید که یک متغیر تصادفی X کمتر یا برابر با X باشد. از نظر ریاضی ، آن را نوشته شده است (x
عملکرد توزیع تجمعی معکوس ، همچنین به عنوان عملکرد کمی یا عملکرد درصد نقطه شناخته می شود. از نظر ریاضی ، آن را نوشته شده است x: p (x
مقدار x متغیر تصادفی X را پیدا می کند به گونه ای که احتمال متغیر کمتر از یا مساوی با آن مقدار برابر با احتمال داده شده p باشد.
توافق بین دو توزیع احتمال عادی را اندازه گیری می کند. مقدار بین 0. 0 و 1. 0 را باز می گرداند و منطقه همپوشانی را برای دو عملکرد چگالی احتمال قرار می دهد.
توزیع عادی را به فواصل مداوم N با احتمال برابر تقسیم کنید. لیستی از (n - 1) نقاط قطع شده را برای جدا کردن فواصل باز می گرداند.
N را برای کوارتیل ها (پیش فرض) تنظیم کنید. N را برای 10 مورد قرار دهید. N را برای صدک هایی که 99 نقطه برش را نشان می دهد که توزیع عادی را در 100 گروه با اندازه مساوی از هم جدا می کند ، تنظیم کنید.
نمره استاندارد را که x را از نظر تعداد انحرافات استاندارد بالا یا پایین تر از میانگین توزیع عادی توصیف می کند ، محاسبه کنید: (x - میانگین) / stdev.
جدید در نسخه 3. 9.
مواردی از علاوه بر پشتیبانی ، تفریق ، ضرب و تقسیم به صورت ثابت پشتیبانی می کند. این عملیات برای ترجمه و مقیاس گذاری استفاده می شود. مثلا:
تقسیم ثابت بر اساس نمونه ای از NormalDist پشتیبانی نمی شود زیرا نتیجه به طور عادی توزیع نمی شود.
از آنجا که توزیع عادی از اثرات افزودنی متغیرهای مستقل ناشی می شود ، می توان دو متغیر تصادفی مستقل توزیع شده را که به عنوان نمونه های NormalDist ارائه شده اند ، اضافه و تفریق کنید. مثلا:
جدید در نسخه 3. 8.
نمونه ها و دستور العمل های NormalDist ¶
NolorDist به راحتی مشکلات احتمال کلاسیک را حل می کند.
به عنوان مثال ، با توجه به داده های تاریخی برای امتحانات SAT نشان می دهد که نمرات به طور معمول با میانگین 1060 و انحراف استاندارد 195 توزیع می شوند ، درصد دانش آموزان با نمرات آزمون بین 1100 تا 1200 را تعیین می کنند ، پس از دور زدن به نزدیکترین تعداد کل:
کوارتیل ها و دهک ها را برای نمرات SAT پیدا کنید:
برای برآورد توزیع برای یک مدل از آنچه که به راحتی قابل حل نیست ، می تواند نمونه های ورودی را برای یک شبیه سازی مونت کارلو تولید کند:
از توزیع های عادی می توان برای تقریبی توزیع های دوتایی استفاده کرد که اندازه نمونه بزرگ باشد و هنگامی که احتمال یک کارآزمایی موفق نزدیک به 50 ٪ است.
به عنوان مثال ، یک کنفرانس منبع باز دارای 750 شرکت کننده و دو اتاق با ظرفیت 500 نفر است. در مورد پایتون و دیگری در مورد روبی صحبت شده است. در کنفرانس های قبلی ، 65 ٪ از شرکت کنندگان ترجیح می دادند به مذاکرات پایتون گوش دهند. با فرض اینکه ترجیحات جمعیتی تغییر نکرده است ، احتمال اینکه اتاق پایتون در محدوده ظرفیت خود باقی بماند ، چقدر است؟
توزیع های عادی معمولاً در مشکلات یادگیری ماشین بوجود می آیند.
ویکی پدیا نمونه خوبی از طبقه بندی کننده ساده لوح بیزی دارد. چالش پیش بینی جنسیت فرد از اندازه گیری ویژگی های عادی توزیع شده از جمله قد ، وزن و اندازه پا است.
ما یک مجموعه داده آموزشی با اندازه گیری برای هشت نفر به ما داده شده است. اندازه گیری ها به طور عادی توزیع می شوند ، بنابراین ما داده ها را با NormalDist خلاصه می کنیم:
در مرحله بعد ، ما با شخص جدیدی روبرو می شویم که اندازه گیری ویژگی های آن شناخته شده است اما جنسیت آنها ناشناخته است:
با شروع 50 ٪ احتمال قبلی مرد یا زن بودن ، ما خلفی را به عنوان زمان قبلی محصول احتمال اندازه گیری ویژگی با توجه به جنسیت محاسبه می کنیم:
پیش بینی نهایی به بزرگترین خلفی می رود. این به حداکثر یک خلفی یا نقشه معروف است:
نرم افزار مفید تریدر...
ما را در سایت نرم افزار مفید تریدر دنبال می کنید
برچسب :
نویسنده : احمد شاملو
بازدید : 44
تاريخ : چهارشنبه
23 فروردين
1402 ساعت: 11:04