Formula probabilității totale. Formula Bayes. Idei bayesiene pentru manageri

Formula probabilității totale. Formula Bayes. Idei bayesiene pentru manageri

30.09.2019

siberian Universitate de stat telecomunicatii si informatica

Catedra de Matematică Superioară

la disciplina: „Teoria probabilității și statistică matematică”

„Formula probabilității totale și formula lui Bayes (Bayes) și aplicarea lor”

Efectuat:

Şef: profesorul B.P. Zelentsov

Novosibirsk, 2010


Introducere 3

1. Formula probabilității totale 4-5

2. Formula Bayes (Bayes) 5-6

3. Probleme cu soluțiile 7-11

4. Principalele domenii de aplicare ale formulei Bayes (Bayes) 11

Concluzia 12

Literatura 13


Introducere

Teoria probabilității este una dintre ramurile clasice ale matematicii. Are o istorie lungă. Bazele acestei ramuri a științei au fost puse de mari matematicieni. Voi numi, de exemplu, Fermat, Bernoulli, Pascal.
Dezvoltare ulterioară teoriile probabilităților au fost definite în lucrările multor oameni de știință.
Oamenii de știință din țara noastră au adus o mare contribuție la teoria probabilității:
P.L. Cebyshev, A.M.Lyapunov, A.A.Markov, A.N.Kolmogorov. Metodele probabilistice și statistice au pătruns acum adânc în aplicații. Sunt folosite în fizică, tehnologie, economie, biologie și medicină. Rolul lor a crescut mai ales în legătură cu dezvoltarea tehnologiei informatice.

De exemplu, pentru a studia fenomene fizice face observatii sau experimente. Rezultatele lor sunt de obicei înregistrate sub formă de valori ale unor cantități observabile. Când repetă experimentele, descoperim o împrăștiere a rezultatelor acestora. De exemplu, prin repetarea măsurătorilor aceleiași cantități cu același dispozitiv menținând în același timp anumite condiții (temperatură, umiditate etc.), obținem rezultate care sunt cel puțin ușor diferite unele de altele. Nici măcar măsurătorile repetate nu fac posibilă prezicerea cu precizie a rezultatului următoarei măsurători. În acest sens, ei spun că rezultatul unei măsurători este o variabilă aleatorie. Un exemplu și mai evident de variabilă aleatorie este numărul unui bilet câștigător la o loterie. Pot fi date multe alte exemple de variabile aleatoare. Cu toate acestea, în lumea întâmplării, anumite tipare sunt dezvăluite. Aparatul matematic pentru studierea unor astfel de modele este furnizat de teoria probabilității.
Astfel, teoria probabilității se ocupă de analiza matematică a evenimentelor aleatoare și a variabilelor aleatoare asociate.

1. Formula probabilității totale.

Să fie un grup de evenimente H 1 ,H 2 ,..., Hn, având următoarele proprietăți:

1) toate evenimentele sunt incompatibile perechi: Bună

Hj =Æ; i , j =1,2,...,n ; i ¹ j ;

2) unirea lor formează spațiul rezultatelor elementare W:

.
Fig.8

În acest caz vom spune că H 1 , H 2 ,...,Hn formă grup complet evenimente. Astfel de evenimente sunt uneori numite ipoteze .

Lăsa A-un eveniment: AÌW (diagrama Venn este prezentată în Figura 8). Apoi ține formula probabilitatii totale:

P (A) = P (A /H 1)P (H 1) + P (A /H 2)P (H 2) + ...+P (A /Hn)P (Hn) =

Dovada. Evident: A=

, și toate evenimentele ( i = 1,2,...,n) sunt incompatibile perechi. De aici, folosind teorema de adunare a probabilităților, obținem

P (A) = P (

) + P () +...+ P (

Dacă luăm în considerare că prin teorema înmulțirii P (

) = P (AH i) P (H i) ( i = 1,2,...,n), apoi din ultima formulă se obține ușor formula probabilității totale de mai sus.

Exemplu. Magazinul comercializează lămpi electrice produse de trei fabrici, ponderea primei fabrici fiind de 30%, a doua fiind de 50%, iar a treia fiind de 20%. Defectele produselor lor sunt de 5%, 3% și, respectiv, 2%. Care este probabilitatea ca o lampă aleasă aleatoriu într-un magazin să se dovedească a fi defectă?

Lasă evenimentul H 1 este că lampa selectată este produsă în prima fabrică, H 2 pe al doilea, H 3 - la a treia plantă. Evident:

P (H 1) = 3/10, P (H 2) = 5/10, P (H 3) = 2/10.

Lasă evenimentul A este că lampa selectată s-a dovedit a fi defectă; A/H iînseamnă cazul în care o lampă defectă este selectată dintre lămpile produse în i-a planta. Din declarația problemei rezultă:

P (A / H 1) = 5/10; P (A / H 2) = 3/10; P (A / H 3) = 2/10

Folosind formula probabilității totale obținem

2. Formula Bayes (Bayes)

Lăsa H 1 ,H 2 ,...,Hn- un grup complet de evenimente și AМ W este un eveniment. Apoi, conform formulei pentru probabilitatea condiționată

(1)

Aici P (Hk /A) – probabilitatea condiționată a unui eveniment (ipoteză) Hk sau probabilitatea ca Hk este implementat cu condiția ca evenimentul A s-a întâmplat.

Conform teoremei înmulțirii probabilităților, numărătorul cu formula (1) poate fi reprezentat ca

P = P = P (A /Hk)P (Hk)

Pentru a reprezenta numitorul formulei (1), puteți utiliza formula probabilității totale

P (A)

Acum din (1) putem obține o formulă numită Formula Bayes :

Formula lui Bayes calculează probabilitatea ca ipoteza să fie realizată Hk cu condiția ca evenimentul A s-a întâmplat. Se mai numește și formula lui Bayes formula pentru probabilitatea ipotezelor. Probabilitate P (Hk) se numește probabilitatea anterioară a ipotezei Hk, și probabilitatea P (Hk /A) – probabilitate posterioară.

Teorema. Probabilitatea unei ipoteze după test este egală cu produsul dintre probabilitatea ipotezei înainte de test și probabilitatea condiționată corespunzătoare a evenimentului care a avut loc în timpul testului, împărțit la probabilitatea totală a acestui eveniment.

Exemplu. Să luăm în considerare problema de mai sus despre lămpile electrice, doar să schimbăm întrebarea problemei. Să presupunem că un client a cumpărat o lampă electrică în acest magazin și s-a dovedit a fi defectă. Găsiți probabilitatea ca această lampă să fi fost fabricată în a doua fabrică. Magnitudinea P (H 2) = 0,5 V în acest caz, aceasta este probabilitatea anterioară a evenimentului ca lampa achiziționată să fi fost fabricată la a doua fabrică. După ce am primit informații că lampa achiziționată este defectă, ne putem corecta estimarea posibilității de a produce această lampă la a doua fabrică prin calculul probabilității posterioare a acestui eveniment.

Scurtă teorie

Dacă un eveniment are loc numai cu condiția apariției unuia dintre evenimentele care formează un grup complet de evenimente incompatibile, atunci este egal cu suma produselor probabilităților fiecăruia dintre evenimente de portofelul de probabilitate condiționată corespunzător.

În acest caz, evenimentele sunt numite ipoteze, iar probabilitățile sunt numite a priori. Această formulă se numește formula probabilității totale.

Formula lui Bayes este folosită pentru a rezolva probleme practice atunci când a avut loc un eveniment care apare împreună cu oricare dintre evenimentele care formează un grup complet de evenimente și este necesară efectuarea unei re-estimari cantitative a probabilităților ipotezelor. Probabilitățile a priori (înainte de experiment) sunt cunoscute. Este necesar să se calculeze probabilitățile posterioare (după experiment), i.e. în esență trebuie să găsești probabilități condiționate. Formula lui Bayes arată astfel:

Exemplu de rezolvare a problemei

Condiția sarcinii 1

Într-o fabrică, mașinile 1, 2 și 3 produc 20%, 35% și, respectiv, 45% din toate piesele. În produsele lor, defectele sunt de 6%, 4%, respectiv 2%. Care este probabilitatea ca un produs selectat aleatoriu să fie defect? Care este probabilitatea ca acesta să fi fost produs: a) de către mașina 1; b) mașina 2; c) mașina 3?

Rezolvarea problemei 1

Să notăm prin evenimentul în care un produs standard se dovedește a fi defect.

Un eveniment poate avea loc numai dacă are loc unul dintre cele trei evenimente:

Produsul a fost produs la mașina 1;

Produsul este produs la mașina 2;

Produsul este produs la mașina 3;

Să notăm probabilitățile condiționate:

Formula probabilității totale

Dacă un eveniment poate avea loc numai dacă are loc unul dintre evenimentele care formează un grup complet de evenimente incompatibile, atunci probabilitatea evenimentului este calculată prin formula

Folosind formula probabilității totale, găsim probabilitatea unui eveniment:

Formula Bayes

Formula lui Bayes vă permite să „rearanjați cauza și efectul”: conform fapt cunoscut evenimente, calculați probabilitatea ca acesta să fi fost cauzat de o cauză dată.

Probabilitatea ca un produs defect să fie fabricat pe mașina 1:

Probabilitatea ca un produs defect să fi fost fabricat pe mașina 2:

Probabilitatea ca un produs defect să fi fost fabricat pe mașina 3:

Starea problemei 2

Grupul este format din 1 elev excelent, 5 elevi performanti si 14 elevi performanti mediocri. Un elev excelent răspunde la 5 și 4 cu probabilitate egală, un elev excelent răspunde la 5, 4 și 3 cu probabilitate egală, iar un elev mediocru răspunde la 4, 3 și 2 cu probabilitate egală. Un elev selectat aleatoriu a răspuns 4. Care este probabilitatea ca un elev performant mediocru să fie numit?

Rezolvarea problemei 2

Ipoteze și probabilități condiționate

Sunt posibile următoarele ipoteze:

Excelentul elev a răspuns;

Băiatul bun a răspuns;

- a răspuns elevul mediocru;

Lasă evenimentul - student să obțină 4.

Probabilități condiționate:

Răspuns:


Este dată definiția probabilității geometrice și este considerată în detaliu problema întâlnirii binecunoscută.

Să începem cu un exemplu. În urna din fața ta, la fel de probabil pot fi (1) două bile albe, (2) una albă și una neagră, (3) două negre. Tragi mingea și se dovedește a fi albă. Cum l-ai aprecia acum? probabilitate aceste trei opțiuni (ipoteze)? Evident, probabilitatea ipotezei (3) cu două bile negre = 0. Dar cum se calculează probabilitățile celor două ipoteze rămase!? Acest lucru se poate face prin formula Bayes, care în cazul nostru are forma (numărul formulei corespunde numărului ipotezei testate):

Descărcați nota în sau

X– o variabilă aleatoare (ipoteză) luând următoarele valori: x 1- doua albe, x 2– unul alb, unul negru; x 3– două negre; la– variabilă aleatoare (eveniment) luând valori: la 1– se scoate o bila alba si la 2– se scoate o bila neagra; P(x 1)– probabilitatea primei ipoteze înainte de a extrage mingea ( a priori probabilitate sau posibilitate inainte de experiență) = 1/3; P(x 2)– probabilitatea celei de-a doua ipoteze înainte de a scoate mingea = 1/3; P(x 3)– probabilitatea celei de-a treia ipoteze înainte de a trage mingea = 1/3; P(y 1|x 1)– probabilitatea condiționată de a extrage o minge albă, dacă prima ipoteză este adevărată (bilele sunt albe) = 1; P(y 1|x 2) probabilitatea de a extrage o bilă albă dacă a doua ipoteză este adevărată (o bilă este albă, a doua este neagră) = ½; P(y 1|x 3) probabilitatea de a extrage o minge albă dacă a treia ipoteză este adevărată (ambele negre) = 0; P(y 1)– probabilitatea de a extrage o minge albă = ½; R(y ​​2)– probabilitatea de a extrage o minge neagră = ½; și în sfârșit, ceea ce căutăm - P(x 1|y 1) probabilitatea ca prima ipoteză să fie adevărată (ambele bile sunt albe), având în vedere că am tras o bilă albă ( a posteriori probabilitate sau posibilitate după experienţă); P(x 2|y 1) probabilitatea ca a doua ipoteză să fie adevărată (o bilă este albă, cealaltă este neagră), cu condiția să extragem o bilă albă.

Probabilitatea ca prima ipoteză (două albe) să fie adevărată, având în vedere că am tras o minge albă:

Probabilitatea ca a doua ipoteză să fie adevărată (una este albă, cealaltă este neagră), cu condiția să desenăm o minge albă:

Probabilitatea ca a treia ipoteză să fie adevărată (două negre), având în vedere că am desenat o minge albă:

Ce face formula lui Bayes? Face posibilă, pe baza probabilităților a priori de ipoteze - P(x 1), P(x 2), P(x 3)– și probabilitățile de apariție a evenimentelor – P(y 1), R(y ​​2)– calculați probabilitățile posterioare ale ipotezelor, de exemplu, probabilitatea primei ipoteze, cu condiția ca o minge albă să fie extrasă – P(x 1|y 1).

Să revenim încă o dată la formula (1). Probabilitatea inițială a primei ipoteze a fost P(x 1) = 1/3. Cu probabilitate P(y 1) = 1/2 am putea trage o minge albă, și cu probabilitate P(y 2) = 1/2- negru. L-am scos pe cel alb. Probabilitatea de a desena alb, cu condiția ca prima ipoteză să fie adevărată P(y 1|x 1) = 1. Formula lui Bayes spune că, de când a fost desenat albul, probabilitatea primei ipoteze a crescut la 2/3, probabilitatea celei de-a doua ipoteze este încă 1/3, iar probabilitatea celei de-a treia ipoteze a devenit zero.

Este ușor să verificăm că dacă am scoate o bilă neagră, probabilitățile posterioare s-ar schimba simetric: P(x 1|y 2) = 0, P(x 2|y 2) = 1/3, P(x 3|y 2) = 2/3.

Iată ce a scris Pierre Simon Laplace despre formula lui Bayes într-o lucrare publicată în 1814:

Acesta este principiul de bază al acelei ramuri a analizei de contingență care se ocupă de tranzițiile de la evenimente la cauze.

De ce este atât de greu de înțeles formula lui Bayes!? După părerea mea, pentru că abordarea noastră obișnuită este raționamentul de la cauze la efecte. De exemplu, dacă într-o urnă există 36 de bile, dintre care 6 sunt negre, iar restul sunt albe. Care este probabilitatea de a extrage o minge albă? Formula lui Bayes vă permite să treceți de la evenimente la motive (ipoteze). Dacă am avut trei ipoteze și a avut loc un eveniment, cum a afectat acel eveniment (și nu alternativa) probabilitățile inițiale ale ipotezelor? Cum s-au schimbat aceste probabilități?

Cred că formula lui Bayes nu este doar despre probabilități. Schimbă paradigma percepției. Care este procesul de gândire atunci când se utilizează paradigma deterministă? Dacă a avut loc un eveniment, care a fost cauza lui? Dacă are loc un accident, de urgență, conflict militar. Cine sau ce a fost vina lor? Ce crede un observator bayesian? Care este structura realității la care a condus dat caz la cutare şi cutare manifestare... Bayesianul înţelege că în in caz contrarÎn acest caz rezultatul ar fi putut fi diferit...

Să plasăm simbolurile în formulele (1) și (2) puțin diferit:

Să vorbim din nou despre ceea ce vedem. Cu probabilitate inițială (a priori) egală, una dintre cele trei ipoteze ar putea fi adevărată. Cu aceeași probabilitate am putea trage o minge albă sau neagră. L-am scos pe cel alb. În lumina acestor noi informații suplimentare, evaluarea noastră a ipotezelor ar trebui reconsiderată. Formula lui Bayes ne permite să facem acest lucru numeric. Probabilitatea anterioară a primei ipoteze (formula 7) a fost P(x 1), s-a tras o minge albă, probabilitatea posterioară a primei ipoteze a devenit P(x 1|la 1). Aceste probabilități diferă printr-un factor.

Eveniment la 1 numită dovezi care confirmă sau infirmă mai mult sau mai puțin o ipoteză x 1. Acest coeficient este uneori numit puterea probei. Cu cât dovezile sunt mai puternice (cu atât coeficientul diferă mai mult de unitate), cu atât mai mult fapt observatii la 1 modifică probabilitatea anterioară, cu atât probabilitatea posterioară diferă de cea anterioară. Dacă dovezile sunt slabe (coeficientul ~1), probabilitatea posterioară este aproape egală cu cea anterioară.

Certificat la 1 V = 2 ori a schimbat probabilitatea anterioară a ipotezei x 1(formula 4). În același timp, dovezi la 1 nu a modificat probabilitatea ipotezei x 2, din moment ce puterea sa = 1 (formula 5).

În general, formula Bayes are următoarea formă:

X– o variabilă aleatorie (un set de ipoteze care se exclud reciproc) luând următoarele valori: x 1, x 2, … , Xn. la– o variabilă aleatoare (un set de evenimente care se exclud reciproc) luând următoarele valori: la 1, la 2, … , lan. Formula lui Bayes vă permite să găsiți probabilitatea posterioară a unei ipoteze Xi la producerea unui eveniment y j. Numătorul este produsul probabilității anterioare a ipotezei XiP(xi) cu privire la probabilitatea producerii unui eveniment y j, dacă ipoteza este adevărată XiR(y j|xi). Numitorul este suma produselor aceluiași ca la numărător, dar pentru toate ipotezele. Dacă calculăm numitorul, obținem probabilitatea totală a producerii evenimentului laj(dacă oricare dintre ipoteze este adevărată) - R(y j) (ca în formulele 1–3).

Încă o dată despre mărturie. Eveniment y j oferă informații suplimentare, care vă permit să revizuiți probabilitatea anterioară a ipotezei Xi. Puterea probei - – conține în numărător probabilitatea producerii evenimentului y j, dacă ipoteza este adevărată Xi. Numitorul este probabilitatea totală de producere a evenimentului. laj(sau probabilitatea ca un eveniment să se producă laj media pentru toate ipotezele). laj mai sus pentru ipoteză Xi, decât media pentru toate ipotezele, atunci dovezile joacă în mâinile ipotezei Xi, crescându-i probabilitatea posterioară R(y j|xi). Dacă probabilitatea apariţiei unui eveniment laj mai jos pentru ipoteză Xi decât media pentru toate ipotezele, atunci dovezile scade probabilitatea posterioară R(y j|xi) Pentru ipoteze Xi. Dacă probabilitatea apariţiei unui eveniment laj pentru o ipoteză Xi este aceeași cu media pentru toate ipotezele, atunci dovezile nu modifică probabilitatea posterioară R(y j|xi) Pentru ipoteze Xi.

Iată câteva exemple care sper că vă vor întări înțelegerea formulei lui Bayes.

Problema 2. Doi trăgători trag în mod independent în aceeași țintă, fiecare trăgând o lovitură. Probabilitatea de a lovi ținta pentru primul trăgător este de 0,8, pentru al doilea - 0,4. După împușcare, a fost găsită o gaură în țintă. Găsiți probabilitatea ca această gaură să aparțină primului trăgător. .

Sarcina 3. Obiectul monitorizat poate fi în una din două stări: H 1 = (funcționează) și H 2 = (nu funcționează). Probabilitățile anterioare ale acestor stări sunt P(H 1) = 0,7, P(H 2) = 0,3. Există două surse de informații care oferă informații contradictorii despre starea obiectului; prima sursă raportează că obiectul nu funcționează, a doua - că funcționează. Se știe că prima sursă oferă informații corecte cu o probabilitate de 0,9, iar cu o probabilitate de 0,1 - informații incorecte. A doua sursă este mai puțin de încredere: oferă informații corecte cu o probabilitate de 0,7 și informații incorecte cu o probabilitate de 0,3. Aflați probabilitățile posterioare ale ipotezelor. .

Problemele 1–3 sunt preluate din manualul lui E.S Ventzel, L.A. Ovcharov. Teoria probabilității și aplicațiile sale de inginerie, secțiunea 2.6 Teorema ipotezei (formula Bayes).

Problema 4 preluată din carte, secțiunea 4.3 Teorema lui Bayes.

La derivarea formulei probabilității totale, s-a presupus că evenimentul A, a cărei probabilitate trebuia determinată, s-ar putea întâmpla cu unul dintre evenimente N 1 , N 2 , ... , N n, formând un grup complet de evenimente incompatibile în perechi. Mai mult, probabilitățile acestor evenimente (ipoteze) erau cunoscute dinainte. Să presupunem că a fost efectuat un experiment, în urma căruia evenimentul A a sosit. Acest Informații suplimentare vă permite să reevaluați probabilitățile ipotezelor N i, având calculat P(Hi/A).

sau, folosind formula probabilității totale, obținem

Această formulă se numește formula lui Bayes sau teorema ipotezei. Formula lui Bayes vă permite să „revizuiți” probabilitățile ipotezelor după ce devine rezultat cunoscut experiența care a dus la eveniment A.

Probabilități Р(Н i)− acestea sunt probabilitățile a priori ale ipotezelor (se calculează înainte de experiment). Probabilitățile P(H i /A)− acestea sunt probabilitățile posterioare ale ipotezelor (se calculează în urma experimentului). Formula lui Bayes vă permite să calculați probabilitățile posterioare din probabilitățile lor anterioare și din probabilitățile condiționate ale unui eveniment A.

Exemplu. Se știe că 5% din toți bărbații și 0,25% dintre toate femeile sunt daltonici. Persoană aleasă aleatoriu după număr card medical suferă de daltonism. Care este probabilitatea ca acesta să fie bărbat?

Soluţie. Eveniment A– o persoană suferă de daltonism. Spațiul evenimentelor elementare pentru experiment - o persoană este selectată după numărul cardului medical - Ω = ( N 1 , N 2 ) constă din 2 evenimente:

N 1 - este selectat un bărbat,

N 2 – este selectată o femeie.

Aceste evenimente pot fi selectate ca ipoteze.

În funcție de condițiile problemei (alegere aleatorie), probabilitățile acestor evenimente sunt aceleași și egale P(N 1 ) = 0.5; P(N 2 ) = 0.5.

În acest caz, probabilitățile condiționate ca o persoană să sufere de daltonism sunt egale, respectiv:

A FUGIT 1 ) = 0.05 = 1/20; A FUGIT 2 ) = 0.0025 = 1/400.

Deoarece se știe că persoana selectată este daltonică, adică evenimentul a avut loc, folosim formula lui Bayes pentru a reevalua prima ipoteză:

Exemplu. Există trei cutii cu aspect identic. Prima cutie conține 20 de bile albe, a doua cutie conține 10 bile albe și 10 negre, iar a treia cutie conține 20 de bile negre. O minge albă este luată dintr-o cutie aleasă la întâmplare. Calculați probabilitatea ca mingea să fie extrasă din prima casetă.

Soluţie. Să notăm prin A eveniment - apariția unei mingi albe. Se pot face trei ipoteze (ipoteze) despre alegerea casetei: N 1 ,N 2 , N 3 – selectarea primei, a doua și, respectiv, a treia casetă.

Deoarece alegerea oricăreia dintre casete este la fel de posibilă, probabilitățile ipotezelor sunt aceleași:

P(N 1 )=P(N 2 )=P(N 3 )= 1/3.

Conform problemei, probabilitatea de a extrage o minge albă din prima casetă este

Probabilitatea de a extrage o minge albă din a doua casetă



Probabilitatea de a extrage o minge albă din a treia casetă

Găsim probabilitatea dorită folosind formula Bayes:

Repetarea testelor. formula lui Bernoulli.

Sunt efectuate N încercări, în fiecare dintre ele evenimentul A poate să apară sau nu, iar probabilitatea evenimentului A în fiecare încercare individuală este constantă, de exemplu. nu se schimba de la experienta la experienta. Știm deja cum să găsim probabilitatea evenimentului A într-un experiment.

Un interes deosebit este probabilitatea de apariție a unui anumit număr de ori (m ori) a evenimentului A în n experimente. Astfel de probleme pot fi rezolvate cu ușurință dacă testele sunt independente.

Def. Sunt numite mai multe teste independent față de evenimentul A , dacă probabilitatea evenimentului A în fiecare dintre ele nu depinde de rezultatele altor experimente.

Probabilitatea Р n (m) de apariție a evenimentului A de exact de m ori (neapariție de n-m ori, eveniment ) în aceste n încercări. Evenimentul A apare în secvențe foarte diferite de m ori).

- Formula lui Bernoulli.

Următoarele formule sunt evidente:

Р n (m Mai puțin k ori în n încercări.

P n (m>k) = P n (k+1) + P n (k+2) +…+ P n (n) - probabilitatea de apariție a evenimentului A Mai mult k ori în n încercări.

Teorema lui Bayes este descrisă în detaliu într-un articol separat. Este o lucrare minunată, dar are 15.000 de cuvinte. Aceeași traducere a articolului din Kalid Azad explică pe scurt însăși esența teoremei.

  • Rezultatele cercetării și testării nu sunt evenimente. Există o metodă de diagnosticare a cancerului și există evenimentul în sine - prezența bolii. Algoritmul verifică dacă mesajul conține spam, dar evenimentul (spam-ul sosit efectiv în e-mail) trebuie luat în considerare separat de rezultatul muncii sale.
  • Există erori în rezultatele testelor. Adesea, metodele noastre de cercetare dezvăluie ceea ce nu există (fals pozitiv) și nu identifică ceea ce este (fals negativ).
  • Cu ajutorul testelor obținem probabilitățile unui anumit rezultat. De prea multe ori ne uităm la rezultatele testelor pe cont propriu și nu luăm în considerare erorile de metodă.
  • Fals rezultate pozitive distorsionează imaginea. Să presupunem că încercați să identificați un fenomen foarte rar (1 caz din 1.000.000). Chiar dacă metoda ta este corectă, sunt șanse ca rezultatul tău pozitiv să fie de fapt un fals pozitiv.
  • Este mai convenabil să lucrezi cu numere naturale. Mai bine să spunem: 100 din 10.000, nu 1%. Cu această abordare vor exista mai puține erori, mai ales la înmulțire. Să presupunem că trebuie să continuăm să lucrăm cu acest 1%. Raționamentul în procente este neîndemânatic: „în 80% din cazuri din 1% a existat un rezultat pozitiv”. Informația este mult mai ușor de perceput după cum urmează: „în 80 de cazuri din 100, s-a observat un rezultat pozitiv”.
  • Chiar și în știință, orice fapt este doar rezultatul aplicării unei metode. CU punct filozofic Din punct de vedere științific, un experiment științific este doar un test cu o posibilă eroare. Există o metodă care dezvăluie Substanta chimica sau vreun fenomen, este evenimentul în sine - prezența acestui fenomen. Metodele noastre de testare pot da rezultat fals, iar orice echipament are o eroare inerentă.
Teorema lui Bayes transformă rezultatele testelor în probabilități de evenimente.
  • Dacă știm probabilitatea unui eveniment și probabilitatea fals pozitive și false negative, putem corecta erorile de măsurare.
  • Teorema raportează probabilitatea unui eveniment de probabilitatea unui anumit rezultat. Putem raporta Pr(A|X): probabilitatea evenimentului A, dat rezultatul X, și Pr(X|A): probabilitatea rezultatului X, dat evenimentului A.

Să înțelegem metoda

Articolul de la începutul acestui eseu examinează metoda de diagnosticare (mamografia) care detectează cancerul de sân. Să luăm în considerare această metodă în detaliu.
  • 1% dintre toate femeile suferă de cancer de sân (și, în consecință, 99% nu îl fac)
  • 80% dintre mamografii detectează boala atunci când aceasta există efectiv (și, în consecință, 20% nu o detectează)
  • 9,6% dintre teste detectează cancerul atunci când nu există (și, în consecință, 90,4% detectează corect un rezultat negativ)
Acum să creăm un tabel ca acesta:

Cum se lucrează cu aceste date?
  • 1% dintre femei suferă de cancer la sân
  • dacă pacientul este diagnosticat cu o boală, uitați-vă la prima coloană: există o șansă de 80% ca metoda să dea rezultatul corect și o șansă de 20% ca rezultatul testului să fie incorect (fals negativ)
  • dacă boala pacientului nu a fost identificată, priviți a doua coloană. Cu o probabilitate de 9,6% putem spune că rezultatul pozitiv al studiului este incorect, iar cu o probabilitate de 90,4% putem spune că pacientul este cu adevărat sănătos.

Cât de precisă este metoda?

Acum să ne uităm la rezultatul pozitiv al testului. Care este probabilitatea ca persoana să fie cu adevărat bolnavă: 80%, 90%, 1%?

Să ne gândim:

  • Există un rezultat pozitiv. Să ne uităm la toate rezultatele posibile: rezultatul poate fi fie un pozitiv adevărat, fie unul fals pozitiv.
  • Probabilitatea unui rezultat adevărat pozitiv este egală cu: probabilitatea de îmbolnăvire a bolii înmulțită cu probabilitatea ca testul să detecteze efectiv boala. 1% * 80% = .008
  • Probabilitatea unui rezultat fals pozitiv este egală cu: probabilitatea ca să nu existe boală înmulțită cu probabilitatea ca metoda să detecteze incorect boala. 99% * 9,6% = .09504
Acum tabelul arată astfel:

Care este probabilitatea ca o persoană să fie de fapt bolnavă dacă se obține o mamografie pozitivă? Probabilitatea unui eveniment este raportul dintre numărul rezultate posibile evenimente la numărul total al tuturor rezultatelor posibile.

Probabilitatea unui eveniment = rezultatele evenimentului / toate rezultatele posibile

Probabilitatea unui rezultat pozitiv adevărat este .008. Probabilitatea unui rezultat pozitiv este probabilitatea unui rezultat pozitiv adevărat + probabilitatea unui rezultat fals pozitiv.

(.008 + 0.09504 = .10304)

Deci, probabilitatea de îmbolnăvire cu un rezultat pozitiv al testului se calculează după cum urmează: .008/.10304 = 0.0776. Această valoare este de aproximativ 7,8%.

Adică, un rezultat pozitiv al mamografiei înseamnă doar că probabilitatea de a avea boala este de 7,8% și nu de 80% (aceasta din urmă valoare este doar acuratețea estimată a metodei). Acest rezultat pare de neînțeles și ciudat la început, dar trebuie să țineți cont: metoda dă un rezultat fals pozitiv în 9,6% din cazuri (ceea ce este destul de mult), deci vor fi multe rezultate fals pozitive. Pentru boala rara cele mai multe rezultate pozitive vor fi fals pozitive.

Să aruncăm o privire la tabel și să încercăm să înțelegem intuitiv sensul teoremei. Dacă avem 100 de oameni, doar unul dintre ei are boala (1%). Pentru această persoană, există o șansă de 80% ca metoda să dea un rezultat pozitiv. Din restul de 99%, 10% vor avea rezultate pozitive, ceea ce ne oferă, aproximativ, 10 fals pozitive din 100. Dacă luăm în considerare toate rezultatele pozitive, atunci doar 1 din 11 va fi adevărat. Astfel, dacă se obține un rezultat pozitiv, probabilitatea de îmbolnăvire este de 1/11.

Mai sus am calculat că această probabilitate este de 7,8%, adică. numărul este de fapt mai aproape de 1/13, dar aici, cu un raționament simplu, am reușit să găsim o estimare aproximativă fără un calculator.

teorema lui Bayes

Acum să descriem șirul nostru de gândire folosind o formulă numită teorema lui Bayes. Această teoremă vă permite să corectați rezultatele studiului în conformitate cu distorsiunea introdusă de rezultatele fals pozitive:
  • Pr(A|X) = probabilitatea de îmbolnăvire (A) în cazul unui rezultat pozitiv (X). Este exact ceea ce vrem să știm: care este probabilitatea unui eveniment dacă rezultatul este pozitiv. În exemplul nostru este de 7,8%.
  • Pr(X|A) = probabilitatea unui rezultat pozitiv (X) în cazul în care pacientul este cu adevărat bolnav (A). În cazul nostru, aceasta este adevărata valoare pozitivă - 80%
  • Pr(A) = probabilitatea de a se îmbolnăvi (1%)
  • Pr(nu A) = probabilitatea de a nu te îmbolnăvi (99%)
  • Pr(X|nu A) = probabilitatea unui rezultat pozitiv al studiului dacă nu există boală. Aceasta este rata fals pozitive - 9,6%.
Putem concluziona: pentru a obține probabilitatea unui eveniment, trebuie să împărțiți probabilitatea unui rezultat pozitiv adevărat la probabilitatea tuturor rezultatelor pozitive. Acum putem simplifica ecuația:
Pr(X) este constanta de normalizare. Ea ne-a servit bine serviciu bun: Fără el, un rezultat pozitiv al testului ne-ar oferi o șansă de 80% la eveniment.
Pr(X) este probabilitatea oricărui rezultat pozitiv, indiferent dacă este un rezultat pozitiv adevărat în studiul pacienților (1%) sau un rezultat fals pozitiv în studiu oameni sanatosi (99%).

În exemplul nostru, Pr(X) este destul număr mare, deoarece există o probabilitate mare de rezultate fals pozitive.

Pr(X) produce un rezultat de 7,8%, ceea ce la prima vedere pare contraintuitiv.

Sensul teoremei

Facem teste pentru a afla adevărata stare a lucrurilor. Dacă testele noastre sunt perfecte și precise, atunci probabilitățile de teste și probabilitățile de evenimente vor coincide. Toate rezultatele pozitive vor fi cu adevărat pozitive și toate rezultatele negative vor fi negative. Dar trăim în lumea reala. Și în lumea noastră, testele dau rezultate incorecte. Teorema lui Bayes ține seama de rezultatele părtinitoare, corectează erorile, reconstruiește populația și găsește probabilitatea unui adevărat pozitiv.

Filtru de spam

Teorema lui Bayes este folosită cu succes în filtrele de spam.

Avem:

  • evenimentul A - spam în scrisoare
  • rezultatul testului - conținutul anumitor cuvinte din scrisoare:

Filtrul ia în considerare rezultatele testului (conținutul anumitor cuvinte din scrisoare) și prezice dacă scrisoarea conține spam. Toată lumea înțelege că, de exemplu, cuvântul „Viagra” se găsește mai des în spam decât în ​​literele obișnuite.

Filtrul de spam bazat pe lista neagră are dezavantaje - deseori produce rezultate fals pozitive.

Filtrul de spam Teorema Bayes folosește o abordare echilibrată și inteligentă: funcționează cu probabilități. Când analizăm cuvintele dintr-un e-mail, putem calcula probabilitatea ca e-mailul să fie spam, mai degrabă decât să luăm decizii da/nu. Dacă probabilitatea ca o scrisoare să conțină spam este de 99%, atunci scrisoarea chiar este.

În timp, filtrul este antrenat pe un eșantion din ce în ce mai mare și actualizează probabilitățile. Astfel, filtrele avansate, create pe baza teoremei lui Bayes, verifică multe cuvinte la rând și le folosesc ca date.

Surse suplimentare:

Etichete: Adăugați etichete

© 2024 huhu.ru - Gât, examinare, secreții nazale, boli ale gâtului, amigdale