Metoda celor mai mici pătrate este minimizarea. Exemple de rezolvare a problemelor pătrate cel puțin pătrate

Metoda celor mai mici pătrate este minimizarea. Exemple de rezolvare a problemelor pătrate cel puțin pătrate

30.09.2019

Dacă o anumită cantitate fizică depinde de o altă cantitate, atunci această dependență poate fi investigată măsurând y la valori diferite ale lui x. Măsurarea are ca rezultat un număr de valori:

x 1, x 2, ..., x i, ..., x n;

y 1, y 2, ..., y i, ..., y n.

Conform datelor unui astfel de experiment, este posibilă reprezentarea dependenței y \u003d ƒ (x). Curba rezultată face posibilă aprecierea formei funcției ƒ (x). Cu toate acestea, coeficienții constanți incluși în această funcție rămân necunoscuți. Metoda celor mai mici pătrate vă permite să le determinați. Punctele experimentale, de regulă, nu se încadrează exact pe curbă. Metoda celor mai puțin pătrate necesită ca suma abaterilor pătrate ale punctelor experimentale de la curbă, adică. 2 era cel mai mic.

În practică, această metodă este folosită cel mai adesea (și cel mai simplu) în cazul dependenței liniare, adică. cand

y \u003d kx sau y \u003d a + bx.

Dependența liniară este foarte răspândită în fizică. Și chiar și atunci când dependența este neliniară, ei încearcă de obicei să traseze graficul astfel încât să obțină o linie dreaptă. De exemplu, dacă se presupune că indicele de refracție al sticlei n este legat de lungimea λ a undei de lumină de raportul n \u003d a + b / λ 2, atunci dependența de n de λ -2 este reprezentată de grafic.

Luați în considerare dependența y \u003d kx(linie dreaptă prin origine). Să compunem valoarea φ - suma pătratelor abaterilor punctelor noastre de la linia dreaptă

Valoarea lui φ este întotdeauna pozitivă și se dovedește a fi mai mică, cu cât punctele noastre se află mai aproape de linia dreaptă. Metoda celor mai mici pătrate afirmă că pentru k trebuie să se aleagă o valoare astfel încât φ să aibă un minim


sau
(19)

Calculul arată că eroarea rădăcină-medie-pătrat în determinarea valorii k este egală cu

, (20)
unde - n este numărul de măsurători.

Să luăm acum în considerare un caz ceva mai dificil, când punctele trebuie să satisfacă formula y \u003d a + bx (linia dreaptă care nu trece prin origine).

Sarcina este de a găsi cele mai bune valori ale a și b din setul de valori disponibile x i, y i.

Din nou, compunem forma patratică φ, egală cu suma pătratelor abaterilor punctelor x i, y i de la linia dreaptă

și găsiți valorile a și b pentru care φ are un minim

;

.

.

Soluția comună a acestor ecuații dă

(21)

Erorile rădăcină-medie-pătrate în determinarea a și b sunt egale

(23)

... & nbsp (24)

Atunci când prelucrăm rezultatele măsurătorilor prin această metodă, este convenabil să rezumăm toate datele dintr-un tabel, în care toate sumele incluse în formulele (19) - (24) sunt calculate preliminar. Formele acestor tabele sunt prezentate în exemplele de mai jos.

Exemplul 1.Ecuația de bază a dinamicii mișcării de rotație ε \u003d M / J (o linie dreaptă care trece prin originea coordonatelor) a fost investigată. Pentru valori diferite ale momentului M, a fost măsurată accelerația unghiulară a unui anumit corp. Este necesar să se determine momentul de inerție a acestui corp. Rezultatele măsurătorilor momentului forței și accelerației unghiulare sunt introduse în a doua și a treia coloană. tabelul 5.

Tabelul 5
n M, Nm ε, s -1 M 2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Prin formula (19) determinăm:

.

Pentru a determina eroarea medie pătrată, folosim formula (20)

0.005775 Kg -1 · m -2 .

Prin formula (18), avem

; .

S J \u003d (2,996 0,005775) / 0,3337 \u003d 0,05185 kg m 2.

Având în vedere fiabilitatea P \u003d 0,95, conform tabelului coeficienților Studentului pentru n \u003d 5, găsim t \u003d 2,78 și determinăm eroarea absolută ΔJ \u003d 2,78 0,05185 \u003d 0,1441 ≈ 0,2 kg m 2.

Vom scrie rezultatele în formularul:

J \u003d (3,0 ± 0,2) kg m 2;


Exemplul 2. Să calculăm coeficientul de temperatură de rezistență al metalului folosind metoda celor mai mici pătrate. Rezistența este liniară cu temperatura

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Termenul liber definește rezistența R 0 la 0 ° C, iar panta este produsul coeficientului de temperatură α și al rezistenței R 0.

Rezultatele măsurătorilor și calculelor sunt prezentate în tabel ( vezi tabelul 6).

Tabelul 6
n t °, s r, Ohm t-¯ t (t-¯ t) 2 (t-¯ t) r r - bt - a (r - bt - a) 2, 10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑ / n 85.83333 1.4005 – – – – –

Folosind formulele (21), (22), determinăm

R 0 \u003d ¯ R- α R 0 ¯ t \u003d 1.4005 - 0.002645 85.83333 \u003d 1.1735 Ohm.

Să găsim eroarea în definiția α. De atunci, după formula (18) avem:

.

Folosind formule (23), (24), avem

;

0.014126 Ohm.

Având în vedere fiabilitatea P \u003d 0,95, conform tabelului coeficienților Studentului pentru n \u003d 6, găsim t \u003d 2,57 și determinăm eroarea absolută Δα \u003d 2,57 0,000132 \u003d 0,000338 deg -1.

α \u003d (23 ± 4) · 10 -4 grindină -1 la P \u003d 0,95.


Exemplul 3. Este necesar să se determine raza de curbură a lentilei prin inelele lui Newton. Razele inelelor lui Newton r m au fost măsurate și au fost determinate numărul acestor inele m. Raza inelelor lui Newton este legată de raza de curbură a lentilei R și de numărul inelului prin ecuație

r 2 m \u003d mλR - 2d 0 R,

unde d 0 este grosimea decalajului dintre obiectiv și placa plan-paralelă (sau deformarea lentilei),

λ este lungimea de undă a luminii incidente.

λ \u003d (600 ± 6) nm;
r 2 m \u003d y;
m \u003d x;
λR \u003d b;
-2d 0 R \u003d a,

atunci ecuația ia forma y \u003d a + bx.

.

Rezultatele măsurării și calculului sunt înscrise tabelul 7.

Tabelul 7
n x \u003d m y \u003d r 2, 10 -2 mm 2 m -¯ m (m -¯ m) 2 (m -¯ m) y y - bx - a, 10 -4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑ / n 3.5 20.8548333 – – – – –

Să aproximăm funcția cu un polinom de gradul 2. Pentru aceasta, calculăm coeficienții sistemului normal de ecuații:

, ,

Să compunem un sistem normal de pătrate cel puțin, care are forma:

Soluția de sistem este ușor de găsit: ,,.

Astfel, polinomul de gradul 2 se găsește:.

Istoric teoretic

Înapoi la pagină<Введение в вычислительную математику. Примеры>

Exemplul 2... Găsirea gradului optim al unui polinom.

Înapoi la pagină<Введение в вычислительную математику. Примеры>

Exemplul 3... Derivarea sistemului normal de ecuații pentru găsirea parametrilor dependenței empirice.

Să derivăm un sistem de ecuații pentru determinarea coeficienților și a funcției , care realizează aproximarea rădăcină-medie-pătrat a funcției date prin puncte. Să compunem funcția și scrieți condiția extremă necesară pentru aceasta:

Atunci sistemul normal va lua forma:

A primit un sistem liniar de ecuații pentru parametri necunoscuți și, care este ușor de rezolvat.

Istoric teoretic

Înapoi la pagină<Введение в вычислительную математику. Примеры>

Exemplu.

Date experimentale privind valorile variabilelor X și la sunt date în tabel.

Ca urmare a alinierii lor, funcția este obținută

Utilizarea metoda cel puțin pătrată, aproximează aceste date cu o dependență liniară y \u003d ax + b (găsiți parametrii și și b). Aflați care dintre cele două linii este mai bună (în sensul metodei celor mai mici pătrate) aliniază datele experimentale. Faceți un desen.

Esența metodei celor mai puțin pătrate (OLS).

Problema este de a găsi coeficienții dependenței liniare pentru care funcția a două variabile și și b ia cea mai mică valoare. Adică, dat și și b suma abaterilor pătrate ale datelor experimentale de la linia dreaptă găsită va fi cea mai mică. Acesta este întregul punct al metodei celor mai puțin pătrate.

Astfel, soluția exemplului se reduce la găsirea extremității unei funcții a două variabile.

Derivarea formulelor pentru găsirea coeficienților.

Un sistem de două ecuații cu două necunoscute este compus și rezolvat. Găsiți derivatele parțiale ale funcției după variabile și și b, echivalăm aceste derivate la zero.

Rezolvăm sistemul de ecuații rezultat prin orice metodă (de exemplu metoda de substituție sau metoda lui Cramer) și obținem formule pentru găsirea coeficienților folosind metoda celor mai mici pătrate (OLS).

Cu date și și b funcţie ia cea mai mică valoare. Dovada acestui fapt este prezentată mai jos în textul de la sfârșitul paginii.

Aceasta este metoda cu cel mai mic pătrat. Formula pentru găsirea parametrului a conține sumele ,,, și parametrul n - cantitatea de date experimentale. Vă recomandăm să calculați separat valorile acestor sume.

Coeficient b este după calcul a.

Este timpul să ne amintim exemplul inițial.

Decizie.

În exemplul nostru n \u003d 5... Completăm tabelul pentru comoditatea calculării sumelor care sunt incluse în formulele coeficienților doriți.

Valorile din al patrulea rând al tabelului se obțin prin înmulțirea valorilor celui de-al doilea rând cu valorile celui de-al treilea rând pentru fiecare număr eu.

Valorile din al cincilea rând al tabelului se obțin prin pătratul valorilor celui de-al doilea rând pentru fiecare număr eu.

Valorile din ultima coloană a tabelului sunt sumele valorilor pe rând.

Pentru a găsi coeficienții, folosim formulele cu cel puțin pătrat și și b... Înlocuim valorile corespunzătoare din ultima coloană a tabelului:

Prin urmare, y \u003d 0,165x + 2,184 Este linia dreaptă aproximativă.

Rămâne să aflăm care dintre rânduri y \u003d 0,165x + 2,184 sau aproximează mai bine datele originale, adică faceți o estimare folosind metoda celor mai mici pătrate.

Estimarea erorii metodei celor mai mici pătrate.

Pentru a face acest lucru, trebuie să calculați suma pătratelor abaterilor datelor inițiale de la aceste linii și , valoarea inferioară corespunde liniei care apropie mai bine datele originale în sensul metodei celor mai puțin pătrate.

De atunci drept y \u003d 0,165x + 2,184 aproximează mai bine datele originale.

Ilustrație grafică a metodei celor mai puțin pătrate (mns).

Totul este perfect vizibil pe grafice. Linia roșie este linia dreaptă găsită y \u003d 0,165x + 2,184, linia albastră este , punctele roz sunt date brute.

Pentru ce este, pentru ce sunt toate aceste aproximări?

Eu personal îl folosesc pentru a rezolva probleme de netezire a datelor, interpolare și extrapolare (în exemplul inițial, este posibil să fi solicitat să găsiți valoarea valorii observate y la x \u003d 3 sau la x \u003d 6 prin metoda OLS). Dar vom vorbi mai multe despre asta mai târziu într-o altă secțiune a site-ului.

Înapoi la începutul paginii

Dovada.

Deci, atunci când a fost găsit și și b funcția are cea mai mică valoare, este necesar ca în acest moment matricea formei patratice a diferențialului de ordinul doi pentru funcția a fost pozitiv definit. Să arătăm.

Diferențialul de ordinul doi are forma:

adică

Prin urmare, matricea formei patratice are forma

iar valorile elementelor nu depind și și b.

Să arătăm că matricea este definitivă pozitivă. Aceasta necesită ca minorii din colț să fie pozitivi.

Corner minor de prim ordin ... Inegalitatea este strictă, deoarece punctele nu sunt coincidente. În ceea ce urmează, vom înțelege acest lucru.

Corner minor de ordinul doi

Să dovedim asta prin metoda inducției matematice.

producție: valori găsite și și b corespund celei mai mici valori a funcției , prin urmare, sunt parametrii necesari pentru metoda celor mai mici pătrate.

Nu ai timp să-ți dai seama?
Comandați o soluție

Înapoi la începutul paginii

Dezvoltarea unei prognoze folosind metoda celor mai mici pătrate. Un exemplu de rezolvare a problemei

extrapolarea Este o metodă de cercetare științifică, care se bazează pe diseminarea tendințelor, modelelor, conexiunilor pentru dezvoltarea viitoare a obiectului de prognoză. Metodele de extrapolare includ metoda medie în mișcare, metoda de netezire exponențială, metoda cu cel puțin pătrate.

Esenta metoda cel puțin pătrate constă în minimizarea sumei abaterilor standard între valorile observate și cele calculate. Valorile calculate se găsesc în funcție de ecuația montată - ecuația de regresie. Cu cât este mai mică distanța dintre valorile reale și cele calculate, cu atât este mai exactă prognoza bazată pe ecuația de regresie.

O analiză teoretică a esenței fenomenului studiat, a cărei modificare este afișată de o serie de timp, servește ca bază pentru alegerea unei curbe. Uneori sunt luate în considerare considerațiile despre natura creșterii nivelurilor unei serii. Așadar, dacă se estimează o creștere a producției într-o progresie aritmetică, atunci netezirea se realizează pe linie dreaptă. Dacă se dovedește că creșterea este exponențială, atunci netezirea trebuie făcută în funcție de funcția exponențială.

Formula de lucru pentru pătrate cel puțin : Y t + 1 \u003d a * X + b, unde t + 1 este perioada de prognoză; Уt + 1 - indicator prevăzut; a și b sunt coeficienți; X este un simbol al timpului.

Calculul coeficienților a și b se realizează conform următoarelor formule:

unde, Uf - valorile reale ale seriei dinamice; n este numărul de niveluri din seria de timp;

Netezirea seriilor de timp prin metoda celor mai puțin pătrate servește pentru a reflecta modelele de dezvoltare a fenomenului studiat. În expresia analitică a tendinței, timpul este considerat ca o variabilă independentă, iar nivelurile seriei acționează ca o funcție a acestei variabile independente.

Dezvoltarea unui fenomen nu depinde de câți ani au trecut de la momentul de pornire, ci de ce factori au influențat dezvoltarea acestuia, în ce direcție și cu ce intensitate. Prin urmare, este clar că dezvoltarea unui fenomen apare în timp ca urmare a acțiunii acestor factori.

Stabilirea corectă a tipului de curbă, tipul dependenței analitice de timp este una dintre cele mai dificile sarcini ale analizei pre-predictive. .

Selectarea tipului de funcție care descrie tendința, parametrii cărora sunt determinați prin metoda celor mai mici pătrate, se realizează în majoritatea cazurilor empiric, prin construirea unui număr de funcții și compararea acestora cu valoarea erorii pătrate medii calculate după formula:

unde Uf - valorile reale ale unui număr de dinamici; Ur - valori calculate (netezite) pentru o serie de dinamici; n este numărul de niveluri din seria de timp; p este numărul de parametri determinați în formule care descriu tendința (tendința de dezvoltare).

Dezavantaje ale metodei celor mai mici pătrate :

  • atunci când se încearcă descrierea fenomenului economic studiat folosind o ecuație matematică, prognoza va fi exactă pentru o perioadă scurtă de timp, iar ecuația de regresie trebuie recalculată pe măsură ce informațiile noi devin disponibile;
  • complexitatea selecției ecuației de regresie, care este rezolvabilă atunci când se utilizează programe computerizate tipice.

Un exemplu de utilizare a metodei celor mai puțin pătrate pentru a dezvolta o prognoză

O sarcină ... Există date care caracterizează rata șomajului în regiune,%

  • Construiți o prognoză a ratei șomajului în regiune pentru lunile noiembrie, decembrie, ianuarie, utilizând următoarele metode: medie mobilă, netezire exponențială, cel puțin pătrate.
  • Calculați erorile predicțiilor obținute folosind fiecare metodă.
  • Comparați rezultatele obținute, trageți concluzii.

Soluția de pătrate cel puțin

Pentru a rezolva problema, vom întocmi un tabel în care vom face calculele necesare:

ε \u003d 28,63 / 10 \u003d 2,86% exactitatea prognozei înalt.

producție : Compararea rezultatelor obținute în calcule metoda medie în mișcare , netezire exponențială și prin metoda celor mai mici pătrate, putem spune că eroarea relativă medie atunci când se calculează prin metoda de netezire exponențială se încadrează în intervalul 20-50%. Aceasta înseamnă că precizia prognozei în acest caz este satisfăcătoare.

În primul și al treilea caz, precizia prognozei este ridicată, deoarece eroarea relativă medie este mai mică de 10%. Dar metoda de deplasare a mediilor a făcut posibilă obținerea de rezultate mai fiabile (prognoză pentru noiembrie - 1,52%, prognoză pentru decembrie - 1,53%, prognoză pentru ianuarie - 1,49%), deoarece eroarea relativă medie la utilizarea acestei metode este cea mai mică - 1 , 13%.

Metoda pătratului cel mai mic

Alte articole pe acest subiect:

Lista surselor utilizate

  1. Recomandări științifice și metodologice privind diagnosticul riscurilor sociale și prognoza provocări, amenințări și consecințe sociale. Universitatea Socială de Stat din Rusia. Moscova. 2010;
  2. Vladimirova L.P. Prognoză și planificare în condiții de piață: manual. alocația. M .: Editura „Dashkov și Co”, 2001;
  3. Novikova N.V., Pozdeeva O.G. Prognozarea economiei naționale: Ghid didactic. Ekaterinburg: Editura Ural. stat econ. Universitatea, 2007;
  4. Slutskin L.N. Curs de MBA pentru prognoză în afaceri. M .: Alpina Business Books, 2006.

Program OLS

Introduceți date

Date și aproximare y \u003d a + b x

eu - numărul punctului experimental;
x i - valoarea parametrului fix la punct eu;
da - valoarea parametrului măsurat la punct eu;
ω i - greutatea măsurării într-un punct eu;
y i, calc. - diferența dintre măsurată și calculată după valoarea regresivă y la punct eu;
S x i (x i) - estimarea erorilor x i la măsurare y la punct eu.

Date și aproximare y \u003d k x

eu x i da ω i y i, calc. .Y i S x i (x i)

Faceți clic pe grafic,

Instrucțiuni pentru utilizatorul programului online MNC.

În câmpul de date, introduceți valorile `x` și` y` în același punct de test pe fiecare linie separată. Valorile trebuie separate printr-un caracter alb (spațiu sau filă).

A treia valoare poate fi greutatea punctului `w`. Dacă greutatea punctului nu este specificată, atunci este egală cu una. În majoritatea covârșitoare a cazurilor, ponderile punctelor experimentale sunt necunoscute sau nu sunt calculate, adică. toate datele experimentale sunt considerate echivalente. Uneori, ponderile din intervalul de valori studiat nu sunt absolut echivalente și pot fi chiar calculate teoretic. De exemplu, în spectrofotometrie, greutățile pot fi calculate utilizând formule simple, deși toată lumea neglijează acest lucru pentru a reduce costurile forței de muncă.

Datele pot fi lipite prin clipboard dintr-o foaie de calcul de suită Office, cum ar fi Excel de la Microsoft Office sau Calc de la Open Office. Pentru a face acest lucru, selectați intervalul de date care vor fi copiate în foaia de calcul, copiați în clipboard și lipiți datele în câmpul de date din această pagină.

Pentru calcularea metodei celor mai puțin pătrate, cel puțin două puncte sunt necesare pentru a determina doi coeficienți `b` - tangenta pantei liniei drepte și` a` - valoarea tăiată de linia dreaptă pe axa „y`.

Pentru a estima eroarea coeficienților de regresie calculați, trebuie să setați numărul de puncte experimentale mai mult de două.

Metoda celor mai mici pătrate (OLS).

Cu cât este mai mare numărul de puncte experimentale, cu atât este mai precisă estimarea statistică a coeficienților (datorită scăderii coeficientului de student) și cu cât estimarea eșantionului general este mai aproape.

Obținerea de valori la fiecare punct experimental este deseori consumator de forță de muncă, deci există adesea o compensare a numărului de experimente care oferă o estimare digerabilă și nu duce la costuri de muncă excesive. De regulă, numărul de puncte experimentale pentru dependența liniară de cel puțin pătrate cu doi coeficienți se selectează în regiunea de 5-7 puncte.

Scurtă teorie a metodei celor mai puțin pătrate pentru dependența liniară

Să presupunem că avem un set de date experimentale sub formă de perechi de valori [`y_i`,` x_i`], unde `i` este numărul unei măsurări experimentale de la 1 la` n`; `y_i` - valoarea valorii măsurate la punctul` i`; `x_i` - valoarea parametrului pe care l-am setat la punctul` i`.

Ca exemplu, ia în considerare funcționarea legii lui Ohm. Modificând tensiunea (diferența de potențial) între secțiunile circuitului electric, măsurăm cantitatea de curent care trece prin această secțiune. Fizica ne oferă dependența găsită experimental:

`I \u003d U / R ',
unde `I` - puterea curentă; `R` - rezistență; `U` - tensiune.

În acest caz, „y_i` este valoarea curentă măsurată, iar` x_i` este valoarea tensiunii.

Ca un alt exemplu, luați în considerare absorbția luminii de către o soluție a unei substanțe dintr-o soluție. Chimia ne oferă formula:

`A \u003d ε l C ',
unde „A` este densitatea optică a soluției; `ε` - transmiterea solutiei; `l` - lungimea căii când lumina trece printr-o cuvă cu o soluție; `C` - concentrația de solut.

În acest caz, `y_i` avem valoarea măsurată a densității optice` A`, iar` x_i` este valoarea concentrației substanței pe care le-am setat.

Vom lua în considerare cazul când eroarea relativă la setarea „x_i` este mult mai mică decât eroarea de măsurare relativă„ y_i`. Vom presupune, de asemenea, că toate valorile măsurate `y_i` sunt aleatorii și distribuite în mod normal, adică. respectați legea normală de distribuție.

În cazul unei dependențe liniare de `y` pe` x`, putem scrie o dependență teoretică:
`y \u003d a + b x`.

Din punct de vedere geometric, coeficientul `b` semnifică tangența unghiului de înclinare a liniei spre axa` x`, iar coeficientul `a` - valoarea lui` y` în punctul de intersecție a liniei cu axa` y` (la` x \u003d 0`).

Găsirea parametrilor liniei de regresie.

În experiment, valorile măsurate ale lui „y_i` nu pot fi exact pe linia dreaptă teoretică datorită erorilor de măsurare care sunt întotdeauna inerente în viața reală. Prin urmare, o ecuație liniară trebuie să fie reprezentată de un sistem de ecuații:
`y_i \u003d a + b x_i + ε_i` (1),
unde `ε_i` - eroare de măsurare necunoscută` y` în experimentul` i`-th.

Dependența (1) se mai numește regresiune, adică dependența a două valori una de cealaltă cu semnificație statistică.

Sarcina restaurării dependenței este de a găsi coeficienții `a` și` b` din punctele experimentale [` y_i`, `x_i`].

Pentru a găsi coeficienții `a` și` b`, este de obicei utilizat metoda cel puțin pătrată (OLS). Este un caz special al principiului probabilității maxime.

Rescriem (1) sub forma `ε_i \u003d y_i - a - b x_i`.

Atunci suma pătratelor erorilor va fi
`Φ \u003d sum_ (i \u003d 1) ^ (n) ε_i ^ 2 \u003d sum_ (i \u003d 1) ^ (n) (y_i - a - b x_i) ^ 2`. (2)

Principiul OLS (metoda cu cel puțin pătrate) este de a reduce suma (2) în raport cu parametrii „a` și`b`.

Minimul este atins când derivatele parțiale ale sumei (2) în raport cu coeficienții `a` și` b` sunt egale cu zero:
`frac (parțial Φ) (parțial a) \u003d frac (sumă parțială_ (i \u003d 1) ^ (n) (y_i - a - b x_i) ^ 2) (parțial a) \u003d 0 '
`frac (parțial Φ) (parțial b) \u003d frac (sumă parțială_ (i \u003d 1) ^ (n) (y_i - a - b x_i) ^ 2) (parțial b) \u003d 0 '

Extindând derivatele, obținem un sistem de două ecuații cu două necunoscute:
`sum_ (i \u003d 1) ^ (n) (2a + 2bx_i - 2y_i) \u003d sum_ (i \u003d 1) ^ (n) (a + bx_i - y_i) \u003d 0 '
`sum_ (i \u003d 1) ^ (n) (2bx_i ^ 2 + 2ax_i - 2x_iy_i) \u003d sum_ (i \u003d 1) ^ (n) (bx_i ^ 2 + ax_i - x_iy_i) \u003d 0 '

Deschidem parantezele și transferăm sumele independente de coeficienții căutați în cealaltă jumătate, obținem un sistem de ecuații liniare:
`sum_ (i \u003d 1) ^ (n) y_i \u003d a n + b sum_ (i \u003d 1) ^ (n) bx_i`
`sum_ (i \u003d 1) ^ (n) x_iy_i \u003d a sum_ (i \u003d 1) ^ (n) x_i + b sum_ (i \u003d 1) ^ (n) x_i ^ 2 '

Rezolvând sistemul rezultat, găsim formulele pentru coeficienții `a` și` b`:

`a \u003d frac (sum_ (i \u003d 1) ^ (n) y_i sum_ (i \u003d 1) ^ (n) x_i ^ 2 - sum_ (i \u003d 1) ^ (n) x_i sum_ (i \u003d 1) ^ (n ) x_iy_i) (n sum_ (i \u003d 1) ^ (n) x_i ^ 2 - (sum_ (i \u003d 1) ^ (n) x_i) ^ 2) `(3.1)

`b \u003d frac (n sum_ (i \u003d 1) ^ (n) x_iy_i - sum_ (i \u003d 1) ^ (n) x_i sum_ (i \u003d 1) ^ (n) y_i) (n sum_ (i \u003d 1) ^ (n) x_i ^ 2 - (suma_ (i \u003d 1) ^ (n) x_i) ^ 2) `(3.2)

Aceste formule au soluții când `n\u003e 1` (linia poate fi trasată cel puțin cu 2 puncte) și când determinantul` D \u003d n sum_ (i \u003d 1) ^ (n) x_i ^ 2 - (sum_ (i \u003d 1) ^ (n) x_i) ^ 2! \u003d 0`, adică. când punctele `x_i` diferă în experiment (adică atunci când linia nu este verticală).

Estimarea erorilor coeficienților liniei de regresie

Pentru o estimare mai exactă a erorii la calcularea coeficienților `a` și` b`, este de dorit un număr mare de puncte experimentale. Când `n \u003d 2`, este imposibil să estimați eroarea coeficienților, deoarece linia aproximativă va trece cu siguranță prin două puncte.

Eroarea variabilei aleatoare „V” este determinată legea acumulării erorilor
`S_V ^ 2 \u003d suma_ (i \u003d 1) ^ p (frac (parțial f) (parțial z_i)) ^ 2 S_ (z_i) ^ 2 ',
unde `p` este numărul de parametri` z_i` cu o eroare` S_ (z_i) `care afectează eroarea` S_V`;
`f` - funcția de dependență de` V` de `z_i`.

Să notăm legea acumulării erorilor pentru eroarea coeficienților `a` și` b`
`S_a ^ 2 \u003d sum_ (i \u003d 1) ^ (n) (frac (parțial a) (parțial y_i)) ^ 2 S_ (y_i) ^ 2 + sum_ (i \u003d 1) ^ (n) (frac (parțial a ) (parțial x_i)) ^ 2 S_ (x_i) ^ 2 \u003d S_y ^ 2 sum_ (i \u003d 1) ^ (n) (frac (parțial a) (parțial y_i)) ^ 2 ',
`S_b ^ 2 \u003d sum_ (i \u003d 1) ^ (n) (frac (parțial b) (parțial y_i)) ^ 2 S_ (y_i) ^ 2 + sum_ (i \u003d 1) ^ (n) (frac (parțial b ) (parțial x_i)) ^ 2 S_ (x_i) ^ 2 \u003d S_y ^ 2 sum_ (i \u003d 1) ^ (n) (frac (parțial b) (parțial y_i)) ^ 2 ',
de cand `S_ (x_i) ^ 2 \u003d 0` (am făcut o rezervare mai devreme că eroarea` x` este neglijabilă).

`S_y ^ 2 \u003d S_ (y_i) ^ 2` - eroare (varianță, abatere standard pătrată) în măsurare` y`, presupunând că eroarea este uniformă pentru toate valorile lui` y`.

Substituind formulele pentru calculul `a` și` b` în expresiile obținute, obținem

`S_a ^ 2 \u003d S_y ^ 2 frac (sum_ (i \u003d 1) ^ (n) (sum_ (i \u003d 1) ^ (n) x_i ^ 2 - x_i sum_ (i \u003d 1) ^ (n) x_i) ^ 2 ) (D ^ 2) \u003d S_y ^ 2 frac ((n sum_ (i \u003d 1) ^ (n) x_i ^ 2 - (sum_ (i \u003d 1) ^ (n) x_i) ^ 2) sum_ (i \u003d 1) ^ (n) x_i ^ 2) (D ^ 2) \u003d S_y ^ 2 frac (sum_ (i \u003d 1) ^ (n) x_i ^ 2) (D) `(4.1)

`S_b ^ 2 \u003d S_y ^ 2 frac (sum_ (i \u003d 1) ^ (n) (n x_i - sum_ (i \u003d 1) ^ (n) x_i) ^ 2) (D ^ 2) \u003d S_y ^ 2 frac ( n (n sum_ (i \u003d 1) ^ (n) x_i ^ 2 - (sum_ (i \u003d 1) ^ (n) x_i) ^ 2)) (D ^ 2) \u003d S_y ^ 2 frac (n) (D) `(4.2)

În majoritatea experimentelor din viața reală, valoarea `Sy` nu este măsurată. Pentru a face acest lucru, este necesar să efectuați mai multe măsurători paralele (experimente) într-unul sau mai multe puncte ale planului, ceea ce crește timpul (și eventual costul) experimentului. Prin urmare, se presupune de obicei că abaterea lui `y` de la linia de regresie poate fi considerată aleatorie. În acest caz, estimarea variației `y` se calculează după formula.

`S_y ^ 2 \u003d S_ (y, rest) ^ 2 \u003d frac (sum_ (i \u003d 1) ^ n (y_i - a - b x_i) ^ 2) (n-2)`.

Divizorul `n-2` apare deoarece am scăzut numărul de grade de libertate datorită calculului a doi coeficienți pentru același eșantion de date experimentale.

Această estimare se mai numește și variația reziduală în raport cu linia de regresie `S_ (y, rest) ^ 2`.

Evaluarea semnificației coeficienților se realizează după criteriul studentului

`t_a \u003d frac (| a |) (S_a)`, `t_b \u003d frac (| b |) (S_b)`

Dacă criteriile calculate „t_a`,` t_b` sunt mai mici decât criteriile tabulare `t (P, n-2)`, atunci se consideră că coeficientul corespunzător nu diferă semnificativ de zero cu o probabilitate dată „P`.

Pentru a evalua calitatea descrierii unei relații liniare, puteți compara `S_ (y, rest) ^ 2` și` S_ (bar y) `în raport cu media folosind testul lui Fisher.

`S_ (bar y) \u003d frac (sum_ (i \u003d 1) ^ n (y_i - bar y) ^ 2) (n-1) \u003d frac (sum_ (i \u003d 1) ^ n (y_i - (sum_ (i \u003d 1) ^ n y_i) / n) ^ 2) (n-1) `- eșantion estimativ al variației` y` în raport cu media.

Pentru a evalua eficacitatea ecuației de regresie pentru a descrie relația, se calculează coeficientul Fisher
`F \u003d S_ (bară y) / S_ (y, odihnă) ^ 2 ',
care este comparat cu tabelul Coeficientul Fisher `F (p, n-1, n-2)`.

Dacă `F\u003e F (P, n-1, n-2)`, diferența dintre descrierea dependenței `y \u003d f (x)` folosind ecuația de regresie și descrierea folosind media este considerată statistic semnificativă cu probabilitatea `P`. Acestea. regresia descrie relația mai bună decât răspândirea lui `y` în raport cu media.

Faceți clic pe grafic,
pentru a adăuga valori la tabel

Metoda pătratului cel mai mic. Metoda celor mai mici pătrate este înțeleasă ca fiind determinarea parametrilor necunoscuți a, b, c, dependența funcțională adoptată

Metoda cu cele mai mici pătrate înseamnă definirea parametrilor necunoscuți a, b, c, ... dependență funcțională acceptată

y \u003d f (x, a, b, c, ...),

care ar furniza eroarea medie a pătratului (varianță)

, (24)

unde x i, y i este un set de perechi de numere obținute din experiment.

Deoarece condiția pentru extremitatea unei funcții a mai multor variabile este condiția egalității la zero din derivatele sale parțiale, parametrii a, b, c, ...sunt determinate din sistemul de ecuații:

; ; ; … (25)

Trebuie să ne amintim că metoda celor mai mici pătrate este utilizată pentru a selecta parametrii după funcție y \u003d f (x) definit.

Dacă din considerente teoretice este imposibil să se tragă concluzii despre ce ar trebui să fie formula empirică, atunci trebuie ghidat de reprezentări vizuale, în primul rând o reprezentare grafică a datelor observate.

În practică, acestea sunt cel mai adesea limitate la următoarele tipuri de funcții:

1) liniar ;

2) quadratice a.

Esența metodei celor mai puțin pătrate este în găsirea parametrilor modelului de trend, care descrie cel mai bine tendința de dezvoltare a oricărui fenomen aleatoriu în timp sau spațiu (tendința este linia care caracterizează tendința acestei dezvoltări). Sarcina metodei celor mai puțin pătrate (OLS) se reduce la găsirea nu doar a unui model de tendință, ci la găsirea celui mai bun sau optim model. Acest model va fi optim dacă suma abaterilor standard între valorile reale observate și valorile de tendință calculate corespunzătoare este minimă (cea mai mică):

unde este abaterea pătrată între valoarea reală observată

și valoarea de tendință calculată corespunzătoare,

Valoarea reală (observată) a fenomenului studiat,

Valoarea calculată a modelului de trend,

Numărul de observații ale fenomenului studiat.

OLS este rar utilizat singur. De regulă, cel mai adesea este utilizat doar ca tehnică necesară studiilor de corelație. Trebuie amintit că baza informațională a OLS nu poate fi decât o serie statistică fiabilă, iar numărul de observații nu trebuie să fie mai mic de 4, în caz contrar, procedurile de netezire OLS pot pierde bunul simț.

Setul de instrumente OLS este redus la următoarele proceduri:

Prima procedură. Se află dacă există vreo tendință de schimbare a atributului efectiv atunci când se schimbă argumentul factorului selectat sau, cu alte cuvinte, există o legătură între " la "Și" x ».

A doua procedură. Se stabilește ce linie (traiectorie) este cea mai în măsură să descrie sau să caracterizeze această tendință.

A treia procedură.

Exemplu... Să spunem că avem informații despre randamentul mediu al floarea-soarelui pentru ferma studiată (tabelul 9.1).

Tabelul 9.1

Numărul de observare

Productivitate, c / ha

Deoarece nivelul tehnologiei în producția de floarea soarelui în țara noastră practic nu s-a schimbat în ultimii 10 ani, înseamnă că, cel mai probabil, fluctuațiile producției în perioada analizată depindeau foarte mult de fluctuațiile meteorologice și de condițiile climatice. Este chiar așa?

Prima procedură OLS. Ipoteza este testată cu privire la existența unei tendințe de modificare a randamentului de floarea soarelui în funcție de schimbările condițiilor meteorologice și climatice pe parcursul celor 10 ani analizați.

În acest exemplu, pentru „ y "Este recomandabil să luați randamentul de floarea soarelui, și pentru" x »- numărul anului observat în perioada analizată. Testarea ipotezei despre existența oricărei relații între „ x "Și" y »Se poate face în două moduri: manual și folosind programe computerizate. Desigur, în prezența tehnologiei computerizate, această problemă este rezolvată de la sine. Dar pentru a înțelege mai bine setul de instrumente OLS, este recomandabil să testați ipoteza despre existența unei conexiuni între „ x "Și" y »Manual, când sunt la îndemână doar un stilou și un calculator obișnuit. În astfel de cazuri, ipoteza existenței unei tendințe este cel mai bine verificată vizual de locația imaginii grafice a seriei dinamice analizate - câmpul de corelație:

Câmpul de corelație din exemplul nostru este situat în jurul unei linii în creștere lentă. Aceasta în sine vorbește despre existența unei anumite tendințe în schimbarea randamentului de floarea soarelui. Este imposibil să vorbim despre prezența oricărei tendințe doar atunci când câmpul de corelație arată ca un cerc, un cerc, un nor strict vertical sau strict orizontal sau este format din puncte împrăștiate haotic. În toate celelalte cazuri, ipoteza existenței unei relații între „ x "Și" y ”, Și continuă cercetările.

A doua procedură OLS. Se stabilește ce linie (traiectorie) este cea mai în măsură să descrie sau să caracterizeze tendința modificărilor producției de floarea soarelui în perioada analizată.

În prezența tehnologiei computerizate, selecția tendinței optime are loc automat. În procesarea „manuală”, alegerea funcției optime este realizată, de regulă, printr-o metodă vizuală - în funcție de locația câmpului de corelație. Adică, în funcție de tipul graficului, este selectată ecuația liniei care se potrivește cel mai bine tendinței empirice (la traiectoria actuală).

După cum știți, în natură există o mare varietate de dependențe funcționale, astfel încât este extrem de dificil să analizați chiar și o mică parte din ele vizual. Din fericire, în practica economică reală, majoritatea relațiilor pot fi descrise destul de exact fie de o parabolă, fie de o hiperbolă, fie de o linie dreaptă. În acest sens, cu opțiunea „manuală” de selectare a celei mai bune funcții, vă puteți limita la aceste trei modele.

Hiperbolă:

Parabola de ordinul doi: :

Este ușor de observat că în exemplul nostru, tendința schimbării randamentului floarea soarelui în cei 10 ani analizați este caracterizată cel mai bine printr-o linie dreaptă, prin urmare ecuația de regresie va fi ecuația dreaptă.

A treia procedură. Parametrii ecuației de regresie care caracterizează această linie sunt calculate sau, cu alte cuvinte, se stabilește o formulă analitică care descrie cel mai bun model de tendință.

Găsirea valorilor parametrilor ecuației de regresie, în cazul nostru parametrii și, este nucleul OLS. Acest proces se reduce la rezolvarea unui sistem de ecuații normale.

(9.2)

Acest sistem de ecuații poate fi ușor rezolvat prin metoda Gauss. Reamintim că, ca urmare a soluției, în exemplul nostru, valorile parametrilor sunt găsite. Astfel, ecuația de regresie găsită va avea următoarea formă:

Apropierea datelor experimentale este o metodă bazată pe înlocuirea datelor obținute experimental cu o funcție analitică care trece cel mai îndeaproape sau coincide în punctele nodale cu valorile inițiale (date obținute în timpul experimentului sau experimentului). În prezent, există două moduri de a defini o funcție analitică:

Construind un polinom de interpolare de grad n care trece direct prin toate punctele un tablou de date dat. În acest caz, funcția de aproximare este reprezentată sub forma unui polinom de interpolare sub forma Lagrange sau a unui polinom de interpolare sub forma lui Newton.

Construind un polinom aproximativ de gradul n care trece în imediata apropiere de puncte dintr-un tablou de date dat. Astfel, funcția de aproximare netezește tot zgomotul (sau erorile) aleatorii care pot apărea în timpul experimentului: valorile măsurate în timpul experimentului depind de factori aleatori care fluctuează în funcție de propriile legi aleatorii (erori de măsurare sau instrument, inexactitate sau erori experimentale). În acest caz, funcția de aproximare este determinată folosind metoda celor mai mici pătrate.

Metoda pătratului cel mai mic (în literatura de limbă engleză Ordinary Least Squares, OLS) este o metodă matematică bazată pe determinarea unei funcții aproximative, care este construită în cea mai apropiată apropiere de puncte dintr-o serie de date experimentale. Apropierea funcției inițiale și aproximative F (x) este determinată de o măsură numerică, și anume: suma pătratelor deviațiilor datelor experimentale de la curba de aproximare F (x) ar trebui să fie cea mai mică.

Cele mai mici pătrate se potrivesc cu curba

Se utilizează cea mai mică pătrată:

Pentru a rezolva sistemele de ecuații supra-determinate atunci când numărul de ecuații depășește numărul de necunoscute;

Pentru a găsi o soluție în cazul sistemelor obișnuite (nu excesiv determinate) de ecuații;

Pentru a aproxima valorile punctului prin unele funcții aproximative.

Funcția de aproximare prin metoda celor mai puțin pătrate este determinată din condiția sumei minime a pătratelor de abateri ale funcției aproximative calculate dintr-un tablou dat de date experimentale. Acest criteriu pentru metoda celor mai mici pătrate este scris ca următoarea expresie:

Valorile funcției aproximative calculate în punctele nodale,

O serie dată de date experimentale în punctele nodale.

Criteriul cvadratic are o serie de proprietăți „bune”, cum ar fi diferențialitatea, oferind o soluție unică la problema de aproximare cu funcții de aproximare polinomială.

În funcție de condițiile problemei, funcția de aproximare este un polinom de gradul m

Gradul funcției aproximative nu depinde de numărul de puncte nodale, dar dimensiunea ei ar trebui să fie întotdeauna mai mică decât dimensiunea (numărul de puncte) dintr-o serie de date experimentale.

∙ Dacă gradul funcției de aproximare este m \u003d 1, atunci aproximăm funcția tabulară cu o linie dreaptă (regresie liniară).

∙ Dacă gradul funcției de aproximare este m \u003d 2, atunci aproximăm funcția tabulară cu o parabolă patratică (aproximare cvadratică).

∙ Dacă gradul funcției de aproximare este m \u003d 3, atunci aproximăm funcția tabulară cu o parabolă cubică (aproximare cubică).

În cazul general, atunci când este necesar să se construiască un polinom aproximativ de grad m pentru valorile tabulare date, condiția pentru minimul pătratelor deviațiilor față de toate punctele nodale este rescrisă după cum urmează:

- coeficienții necunoscuți ai polinomului aproximativ de gradul m;

Numărul valorilor de tabel specificate.

O condiție necesară existenței unui minim al unei funcții este egalitatea cu zero a derivatelor sale parțiale în raport cu variabilele necunoscute ... Drept urmare, obținem următorul sistem de ecuații:

Transformăm sistemul liniar de ecuații rezultat: deschidem parantezele și transferăm termenii liberi în partea dreaptă a expresiei. Drept urmare, sistemul rezultat al expresiilor algebrice liniare va fi scris în următoarea formă:

Acest sistem de expresii algebrice liniare poate fi rescris sub formă matricială:

Drept urmare, a fost obținut un sistem de ecuații liniare de dimensiune m + 1, care constă din m + 1 necunoscute. Acest sistem poate fi rezolvat folosind orice metodă pentru soluționarea ecuațiilor algebice liniare (de exemplu, metoda Gauss). Ca urmare a soluției, se vor găsi parametri necunoscuți ai funcției de aproximare care asigură suma minimă a pătratelor abaterilor funcției aproximative de la datele inițiale, adică. cea mai bună aproximare a dreptului pătrat. Trebuie amintit că atunci când chiar și o valoare a datelor inițiale se schimbă, toți coeficienții își vor schimba valorile, deoarece sunt complet determinați de datele inițiale.

Aproximare liniară a datelor inițiale

(regresie liniara)

Ca exemplu, ia în considerare metoda pentru determinarea funcției aproximative, care este specificată ca o relație liniară. În conformitate cu metoda celor mai mici pătrate, condiția pentru suma minimă a pătratelor abaterilor este scrisă în următoarea formă:

Coordonatele punctelor de grilă ale tabelului;

Coeficienții necunoscuți ai funcției aproximative, care este dată ca o relație liniară.

O condiție necesară existenței unui minim al unei funcții este egalitatea cu zero a derivatelor sale parțiale în raport cu variabilele necunoscute. Drept urmare, obținem următorul sistem de ecuații:

Transformăm sistemul liniar de ecuații rezultat.

Rezolvăm sistemul rezultat al ecuațiilor liniare. Coeficienții funcției aproximative sub formă analitică sunt determinați după cum urmează (metoda lui Cramer):

Acești coeficienți asigură construcția unei funcții de aproximare liniară în conformitate cu criteriul pentru minimizarea sumei pătratelor funcției de aproximare din valorile date din tabel (date experimentale).

Algoritmul pentru implementarea metodei celor mai mici pătrate

1. Date inițiale:

Un tablou de date experimentale cu numărul de măsurători N

Gradul polinomului aproximativ este dat (m)

2. Algoritmul de calcul:

2.1. Coeficienții sunt determinați pentru construirea unui sistem de ecuații cu dimensiunea

Coeficienții sistemului de ecuații (partea stângă a ecuației)

este indicele numărului de coloană al matricei pătrate a sistemului de ecuații

Termeni liberi ai unui sistem de ecuații liniare (partea dreaptă a ecuației)

este indicele numărului de rând al matricei pătrate a sistemului de ecuații

2.2. Formarea unui sistem de ecuații liniare în dimensiune.

2.3. Rezolvarea unui sistem de ecuații liniare pentru a determina coeficienții necunoscuți ai unui polinom aproximativ de grad m.

2.4 Determinarea sumei pătratelor abaterilor polinomului aproximativ de la valorile inițiale pentru toate punctele nodale

Valoarea găsită a sumei abaterilor pătrate este minimă posibilă.

Apropiere folosind alte funcții

Trebuie remarcat faptul că, atunci când se aproximează datele inițiale, în conformitate cu metoda celor mai mici pătrate, o funcție logaritmică, o funcție exponențială și o funcție de putere sunt uneori utilizate ca o funcție de aproximare.

Aproximare logaritmică

Luați în considerare cazul când funcția de aproximare este dată de o funcție logaritmică a formei:

Are multe aplicații, deoarece permite o reprezentare aproximativă a unei funcții date de alte funcții mai simple. OLS poate fi extrem de util în procesarea observațiilor și este utilizat în mod activ pentru a estima anumite cantități din rezultatele măsurătorilor altora care conțin erori aleatorii. Acest articol vă va arăta cum să implementați calcule de cel puțin pătrate în Excel.

Declarație de problemă pe un exemplu specific

Să presupunem că există doi indicatori X și Y. Și Y depinde de X. Deoarece OLS ne interesează din punct de vedere al analizei de regresie (în Excel, metodele sale sunt implementate folosind funcții încorporate), ar trebui să continuăm imediat să luăm în considerare o problemă specifică.

Deci, să fie X spațiul de vânzare cu amănuntul al unui magazin alimentar, măsurat în metri pătrați, iar Y - cifra de afaceri anuală, măsurată în milioane de ruble.

Este necesar să faceți o prognoză a cifrei de afaceri (Y) a magazinului dacă are un spațiu de vânzare cu amănuntul. Evident, funcția Y \u003d f (X) este în creștere, deoarece hipermarketul vinde mai multe bunuri decât standul.

Câteva cuvinte despre corectitudinea datelor inițiale utilizate pentru predicție

Să spunem că avem un tabel construit din date pentru n magazine.

Conform statisticilor matematice, rezultatele vor fi mai mult sau mai puțin corecte dacă sunt examinate date despre cel puțin 5-6 obiecte. În plus, nu puteți utiliza rezultate „anormale”. În special, o mică boutique de elită poate avea o cifră de afaceri de multe ori mai mare decât cifra de afaceri a magazinelor de vânzare cu amănuntul mari din clasa "masmarket"

Esența metodei

Datele din tabel pot fi afișate pe planul cartezian sub forma punctelor M 1 (x 1, y 1), ... M n (x n, y n). Acum soluția problemei se va reduce la selectarea funcției aproximative y \u003d f (x), care are un grafic care trece cât mai aproape posibil de punctele M 1, M 2, .. M n.

Desigur, puteți utiliza un polinom de grad înalt, dar această opțiune nu este doar dificil de implementat, ci și pur și simplu incorectă, deoarece nu va reflecta tendința principală pe care trebuie să o detectați. Cea mai rezonabilă soluție este de a găsi linia dreaptă y \u003d ax + b, care să se apropie cel mai bine de datele experimentale, sau mai degrabă, coeficienții a și b.

Evaluarea preciziei

Pentru orice aproximare, o evaluare a exactității sale are o importanță deosebită. Să notăm diferența (abaterea) dintre valorile funcționale și cele experimentale pentru punctul x i, adică e i \u003d y i - f (x i).

Evident, pentru a estima exactitatea aproximării, se poate utiliza suma abaterilor, adică atunci când se alege o linie dreaptă pentru o reprezentare aproximativă a dependenței lui X față de Y, ar trebui să se acorde preferință celui cu cea mai mică valoare a sumei e i în toate punctele luate în considerare. Totuși, nu totul este atât de simplu, deoarece, alături de abaterile pozitive, cele negative vor fi practic prezente.

Problema poate fi rezolvată folosind modulele de deviere sau pătratele lor. Cea din urmă metodă este cea mai utilizată. Este utilizat în multe domenii, inclusiv analiza de regresie (Excel implementează două funcții încorporate) și și-a dovedit demult valoarea.

Metoda pătratului cel mai mic

În Excel, după cum știți, există o funcție de autosum încorporată care vă permite să calculați valorile tuturor valorilor situate în intervalul selectat. Astfel, nimic nu ne împiedică să calculăm valoarea expresiei (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

În notație matematică, se pare:

Întrucât inițial a fost luată decizia de aproximare folosind o linie dreaptă, avem:

Astfel, problema găsirii liniei care descrie cel mai bine dependența specifică a cantităților X și Y se reduce la calcularea minimului unei funcții a două variabile:

Pentru a face acest lucru, trebuie să echivalează cu zero derivatele parțiale în raport cu noile variabile a și b și să rezolve un sistem primitiv format din două ecuații cu 2 necunoscute ale formei:

După câteva transformări simple, inclusiv împărțirea pe 2 și manipulările cu sume, obținem:

Rezolvându-l, de exemplu, prin metoda lui Cramer, obținem un punct staționar cu anumiți coeficienți a * și b *. Acesta este minimul, adică pentru a prezice ce cifră de afaceri va avea magazinul pentru o anumită zonă, linia dreaptă y \u003d a * x + b *, care este un model de regresie pentru exemplul în cauză, este potrivită. Desigur, nu vă va permite să găsiți un rezultat exact, dar vă va ajuta să vă faceți o idee dacă cumpărarea unui magazin pe credit pentru o anumită zonă va plăti.

Cum să implementați metoda cu cel puțin pătrate în Excel

Excel are o funcție pentru calcularea valorii OLS. Are următoarea formă: „TREND” (valori Y cunoscute; valori X cunoscute; valori X noi; const.). Să aplicăm formula pentru calcularea OLS în Excel pe tabelul nostru.

Pentru a face acest lucru, în celula în care ar trebui să fie afișat rezultatul calculului prin metoda celor mai puțin pătrate în Excel, introduceți semnul "\u003d" și selectați funcția "TREND". În fereastra care se deschide, completați câmpurile corespunzătoare, evidențiind:

  • gama de valori cunoscute pentru Y (în acest caz, date pentru cifra de afaceri);
  • intervalul x 1,… x n, adică dimensiunea spațiului de vânzare cu amănuntul;
  • atât valorile cunoscute, cât și cele necunoscute ale lui x, pentru care trebuie să aflați dimensiunea cifrei de afaceri (pentru informații despre locația lor pe foaia de lucru, a se vedea mai jos).

În plus, formula conține o variabilă logică "Const". Dacă introduceți 1 în câmpul corespunzător, aceasta înseamnă că trebuie efectuate calcule, presupunând că b \u003d 0.

Dacă trebuie să cunoașteți prognoza pentru mai mult de o valoare x, atunci după introducerea formulei, nu trebuie să faceți clic pe „Enter”, ci trebuie să tastați pe tastatură combinația „Shift” + „Control” + „Enter” („Enter”).

Unele caracteristici

Analiza de regresie poate fi chiar disponibilă manechinelor. Formula Excel pentru a prezice valoarea unui șir de variabile necunoscute - „TREND” - poate fi folosită chiar și de cei care nu au auzit niciodată despre metoda celor mai puțin pătrate. Este suficient doar să știi unele dintre caracteristicile operei sale. În special:

  • Dacă aranjați intervalul de valori cunoscute ale variabilei y într-un rând sau coloană, atunci fiecare rând (coloană) cu valorile x cunoscute va fi perceput de program ca o variabilă separată.
  • Dacă fereastra „TREND” nu conține un interval cu x cunoscut, atunci dacă funcția este utilizată în Excel, programul o va considera ca un tablou format din numere întregi, al căror număr corespunde intervalului cu valorile date ale variabilei y.
  • Pentru a obține o serie de valori „prezise” ca ieșire, expresia de tendință trebuie introdusă ca o formulă de matrice.
  • Dacă nu sunt specificate noi valori x, atunci funcția TREND le consideră egale cu cele cunoscute. Dacă nu sunt specificate, atunci tabloul 1 este luat ca argument; 2; 3; 4;…, care este proporțional cu intervalul cu parametrii deja specificați y.
  • Intervalul care conține noile valori x trebuie să fie același sau mai multe rânduri sau coloane ca intervalul cu valorile y date. Cu alte cuvinte, ar trebui să fie proporțional cu variabilele independente.
  • Un tablou cu valori x cunoscute poate conține mai multe variabile. Cu toate acestea, dacă vorbim doar despre unul, atunci intervalele cu valorile date de x și y trebuie să fie proporționale. În cazul mai multor variabile, doriți ca intervalul cu valorile y să se încadreze într-o coloană sau într-un rând.

Funcția de previziune

Este implementat folosind mai multe funcții. Unul dintre ei se numește „previziune”. Este similar cu TREND, adică dă rezultatul calculelor folosind metoda celor mai mici pătrate. Cu toate acestea, numai pentru un X, pentru care valoarea Y nu este cunoscută.

Acum cunoști formule Excel pentru manechine care îți permit să prezici valoarea viitoare a unui indicator dat în conformitate cu o tendință liniară.

© 2020 huhu.ru - Faringele, examinarea, nasul curgător, bolile gâtului, amigdalele