Skirtumas tarp klasifikacijos ir regresijos

2019

Klasifikavimas ir regresija yra dvi pagrindinės prognozavimo problemos, kurios paprastai nagrinėjamos duomenų gavyboje. Nuspėjamasis modeliavimas - tai modelis ar funkcijos kūrimas, naudojant istorinius duomenis, kad būtų galima prognozuoti naujus duomenis. Svarbus skirtumas tarp klasifikavimo ir regresijos yra tas, kad klasifikacija įvedimo duomenų objektą nukreipia į kai kurias atskiras etiketes. Kita vertus, regresija įterpia įvesties duomenų objektą į nuolatines realiąsias vertes.

Palyginimo diagrama

Palyginimo pagrindas	klasifikacija	Regresija
Pagrindinis	Modelio ar funkcijų aptikimas, kai objektų žemėlapis yra sudaromas į iš anksto nustatytas klases.	Sukurtas modelis, kuriame objektų žemėlapiai yra vertinami.
Apima prognozę	Diskretinės vertės	Nuolatinės vertės
Algoritmai	Sprendimų medis, logistinė regresija ir kt.	Regresijos medis (atsitiktinis miškas), tiesinė regresija ir kt.
Numatomų duomenų pobūdis	Nereguliuojama	Užsakyta
Apskaičiavimo metodas	Matavimo tikslumas	Vidutinės kvadratinės paklaidos matavimas

Klasifikacijos apibrėžimas

Klasifikavimas - tai modelis (funkcija), padedantis atskirti duomenis į kelias kategorines klases. Klasifikuojant nustatoma, kad problema yra grupinė, o tai reiškia, kad duomenys skirstomi į skirtingas etiketes pagal tam tikrus parametrus ir tada duomenys yra numatomi.

Išvestiniai modeliai gali būti demonstruojami „IF-THEN“ taisyklių, sprendimų medžių ar neuroninių tinklų forma ir tt Sprendimų medis iš esmės yra srauto schema, kuri panaši į medžio struktūrą, kurioje kiekvienas vidinis mazgas vaizduoja atributo testą, ir jos filialai rodo bandymo rezultatus. Klasifikavimo procesas sprendžia problemas, kai duomenys gali būti suskirstyti į dvi ar daugiau atskirų etikečių, kitaip tariant, du ar daugiau atskirų rinkinių.

Paimkime pavyzdį, tarkime, kad norime numatyti lietaus galimybę kai kuriuose regionuose, remiantis kai kuriais parametrais. Tada būtų du ženklai: lietus ir ne lietus, pagal kurį gali būti klasifikuojami skirtingi regionai.

Regresijos apibrėžimas

Regresija - tai modelio ar funkcijos, leidžiančios atskirti duomenis į nuolatines realiąsias vertes, o ne naudojant klases, paieškos procesą. Matematiškai, su regresijos problema, bandoma rasti funkcijų derinimą su minimaliu klaidų nuokrypiu. Regresijos metu numatoma, kad duomenų skaitmeninė priklausomybė ją išskirs.

Regresijos analizė yra statistinis modelis, naudojamas skaičiuotiniams duomenims prognozuoti vietoj etikečių. Ji taip pat gali nustatyti paskirstymo judėjimą priklausomai nuo turimų duomenų ar istorinių duomenų.

Paimkime panašų regresijos pavyzdį, kur kai kuriuose regionuose kai kurių parametrų pagalba randame lietaus galimybę. Tokiu atveju yra tikimybė, susijusi su lietumi. Čia mes neklasifikuojame regionų per lietaus ir be lietaus etikečių, o mes juos klasifikuojame su jų tikimybe.

Pagrindiniai klasifikavimo ir regresijos skirtumai

Klasifikavimo procesas modeliuoja funkciją, per kurią duomenys yra numatomi atskirose klasių etiketėse. Kita vertus, regresija - tai procesas, kuriuo sukuriamas nuolatinis kiekis prognozuojantis modelis.
Klasifikavimo algoritmai apima sprendimų medį, logistinę regresiją ir tt Priešingai, regresijos medis (pvz., Atsitiktinis miškas) ir tiesinė regresija yra regresijos algoritmų pavyzdžiai.
Klasifikacija numato netvarkingus duomenis, o regresija numato užsakytus duomenis.
Regresija gali būti įvertinta naudojant vidutinę kvadratinę paklaidą. Priešingai, klasifikavimas vertinamas matuojant tikslumą.

Išvada

Klasifikavimo metodas numato nuspėjamąjį modelį ar funkciją, pagal kurią, remiantis istoriniais duomenimis, nauji duomenys prognozuojami atskiromis kategorijomis ar etiketėmis. Atvirkščiai, regresijos metodas modeliuoja nepertraukiamai vertinamas funkcijas, o tai reiškia, kad duomenys numato nuolatinius skaitinius duomenis.