P. 1
Samenvatting

Samenvatting

|Views: 5|Likes:
Published by Stuvia.com

More info:

Published by: Stuvia.com on Jul 17, 2013
Copyright:Traditional Copyright: All rights reserved
List Price: $3.30 Buy Now

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
See more
See less

06/27/2014

$3.30

USD

pdf

Samenvatting

door

Adverteerder

De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal
Koop en Verkoop al je samenvattingen, aantekeningen, onderzoeken, scripties, collegedictaten, en nog veel meer..

www.stuvia.com

Stuvia.com - De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal

Samenvatting Statistiek: Een inleiding voor het hoger onderwijs
McClave, J.T., Benson, P.G. & T. Sincich (2007)

Stuvia.com - De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal

Hoofdstuk 1
1.1 De wetenschap statistiek Statistiek is de wetenschap van gegevens. Zij omvat het verzamelen, classificeren, samenvatten, organiseren, analyseren en interpreteren van numerieke informatie. 1.2 Soorten statistische toepassingen in het bedrijfsleven Statistiek omvat twee verschillende processen: - Het beschrijven van gegevensverzamelingen; - Het trekken van conclusies (schattingen, beslissingen, voorspellingen enz.) Statistiek kan worden opgedeeld in beschrijvende en verklarende statistiek. Beschrijvende statistiek gebruikt numerieke en grafische methoden om patronen in een gegevensverzameling te ontdekken, om de informatie die uit een gegevensverzameling kan worden gewonnen samen te vatten en om deze informatie op een overzichtelijke manier te presenteren. Verklarende statistiek gebruikt steekproefgegevens voor het schatten, het nemen van beslissingen en het voorspellen of voor andere generalisaties gericht op een grote verzameling gegevens. 1.3 Basiselementen van de statistiek Statistische methoden zijn in het bijzonder nuttig voor het bestuderen, analyseren en kennis verkrijgen van populaties bestaande uit expermentele eenheden. Een experimentele eenheid is een object (bv. een persoon, ding, transactie of gebeurtenis) waarvan we gegevens vastleggen. Een populatie is een verzameling eenheden (meestal personen, objecten, transacties of gebeurtenissen) die we willen bestuderen. Als we een populatie bestuderen, concentreren we ons op een of meer kenmerken of eigenschappen van de eenheden van die populatie. Deze kenmerken heten variabelen. Voorbeelden zijn geslacht en leeftijd. De term ‘variabele’ is afgeleid van het feit dat elk individueel kenmerk kan variëren over de verschillende eenheden in een populatie. We geven een variabele een numerieke weergave door ze te meten, dat wil zeggen door ze getallen toe te kennen. Het kan zo zijn dat de populatie erg groot is. Dan kun je een steekproef houden. Dat is een deelverzameling van de eenheden van een populatie. Met een steekproef kun je een statistische gevolgstrekking maken. Dat is een schatting, een voorspelling of een andere generalisatie voor een populatie die gebaseerd is op informatie uit een steekproef. We willen dus met de informatie uit de steekproef iets te weten komen over de hele populatie. Vier elementen van beschrijvende statistiek: 1. De relevante populatie; 2. Een of meer variabelen (kenmerken van de populatie- of steekproefeenheden) die onderzocht moeten worden; 3. Tabellen, grafieken of numerieke hulpmiddelen om een samenvatting te geven; 4. Conclusies met betrekking tot de gegevens, gebaseerd op de patronen die naar voren zijn gekomen. Vijf elementen van verklarende statistiek:

Stuvia.com - De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal

De relevante populatie; Een of meer variabelen die onderzocht moeten worden; De steekproef van populatie-eenheden; De gevolgtrekking over de populatie, gebaseerd op informatie in de steekproef; 5. Een betrouwbaarheidsmaat voor de gevolgtrekking. Dat is een uitspraak (meestal kwantitatief) over de mate van onzekerheid die gepaard gaat met een statistische gevolgtrekking. Oftewel: we willen weten hoe goed de gevolgtrekking is. 1.4 Processen Statistische methoden zijn ook beschikbaar voor het analyseren van processen en het maken van gevolgtrekkingen daarover. Een proces is een reeks acties of operaties die invoer omzet in uitvoer. Een proces produceert of genereert uitvoer in de loop van de tijd. Voorbeelden zijn productieprocessen en fabricageprocessen.

1. 2. 3. 4.

Grafische weergave van een productieproces

Deze figuur is een black box, dat is een proces waarvan de operaties of acties onbekend of niet gespecificeerd zijn. de nadruk ligt volledig op de uitvoer van het proces. Als de uitvoer niet numeriek is, gebruiken we meetprocessen om waarden aan variabelen toe te kennen. Elke uitvoerverzameling (objecten of getallen) die door proces wordt geproduceerd wordt een steekproef genoemd. Processen genereren hun uitvoer in de loop van de tijd – de ene eenheid na de andere. 1.5 Soorten gegevens Gegevens kunnen worden verdeeld in: - Kwantitatieve gegevens Meetwaarden die worden geregistreerd op een van nature voorkomende numerieke school. Bijvoorbeeld de temperatuur en het werkloosheidspercentage in de VS. Deze gegevens kunnen worden onderverdeeld in intervalgegevens en ratiogegevens. Kwalitatieve gegevens Metingen die niet op een natuurlijk voorkomende numerieke schaal kunnen worden gemeten; ze kunnen alleen worden geclassificeerd in één categorie uit een groep categorieën. Voorbeelden zijn voorkeur voor een politieke partij en de rangorde die een smaaktester toekent aan vier merken barbequesaus, in een panel van 10 testers. Deze gegevens kunnen worden onderverdeeld in nominale en ordinale gegevens.

1.6 Gegevens verzamelen Manieren om gegevens te verkrijgen: - Uit een gepubliceerde bron

De rol die statistiek kan spelen in het nemen van managementbeslissingen is hieronder in het stroomdiagram weergeven: . Dit zorgt ervoor dat elke dataverzameling met een bepaalde grootte van de populatie dezelfde kans heeft om deel uit te maken van de steekproef. Bijvoorbeeld politieke enquêtes.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal - - Uit een experiment -> Onderzoeker doet een experiment met een behandelde groep en controlegroep Uit een enquête -> Onderzoeker neemt een steekproef van een aantal mensen. en registreert hij de relevante variabele(n). is er sprake van een primaire bron. De gebruikelijkste manier om te voldoen aan de eis van een representatieve steekproef is door het nemen van een aselecte steekproef.com . anders van een secundaire bron. En als we verklarende statistiek willen toepassen. Succesvolle managers maken in belangrijke mate gebruik van statistisch denken voor het nemen van beslissingen. Statistisch denken omvat het toepassen van rationeel denken en van de wetenschap statistiek om kritisch gegevens en gevolgtrekkingen te kunnen beoordelen. Ongeacht welke methode van gegevens verzamelen wordt gebruikt. Uit observatie -> Onderzoeker observeert de experimentele eenheden in haar natuurlijke omgeving. 1. stelt een of meer vragen e registreert de antwoorden. Als degene die publiceert zelf de gegevens heeft verzameld. moeten we een representatieve steekproef zien te verkrijgen.Stuvia. is het waarschijnlijk dat de gegevens een steekproef van een of andere populatie zullen vormen.7 De rol van statistiek bij het nemen van beslissingen door managers Het is nuttig om kritisch te denken bij het gebruiken van statistische methoden. Het is hierbij belangrijk dat men zich realiseert dat er variatie bestaat in populaties en procesgegevens. Bij gepubliceerde gegevens maken we vaak een onderscheid tussen de primaire bron en de secundaire bron.

Deze statistische vraag moet zo geformuleerd worden dat het beantwoorden van de vraag zal leiden tot het beantwoorden van de managementvraag.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Een van de moeilijkste stappen in dit besluitvormingsproces is het vertalen van de managementvraag in statistische termen. . in gedachten. Je moet dus de statistische vraag formuleren met het eindresultaat.com .Stuvia. de oplossing voor de managementvraag.

Stuvia. Populatie).1 Het beschrijven van kwalitatieve gegevens Kwalitatieve gegevens zijn niet-numeriek. worden de punten boven elkaar geplaatst. het blad is.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 2 2. .Relatieve frequentie per klasse berekenen De frequentie per klasse gedeeld door het totaal aantal waarnemingen in de gegevensverzameling De meest gebruikelijke methoden om kwalitatieve gegevens te weergeven zijn staafdiagrammen en cirkeldiagrammen. de waarde van een kwalitatieve variabele kan alleen maar worden ingedeeld in categorieën die klassen worde genoemd. We kunnen zulke gegevens op twee manieren numeriek samenvatten: . samen te vatten en te ontdekken: .com . Dit kan met Excel worden gemaakt. Naarmate de gegevensverzameling zeer groot is (bv. 2. die meetklassen worden genoemd.2 Grafische methoden voor het beschrijven van kwantitatieve gegevens manieren om kwantitatieve gegevens te beschrijven. rechts van de decimale komma. - Histogram Kunnen gebruikt worden om de frequentie of de relatieve frequentie weer te geven van de metingen in gespecificeerde intervallen.Puntendiagram De waarde van elke meting in de gegevensverzameling wordt door een punt op de horizontale schaal aangegeven. zodat ze een stapel vormen op de plaats van die specifieke waarde. terwijl het resulterende deel. Als er meer metingen zijn met eenzelfde waarde.Frequentie per klasse berekenen Het aantal waarnemingen in de gegevensverzameling dat tot een bepaalde klasse behoort . zal de histogram vloeiend verlopen. - Stam-en-bladdiagram In deze diagram is de stam het deel van de meetwaarde (percentage) links van de decimale komma.

worden verschillende numerieke methoden gebruikt.com . naarmate de gegevens meer variatie vertonen.Spreiding van de verzameling metingen (oftewel de variabiliteit van de gegevens) Het centrum is meestal het gemiddelde.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Histogrammen zijn in het algemeen beter bruikbaar voor zeer grote gegevensverzamelingen. Bij gelijkblijvende overige factoren zal de schatting des te onnauwkeuriger zijn. De mate hoe nauwkeurig de schattig van is voor µ hangt af van twee factoren: . beginnend met de 1e meting en eindigend met de ne meting. dat is de som van de metingen gedeeld door het aantal metingen in de gegevensverzameling.Spreiding van de gegevens. Een andere belangrijke maat voor het centrum is de mediaan.4 Het beschrijven van het centrum Om kwantitatieve gegevensverzamelingen te beschrijven.Stuvia. 2.Centrum van de verzameling metingen . die meestal een van deze twee kenmerken meten: . des te nauwkeuriger de schatting .3 Sommatienotatie De sommatienotatie betekent dat de metingen van de variabele die rechts van het sommatieteken staat.Grootte van de steekproef. Stam-en-bladdiagrammen en puntendiagrammen kunnen nuttige details geven voor kleinere gegevensverzamelingen. moeten worden gesommeerd. Meestal gebruiken we . Het gemiddelde van een steekproef: Gemiddelde van een populatie is µ. Dat is het gemiddelde getal wanneer de meetwaarden in opklimmende (of dalende) orde . Hoe groter de steekproef. Dus x₁ + x₂ + x₃ + … + xn = 2.

Mediaan . Het is het meest geschikt bij grote gegevensverzamelngen. dan zijn de gegevens niet verspreid. er zijn twee methoden om dit probleem te omzeilen: (1) behandel alle afwijkingen als positieve getallen.Stuvia. Is n even. dan is m het gemiddelde van de twee middelste getallen. Na het bepalen van de afwijkingen moet je de informatie samenvatten. Samengevat drie maten om de plaats van het centrum te bepalen: . Als de afwijkingen aan de grote kant zijn. Dat is de meting die het vaakst voorkomt in de gegevensverzameling. dan zijn de gegevems verspreid of sterk variabel.com . door alleen te kijken naar de absolute waarde (niet op het minteken van de negatieve afwijkingen letten).5 Maten voor de spreiding Een beschrijving van een kwantitatieve gegevensverzameling vereist naast maten voor het centrum ook een maat voor de variabiliteit van de gegevens. Maar de afwijkingen samenvoegen leidt altijd tot nul. Het is echter een nogal ongevoelige maat voor variatie in gegevens als de gegevensverzameling groot zijn. Door het gemiddelde en de mediaan te vergelijken. dan is m (mediaan) het middelste getal. Dit gebeurt met de steekproefvariantie: De steekproefvariantie geeft een bruikbare beschrijving van de spreiding van een gegevensverzameling en veroorzaakt minder analytische problemen in het maken van gevolgtrekkingen.Gemiddelde . Daarom (n-1) om deze onderschatting te corrigeren. en (2) het kwadrateren van de afwijkingen. kunnen we een aanwijzing vinden voor scheefheid in gegevensverzamelingen. Soms is de mediaan beter dan het gemiddelde.Modus 2. Een derde maat voor de plaats van het centrum is de modus van een gegevensverzameling. krijgen we een te lage schatting van populatievariantie σ². De eenvoudigste maat hiervoor is de spreiding. Waarom (n-1)? Als we n gebruiken. Een gevoeligere maat voor variatie dan het bereik is de afwijking. De mediaan is namelijk niet gevoelig voor uitschieters. Als n oneven is. . dat is gelijk aan de grootste meetwaarde minus de kleinste meetwaarde. Als de afwijkingen klein zijn.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal worden gerangschikt.

gebruiken we relatieve maten.)/s . Tenminste 75% valt binnen -2s en +2s/µ-2σ en µ+2σ.De mediaan is het 50e percentiel. Met de steekproefinformatie kun je uiteindelijk gevolgtrekkingen maken over de populatie.Waarde van z-score is een relatieve maat voor de meetwaarde.7% binnen drie standaardafwijkingen van het gemiddelde (dus binnen -3s en +3s/µ-3σ en µ+3σ). in tegenstelling tot de variantie.Z-score van een populatie: z = (x . .6 Betekenis van de standaardafwijking De steekproef met de grootste standaardafwijking heeft de meeste variantie. Ongeveer 99.7 Hoever wijkt een waarneming af van de overige waarnemingen? Om de relatieve kwantitatieve locatie van een bepaalde meetwaarde in een gegevensverzameling te beschrijven. Er zijn twee soorten antwoorden op de vraag “Hoeveel meetwaarden vallen binnen 1. en (100-p)% erboven valt.Stuvia.µ)/σ . Het is de positieve wortel uit de steekproefvariantie s². Z-score .Percentiel-rangorde .2 en 3 standaardafwijkingen van het gemiddelde?” Regel van Tsjebysjev Meetwaarden binnen één standaardafwijking van het gemiddelde is niet bekend. 2.Hebben alleen voor grote gegevensverzamelingen praktische waarde. in de oorspronkelijke meeteenheden uitgedrukt.Manier om de relatieve plaats van een meetwaarde te specificeren. de standaardafwijking wordt. .De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal De tweede stap in het vinden van een bruikbare mate voor de variatie in de gegevens is het berekenen van de standaardafwijking = .com .Voor elke verzameling van n meetwaarden (gesorteerd of klimmende of dalende volgorde) is het pe percentiel een getal zodanig dat p% van de meetwaarde onder het pe percentiel valt. Er zijn twee relatieve waarden in het boek beschreven: . Dat zijn beschrijvende maten voor de relatie van een meetwaarde tot de rest van de gegevens. s² s σ ² σ Steekproefvariantie Standaardafwijking van de steekproef Populatievariantie Standaardafwijking van de populatie 2. Een grote positieve zscore betekent dat de meetwaarde groter is dan vrijwel alle andere meetwaarden.Z-score van een steekproef: z = (x . Een . Tenminste 8/9 valt binnen -3s en +3s/µ-3σ en µ+3σ. Ongeveer 95% binnen standaardafwijkingen van het gemiddelde (dus binnen -2s en +2s/µ-2σ en µ+2σ). Empirische regel Ongeveer 68% binnen één standaardafwijking van het gemiddelde (dus binnen -s en +s/µ-σ en µ+σ). .

Q₁ .de doos is KA-groot.ongeveer 95% van de meetwaarden heeft een z-score van -2 tot 2 .gewoon een zeldzame gebeurtenis Manieren om uitschieters op te sporen: .een verkeerd geclassificeerde meting (meting hoort bij een andere populatie) . .interpreteren van box-plots: • KA is een maat voor de spreiding van de steekproef.com . De binnenste en buitenste omheining worden niet in de boxplot getekend. beginnend met Q₁ en eindigend met Q₃ - . Z-score Waarnemingen met z-scores groter dan 3 of -3 zijn uitschieters. richting de langste snorhaar. Buitenste omheining = onderste schanier – 3KA / bovenste schanier + 3KA. Onderste binnenste omheining = onderste schanier – 1.ongeveer 99.5KA / bovenste omheining + 1.kwartielafstand = KA = Q₃ . 3e kwartiel is Q₃ en 75e percentiel. zelfs bij een zeer scheve verdeling. die in het bijzonder geschikt is voor het vergelijken van twee steekproeven.Box-plots . is de verdeling van de gegevens waarschijnlijk scheef. • Minder dan 5% van de meetwaarden vallen buiten de binnenste omheiningen.gebaseerd op kwartielen: 1e kwartiel is Q₁ en 25e percentiel. .uitschieters vallen buiten de binnenste omheiningen (aangeven met *) .7% van de meetwaarden heeft een z-score van -3 tot 3 -> dit lijkt hiermee veel op empirische regel van hierboven! 2.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal grote negatieve z-score betekent dat de meetwaarde kleiner is dan vrijwel alle andere meetwaarden. . . 2e kwartiel is Q₂ en 50e percentiel. Is z-score gelijk aan 0 dan ligt meetwaarde op of rond het gemiddelde van de steekproef of gemiddelde.snorharen lopen tot uiterste waarde binnen de binnenste omheining.ongeldige meetwaarde (verkeerde waarneming) .8 Methoden voor het opsporen van uitschieters Waarom zijn er uitschieters (een waarneming die ongewoon groot of klein is ten opzichte van de gegevens)? . • Als de ene snorhaar langer is dan de andere.5KA.Stuvia.ongeveer 68% van de meetwaarden heeft een z-score van -1 tot 1 .

De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal 2. gebaseerd op spreidingsdiagrammen van steekproefgegevens. 2. gebruik maken van een scheurlijn 3. Deze laat een trend en de variatie zien van de geregistreerde variabele. Op de verticale en horizontale as staan beide variabelen. heten tijdreeksen.com . veranderen van de schaal op de verticale of horizontale as (of beide) 2. Voorbeeld is de grafiek van een dagkoers. de beschrijving bij een grafiek wijzigen . 2.9 Grafische weergave van de relatie tussen twee variabelen Een manier om de relatie tussen twee kwantitatieve variabelen – ook wel bivariate relatie genoemd – te beschrijven.Stuvia.10 De grafiek van een tijdreeks Gegevens die in de loop van de tijd worden geproduceerd en geregistreerd.11 De waarheid verdraaien met beschrijvende statistieken Manieren om de indruk die een grafiek maakt te veranderen: 1. Er wordt dan gebruik gemaakt van een grafiek van een tijdreeks. is het tekenen van de gegevens in een spreidingsdiagram (oftewel een puntenwolk). Er is geen maat voor de betrouwbaarheid van gevolgtrekkingen die voor bivariate populaties worden gemaakt. en zo is een eventuele relatie te zien.

Een statistisch experiment kan elke soort waarneming zijn. De kans op een uitkomst is een getal tussen 0 en 1 (deze beide waarden inbegrepen).De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 3 3. De kans ligt dus tussen 0 en 1 en alle kansen moeten samen 1 zijn.7 Het trekken van een aselecte steekproef Een aselecte steekproef houdt in dat als n elementen uit een populatie worden geselecteerd. voorbeeld hier rechts. Een experiment kan slechts één uitkomst hebben. 3. Een gebeurtenis is een verzameling uitkomsten. bepaal welke verzameling uitkomsten met de desbetreffende gebeurtenis overeenkomt 5. dat elke verzameling van n elementen in de populatie dezelfde kans heeft om geselecteerd te worden.com . Om er zeker van te zijn dat elke mogelijke steekproef evenveel kans heeft om gekozen te worden. tel de kansen op die uitkomsten bij elkaar op. kun je een tabel met toevalsgetallen gebruiken. Met de combinatieregel kun je snel te weten komen op hoeveel manieren vijf elementen uit een groep van 1000 kunnen worden gekozen. zolang de uitkomst onzeker is. De kans op een gebeurtenis A wordt berekend door de kansen va de uitkomsten in de uitkomstenruimte voor A bij elkaar op te tellen. . Er wordt dan gebruik gemaakt van de volgende combinatieregel: N = aantal elementen in populatie n = aantal elementen in steekproef Het symbool is het aantal combinaties van N elementen in groepen van n per keer. Methoden om het aantal uitkomsten te berekenen is door middel van een telsysteem (1). De resultaten van een experiment heten waarnemingen of metingen. Met een Venndiagram is de uitkomstenruimte goed te illustreren.Stuvia. en door combinatoriek te gebruiken (2). Het experiment kan complex zijn (heel veel eenheden). Alle mogelijke uitkomsten van een experiment worden verzameld in de uitkomstenruimte. ken kansen toe aan de uitkomsten 4.1 Gebeurtenissen. Vijf stappen voor het berekenen van de kans op een gebeurtenis: 1. maakt een lijst van alle uitkomsten 3. De meest fundamentele uitkomst van een experiment is een enkelvoudige gebeurtenis of uitkomst. dat de waarschijnlijkheid weergeeft van deze uitkomst als het experiment wordt uigevoerd. Dit getal wordt meestal de relatieve frequentie van het voorkomen van een uitkomst in een zeer lange reeks herhalingen van het experiment genoemd. uitkomstenruimte en kans Een experiment is een handeling of een proces van waarnemen dat tot één enkele uitkomst leidt die niet met zekerheid kan worden voorspeld. definieer het experiment 2. De meeste onderzoekers gebruiken een toevalsgetallengenerator om automatisch een aselecte steekproef te genereren.

.Stochastische variabelen die waarden kunnen aannemen die corresponderen met elk van de punten van één of meer intervallen. .Stuvia.Er is een eindig aantal verschillende waarden mogelijk.bv.discrete stochastische variabelen .com . waarbij één waarde aan elke uitkomst wordt toegekend. Er zijn twee soorten stochastische variabelen: . Het zijn stochastische variabelen die een telbaar aantal waarden kunnen aannemen. het aantal verkopen in één week.bv. het aantal fouten op een pagina enz. is het een discrete stochastische variabele. gewicht van een supermarktproduct.1 Twee soorten stochastische variabelen Een stochastische variabele is een variabele die numerieke waarden aanneemt die horen bij de toevallige uitkomsten van een experiment.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 4 4. tijdsduur tussen opeenvolgende aankopen van een nieuwe auto door een klant. . Wanneer alle mogelijke waarden die een stochastische variabele kan aannemen opgesomd of geteld kunnen worden. De waarden zijn niet telbaar. de diepte waarop een succesvolle olieboring voor het eerst olie aanboort. continue stochastische variabelen .

bereken ±s.Stuvia. bereken kwartielafstand KA/s = (Q₃ . samen met veel ‘empirische’ ervaring met gegevens uit de praktijk die min of meer aan de regel voldoen. schets de normale verdeling en arceer het gebied dat overeenkomt met de kans die je wilt bepalen. 95% en 100% 3. 2. Bij een normale verdeling vallen deze cijfers ongeveer gelijk aan respectievelijk 68%. 5. 5. Met een tabel (zie blz.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 5 5. genaamd kansdichtheidsfunctie. 665) kun je de oppervlakte gemakkelijk vinden van een gebied. Elke zijde (links en rechts van 0) is gelijk aan 0. gebruik je de formule (x-µ)/σ. vind zo de oppervlakte van het geacceerde gebied en daarmee de kans. is (KA/S)≈1. Een stochastische variabele met een standaardnormale verdeling. dan is het een normale verdeling .1 Continue kansverdelingen De grafische vorm van de kansverdeling voor een continue stochastische variabele is een gladde kromme. en de spreiding wordt bepaald door standaardafwijking σ. De normale verdeling geeft het model waarop de empirische regel is gebaseerd. bereken de z-waarde (x-µ)/σ voor de grenzen van het gebied. Het is symmetrisch rond verwachting µ. Om z uit te rekenen. of ze nu afkomstig zijn uit een normale verdeling of niet.4 Beschrijvende methoden om te bepalen of een verdeling normaal is Methoden om na te gaan of een steekproef uit een normale verdeling komt: 1.com . construeer een histogram of een stam-en-bladdiagram.3 . dichtheidsfunctie of dichtheid. De kansdichtheidsfunctie voor een normale verdeelde variabele x is: f(x) = Een standaardnormale verdeling is een normale verdeling met µ=0 en σ=1. Het gebied tussen a en b heeft hetzelfde oppervlakte als de kans dat een variabele een waarde tussen a en b heeft.3 De normale verdeling Dit is een normale verdeling. De totale oppervlakte onder de kansverdeling moet gelijk zijn aan 1. Stappen voor het bepalen van een kans bij een normaal verdeelde variabele: 1. De oppervlakten onder de meeste kansverdelingen worden door integraalrekening of door middel van numerieke methoden gevonden. aangegeven met ‘z’.5. ±2s en ±3s. Bij een kansverdeling heb je te maken met verwachting µ en standaardafwijking σ. 3. heet een standaardnormaal verdeelde variabele. kijk in de tabel en zoek naar de grenzne. Bij een normale verdeling is er een normale kromming: 2.Q₁)/s.

kan een normale verdeling gebruikt worden om de kansverdeling van een binmiale stochastische variabele te benaderen. schtes de binomiale verdeling en kleur het kansgebied. kunnen gevolgtrekkingen die met deze methoden zijn gevonden. Je moet bij het berekenen van het gekleurde gebied wel rekening houden met de continuïteitscorrectie. Dit zijn trouwens technieken van beschrijvende aard. Het gebruik van een normale verdeling om binomiale kansen te benaderen: 1. zodat deze door de continue verdeling kan worden benaderd. construeer een normaliteitsplot voor de gegevens.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal 4. bereken het interval µ±3σ = np±3√(npq) Als het interval binnen het bereik van 0 tot n ligt.com . 2.5 Het benaderen van een binomiale verdeling door een normale verdeling Als n groot is. druk de binomiale kans die moet worden benaderd uit in de vorm P(x≤a) of P(x≤b) – P(x≤a) 3.5) en corresponderende standaardnormale z-waarde is ((a+0. en de bijbehorende verwachte z-waarden van een standaardnormale verdeling op de andere as. Gebruik z-waarde met tabel IV om de oppervlakte te bepalen.5)-µ)/σ 4. niet geldig zijn. zodat de normale verdeling bruikbaar is. Dat is een spreidingsdiagram met de gesorteerde gegevenswaarden op de ene as.Stuvia. dat wil zeggen dat we een correctie toepassen op de discrete verdeling. Het interval µ±3σ moet binnen het bereik van de binomiale stochastische variabele x(dat wil zeggen 0 tot n) liggen. Als de gegevens niet normaal verdeeld zijn. continuïteitswaarde is gelijk aan (a+0. . dan zal de normale verdeling een goede benadering geven voor de kansen van de meeste binomiale gebeurtenissen. 5. Bij een normale verdeling zullen de punten ongeveer op een rechte lijn liggen.

Dat wil zeggen standaardafwijking van de kansverdeling van het steekproefgemiddelde is gelijk aan: - wordt vaak de standaardfout van het gemiddelde genoemd.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 6 Numerieke grootheden die kansverdeling of populaties beschrijven noemen we parameters. De steekproefgrootheid is een numerieke beschrijvende maat van een steekproef. bv. bv. De steekproefverdeling van een steekproefgrootheid die voor een steekproef van n metingen wordt berekend.3 De centrale limietstelling Eigenschappen van de steekproefverdeling van : . Hieruit volgt dat als je twee steekproefgrootheden vergelijkt. waardoor het moeilijk wordt om de verschillende steekproeven op te sommen. 6. µ. s² en s. is de kansverdeling van deze steekproefgrootheid. . 6. Deze grootheid wordt berekend uit waarnemingen in de steekproef.1 De verdeling van een steekproefgrootheid Wat is de beste schatting van µ? Noch het steekproefgemiddelde . zullen we de bijbehorende kansverdeling geven en de eigenschappen ervan gewoon beschrijven. omdat verschillende steekproeven tot verschillende uitkomsten van de steekproefgrootheden zullen leiden. Als de populatie bestaat uit weinig steekproeven.com . kunnen we ervoor kiezen om de kansverdeling te benaderen: we simuleren het steeds weer trekken van een steekproef en leggen het relatieve aantal keren vast dat verschillende steekproeven voorkomen. Centrale limietstelling Beschouw een aselecte steekproef van n waarnemingen die uit een willekeurige populatie met verwachting µ en standaardafwijking σ wordt genomen. je hun kansverdelingen moet vergelijken. Meestal bestaan populaties uit een groot aantal verschillende waarden. We moeten afgaan op onze theoretische kennis van kansverdelingen van steekproefgrootheden om de meest geschikte steekgrootheid te kiezen.Stuvia. De eigenschappen van een steekproefgrootheid worden gekarakteriseerd door haar kansverdeling. zal de kansverdeling van een normale verdeling zijn. Als we de eigenschappen van een steekproefgrootheid willen weten. Steekproefgrootheden zijn zelf stochastische variabelen.de verwachting van de kansverdeling van het steekproefgemiddelde is de verwachting van de populatie waaruit de steekproef wordt genomen. zal de kansverdeling van een normale . p en σ. Als stochastische variabelen moeten steekproefgrootheden worden beoordeeld en vergeleken op basis van hun kansverdelingen. Twee belangrijke stellingen over de vorm van de kansverdeling van : .Stelling 1 Als een aselecte steekproef van n waarnemingen uit een populatie met een normale verdeling wordt genomen. noch de steekproefmediaan m zal altijd het dichst bij het populatiegemiddelde liggen. Als n groot genoeg is.

Voor de meeste populaties zal een steekproefomvang van n≥25 voldoende zijn voor een goede benadering door de normale verdeling. Nog twee opmerkingen over de kansverdeling van : .De standaardafwijking van de kansverdeling van een steekproefgrootheid neemt af als de steekproefomvang toeneemt. des te beter zal de normale benadering van de kansverdeling van zijn. . maar ook een verklaring voor het feit dat veel relatieve frequentieverdelingen van gegevens een heuvelvorm hebben. des te nauwkeuriger is de schattig door de steekproefgrootheid van een populatieparameter. Hoe groter de steekproef is.Stuvia.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal verdeling benaderen met verwachting =µ en standaardafwijking = . Meestal geldt dat hoe schever de populatieverdeling is. De centrale limietstelling geeft niet alleen een zeer bruikbare benadering van de kansverdeling van een steekproefgemiddelde.com . des te groter de steekproefomvang moet zijn voordat de normale verdeling een voldoende benadering geeft van de kansverdeling van . Hoe groter de steekproef is.

en niet zozeer het vertrouwen in het specifieke interval dat uit de steekproefgegevens is berekend. We kunnen het resultaat toepassen op het verdere proces. De betrouwbaarheidsinterval voor µ bij een kleine steekproef is: . uitgedrukt als een percentage.2 Betrouwbaarheidsinterval voor een verwachting in een populatie bij een kleine steekproef Bij een kleine steekproef kun je de centrale limietstelling niet toepassen. komt s dichter bij σ te liggen. aangenomen dat de kansverdeling waaruit onze steekproef was genomen. . Naarmate steekproefomvang n zeer groot wordt. Dit wordt uitgedrukt door te zeggen dat de t-verdeling (n-1) vrijheidsgraden heeft. Hoe minder vrijheidsgraden.com . klopt onze interval ook niet. Bij een kleine steekproef weet je σ verder niet. In plaats daarvan gebruik je de t-verdeling: De variatie in de kansverdeling van t hangt af van de steekproefomvang. De betrouwbaarheidscoëfficiënt is de kans dat een aselect gekozen betrouwbaarheidsinterval de populatieparameter bevat – ofwel de relatieve frequentie waarmee gelijksoortig geconstrueerde intervallen de populatieparameter omvatten als de schatter een zeer groot aantal keren wordt gebruikt. De betrouwbaarheidsinterval voor µ bij een grote steekproef is: Een betrouwbaarheidsinterval geeft ons vertrouwen in het schattingsproces weer. des te variabeler de verdeling. en daarmee de t-verdeling dichter bij de z-verdeling. Een lagere betrouwbaarheidsinterval zorgt voor minder vertrouwen. Als de betrouwbaarheid 95% bedraagt.1 Betrouwbaarheidsinterval voor een verwachting in een populatie bij een grote steekproef Een intervalschatter (of betrouwbaarheidsinterval) is een formule die vertelt hoe steekproefgegevens moeten worden gebruikt om een interval dat een populatieparameter schat te berekenen. aangenomen dat een aselecte steekproef uit een populatie wordt genomen die een verdeling bezit die bij benadering normaal is. Als dat niet klopt. Wat is het risico van een kleine steekproef? . De betrouwbaarheidscoëfficiënt is een zekere maat voor de betrouwbaarheid. maar volgens stelling 1 uit H6 is kansverdeling van ook normaal als populatie normaal verdeeld is.We hebben aangenomen dat populatie normaal verdeeld is. normaal verdeeld is. Om een interval toch smaller te maken kun je de steekproef vergroten. en ta/2 is gebaseerd op (n-1) vrijheidsgraden. 7. De betrouwbaarheid is de betrouwbaarheidscoëfficiënt.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 7 7. De grenswaarde is n=30.Stuvia. zal op den duur 95% van de intervallen µ wél bevatten en 5% niet.

4 Het bepalen van de steekproefomvang De juiste steekproefomvang voor het maken van een gevolgtrekking over een populatiegemiddelde of een populatiefractie hangt af van de gewenste nauwkeurigheid: .. de getallen 0 Verwachting is Standaardafwijking van is normaal verdeeld.Het schatten van de verwachting in een populatie Door de maximale breedte van het betrouwbaarheidsinterval te bepalen. Een steekproef is normaal als en 1 niet bevat.5 Eindige-populatiecorrectie voor enkelvoudige aselecte steekproeven . is dus een zuivere schatting van p. Gecorrigeerd (1-α)% betrouwbaarheidsinterval voor populatiefractie p is: 7. . specificeer je begrenzing B.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal - Verder leidt het tot een bredere interval 7. De vereiste steekproefomvang bepaal je dan zo: Dan kun je µ meten binnen begrenzing B met een betrouwbaarheid van 100(1-α)%.com .5 te kiezen. Het schatten van een populatiefractie Hetzelfde als hierboven: pq is echter niet bekend. 7.) het werkelijke percentage van alle mensen bevat die voor of tegen iets zijn. veiligste manier is door p=0. De betrouwbaarheidsinterval voor p met een grote steekproef is . Hiermee kun je binomiale kans p met 100(1-α)% betrouwbaarheid schatten binnen begrenzing B. . waarbij q=1-p.Stuvia. Hiermee kun je zeggen: je kan voor 100(1-α)% er vanuit gaan dat het interval (.3 Betrouwbaarheidsinterval voor een populatiefractie bij een grote steekproef Kansverdeling van - : =p..

moeten de standaardfouten van de schatters van µ en van p worden vermenigvuldigd met een eindige-populatiecorrectiefactor. Wel het gevaar van een cyclus.000 mensne.com . om zo de data alsnog te krijgen.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Als de steekproef groot is ten opzichte van het aantal metingen in de populatie.Laagsgewijze of gestratificeerde steekproef Elementen uit de populatie kunnen fysiek worden gescheiden in twee of meer groepen (genaamd strata).6 Het ontwerpen van een steekproefonderzoek Manieren om een steekproefonderzoek te ontwerpen: .Natuurlijk aselecte steekproef Methoden om kosten van aselecte steekproef te verlagen: . Om dit te voorkomen kun je respondenten financiële vergoeding geven of non-respondenten opsporen en ondervragen. Gebruik deze factor als (n/N)>0. Deze factor hangt af van hoe populatievariantie σ is gedefinieerd.Gerandomiseerde responssteekproef Vooral nuttig als de vragen van dien aard zijn dat de respondenten ze niet naar waarheid beantwoorden. . elke honderste persoon kiezen uit een lijst van 10.Enquête per post Wel gevaar van non-respons.Stuvia. .5. Schatting van de verwachting in een populatie Geschatte standaardfout: Benaderd 95% betrouwbaarheidsinterval: Schatting van de populatiefractie Geschatte standaardfout: Benaderd 95% betrouwbaarheidsinterval: 7. .Enquête per telefoon .Systematische steekproef bv. waarbij variatie in respons binnen een stratum kleiner is dan de variatie binnen de gehele populatie. .

dat de kans dat de toetsingsgrootheid een uitkomst zal hebben in het kritiek gebied. en drukken we ons vertrouwen in de procedure uit door het α-significantieniveau of 100(1.Als de uitkomst van de toetsingsgrootheid in het kritieke gebied valt. Ha omvat de mogelijke waarden van de populatieparameter(s) die we zullen aanvaarden als er voldoende aanwijzingen zijn dat ze juist zijn. niet erna! Twee punten bij het toetsen van de hypothese: . concluderen we daarom dat Ha juist is. Bij eenzijdige Ha is het één gebied (links of rechts).Stuvia. Als de uitkomst van de toetsingsgrootheid niet in het kritieke gebied valt. Als H0 juist is. leidt dit proces van hypothese toetsen in 100(1.α)% van de gevallen ten onrechte tot deze conclusie (fout van de eerste soort). Het wordt zó gekozen. Als de uitkomst van de toetsingsgrootheid in het kritieke gebied valt.2 Het toetsen van een hypothese over een verwachting in een populatie bij een grote steekproef Kiezen van H0 en Ha: 1. Experiment en berekening van de toetsingsgrootheid: uitvoeren van de steekproeftrekking en het bepalen van de uitkomst van de toetsingsgrootheid. We concluderen niet dat H0 juist is. Aannames: duidelijke afspraken over de populatie(s) waaruit de steekproef getrokken wordt. De veronderstelling heeft in het algemeen de statusquo weer. Toetsingsgrootheid: een steekproefgrootheid die wordt gebruikt om te beslissen of de nulhypothese moet worden verworpen.com . b. terwijl de nulhypothese juist is gelijk aan α. De waarde van α wordt het significantieniveau van de toets genoemd. omdat we niet de kans β kennen (dat onze toetsingsprocedure leidt tot het ten onrechte aanvaarden van H0) (fout van de tweede soort). Nulhypothese (H0): een veronderstelling over de waarden van een of meer populatieparameters.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 8 8. 8. Kritiek gebied: de mogelijke uitkomsten van de toetsingsgrootheid waarvoor de nulhypothese zal worden verworpen. 4. De hypothesen worden vóór het experiment geformuleerd. Conclusie: a. Kies alternatieve hypothese => eenzijdige (links/rechts) of tweezijdig 2. 7. verwerpen we H0 niet.α)% betrouwbaarheid. 5. Kies H0 als status-quo Het kritieke gebied verschilt per soort H a.In het algemeen moeten steekproefgegevens niet gebruikt worden om zowel de toets op te zetten als uit te voeren. bij tweezijdige toets zijn het twee gebieden (links en rechts). 8. .3 Overschrijdingskansen . die we aannemen totdat is aangetoond dat deze onjuist is. Alternatieve hypothese (Ha): een veronderstelling die in strijd is met H 0.1 De elementen van het toetsen van een hypothese 1. verwerpen we H0 en concluderen we dat de alternatieve hypothese juist is. 2. 3. 6.

We moeten dan de t-verdeling gebruiken in plaats van de standaardnormale z-verdeling om gevolgtrekkingen te kunnen maken over de verwachting in een populatie µ. zo niet.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal De overschrijdingskans bij een toets is de kans. Het omzetten van een tweezijdige overschrijdingskans van een uitvoer naar een eenzijdige overschrijdingskans: 8. Het rapporteren van toetsresultaten in de vorm van overschrijdingskansen: hoe beslissen we of H0 verworpen moet worden: 1. dan dan is overschrijdingskans gelijk aan tweemaal het oppervlak van het staartgebied voorbij de z-waarde in de richting van z.op de gevonden uitkomst van de toetsingsgrootheid of een uitkomst die in nog sterkere mate in strijd is met H0 (en in overeenstemming met Ha). Als Ha tweezijdig is. Als de overschrijdingskans lager is dan de gekozen waarde van α. Bepaal de uitkomst van toetsingsgrootheid z 2. Kies maximunwaarde voor α die je nog acceptabel vindt 2.com . dan is overschrijdingskans gelijk aan oppervlakte van het gebied vanaf z en ligt in dezelfde richting als Ha. Stappen voor het berekenen van de overschrijdingskans: 1. . .Stuvia.Kun je met de centrale limietstelling concluderen dat normaal verdeeld is.5 Het toetsen van een hypothese over een populatiefractie bij een grote steekproef Toetsen van hypothesen over p: . b.Als de standaardafwijking van de populatie onbekend is. aangenomen dat H 0 juist is. Als Ha eenzijdig is. kunnen we niet aannemen dat s een goede benadering van σ is als de steekproef klein is. 8. Je moet aannemen dat de verdeling van meetwaarden waaruit de steekproef was genomen bij benadering normaal is zodat de kansverdeling van bij benadering normaal is. verwerp H0 dan niet.4 Het toetsen van een hypothese over een verwachting in een populatie bij een kleine steekproef Als de steekproef klein is dan. verwerp dan H0. a.

dit is de uiterste waarde in het kritieke gebied waarvoor H0 nog net wordt verworpen: 2. waarbij je de verdeling met verwachting µa gebruikt. niet 0 of 1 is. Z-waarde is ( 0 . 8. Voor een vaste n en α neemt de waarde van β af en neemt het onderscheidingsvermogen toe als de afstand tussen de waarde van µ 0 onder H0 en de waarde µa onder Ha toeneemt. neemt de waarde van β af. Het onderscheidingsvermogen van een toets is de kans dat de toets terecht leidt tot het verwerpen van H0 voor een bepaalde waarde van µ in H a. 2. Reken dan de kritieke waarde(n) van 0 om naar z.Stuvia. Eigenschappen van β en van het onderscheidingsvermogen: 1. wordt de chikwadraat (χ²) verdeling gebruikt.6 Kansen op fouten van de tweede soort: meer over β β berekenen voor een bepaalde waarde van µ in H a: 1. Bereken kritieke waarde . 8. Specificeer de waarde van µa in Ha waarvoor je de waarde van β wilt berekenen. Kans β op fout van tweede soort wordt groter als α kleiner wordt. Maak een schets van de alternatieve verdeling (gecentreerd rond µa) en arceer het acceptatiegebied (niet-kritiek gebied). 3.µa)/ . De chikwadraatverdeling hangt (net als t- . is het een normale verdeling. dan kritieke gebied. en steekproef is zo groot dat het interval ± 3 .7 Het toetsen van een hypothese over een populatievariantie Om een gevolgtrekking te maken over een populatievariantie σ 2. als de populatie waaruit de steekproef is genomen.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Toetsingsgrootheid = z = Stel eerst z-waarde onder α op. normaal verdeeld is. Het onderscheidingsvermogen is gelijk aan 1-β voor deze waarde van µ.com . Als µ a verder van de waarde van H0 komt te liggen. Voor een vaste n en gegeven waarden van µ0 en µa neemt de waarde van β toe en neemt het onderscheidingsvermogen af als de waarde van α kleiner wordt. Gebruik z-verdeling om de oppervlakte van het geaccerceerde gebied te vinden die gelijk is aan β. Voor een vaste α en gegeven waarden van µ 0 en µa neemt de waarde van β af en neemt het onderscheidingsvermogen toe als de steekproefgrootte n toeneemt. dan de z-waarde onder p-waarde Aanname: experiment is binomiaal. bepaal de intervallen (als het niet 0 of 1 is).

Toetsen van een hypothese over σ2: is de variantie onder H0 en de verdeling van χ² is gebaseerd op (n-1) vrijheidsgraden. is bij benadering normaal verdeeld. .com . Waarschuwing: Kleine tot matige afwijkingen maken van normaliteit de chikwadraattoets reeds ongeldig. Aanname: De populatie waaruit de steekproef wordt genomen.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal verdeling) af van het aantal vrijheidsgraden dat bij s² hoort.Stuvia. namelijk (n-1).

2. en de aselecte steekproeven moeten onafhankelijk van elkaar genomen worden.2) is (µ₁ .µ₂).2) – D0)/σ( 1 . zijn goede Toetsen van een hypothese voor (µ₁ . Als twee steekproeven onafhankelijk zijn. n1 en n2 zijn groot genoeg zodat en x² beide bij benadering een normale verdeling hebben. De samengestelde .De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 9 9. Kansverdeling ( 1 . bij benadering normaal verdeeld zijn met gelijk populatievarianties. moeten beide populaties waaruit de steekproeven worden genomen. We noemen ( 1 . Als twee populaties gelijk varianties hebben. 1 2) de varianties zijn van de twee populaties waaruit de steekproeven worden genomen. en benaderingen van .Stuvia. ================================================= ========================= Kleine steekproef Om de t-verdeling te kunnen gebruiken.2) ook de standaardfout van de steekproefgrootheid ( 1 2). en n1 en n2 de steekproefomvangen.com .µ₂) bij grote steekproeven: Toetsingsgrootheid = z = (( 1 .1 Het vergelijken van twee populatieverwachtingen: onafhankelijke steekproeven Grote steekproef Eigenschappen van de kansverdeling van ( 1 .2) met σ( 1 - 2) = Aannames: dezelfde als voor het construeren van een betrouwbaarheidsinterval bij grote steekproeven. dan is de standaardafwijking van het veschil in steekproefgemiddelden σ ( = . Betrouwbaarheidsinterval voor (µ₁ . Verwachting van ( 1 .2) 1. 3.µ₂) bij grote steekproeven: ( 1 - 2) ± Aannames: Twee steekproeven zijn aselect gekozen op een onafhankelijke manier uit de twee populaties.2) is door centrale limietstelling bij benadering normaal voor grote steekproeven. dan kun je een samengestelde steekproefschatter voor σ2 opstellen.

.Stuvia. Betrouwbaarheidsinterval voor (µ₁ .Populatievarianties zijn gelijk . 9.Steekproeven zijn aselect en onafhankelijk uit de populaties gekozen Toetsen van een hypothese voor (µ₁ . en het experiment met gepaarde waarnemingen is een voorbeeld van een gerandomiseerd blokexperiment.Populatie van verschillen is bij benadering normaal verdeeld .Steekproefverschillen worden aselect gekozen uit de populatieverschillen Een experiment met gepaarde waarnemingen is een type experiment waarbij waarnemingen paargewijs samen worden genomen en de verschillen geanalyseerd worden.µ₂) bij kleine steekproeven: Toetsingsgrootheid = t = Dezelfde aannames als bij de betrouwbaarheidsinterval hierboven. Als niet gelijk zijn.µ₂) bij kleine steekproeven: ( 1 - 2) ± Aannames: . Aannames: .2 Het vergelijken van twee populatieverwachtingen: gepaard waarnemingen De t-toets voor onafhankelijke steekproeven is geen geschikte procedure voor een gegevensverzameling waar tussen steekproeven grote variatie is in vergelijking met het relatief kleine verschil tussen de steekproefgemiddelden. Het vergelijken van gelijksoortige eenheden binnen groepen wordt bokvorming genoemd.Beide populaties zijn bij benadering normaal verdeeld . Dit type experiment geeft meer informatie over het verschil tussen populatieverwachtingen dan een experiment met onafhankelijke steekproeven.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal is het gewogen gemiddelde van de twee steekproefvarianties .com . dan toetsingsgrootheid t = .

µ₂: .Stuvia. los uit deze vergelijking dan de steekproefomvang op.p₂) bij een grote steekproef: 5. moet je een bepaalde verhouding van n₁ .com . Een experiment met gepaarde waarneming wordt nooit verkregen door paren van steekproefwaarden te vormen pas nadat de metingen zijn uitgevoerd.3 Het vergelijken van twee populatiefracties: onafhankelijke steekproeven Om gevolgtrekkingen te maken over het verschil (p₁ . Als steekproefomvang n₁ en n₂ is. Wel geef je de helft van het aantal vrijheidsgraden in de t-verdeling op als we een gepaarde waarneming uitvoeren in plaats van een experiment met onafhankelijke steekproeven. In de meeste gevallen zul je evengrote steekproeven willen hebben. is de kansverdeling van bij benadering normaal 4.p₂): 1.n₂ vastleggen.4 Het bepalen van de steekproefomvang Als je het verschil tussen twee parameters correct tot op B-eenheden met een kans (1-α) wilt schatten. Standaardafwijking van is 3. oftewel n₁=n₂=n. Betrouwbaarheidsinterval van 100(1-α)% voor (p₁ . Verwachting van is (p₁ . Tot het nemen van gepaarde waarnemingen wordt besloten voordat het experiment wordt uitgevoerd.p₂). is een zuivere schatter van (p₁ p₂) 2. Om dit te kunnen doen.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Betrouwbaarheidsintervallen voor µD =(µ₁ . 9. stel dan zα/2 standaardafwijkingen van de kansverdeling van de schatter gelijk aan B. 9. Z-verdeling: 6. Bepaling van de steekproefomvang voor het schatten van µ₁ .µ₂) bij gepaarde waarnemingen: Gepaarde waarnemingen kunnen beter zijn dan een experiment met onafhankelijke steekproeven.

.5 kan worden gebruikt.com . Deze schattingen kunnen onder andere gebaseerd zijn op eerdere steekproeven of de meest conservatieve schatting p=0. Vervolgens kijk je in de tabel en zie je de grens van het kritieke gebied bij een bepaalde α.p₂: Gebruik om p₁ . heb je ook α nodig.5 Het vergelijken van twee populatievarianties: onafhankelijke steekproeven De meest gebruikelijke statistische procedure voor het vergelijken van twee populatievarianties maakt een gevolgtrekking over de verhouding nulhypothese en Ha luidt: .Stuvia. Deze schattingen kunnen steekproefvarianties uit eerdere steekproeven zijn. 9.p₂ moeten substitueren voordat je de vergelijking voor de steekproefomvang kunt oplossen. de volgende formule met de gewenste betrouwbaarheid als beide steekproeven even groot moeten zijn: n₁=n₂= je zult schattingen voor de waarden van moeten substitueren voordat je de vergelijking voor de steekproefomvang kunt oplossen. De steekproeven worden aselect en onafhankelijk uit de populaties genomen Om het kritieke gebied te vinden.µ₂ binnen een gegeven begrenzing B met kans (1-α) te schatten. F-verdeling heeft twee aannames: 1. of een schatting (aan de veilige kant) op basis van het bereik – dat wil zeggen s ≈ R/4 Bepaling van de steekproefomvang voor het schatten van p₁ .De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Gebruik om µ₁ . zijn normaal verdeeld 2. De Je maakt gebruik van de F-verdeling: met (n1-1) vrijheidsgraden in de teller en (n2-1) vrijheidsgraden in de noemer. de volgende formule met de gewenste betrouwbaarheid als beide steekproeven even groot moeten zijn: Je zult schattingen voor de waarden van p₁ . De twee populaties waaruit de steekproeven worden genomen.p₂ binnen een gegeven begrenzing B met kans (1-α) te schatten.

De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Wat als niet aan de aanname van normale populatieverdelingen is voldaan? Gebruik dan een niet-parametrische methode (H16.com .Stuvia. hoeft je niet te leren) .

Verzeker je ervan dat het ontwerp werkelijk gerandomiseerd is. moeten dezelfde variantie hebben • De steekproeven van experimentele eenheden die voor de behandelingen worden gekozen moeten alselect en onafhankelijk zijn. 1 De elementen van een ontworpen experiment Sommige elementen maken deel uit van vrijwel alle ontworpen experimenten. Waarneer significantie in het onderzoek is.Stuvia. Er zijn de volgende aannames: • De kansverdelingen van de populatie voor elke behandeling . Het stappenplan voor een variantieanalyse voor een volledig gerandomiseerd ontwerp (F-toets) 1. . We noemen de resonsvariabele ook wel de te verklaren variabele. Controleer of aan de aannames is voldaan. met onafhankelijke aleselcte steekproeven voor elke behandeling. • Experimentele eenheid. terwijl . Bereken de F-toets (via software). dan geeft dit aan dat de verschillen binnen en buiten de Bron . Dit is de relevante variabele die in het experiment wordt gemeten. • Factorniveaus. 3.com . Bij een regressieanalyse noemen we de factoren ook wel verklarende variabelen. moeten allemaal normaal zijn. • Behandelingen. Een waarnemingsexperiment is een experiment waarvoor de onderzoeker alleen maar de behandelingen en de respons op een steekproef van experimentele eenheden waarneemt. en controleer de nulhypothese. Dit zijn de factor-niveaucombinaties die in het experment gebruikt worden. • Factoren. Variantieanalysetabel (ANOVA) voor een als de waarde van F dicht bij 1 volledig gerandomiseerd ontwerp ligt.2 Het volledig gerandomiseerde ontwerp: één factor Een volledig gerandomiseerd ontwerp is een ontwerp waarbij aselect onafhankelijke steekproeven van experimentele eenheden worden genomen voor elke behandeling. Dit zijn de variabelen waarvan het effect op de respons voor de experimentator van belang is.Kwantitatieve factoren worden op een numerieke schaal gemeten. 10. • Een ontworpen experiment is een experiment waar de onderzoeker de specificatie van de behandelingen en de methode van het toekennen van experimentele eenheden aan elke behandeling zlef bepaalt.kwalitatieve factoren de factoren zijn die niet (van nature) op een nummerieke schal worden gemeten. Dit is het object waarvoor de respons en de factoren worden waargenomen of gemeten. Deze is dat er geen verschil tussen de variabelen zit. • De kansverdelingen van de populatie voor elke behandeling . ongeacht het spcifieke toepassingsgebied: • De responsvariabele. 2.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 10 10. nulhypothese verwerpen. Dit zijn waarden van de factor die in het experiment worden gebruikt.

5. • Behandelingsverwachten verschillen terdege. meer vaiantie tussen de variabelen dan binnen de variabelen zelf. Wel is het belangrijk om te weten wat er gebeurd. Allereerst wordt de Ftoets berekend zoals eerder beschreven. Zijn procedure werkt specifiek voor paarsgewijze vergelijkingen waarbij de steekproeven bij de behandelingen niet even groot zijn.3 Meervoudige vergelijkingen van verwachtingen Eerst moet je weten hoeveel behandelingsparen er gemaakt kunnen worden: Met behandelingen Om behandelingsverwachtingen tegelijkertijd te vergelijken zijn er drie manieren: • Volgens Tukey. in het aantal factoren die aanwezig zijn.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal varaiabelen bijna even groot zijn. • Volgens Bonferroni. Zijn procedure werkt specifiek voor paarsgewijze vergelijkingen wanneer de steekproeven bij de behandelingen even groot zijn. • Volgens Scheffé. Wanneer er dan een significant resultaat uitkomt.Stuvia. de behandelingsverwachtingen zijn gelijk. Een volledig factorieel experiment is een experiment waarin elke factor-niveaucombinatie wordt gebruikt. Waarneer de f-toets de nulhypothese niet omverwerpt: • Nulhypothese is juist.4 Factoriële experimenten Meestal wordt de responsvariabele door meerdere variabelen beïnvloed. Dit is een meet algemene procedure voor het vergelijken van alle mogelijke lineaire combinaties van behandelingsverwachtingen. Om dit te berekenen moet je software gebruiken. 10. Dat houdt in dat het aantal behandelingen in het experiment gelijk is aan het totale aantal factorniveaucombinaties. Waanner duidelijk groter. maar er zijn andere factoren die de respons beïnvloeden. Dit is te zien in stage 1. 4. Hiernaast is dat factor A en B. dan moet er weer op significantie worden getoetst: . moet je verder gaan splitsen (stage 2). 10. Waarneer F-toets de nulhypothese omverwerpt: • Voer een meervoudige analyse uit voor het aantal paren dat je met elkaar wilt vergelijken. Dan voer je een volledig factorieel experiment uit.com .

com .Stuvia.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Wanneer beiden significant zijn.3). moeten de twee factoren samen komen als interactiefactor AB. . Daarna moet er gebruik gemaakt worden van de meervoudige vergelijking om de paren van behandelingsverwachtingen te vergelijken (zie 10.

kunnen niet met een binomiale kansverdeling worden berekend. =1 11. • • • • Er zijn mogelijke uitkomsten bij elk deelexperiment. Vandaar dat daar andere technieken voor zijn. • De steekproefomvang is voldoende groot. die meer dan twee categorieën voor een respons hebben. Bij een aselecte steekproef is hieraan voldaan. waarbij De deelexperimenten zijn onderling onafhankelijk De relevante variabelen zijn de waargenomen aantallen.com . Deze gegevens komen meestal uit een multinomiaal experiment. Daarvoor moet wel aan de volgende aannames voldaan zijn: • Er is een multinomiaal experiment uitgevoerd. Stel: Er is een bedrijf dat een objectief systeem wil invoeren voor de salarisverhogingen door middel van beoordelingen van leidinggevende. = kans op de standaardverhoging = kans op de extra salarisverhoging . Er wordt een steekproef getrokken om te achterhalen of dit ook daadwerkelijk gebeurt. cellen of categorieën genoemd. De nulhypothese is hierbij dat de waargenomen aantallen net zo groot zijn als de verwachte aantallen. Hieronder de resultaten: Geen standaa Extra rd 42 365 193 Waarbij =600 en =3 Eerst moeten de kansen gedefinieerd worden in termen van : = kans op geen salarisverhoging. kan men de chikwadraattoets uitvoeren. Deze berekent eerst het verwachte aantal en vergelijkt dat met de waargenomen aantallen.2 het toetsen van kansen op categorieën: de tabel met één rij Hier vallen kleine onderzoeken onder.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 11 11. aangezien er een variabele is die invloed heeft de responsvariabele. De alternatieve hypothese is dat de waargenomen aantallen verschillen van de verwachte aantallen. Jaarlijks zou 25% van de werknemers een extra verhoging moeten krijgen. Voor elke cel is de verwachte frequentie E(ni) ten minste 5. uitkomsten die in elk van de klassen vallen. die worden aangegeven met . 65% een standaardverhoging en 10% geen verhoging. zijn gelijk voor alle deelexperimenten. De kansen op de uitkomsten. Om te onderzoeken of er een variantie bestaat tussen de verschillende categorieën van die variabele. Aan de hand daarvan kan hij toetsen of de verschillen significant zijn.Stuvia.1 Categorische gegevens en het multinomiale experiment Kwalitatieve variabelen. Deze uitkomsten worden klassen. zoals opleidingsniveau. Dit heeft de volgende kenmerken: • Het experiment bestaat uit identieke deelexperimenten.

alleen de berekening van de verwachtingswaarden en de vrijheidsgraden is verschillend.65 = 390 = 600 * 0. = 140. Voor het toetsen wordt hier ook de chikwadraattoets gebruikt. =0.833 . =0. Dus dat wil zeggen dat de nulhypothese wordt verworpen. Zo kunnen we de Aangezien er 2 vrijheidsgraden zijn ( -1 = 3–1= 2) kan je in een tabel kijken naar de kritieke waarden. Een tabel met meerdere rijen en meerdere kolommen wordt een kruistabel genoemd. Dat wil dus zeggen dat de nulhypothese niet klopt en dat de werkelijke verdeling niet overeenkomt met het voorgestelde plan.65. 11. a: Ten minste één kans wijkt af van de bovenstaande gespecificeerde waarde te vermenigvuldigen Dan kan je de verwachte aantallen gaan berekenen door met . Het waargenomen aantal is dus 157 en hieronder zien we het verwachte aantal. = 600 * 0.33 ( i) genoemd. De waarden die daaruit komen worden verwachtingswaarde uitrekenen. Voor dit onderzoek is dat 9.21 en de chikwadraattoets geeft een hoger aantal.25.3 het toetsen van kansen op categorieën: de tabel met rijen en kolommen. In spss zal dezelfde score er uitkomen met een overschrijdingskans van.com .Stuvia. Om te zien welke categorie afwijkt.000.10 = 60 = 600 * 0.25 = 150 Chikwadraat is: χ2 = = + + = 19.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Daarna kunnen de hypothesen gemaakt worden: : =0. De handelingen die je moet verrichten zijn vrijwel hetzelfde.10. Het gaat hier om welke grootte auto de fabrikant verkoopt autogroot Klein te Middelgro ot Groot totaal Fabrikant A B C 15 7 12 6 58 34 1 65 82 45 19 2 18 1 14 2 60 38 3 Totaal D 10 46 28 84 413 396 191 1000 Om de verwachtingswaarde te berekenen van de kans dat Fabrikant A een kleine auto verkoopt. Het rijtotaal (413) te vermenigvuldigen met het kolomtotaal (341) (van de gevraagde cel) te delen door het totale aantal (1000). moet er een associatiemaat gebruikt worden.

• . Als je de nulhypothese wel aanneemt. kan je geen causaliteit tussen de vairabelen vaststellen. 11. Zelfs als je chikwadraattoets een zeer lage score geeft.4 Een waarschuwing bij het gebruik van chikwadraattoetsen • • Het gebruik van vrijheidsgraden moet vermeden worden waarneer de verwachte aantallen (<5) zeer klein zijn. omdat variabelen op oneindig veel manieren invloed op elkaar hebben. moet je de hypothese van onafhankelijkheid (nulhypothese) aannemen.com . Als we de tabel van hierboven gebruiken zien we dat (4-1) * (3 -1) = 3 * 2= 6 vrijheidsgraden. omdat de chikwadraattoets alleen toets of variabelen afhankelijk van elkaar zijn.Stuvia. maak je de kans op een fout van de tweede soort. Wanneer je de nulhypothese verwerpt. Om de vrijheidsgraden te bereken doe je (aantal rijen minus 1) * (aantal kolommen minus 1).De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Daarna weer de som nemen van de breuk (waargenomen aantal minus verwacht aantal (en dat aantal kwadrateren) gedeeld door het verwachte aantal).

. 4.som van kwadraten van afwijkingen is kleiner dan voor enig ander lineair model de modelparameters mogen alleen worden geïnterpreteerd binnen het bereik van de verklarende variabele in de steekproef. 2. 12. Het gemiddelde van de waarden van ε over een oneindig lange reeks experimenten is gelijk aan 0 voor elke waarde van de verklarende variabele x. .β0: snijpunt van de lijn met de y-as .ε heeft een normale verdeling.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 12 12.variantie van de kansverdeling van ε is constant voor alle waarden van de verklarende variabele x. 5. 12. gebruik het dan voor nieuwe voorspellingen. De regressielijn heeft de volgende eigenschappen: . 3.com . Deze aannames stellen ons in staat maten voor de nauwkeurigheid van kleinstekwadratenschatters te ontwikkelen en om toetsen te ontwikkelen voor de bruikbaarheid van de regressielijn.Y: afhankelijke variabele of responsvariabele of te verklaren variabele .2 Het schatten van het model: de methode van de kleinste kwadraten Met een regressielijn kun je β0 en β1 berekenen. . De waarde van ε die bij één waarde hoort.E(y): β0 + β1x = deterministische component . gebruik de steekproefgegevens om de onbekende parameters β0 en β1 te schatten. . ontwikkel een hypothese over de deterministische component van het model.1 Kansmodellen Algemene vorm van een kansmodel: Y = deterministische component + toevallige afwijking = β0 + β1x + ε Waarbij: .β1: helling van de lijn Stappenplan om de regressielijn te gebruiken: 1.Ε: toevallige afwijking . voor schattingen en voor andere doeleinden. en schat de standaardafwijking van deze verdeling. hangt dus niet samen met waarden van ε die bij andere y-waarden horen.X: onafhankelijke variabele of verklarende variabele .3 Modelaannames Veronderstellingen over kansverdeling van de toevallige afwijking ε: .verwachting van kansverdeling is 0. specificeer de kansverdeling van de toevallige afwijkingen.waarden van ε bij verschillende waarden van y zijn onafhankelijk. als je tot de conclusie komt dat het model bruikbaar is. geef een statistische beoordeling van de bruikbaarheid van het model.Stuvia. die een verband legt tussen verwachting E(y) en de verklarende variabele x.som van afwijkingen is gelijk aan 0 .

dan is er weinig of geen verband tussen variabelen y en x. die verklaard wordt door het lineaire verband tussen y en x. r is correlatiecoëfficiënt voor steekproef.7 De determinatiecoëfficiënt De determinatiecoëfficiënt r² geeft de fractie weer van de totale variatie rond .60 betekent dat de som van de kwadraten van de afwijkingen van de y-waarden van de voorspelde waarden met 60% is verminderd door het gebruik van de kleinste-kwadratenvergelijking in plaats van voor het voorspellen van y. Het is een maat voor de sterkte van het lineaire verband tussen twee variabelen x en y. 12. Praktische informatie van de determinatiecoëfficiënt r² Ongeveer 100(r²)% van de steekproefvariantie in y (gemeten als totale som van de kwadraten van de afwijkingen van de steekproefwaarden y ten opzichte van hun gemiddelde ) kan verklaard worden door (of toegeschreven aan) het gebruiken van x voor het voorspellen van y in het lineaire model. Als r dicht bij of gelijk is aan 0. R² ligt altijd tussen 0 en 1.6 De correlatiecoëfficiënt De correlatiecoëfficiënt wordt weergeven met r. luidt de enige conclusie die we veilig kunnen trekken. 12. des te sterker wordt het lineaire verband tussen y en x. Een r² van 0.8 Gebruik van het model voor schattingen en voorspellingen . dat er waarschijnlijk een lineair verband bestaat tussen x en y.com .Stuvia. de geschatte standaardafwijking van ε We verwachten dat de meeste (≈95%) van de waargenomen y-waarden binnen een verticale afstand van 2s van de waarde van van de kleinstekwadratenvoorspelling zullen liggen. 12.4 Een schatter van σ² Om standaardafwijking σ van ε: Interpretatie van s. R² kun je in een Excel-uitvoer vinden onder “R Square”. r=1 betekent een positieve samenhang. hoe dichter r bij -1 of 1 komt.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal 12.5 Bruikbaarheid van het model: het maken van gevolgtrekkingen over de helling β₁ Je kan ook gevolgtrekkingen maken over helling β1 met een betrouwbaarheidsinterval 12. We kunnen geen causaal verband constateren op basis van een sterke steekproefcorrelatie. r=-1 betekent een negatieve samenhang. ρ is voor populatie. Als we een sterke correlatie in de steekproefgegevens waarnemen.

het voorspellen van een nieuwe individuele y-waarde voor een gegeven x Als n groter wordt.Stuvia. wordt betrouwbaarheidsinterval kleiner.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Een kansmodel wordt bij lineaire regressie meestal gebruikt voor het maken van twee typen van gevolgtrekkingen: . . voor een specifieke waarde van x.het schatten van de verwachting van y. E(y). .com .

βk van het model te schatten 3. Deze symbolen kunnen hogere-ordetermen zijn van kwantitatieve of kwalitatieve verklarende variabelen ε afwijking om kansmodel te maken in plaats van deterministisch model Bi de bijdrage van de verklarende variabele xi vastlegt Het analyseren van een meervoudig lineair regressiemodel: 1. Bi stelt de helling voor van de lijn die het verband tussen y en xi weergeeft wanneer alle andere x-variabelen constant worden gehouden. Geef een statistische beoordeling van de bruikbaarheid van het model 6. xk de verklarende variabelen zijn. β1. 2. β2. Als je tevreden bent over het gevonden model. x2. Aannames voor ε: . gebruik het dan voor het voorspellen.Stuvia. en maak een schatting van de standaardafwijking σ van deze verdeling 4.com . gebruik je de methode van de kleinste kwadraten (net als meervoudige lineaire regressiemodellen in het algemeen). zal het resultaat altijd een rechte lijn zijn. 13. en breng zo nodig wijzigingen in het model aan 5. te verklaren variabele is x1.1 Meervoudige lineaire regressiemodellen Meervoudige lineaire regressiemodellen: Y = βo + β1x1+ β2x2 + … + βkxk +ε Waarbij: y de afhankelijke. Controleer of aan de aannames van ε wordt voldaan. …. Bepaal het deterministische component van het model. Specificeer de kansverdeling van de toevallige afwijking. x4 en x5 alle kwantitatieve variabelen zijn die geen functie zijn van andere verklarende variabelen. Gebruik de steekproefgegevens om de onbekende parameters βo. krijg je een reeks parallelle rechte lijnen. dit effect wordt gemeten door de helling B. x3. 13. x2.3 Modelaannames Bij het algemene meervoudige lineaire regressiemodel is ε de toevallige afwijking. Als je het proces herhaalt voor andere variabelen. op E(y) onafhankelijk is van alle andere verklarende variabelen in het model. Om een eerste-ordemodel te schatten.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal Hoofdstuk 13 13. …. Dit geeft aan dat het effect van de verklarende variabele x.2 Het eerste-ordemodel: het schatten en interpreteren van de parameters β Een model met alleen termen die kwantitatieve verklarende variabelen bevatten. heet een eerste orde-model: E(y) = βo + β1x1+ β2x2 + β3x3 + β4x4 + β5x5 Waarbij x1. het schatten en voor andere doeleinden. We kiezen dus het geschatte model: Als je een grafiek maakt van E(y) tegen één van de variabelen voor constante waarden van de andere waarden. met helling gelijk aan Bi.

. Het is de verhouding van de verklaarde variatie .Wel verband tussen y en xi.Geen verband tussen y en xi. gebruik je de regressieanalyse en de bijbehorende uitvoertabel. x2. …. des te groter is de fout in het schatten van de modelparameter en in het voorspellen van y.5 Het toetsen van de bruikbaarheid van een model Met de meervoudige determinatiecoëfficiënt R² kun je bepalen hoe goed een model een verzameling gegevens beschrijft: R²=0 betekent dat model totaal niet past bij gegevens. s² = SSE n – (k – 1) k als aantal verklarende variabelen 13.Stuvia.Wel verband tussen y en xi. Om σ² te berekenen. omdat de gebruikelijke toetsingsgrootheden niet onafhankelijk zijn 13. Desondanks zijn R² en R²a slechts steekproefgrootheden. dan zijn er verschillende conclusies mogelijk: . Als je H0:Bi =0 niet kunt verwerpen. Als je de waarde van R² wilt gebruiken als een maat voor de bruikbaarheid van het model om y te voorspellen. . Dit getal vind je in de uitvoer bij ANOVA => “F”. R² neemt toe als er meer variabelen aan het model worden toegevoegd. Deze houdt rekening met zowel de steekproefgrootte n als met het aantal parameters β in het model. Om de algemene bruikbaarheid van het model te beoordelen is om een hypothese te toetsen die alle parameters β omvat. R²a is altijd kleiner dan R². Het enige wat je van een toets op een parameter β kunt zeggen. . is of dat er voldoende of dat er onvoldoende bewijs is voor een lineaire relatie tussen y en xi. R²=1 betekent perfect verband tussen model en gegevens. Dit is een F-verdeelde grootheid. maar fout van de tweede soort.Bij achtereenvolgens toetsen op verschillende β’s is het onduidelijk hoe groot de kans op een fout van de eerste soort is. Je kan ook de gecorrigeerde meervoudige determinatiecoëfficiënt R² a gebruiken. Hoe groter σ². moet deze waarde gebaseerd zijn op een steekproef die aanzienlijk meer waarnemingen bevat dan het aantal parameters in het model. xk heeft de toevallige afwijking ε een normale kansverdeling met een verwachting gelijk aan 0 en een variantie gelijk aan σ² De toevallige afwijkingen zijn onderling onafhankelijk σ² is de variantie van de toevallige afwijking ε.com . R² vind je in de uitvoer bij “R Square”.4 Gevolgtrekkingen over de parameters β Een 100(1-α)% betrouwbaarheidsinterval voor parameter β: Het is riskant om t-toetsen uit te voeren op de individuele parameters β in een eerste-orde lineair model om te bepalen welke verklarende variabelen geschikt zijn om y te voorspellen en welke niet. maar dit is complexer dan een lineair verband.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal - Voor elke reeks waarden van x1.

De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal gedeeld door het aantal vrijheidsgraden van de toevallige afwijking. ongeacht de grootte van de bijbehorende overschrijdingskansen in de computeruitvoer. 13. terwijl x2 constant wordt gehouden (β2 + β3x1) de verandering E(y) voorstelt als x2 met één eenheid toeneemt. Dat kun je te weten komen door middel van een computerprogramma.8 Het construeren van een model: kwadratische en andere hogereordemodellen Een kwadratisch model bevat een kwadratische term (of twee-ordeterm). dat rekening houdt met deze afhankelijkheid. Toets de bruikbaarheid van het model met de F-toets H0 : β1=β2=βk =0.6 Het gebruiken van het model voor het schatten en voorspellen Met een meervoudig lineair regressiemodel kun je een uitkomst schatten door het modelin te vullen. Hoe groter de fractie van de totale variatie die door het model verklaard kan worden. voer dan geen t-toetsen uit op de coëfficiënt β van de eersteordetermen x1 en x2. Deze termen moeten deel blijven uitmaken. 13. Als je H0 verwerpt. Voer t-toetsen uit op die parameters β waarin je het meest bent geïnteresseerd 13. Een interactiemodel voor het verband tussen E(y) en twee verklarende variabelen: E(y) = βo + β1x1+ β2x2 + β3x1x2 Waarbij: (β1 + β3x2) de verandering E(y) voorstelt als x1 met één eenheid toeneemt. het hele model heet het interactiemodel met twee kwantitatieve variabelen Waarschuwing: Als eenmaal is vastgesteld dat interactie belangrijk is in het model E(y) = βo + β1x1+ β2x2 + β3x1x2. des te groter is de uitkomst van de F-grootheid. Aanbeveling voor het toetsen van de bruikbaarheid van een meervoudig regressiemodel: 1. Zo’n model bevat de producten van twee of meer x-variabelen. Als de relatie tussen E(y) en een verklarende variabele wel afhangt van de waarden van de overige x-variabelen.7 Het construeren van een model: interactiemodellen Bij parallelle rechte lijnen hangt de relatie tussen E(y) en een verklarende variabele niet af van de waarden van de andere verklarende variabelen in het model. In dat geval hebben we een ander model nodig. ga naar stap 2.Stuvia. dan verwerp je H0 dat β1=β2=βk =0. Om een betrouwbaarheidsinterval voor de verwachting van y te construeren. Een kwadratisch . moet je de standaardafwijking van de kansverdeling van de schatter kennen. dan is het eerste-ordelmodel niet geschikt voor het voorspellen van y. Als F>F a. terwijl x1 constant wordt gehouden x1x2 is de interactieterm. waardoor er een kromlijnig verband tussen y en x ontstaat.com . Anders een nieuw model gebruiken 2.

µa = βo en .βo het snijpunt van de kromme met de y-as is . kan een eersteordemodel goed bij de gegevens passen. Er is nog geen interactie.com .10 Het construeren van een model: modellen met zowel kwantitatieve als kwalitatieve variabelen Stappenplan voor constructie van een model dat een verband geeft tussen E(y) en twee verklarende variabelen. slechts alleen hoofdeffecten .µb = βo + β1 en .β2 de mate van kromming geeft een model dat alle mogelijke tweede-ordetermen bij twee verklarende variabelen bevat heet een volledig tweede-ordemodel: E(y) = βo + β1x1+ β2x2 + β3x1x2 + β4x²₁+ β5x²₂ Toelichting: .µc = βo + β2 en β1 = µb .µa 13. 13.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal model met één kwantitatieve verklarende variabel = E(y) = βo + β1x+ β2x² Waarbij: . een paraboloide die naar beneden open is en een zadelachtig oppervlak.en x2-assen .βo : is het snijpunt met de y-as. β2 : als deze veranderen.β1 een verschuivingsparameter is .µa β3 = µd .β3 : bepaalt de rotatie van het oppervlak . Voor een kwalitatieve variabele met k niveaus gebruik je (k-1) dummyvariabelen: Y = βo + β1x1+ β2x2 + … + βk-1xk-1 +ε Waarbij x1 de dummyvariabelen voor i+1 is en xi Dan geldt voor dit coderingssysteem: .β4. Als dit gebeurt. verschuift het oppervlak langs de x 1. Maar net als in het geval van één enkele verklarende variabele. één kwantitatief en één kwalitatief: 1. moet je ze omzetten in dummyvariabelen. β5 : het teken en de grootte van deze parameters bepalen het soort oppervlak en de krommingen ervan Er zijn drie soorten oppervlakten mogelijk: een paraboloide die naar boven open is. De meeste relaties tussen E(y) en twee of meer kwantitatieve variabelen zijn van de tweede orde en vereisen het gebruik van het interactieve of van het volledige tweede-ordelmodel om een goede aanpassing van de gegevensverzameling te krijgen. kan de kromming in het responsoppervlak zeer gering zijn over het bereik van de variabelen in de gegevensverzameling.µa β2 = µc . het verband tussen E(y) en de x is dezelfde lijn 2.β1. lijnen zijn parallel. de waarde van E(y) als x 1=x2=0 .Stuvia. maar de richting is hetzelfde.9 Het construeren van een model: kwalitatieve-variabelemodellen Om kwantitatieve variabelen te gebruiken in regressiemodellen.

het is de beste voorspeller van y. Bepaal βi.We verkrijgen een gecombineerde schatting van σ². er is interactie tussen x1 en de niveaus Waarom zou je een model met een kwalitatieve en een kwantitatieve variabelen construeren? . Dat houdt in dat men voor een model kiest voor een model met een klein aantal parameters β. voor alle niveaus (zie figuur 13. De significantie van de F-toets vindt je rechts onderin in een uitvoerabel.Stuvia.Op deze manier kunnen we toetsen of de krommen verschillend zijn . 13. de responskrommen hebben dezelfde vorm. Als de variantie van ε werkelijk hetzelfde is voor elk niveau. De respons en de verklarende variabelen worden in het computerprogramma ingevoerd. en het eenvoudigste model wordt het gereduceerde model genoemd. blz.11 Het construeren van een model: het vergelijken van geneste modellen Twee modellen zijn genest als één model alle termen van het tweede model bevat en ten minste nog één extra term. de variantie van de toevallige afwijking ε. De verklarende variabele met de hoogste t-waarde wordt x 1.12 Het construeren van een model: stapsgewijze regressie Vaak moeten we beslissen welke variabelen uit een grote verzameling verklarende variabelen in een model moeten worden meegenomen. nu met interactie. De gebruiker geeft aan wat de te verklaren variabele y is en de verzameling mogelijk belangrijke verklarende variabelen x1. Om te bepalen welk model je beter kan gebruiken. 1.x2.30) 2. waarbij k in het algemeen groot is. Daarvoor gebruik je de stapsgewijzen regressie. 13. de responskrommen voor de drie niveaus zijn verschillend. Als twee concurrende modellen praktisch hetzelfde voorspellende vermogen hebben moet je het soberste model kiezen. maar hebben verschillende snijpunten met de y-as 3. De meeste mensen gaan uit van het soberheidsprincipe. waarna de stapsgewijze procedure begint. bv. xk . E(y)= βo + β1xi .….De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal 3. één enkele tweede-ordemodel is voldoende om het verband tussen E(y) en x1 te beschrijven. doe dit: H0 : βg+1=βg+2=…=βk =0 Ha ten minste één β≠0 Wees voorzichtig met H0 accepteren.com . is de gecombineerde schatting beter dan drie aparte schattingen gebaseerd op het schatten van een apart model voor elk niveau. 454: Een kromlijnige relatie tussen E(y) en x: 1. Het meest complexe model van de twee wordt het volledige model genoemd.

schatten we de fout aan de hand van het verschil tussen de werkelijke y-waarde en de geschatte verwachte waarde. Onderzoek of resultaten buiten de 3 standaardafwijkingen mogelijke uitschieters zijn. gebruik je residuanalyses. = ( ). worden uitschieters genoemd. en alle of vrijwel alle residuen binnen 2 standaardafwijkingen van dezelfde nullijn. 2. om de belangrijke variabelen te selecteren.Stuvia. E(y)= βo + β1x1 + β2xi 3. Met een residuanalyse kun je ook het model verbeteren. wordt x2. Standaardafwijking van de residuen is gelijk aan de standaardafwijking van het geschatte regressiemodel Residuanalyses zijn ook nuttig voor het opsporen van een of meer waarnemingen die sterk afwijken van het regressiemodel. bestaat de eerste stap uit het schatten van de variantie ervan (de verwachting is per definitie 0). Probeer een tweede-ordemodel in de variabele waartegen de residuen in de grafiek worden uitgezet. en controleer of ongeveer 5% van de residuen buiten de 2 standaardafwijkingen vallen. Twee eigenschappen hiervan: 1.3 afwijken en er toch nog van uitgaan dat de resultaten de betrouwbaarheid hebben die we hebben vastgesteld? Omdat de aannames allemaal gaan over de toevallige afwijking ε van het model. Controleer of het model niet verkeerd is gespecificeerd. Stel voor elke uitschieter vast of . Om de variantie van de toevallige afwijking te schatten en de regressieaannames te controleren. en wordt aangegeven met . E(y)= βo + β1x1 + β2x2+ β3xi Deze stapsgewijze procedure gebruikt alleen maar schattingen op grond van de steekproef voor de werkelijke modelcoëfficiënten ( β ‘s). 13. Analyseer elke grafiek en kijk of er een kromlijnig verband aanwezig is. door de residuen in een grafiek uit te zetten tegen elk van de kwantitatieve verklarende variabelen. In dat geval is waarschijnlijk een kwadratische term in het model nodig. 2. We verwachten dat ±95% van de residuen binnen 2 standaardafwijkingen van de nullijn zullen vallen. dat wil zeggen als je wilt vaststellen welke variabelen uit een groot aantal mogelijk belangrijke variabelen moeten worden gebruikt bij het construeren van het model. hier moet je speciale aandacht aan schenken. Omdat de gerealiseerde toevallige afwijking die bij een bepaalde waarde van y hoort. Residuanalyse in stappen: 1. en je kunt onbelangrijke variabelen opnemen (fout van de eerste soort) of belangrijke variabelen vergeten (fout van de tweede soort) . Zoekt verder naar belangrijke variabelen.com . gelijk is aan het verschil tussen de werkelijke y-waarde en de onbekende verwachte waarde. De variabele die dan de hoogste t-waarde heeft.14 Residuanalyse: het controleren van de regressieveronderstellingen Hoe ver kunnen we van de aannames van §13. Pas dus op want: . Dit verschil heet residu. Onderzoek de residugrafieken op uitschieters. Residuen die extreem ver van de nullijn liggen. Gemiddelde van de residuen is gelijk aan 0.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal 2.Het omvat geen enkele hogere-ordetermen of interactietermen Stapsgewijze regressie moet alleen worden gebruikt als dat nodig is.Er is een zeer groot aantal t-toetsen uitgevoerd. Nu zoek je naar x3. Teken lijnen op de residugrafieken op een afstand van 2 en van 3 standaardafwijkingen van de nullijn.

Controleer of de toevallige afwijkingen normaal zijn verdeeld. zoals log(y). multicollineariteit en extrapolatie 1. maar dan zonder deze waarneming.com . kun je de regressieanalyse nogmaals uitvoeren. hieronder de vier verschillende schalen uitgelegd met voorbeeld: . Controleer op ongelijke varianties van de toevallige afwijkingen door de residuen tegen de voorspelde waarden in een grafiek uit te zetten. Probleem 3: voorspellen buiten het experimentele gebied Let op het bereik van het model. 3. Zelfs als je de oorzaak niet kunt achterhalen. Als wordt vastgesteld dat de waarneming een fout is. Een oplossing is een tijdreeksmodel construeren. wat vaak leidt dat toevallige afwijkingen van het regressiemodel correleren. of dat deze correspondeert met een element van een populatie dat anders is dan de rest van de steekproef. Probleem 1: schatbaardheid van de parameter In het algemeen moet het aantal niveaus van waargenomen x-waarden ten minste éé’n meer zijn dan de orde van het polynoom in x dat je wilt schatten. verbeter of verwijder deze dan. Hierdoor wordt er niet meer voldaan aan de voorwaarde van onafhankelijke toevallige afwijkingen. om het effect daarvan op de analyse te bepalen.14 Enkele valkuilen: schatbaarheid. Je moet dus genoeg x-waarden hebben 2. Extreme scheefheid van de frequentieverdeling kan het gevolg zijn van uitschieters of kan een aanwijzing zijn dat een transformatie van de te verklaren variabele nodig is. of een ander patroon dat aangeeft dat de variantie van ε niet constant is. of dat het eenvoudig om een ongewone waarneming gaat. ga niet generaliseren en/of er te ver gaan 4. 4.De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal deze verklaard kan worden als een fout bij het verzamelen of invoeren van de gegevens. 13. door een frequentieverdeling van de residuen in een grafiek weer te geven met behulp van een stam-en-bladdiagram of een histogram. ================================================= ====================EXTRA INFORMATIE ================================================= ==================== Omdat dit wellicht lastig is voor sommigen. Als je een kegelvormig patroon ontdekt. pas het model dan opnieuw aan met gebruikmaking van een variantie-stabiliserende transformatie op y. Probleem 4: gecorreleerde toevallige afwijkingen Waarnemingen neigen te correleren als ze dicht bij elkaar liggen in de tijd. Ga na of er duidelijke afwijkingen van normaliteit bestaan. Om dit op te lossen kun je een stapsgewijze regressie uitvoeren. en de toetsen en voorspellingsintervallen zijn niet langer geldig. maar sluit nooit zomaar een x uit! 3. Probleem 2: multicollineariteit Dit wil zeggen dat variabelen in een regressiemodel sterk met elkaar correleren.Stuvia.

De Marktplaats voor het Kopen en Verkopen van je Studiemateriaal 1.: opleidingsniveau en leeftijdsklassen 3. Hiermee zijn alle rekenkundige bewerkingen mogelijk. zonder dat er sprake is van een rangorde.: temperatuur in Kelvin. vb. inkomen en leeftijd . Het is hierdoor niet mogeijk om verhoudingen tussen de schaalposities te berekenen. vb. Intervalschaal Heeft een arbitrair nulpunt.: temperatuur in graden Celcius 4. Ordinale schaal Gegevens zijn ingedeeld in elkaar uitsluitende categorieën.: geslacht 2. vb. vb. waarbij sprake is van een rangorde.com .Stuvia. Nominale schaal Gegevens zijn ingedeeld in elkaar uitsluitende categorieën. Ratioschaal Hebben een absoluut nulpunt.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->