STATISTIK DAN ANALISA DATA
BAB I
PENDAHULUAN
Untuk
mempelajari alam dapat didekati dg dua sifat, pertama sifat alam yang
sistematik, deterministic dan yang kedua adalah sifat alam yang berpola acak
atau random. Pola sifat sistematik dapat dirumuskan dg formula matematik yang
memperlihatkan keterkaitan antar parameter atau kejadian. Tetapi sifat random
hanya dapat dirumuskan dengan pendekatan konsep statistik dimana sifat
parameter alam tersebut dinyatakan dalam
besaran prediksi pada suatu tingkat kepercayaan.
Sifat fisis dari batuan adalah
deterministic karena sifat tersebut mengikuti hukum-hukum fisika, kimia,
biologi dan umumnya dapat dinyatakan dengan formula matematik. Dalam kasus
pendekatan matematik sifat alam dapat didekati dengan besaran parameter yg
sederhana misalnya densitas batuan yg homogen, resivitas batuan yg homogen,
kecepatan gelombang homogen pada satu lapisan batuan sehingga model
parameternya dapat dirumuskan.
Tetapi berlainan dengan sifat fisis,
keberadaan dari materi batuan atau mineral
dalam bumi dapat besifat random, ataupun berpola fractal karena banyaknya
parameter lingkungan yang mempengaruhi keberadaan batuan tersebut. Hanya beberapa
saja parameter yang dapat diperkirakan bagaimana dan berapa besar peranannya
terhadap pembentuk batuan.sebagai contoh parameter tekanan, temperatur, reaksi
kimia, unsur mineral dan sebagainya. Namun dapat dikemukakan masih banyak lagi
parameter lingkungan yg belum atau tidak diketahui mempengaruhi proses
terbentuknya suatu batuan.
Pada suatu formasi batuan sering
ditemukan keberadaan materi dan berbagai berbagai macam mineral ditemukan dalam
keadaan yang tidak teratur atau acak. Dalam hal ini pendekatan analisa yang
dilakukan adalah dengan metode statistik. Penggabungan kedua sifat alam
deterministic dan acak ini dapat dilakukan dengan optimal berdasarkan pada
pendekatan statistik. Ilmu statistik dalam ilmu dan teknologi kebumian sisebut
juga geostatistik.
Statistik dalam geologi akan dapat
dilihat peranannya dengan lebih mudah, terutama dalam menganalisa data dalam
data dalam beberapa contoh kasus seperti pengolahan data kekar, uratan
stratigrafi, estimasi mineral, klasifikasi data fosil, dan sebagainya :
●
Optimasi model
●filter
noise
●regresi data geofisika
●anomali regional
●atribut seismic
●analisa data logging, autokorelasi,
cross-correlasi
●analisa peta, perbandingan peta,
kontur
●analisa sequence untuk gempa dan
letusan gunung api
●analisa diskriminan untuk menentukan
jenis litologi
BAB II
2.1. Karakteristik
Populasi Data
Universe
Universe (semesta) adalah ruang total
materi yang dianalisa. Dengan demikian semua data yang dapat diambil disebut
sebagai ruang sampel atau “universe”. Karakter suatu universe adalah dapat
dianalisa dari satu macam atau lebih parameter (unit atau multi demiensi)
tergantung pada jumlah parameter yang diukur pada masing-masing sampel.
Sebagai contoh pada teknologi
pertambangan dalam proses evaluasi cadangan, universe adalah deposit mineral
yang terdapat pada daerah yang sedang dipelajari. Dengan demikian dalam kasus
ini universe adalah deposit mineral misalnya untuk tambang tembaga, nikel,
emas, timah atau mineral lainnya.
Pada servey geofisika semua data yang
mungkin diperoleh dalam daerah penelitian disebut universe. Sebagai contoh
pengukuran gaya berat, magnetic, geolistrik, elektromagnetik akan merupakan ruang
sampel atau universe pada daerah yang diselidiki.
Universe harus terdifinisi dengan
limit (batas) area. Batas universe dapat terbentuk struktur geologi atau
didefinisikan dalam batas posisi koordinat dan atau kedalaman misalnya
ditentukan sampai Lintang dan Bujur serta dengan interval kedalaman tertentu (
50 m – 100 m, permukaan sampai 250 m dsb).
Unit sampel
Bagian dari universe dimana pengukuran
dilakukan disebut unit sampel atau titik sampel. Dengan unit sampel tersebut,
karakter suatu universe nantinya diharapkan dapat dianalisa dan dijelaskan.
Pemilihan unit sampel dapat ditentukan berdasarkan pada tiga hal pokok yaitu :
1.
Ketersediaan data
2.
Metode statistik
yang digunakan
3.
Hasil target yang
diharapkan
Ketiga hal tersebut
saling tergantung misalnya hasil target yang diharapkan sangat tergantung pada
ketersediaan data dan metode yang dipunyai. Demikian juga metode yang dipilih
tersebut dapat tergantung pada data dan target yang dicapai.
Ukuran unit sampel sangat penting karena
populasi sampel jarak 10 feet dapat berbeda dengan populasi sampel jarak 50 ft.
karena itu ukuran unit sampel perlu ditentukan agar karakterisasi daerah
penelitian nantinya dapat mememenuhi tujuan dengan efektif. Pada kasus lapangan
ukuran unit sampel ini tergantung pada
ukuran target geologi, keadaan lingkungan, teknologi yang digunakan, dana dan
sebagainya.
Penampilan populasi data yang sangat
sederhana adalah dengan menggunakan histrogram. Caranya adalah dengan mem-plot
distribusi frekuensi pada sumbu ordinat dan nilai data pada sumbu absisi dan
hasilnya disebut grafik histogram, dapat dilihat pada gambar berikut ;
Buat grafik histogram seperti
model tersebut :
Data lapangan dari
mining nickel eksploitation dengan data produksi Sbb :
1.
Tahun 2005
produksi 1 juta ton bijih nikel dengan
komposisi Nikel (Ni) 20 %; Cobalt (Co) 15 %; Molibdat (Mo) 10 % dan Besi
sebagai besi oksida (FeO) 55 %
2.
Tahun 2006
Produksi 1,5 juta ton dengan komposisi seperti pada tahun pertama.
3.
Tahun 2007
produksi 2 juta ton dengan komposisi seperti pada tahun pertama
4.
Tahun 2008
produksi 1,5 juta ton dengan komposisi Ni 25 %; Co 20 %; Mo 15 % dan sisanya
adalah besi.
Variabel
Random (V.R)
Variabel random
adalah variabel dimana dapat diambil suatu kejadian dari beberapa kemungkinan.
Misalnya kemungkinan untuk mendapatkan V.R. x adalah jumlah kemunculan x dibagi
jumlah total semua sampel.
Distribusi
Kemungkinan (Probabilitas)
Kemungkinan muncul
satu sampel dari seleksi acak digambarkan dengan distribusi probabilitas V.R.
Misalnya kemungkinan untuk mendapatkan satu grade dalam interval 2 – 4 % pada
suatu endapan mineral atau berapa kemungkinan kita mendapat batu pasir dalam
reservoir dengan analisa seismic.
Dalam kenyataan distribusi
probabilitas tidak pernah diketahui, tapi dapat dihitung dari ekperimen dan
kemudian dicoba untuk menentukan distribusi teoritik yang dihasilkannya. Pada
data diskrit (ciri-ciri tersendiri) dengan nilai integer, distribusi kemungkinan
akan berhubungan dengan setiap
kemungkinan harga x yang dinyatakan
dengan probabilitas p(x).
Probabilitas p(x)
selalu positif sehingga p(x) >0 dan jumlah total semua p(x) = 1 untuk harga
x dalam universe.
Pada distribusi
kontiniu, berlaku untuk setiap x, distribusi probability dinyatakan dengan
suatu fungsi densitas probabilitas f(x).
Probabilitas p(x)
selalu positif sehingga p(x) >0 dan jumlah total semua p(x) = 1 untuk semua
harga x dalam universe.
Pada distribusi
kontiniu, berlaku untuk setiap x, distribusi probability dinyatakan dengan
suatu fungsi densitas probabilitas f(x). Sehingga probabilitas satu harga yang
terletak antara x dan (x + dx) menjadi
f(x)dx dimana dx =0. Untuk probabilitas pada x kecil dari x0
p(x<x0)
Diperoleh :
Prop
=
= F (x0)
(1)
Untuk probabilitas x
yang berada antara a dan b adalah :
Prop
=
(2)
Sebagai syarat adalah
bahwa total probabilitas sama dengan
satu sehingga,
= 1
(3)
Istilah probabilitas
adalah probabilitas
X0 dan
komulatifnya ditulis F(x0), sehingga dapat ditulis dimana
F(-
) = 0 dan F (+
) =1
(4)
Pada grafik distribusi
frekuensi karakter populasi mempunyai beberapa ciri dalam statistik yaitu :
harga rata-rata, median, dan modus.
Nilai x rata-rata
Harga x rata-rata dari
semua data didefinisikan sebagai berikut :
Rata-rata X =
(5)
Harga rata-rata
merupakan harga prediksi x dalam populasi atau ditulis ekspektasi E (x) = x
Median
Median adalah nilai
yang terletak ditengah pada ruang distribusi dimana kumpulan harga tersebut
diurut dari yang kecil menuju ke yang besar. Jadi untuk jumlah data yang ganjil
dan genap masing-masing median M-nya adalah :
M =
; n = ganjil
M = [ Xn/2 +
] 2 ; n = genap (6)
Modus
Mode (modus)
merupakan harga x dengan frekuensi
kemunculannya paling besar dari semua harga data x
Modus = L + (
) c
Dimana L = tepi
bawah frekuensi kelas modus
d1 = selisih frekuensi kelas modus dengan kelas sebelumnya
d2 = selisih frekuensi kelas modus dengan kelas sesudahnya
c = panjang kelas modus
Mid- range
Harga mid-range
adalah perkiraan harga pertengahan antar harga maximum dengan harga minimum.
Midrange = ½(Max + Min) (7)
Nilai midrange ini
dapat digunakan juga untuk mendekati harga rata-rata x atau untuk melihat
apakah distribusi harga x semetris dengan x rata-rata sebagai sumbu tengahnya.
Bagi data yang semetris dengan x rata-rata sama dengan midrange.
Bahan Latihan :
Tabel 1. Kandungan
Ni untuk masing masing blok A,B,C,D,E dan F
BLOK
|
% Ni
|
|||
A
|
2,0
|
2,0
|
2,1
|
2,1
|
B
|
2,2
|
2,3
|
2,2
|
2,3
|
C
|
2,3
|
1,9
|
2,1
|
2,3
|
D
|
2,2
|
2,3
|
2,3
|
2,3
|
E
|
2,7
|
2,7
|
2,6
|
2,5
|
F
|
2,0
|
1,9
|
2,2
|
2,0
|
G
|
2,3
|
2,4
|
2,4
|
2,4
|
Tentukan : Mean,
Median, Modus dan Midrange data dalam tabel.
Distribusi
data
Distribusi data
dalam grafik distribusi frekuensi dapat dibagi menjadi beberapa bagian dengan
tiap bagian mengandung jumlah data yang sama yaitu sebagai berikut :
a.
Quartile
(kwartil)
Jajaran datadibagi menjadi 4 kelompok yang sama
banyaknya dengan demikian disebut kwartil dengan harga batas terletak pada
jumlah komulatif relative q1 = 0,25; q2 = 0,5 dan q3 = 0,75
b.
Deciles (desil)
Jajaran data dibagi sepuluh dengan harga batas
terletak pada jumlah komulatif relative d1, d2, ……………. D9 = 0,1,0,2 ………, 0,9
c.
Persentil
Jajaran data dibagi seratus bagian yang sama jumlahnya
sehingga batasnya terletak pada haerga p1,p1 …………….p99 = (0,01,0,02, ……. 0,99)
2.2 Besaran Dispersi
Untuk penyebaran, variabilitas atau
disperse suatu distribusi kemungkinan digunakan antara lain :
a.
Jangkauan yang
berarti beda antara nilai maximum dengan minimum
b.
Simpangan rata-rata
yaitu ekspektasi harga mutlak selisih x dengan meannya yaitu E( X1 –
X )
c.
Variansi δ2
d.
Standar deviasi δ
Untuk mengetahui penyebaran harga sekitar mean
digunakan deviasi standar s yang dihitung dari sampel
S =
(8)
Pada keadaan populasi bersifat acak maka rata-rata dari (xi – x)
sama dengan 0. Kalau sifat penyebarannya data diperlihatkan dengan menggunakan
nilai mutlak I xi – xrt I maka analisa akan mengalami
kesulitan diantaranya adalah karena turunannya tidak kontiniu di x = xrt.
Dengan demikian maka sering dipilih
parameter standar deviasi s atau variansi s2.
Dari populasi dengan
distribusi probabilitas kontiniu f(x) maka dapat dihitung standar deviasi sebagai berikut ;
δ =
(9)
Dimana m adalah harga rata-rata populasi. Satuan
standar deviasi s dan δ sama dengan satuan dari variabel x.
sebagai contoh bila asli dinyatakan dalam satuan (%) maka satuan vareansi
adalah (%)2.
Bila
harga x hampir sama atau tidak mempunyai variansi harga yang besar maka harga s
akan kecil. Pada keadaan jumlah data terbatas maka s digunakan sebagai
estimator untuk δ dan harga xrt sebagai estimator untuk m.
Karakterisasi
distribusi
Distribusi
frekuensi n sampel seperti pada gambar 1, dapat ditransformasi menjadi
distribusi probabilitas dengan membagi frekuensi kemunculan dengan n. Beberapa
contoh histogram sampel dengan beberapa bentuk (pola) diperlihatkan pada gambar
2 berikut :
Parameter kecenderungan
sentral dapat dilihat dari harga rata-rata x pada persamaan 5.
Xrt
= 1/n
Dari teori
probabilitas harga rata-rta dapat dirumuskan dengan :
m =
(10)
Harga m merupakan harga
ekspektasi dari x dan ditulis
m = E(x) (11)
seperti yang telah
dinyatakan diatas bahwa harga rata-rata x adalah estimator dari m kecuali untuk
kasus dimana terjadi harga sangat (ekstrem) besar (kasus emas) maka perlu
menggunakan t-estimator.
Bila “expected value” X, E(x) = m maka estimator tersebut
disebut “unbiased” tidak ada kesalahan sistematik.
Persamaan 9 dapat
ditulis menjadi variansi
δ2 = ∫(x-m)(x-m)f(x)dx
(12)
untuk mendapatkan
estimator yang “unbiased” persamaan 8 dibagi dengan (n-1)
s2 =
(13)
Dan persamaan 12 dapat
ditulis dengan notasi
δ2 = E(x-m)(x-m) (14)
Variansi dapat ditulis
S2 =
= n
- (
/n ( n-1 ) (15)
Tabel 2 Data Kandungan
Cromium (Cr) dalam ppm
No
|
Cr(
ppm)
|
Xi2
|
1
|
205
|
|
2
|
255
|
|
3
|
195
|
|
4
|
220
|
|
5
|
235
|
|
|
= 1110
|
2 =248700
|
X =
= 222
(
)2 =1232100
S2 =
= 5 x
248700-1232100 : 20
S =
2 = √570 -à S = 23.88
Arti s terhadap nilai
(ppm) Cr adalah sebagai berikut dimana pada range harga x :
X
S =
Arti s terhadap
nilai (ppm) Chromium (Cr) adalah sebagai berikut dimana pada range harga x :
X
s =
222 + 23.88 = 245.88
222 – 23.88 =198.12
Maka 40 % pengukuran
atau data akan jatuh dalam harga range tersebut.
Sedangkan untuk range
harga x:
X
2s =
Maka 60 % harga data
akan berada dalam range tersebut, namun ketepatan harga x menjadi menurun
karena range harganya makin besar.
Kesimpulan : sebagai
kesimpulan dari pengertian daerah penerimaan adalah dengan range besar akan memberikan ketepatan prediksi akan rendah. Tetapi
sebaliknya dapat dikatakan bahwa dengan range besar confidence level (tingkat
kepercayaan) menjadi tinggi.
2.3. HUBUNGAN DUA
VARIABEL
Hubungan dua
variabel yang dapat disebut variabel dua dimensi (2D) diperlihatkan oleh
variansi gabungan yang disebut sebagai kovariansi (covariance). Kovariansi
dihitung dari kedua harga variabel tersebut terhadap meannya masing-masing
Cov
=
n-1
= n
n(n-1)
Selanjutnya koefisien korelasi r adalah
r = cov xy , → -1 ≤
r ≤1
SxSy
Atau
rxy = Z xiyi - ( Z xi Z yi)/n
[ Z xi2 –(Z xi)2/n]2[Z yi2-(Zyi)2/n]2
Besarnya
korelasi antara variable x dan y dinyatakan dengan koefisien korelasi r yang
mempunyai harga dari -1 sampai dengan 1
Contoh
:
Tabel 2.3
Hubungan x dengan y
X (ppm)
|
Xi2
|
Y (ppm)
|
Yi2
|
XiYi
|
205
|
|
130
|
|
|
255
|
|
165
|
|
|
195
|
|
100
|
|
|
220
|
|
135
|
|
|
235
|
|
145
|
|
|
|
2
|
|
2
|
|
Harga
rata-rata X dan Y
Cov (xy)
= = n
n(n-1)
Hubungan
X dan Y dapat dinyatakan dengan koefisien korelasi (r)
r =
-à -1 ≤ r ≤ 1
Latihan
Hitunglah
koefisien korelasi r antara panjang dan lebar dari brachiopoda, dari tabel
berikut
Tabel 2.4
Panjang dan lebar dari
6 sampel Brachiopoda
Panjang (mm)
|
Lebar (mm)
|
18,4
|
15,4
|
16,9
|
15,1
|
13,6
|
10,9
|
11,4
|
9,7
|
7,8
|
7,4
|
6,3
|
5,3
|
Sebagai
petunjuk buatlah tabel Xi
Xi2 Yi Yi2 XiYi, kemudian hitung koefisien korelasi
Panjang
(xi)
|
Xi2
|
Lebar
(yi)
|
Yi2
|
xiyi
|
18,4
|
|
15,4
|
|
|
16,9
|
|
15,1
|
|
|
13,6
|
|
10,9
|
|
|
11,4
|
|
9,7
|
|
|
7,8
|
|
7,4
|
|
|
6,3
|
|
5,3
|
|
|
|
2
|
|
2
|
|
2.4 TEST Z (NORMAL)
Standar normal z
dihitung dengan rumus :
Z
=
Didapat distribusi
frekuensi dengan unit standar s dan mean pada z sama dengan nol.
Misalnya pada suatu
distribusi frekuensi komposisi kandungan Ni mempunyai harga mean dan standar
deviasi :
μ = 14,2
δ = 4,7
Maka berapa
probabilitas ditemukan Ni lebih kecil dari 3 %
Z =
= -2,4
Dari tabel
probabilitas komulatif untuk distribusi normal diperoleh
F(-2,4) = 0,0082
Dengan demikian
dapat dikatakan bahwa probabilitas ditemukan kandungan Ni < 3% adalah cukup
kecil yaitu mendekati nol
Kalau dicari beberapa probabilitas ditemukan kandungan Ni
> 20%, maka dihitung lebih dulu : Z =
= 1.2. Dengan menggunakan tabel probabilitas
komulatif z diperoleh : P(Z > 1,2) = 1,0 – P(1,2)
=
1,0 – 0,8849 = 0,1151
Dengan demikian
kemungkinan ditemukannya kandungan Ni > 20% adalah 1 dalam 10
Latihan :
Tentukan probabilitas
ditemukan 10 % < % Ni < 20%
Z =
= -0,89
P(1.2) = 0,89
P(-0,89) = 0,19 -
0,70
Teorema
limit sentral Xx = μ
Bila distribusi
rata-rata cenderung normal variansinya adalah :
S2x = δ2/n standar error dari x adalah :
S
e =
= δ
Sebagai contoh Brachiopoda X untuk 6
sampel adalah 30 mm dan diketahui suatu
kelompok populasi braciopoda mempunyai
μ = 14,2
δ = 4,7
untuk mengetahui
apakah 6 sampel tersebut sama dengan kelompok Brachiopoda maka dilakukan
perbandingan mean dan S e
H1 : μ1 ≠ μ0
Tes hypotesa nol (Ho) tidak
ada perbedaan.
Ho : μ1 = μ0
Alternatif hasilnya adalah bisa
termasuk tipe Brachiopoda atau bertipe lain.
Untuk memutuskan apakah H1
atau H2 yang diterima, maka dilakukan tes Z
Z =
=
Tabel 2.
Kesalahan I α dan kesalahan tipe II β
|
Hipotesa benar
|
Hipotesa salah
|
Hipotesa diterima
|
Keputusan benar
|
Type II error β
|
Hipotesa ditolak
|
Type I error α
|
Keputusan benar
|
δ2 = 22,1
δ = 4,7
Hipotesa H0 : μ1 = μ0 1
H1
: μ1
μ0
Dengan level of significance α = 0,05
Tes Z
=
= 8,2 dengan menggunakan tabel komulatif Z untuk α = 0,05 maka Z = 1,9
Karena harga Z jatuh pada daerah
penolakan dimana 8,2 > 1,9 maka dapat dinyatakan bahwa kedua populasi
tersebut tidak sama dengan demikian hipotesa ditolak.
2.5. Tes t
Pada
distribusi student t dibutuhkan derajat kebebasan υ = n adalah jumlah parameter
Pada distribusi t harga t dihitung
dengan rumus :
t =
=
X = mean sampel
μ0 = Mean
populasi (18%)
n = jumlah populasi
S = standar deviasi observasi
Se
= standar error observasi
Contoh : tabel 6
No
|
(%) X
|
1
|
13
|
2
|
17
|
3
|
15
|
4
|
23
|
5
|
27
|
6
|
29
|
7
|
18
|
8
|
27
|
9
|
20
|
10
|
24
|
Sehingga diperoleh :
X = 21,3
S2
= 30,46
S = 5,52
Se = 0,57
Test ini mempunyai satu ekor
maka disebut one line test
α = 5 % dilihat dalam tabel,
nilai kritis harha t untuk derajad kebebasan 10 & α = 0,05. Harga t = 1,83
H0 : μ1 ≤ 18%
H1
: μ1 > 18%
Harga t hitung t =
= 1.89
Dengan derajat kebebasan υ = 9 maka t
= 1.83, dengan demikian data t jatuh dalam daerah kristis sehingga H0
ditolak. Dengan demikian kandungan persentasi Cu lebih besar dari 18 %
2.6. Tes F
Untuk membandingkan distribusi dua popilasi yang berbeda dapat dilihat
dari kesamaan atau perbedaan variansi kedua populasi tersebut. Perbandingan
tersebut akan dilihat berdasarkan tingkat kesamaan variansi distribusi populasi
dengan tes –F adalah sebagai berikut.
F
= S12/S22
Dengan dua macam derajat kebebasan dari masing-masing populasi yaitu
υ1 = n1-1
υ2 = n2
-1
tes statistik dilakukan dengan menguji hipotesa
Hipotesa H0 : δ12 =
δ22
H1
: δ12
δ22
Misal nilai kritis F untuk υ1 = 9 dan υ2 = 9 dan level
significance α = 0.05 maka dalam tabel F diperoleh harga : F =
3.18
Contoh :
Kandungan (%) x pada tabel 6
sebelumnya dibandingkan dengan populasi kandungan (%) X pada tabel 7 berikut
ini :
Tabel 7
Sampel Namber
|
X(%)
|
11
|
15
|
12
|
10
|
13
|
15
|
14
|
23
|
15
|
18
|
16
|
26
|
17
|
24
|
18
|
18
|
19
|
19
|
20
|
21
|
|
Tatal = 189
|
|
Mean = 18,9
|
|
S2 =
23.21
S = 4.82
|
X = 18.9
S2
= 23.21
S = 4.82
F = S12/S22 = 30.46/23.21 = 1.3
Dengan demikian harga F data lebih kecil dari harga F yang diperoleh
dari tabel yaitu 1.3 < 3.18 sehingga hipotesa H0 diterima
ANALISIS
REGRESI DAN KORELASI LINIER
Persamaan regresi linier sederhana
memiliki dua variabel, misalnya x dan y
Y = a + b X 2.34
a
=
b
=
dengan
:
b
= koefisien arah garis regresi
a
= intersep
n
= banyaknya pasangan data
semua jumlahan dihitung nilai b dan a
untuk data populasi dan produk
Contoh Tabel 2.9
Blok
|
Jumlah pekerja
X
|
Jumlah produk
Batu bara (ton)
y
|
XY
|
X2
|
1
2
3
4
5
6
7
8
9
10
|
|
|
|
|
|
|
|
|
2
|
KESALAHAN STANDAR SAMPEL ESTIMASI
Diperlukan nilai kesalahan standar
populasi s untuk memproleh kesimpulan regresi.
Nilai kesalahan standar populasi ini merupakan nilai simpangan baku (standard
deviation) yang mengukur variasi titik-titik diatas dan dibawah garis regresi
populasi. Jika kita tidak mengetahui nilai S, kita mengestimasi dengan Se yaitu kesalahan standard
estimasi sampel. Nilai S merupakan suatu simpangan baku secara matematis sbb:
Se =
2.35
SOAL.
Dalam
penelitian mengenai banyaknya curah hujan dan jumlah kotoran udara yang terbawa
hujan, terkumpul data berikut :
Curah hujan, x
(0,01 cm)
|
Zarah terbawa, y
(microgram per m3)
|
4,3
4,5
5,9
5,6
6,1
5,2
3,8
2,1
7,5
|
126
121
116
118
114
118
132
141
108
|
a.
Cari
persamaan garis regresi untuk memprediksikan zarah yang terbawa hujan dari
banyaknya curah hujan harian
b.
Taksir
banyaknya sarah yang terbawa hujan bila curah hujan harian x = 4,8 satuan.
c.
Hitung
kesalahan standar deviasi dari sampel tersebut dengan rumus sbb
Se =
B. REGRESI GANDA
Analisis regresi ganda digunakan
oleh peneliti, bila peneliti bermaksud meramalkan bagaimana keadaan (naik
turunya) variabel depeneden (kriterium), bila dua atau lebih variabel independen sebagai factor predictor dimanipulasi
(dinaik turunkan nilainya). Analisis regresi ganda akan dilakukan bila jumlah
variabel independennya minimal 2.
Persamaan
regresi untuk dua predictor adalah ;
Y = a + b1X1 + b2X2
Regresi
ganda dua predictor
No
|
X1
|
X2
|
Y
|
X1Y
|
X2Y
|
X1X2
|
X12
|
X22
|
1
2
3
4
5
6
7
8
9
10
|
10
2
4
6
8
7
4
6
7
6
|
7
3
2
4
6
5
3
3
4
3
|
23
7
15
17
23
22
10
14
20
19
|
|
|
|
|
|
jumlah
|
|
|
|
|
|
|
|
|
Y =
produktivitas; X1 = kemampuan kerja pegawai
X2
= kepemimpinan direktif
Untuk
menghitung harga-harga a, b1; b2 dapat menggunakan
persamaan berikut ;
=
an + b1
+ b2
= a
+ b1
+
= a
+ b2
RUMUS KORELASI GANDA
Ry (1,2) =
Koefisien determinasi (R2) = Ry(1,2)
Uji signifikasi korelasi ganda
F =
Harga ini selanjutnya dikonsultasikan dengan F tabel, dengan
didasarkan pada dk pembilang = 2 dan dk
penyebut (10-2-1) = 7 untuk kesalahan 5 % dan 1 %
Kesimpulan jika F hitung lebih besar F tabel koefisien korelasi yang
diuji adalah signifikan sehingga dapat diberlakukan untuk populasi yang
diteliti dengan taraf kesalahan 5 % dan 1 %
BAB III.
ANALISA SEQUENCE
Pada bab ini dibahas data dari fenomena alam yg berdimensi
satu. Oleh karena itu metode untuk membahasnya disebut analisa sekuensi
(sequence Analysis).
Datanya berupa deret atau seri dalam waktu, jarak atau berupa
satu variabel tertentu. Variabel
Tersebut dapat berupa temperatur, besar butir, berat,
lintasan survey dan sebagainya. Dalam geofisika banyak ditemukan data profil,
data bor , data pengamatan dalam waktu. Misalnya data letusan gunung api
dicatat dalam skala waktu dengan demikian variabel bebasnya adalah waktu. Data
anomaly gaya berat pada profil yang menjadi variabel adarah jarak sepanjang
profil. Perubahan densitas terhadap temperatur berarti variabel adalah
temperatur.
Data pengamatan dapat diperoleh dengan jarak yang sama. Pada
proses tertentu misalnya untuk filter, korelasi, konvulsi dibutuhkan data
dengan interval sama, oleh karena itu dibawah ini dibahas terlebih dahulu
bagaimana merobah data menjadi berinterval sama.
1.1.
Membuat Interval data sama
Interpolasi Linier
Posisi dan harga jarak yang sama dihitung dengan cara
interpolasi linier dari dua titik terdekat. Harga Y” pada X” yang
dihitung dengan rumus sbb :
Y” =
X
|
Y
|
420
|
5
|
424
|
? (Y”) = 7
|
430
|
10
|
Y” =
Y” = (5)(4) /10 + 5 =
2 + 5 = 7
1.2.
Runs
Test
Runs test adalah metoda yang digunakan untuk data dikotomi
yaitu mempunyai dua pilihan misalnya muncul tidak muncul. Urutan kemunculan
data tersebut dapat diselidiki apakah pergantian kemunculan kedua bentuk
tersebut bersifat acak atau tidak. Untuk melihat acak atau tidak digunakan Runs
Test dimana satu run adalah urutan yang datanya sama. Sebagai contoh deret data
berikut 13 runs (selang tanpa terjadi pergantian kemunculan), Jumlah data H(n1)
= 11 dan jumlah data T(n2) = 9
H T HH T H
TTT H T H T HH TT HHH
13 runs
n1 = 11
n2= 9
Jumlah rata-rata runs estimasi bersifat acak adalah :
υ =
Variansi harapannya (expected variance-nya) adalah ,
δ2u =
Z test → Z =
dimana u = jumlah runs
HIPOTESA
H0 :
υ ≤ u atau H0
: υ ≥ u
H1 :
υ > u atau H1
: υ < u
Banyak
runs sedikit runs
H0
di tolak H0 di tolak
Tes seperti ini disebut one-tailed karena daerah penolakannya
hanya terdapat pada satu ujung
H0 :
υ =
u
H1 :
υ ≠ u
ANALISA VARIANSI SATU ARAH MENGGUNAKAN TES F
Model anova satu arah (one-way analysis of variance) digunakan untuk
pengujian perbedaan antara k rata-rata sampel apabila subyek-subyek observasi
atau penelitian ditentukan secara random pada setiap grup atau kelompok
perlakuan yang ditentukan.
Persamaan
linier yang menggambarkan model uji satu arah :
Xik = μ + αk
+ eik
Dengan
:
μ = rata-rta
keseluruhan dari semua k populasi klasifikasi.
αk =
efek klasifikasi dalam k kelompok tertentu darimana nilai data dijadikan
sampel.
eik =
kesalahan random yang tergabung dengan proses sampling
Ringkasan
anova satu arah dapat dilihat pada tabel 2.8 berikut ini.
TABEL
2.8
PROGRAM
ANALYSIS OF VARIANCE (ANOVA)
Sumber Variansi
|
Jumlah kuadrat
(SS)
|
(d.f)
|
Kuadrat rata-rata
|
F test
|
Di antara criteria kelompok-kelompok A
|
SSA=
-
|
K - 1
|
MSA =
|
F=
|
Diantara dalam samples
|
SSE= SST-SSA
|
N-K
|
MSE =
|
|
Total variation
|
SST=
|
N-1
|
|
|
Hipotesis
nol dan hipotesis alternative untuk anova satu arah :
H0:αk
= 0 Ha : αk
10
Jika
hipotesis nol benar, berarti : μ1 = μ2 =μ3 = ---= μk
CONTOH 2.8
Ada tiga sampel
random dari 3 group tenaga kerja berhubungan dengan penurunan produktivitas sbb
;
|
Kelompok A
|
Kelompok B
|
Kelompok C
|
|
7
8
7
9
9
|
11
9
9
8
12
|
4
6
5
8
5
8
6
|
Total Besar
sampel
|
T1=
40
n1 =
5
|
T2=60
n2
=6
|
T3 =
42
N3 =
7
|
Jawab
Banyak sampel k =3
Jumlah data
ketiga sampel N = n1 + n2 + n3 = 5 + 6 +7 = 18
Perhitungan
1.
Jumlah nilai
masing-masing sampel : T1 = 40; T2 = 60; T3 =
42
2.
= 40 + 60 + 42 = 142
3.
(
)2 =
20164
4.
Jumlah kuadrat
masing-masing kelompok :
=
+
+
+
+
= 1172
5.
= 72
+ 82 + 72 + …..+
52 + 82
+ 62 = 1202
6.
Jumlah kuadrat di
antara kelompok-kelompok :
SSB =
-
= 1172
– 20164/18 = 51,778
7.
Jumlah kuadrat di
dalam kelompok-kelompok :
SSW =
-
= 1202 – 1172 = 30
8.
Kuadrat rata-rata
di antara kelompok-kelompok ;
MSB =
=
= 25,889
Dengan d.f = K-1 = 3-1 = 2
9.
Kuadrat rata-rata
di dalam kelompok-kelompok :
MSW =
=
= 2
Dengan ; d.f = N- K = 15
10. Nilai rasio F didapat dengan :
F =
=
= 12,94
Analisis:
1. Hipotesis
H0 =
penurunan rata-rata pada setiap populasi
sama
Ha =
penurunan rata-rata pada setiap populasi ada yang tidak sama
2. Nilai kritis
d.f diantara
kriteria kelompok-kelompok (numerator)
= K -1 = 3-1 =2
d.f kesalahan
sampling (denumerator) = N- K = 18-3
= 15; α = 0,01
F(2;15;0,01) = 6,36
3. Nilai hitung ; F =
12,94
4. Simpulan
Karena nilai Fhitung
= 12,94 lebih besar dari nilai F(2;15;0,01)
= 6,36 berarti nilai F hitung berada di daerah penolakan H0.
Dengan demikian kita H0 kita tolak dan menerima Ha. ini
berarti bahwa ada penurunan pada setiap populasi terhadap tiga kelompok yang
tidak sama
Contoh :
Kandungan
Karbonat dalam Batuan (%)
Replikat
|
SAMPEL
|
||||
1
|
2
|
3
|
4
|
5
|
|
1
|
19,2
|
18,7
|
12,5
|
20,3
|
19,9
|
2
|
18,7
|
14,3
|
14,3
|
22,5
|
24,3
|
3
|
21,3
|
20,2
|
8,7
|
17,6
|
17,6
|
4
|
16,5
|
17,6
|
11,4
|
18,4
|
20,2
|
5
|
17,3
|
19,3
|
9,5
|
15,9
|
18,4
|
6
|
22,4
|
16,1
|
16,5
|
19,0
|
19,1
|
|
Tt1 =115,4
n1 = 6
|
Tt2 =106,2
n2 = 6
|
Tt3 =72,9
n3 = 6
|
Tt4 =113,7
n4 = 6
|
Tt5 =119,5
n5 = 6
|
Jawab
:
Banyak
sampel k = 5
Jumlah
data ke lima sampel : N = n1 + n2 + n3 + n4 + n5 = 30
Perhitungan
:
1.
Jumlah
nilai masing-masing sampel Tt1 = 114,4 , Tt2 = 106,2 , Tt3 = 72,9, Tt4
= 113,7 Tt5 = 119,5
2.
ST
= 526,7
3.
(ST)2
= 277412,89
4.
Jumlah
kuadrat rata-rata masing-masing kelompok :
13087,36/6 + 11278,44/6 + 5314,41/6 +
12927,69/6 + 14280,25/6 = 2181,227+ 1879,74 + 885,74 +
2154,62 + 2380,04 = 9481,37
= 9481,31
5.
S(X)2
= (19,2)2 + (18,7)2 +(21,3)2 + (16,5)2
+ (17,3)2 + (22,4)2 +(18,7)2 +(14,3)2
+(20,2)2 +(17,6)2 +(19,3)2 +(16,1)2
+(12,5)2 +(14,3)2 +(8,7)2 +(11,4)2
+(9,5)2 +(16,5)2 + (20,3)2 +(22,5)2
+(17,6)2 +(18,4)2 +(15,9)2 + (19,0)2
+ (19,9)2 +(24,3)2 +(17,6)2 + (20,2)2
+ (18,4)2 +(19,1)2
= 368,6 + 349,69 + 453,69 + 272,25 + 299,29 +
501,76 + 349,69 + 204,49 + 408,04 + 309,76 + 372,49 + 259,21 + 156,25 + 204,49
+ 75,69 + 129,96 + 90,25 + 272,25 + 412,09 + 506,25 + 309.76 + 338.56 + 252,81
+ 361 + 396,01 + 590,49 + 309.76 + 408,04 + 338,56 + 364,81 = 9975,75
6.
Jumlah
kuadrat diantara kelompok-kelompok
SSB
=
- (ST)2/N = 9481,31 -
277412,89/30
= 9481,31 – 9247,09 = 234,21
7.
Jumlah
kuadrat di dalam kelompok-kelompok :
SSW = S(X)2 -
= 9975
- 9481,31 = 493,69
8.
Kuadrat
rata-rata diantara kelompok-kelompok :
MSB =
=
=
= 58,55
Dengan d.f. = K -1 = 5-1 =4
9.
Kuadrat
rata-rata di dalam kelompok-kelompok :
MSW =
=
=
=
= 19,75
Dengan : d.f. = N-K = 30 -5 = 25
10. Nilai rasio F didapat dengan :
F =
=
= 2,96
Analisis :
Hipotesis
1. H0 =
pengurangan berat rata-rta pada setiap populasi sama
Ha = pengurangan
berat rata-rata pada setiap populasi ada yang tidak sama
2. Nilai kritis
d.f.
di antara kriteria kelompok-kelompok (numerator) = K-1 = 5-1 =4
d.f.
kesalahan sampling (denumerator) = N- K = 30 -5 = 25
α = 0,05
F(4;25;0,05)
= 2,76
3. Nilai hitung . F hitung = 2,96
4. Kesimpulan
Karena
nilai hitung Fhitung = 2,96 lebih besar dari nilai F(4;25;0,05)
= 2,76 maka nilai Fhitung berada didaerah penolakan H0.
Dengan demikian kita menolak H0 dan menerima Ha