GEOLOGYST AND GEOPHYSIC BLOG: Oktober 2012

STATISTIK DAN ANALISA DATA

BAB I

PENDAHULUAN

Untuk mempelajari alam dapat didekati dg dua sifat, pertama sifat alam yang sistematik, deterministic dan yang kedua adalah sifat alam yang berpola acak atau random. Pola sifat sistematik dapat dirumuskan dg formula matematik yang memperlihatkan keterkaitan antar parameter atau kejadian. Tetapi sifat random hanya dapat dirumuskan dengan pendekatan konsep statistik dimana sifat parameter alam tersebut dinyatakan dalam besaran prediksi pada suatu tingkat kepercayaan.

Sifat fisis dari batuan adalah deterministic karena sifat tersebut mengikuti hukum-hukum fisika, kimia, biologi dan umumnya dapat dinyatakan dengan formula matematik. Dalam kasus pendekatan matematik sifat alam dapat didekati dengan besaran parameter yg sederhana misalnya densitas batuan yg homogen, resivitas batuan yg homogen, kecepatan gelombang homogen pada satu lapisan batuan sehingga model parameternya dapat dirumuskan.

Tetapi berlainan dengan sifat fisis, keberadaan dari materi batuan atau mineral dalam bumi dapat besifat random, ataupun berpola fractal karena banyaknya parameter lingkungan yang mempengaruhi keberadaan batuan tersebut. Hanya beberapa saja parameter yang dapat diperkirakan bagaimana dan berapa besar peranannya terhadap pembentuk batuan.sebagai contoh parameter tekanan, temperatur, reaksi kimia, unsur mineral dan sebagainya. Namun dapat dikemukakan masih banyak lagi parameter lingkungan yg belum atau tidak diketahui mempengaruhi proses terbentuknya suatu batuan.

Pada suatu formasi batuan sering ditemukan keberadaan materi dan berbagai berbagai macam mineral ditemukan dalam keadaan yang tidak teratur atau acak. Dalam hal ini pendekatan analisa yang dilakukan adalah dengan metode statistik. Penggabungan kedua sifat alam deterministic dan acak ini dapat dilakukan dengan optimal berdasarkan pada pendekatan statistik. Ilmu statistik dalam ilmu dan teknologi kebumian sisebut juga geostatistik.

Statistik dalam geologi akan dapat dilihat peranannya dengan lebih mudah, terutama dalam menganalisa data dalam data dalam beberapa contoh kasus seperti pengolahan data kekar, uratan stratigrafi, estimasi mineral, klasifikasi data fosil, dan sebagainya :

● Optimasi model

●filter noise

●regresi data geofisika

●anomali regional

●atribut seismic

●analisa data logging, autokorelasi, cross-correlasi

●analisa peta, perbandingan peta, kontur

●analisa sequence untuk gempa dan letusan gunung api

●analisa diskriminan untuk menentukan jenis litologi

BAB II

2.1. Karakteristik Populasi Data

Universe

Universe (semesta) adalah ruang total materi yang dianalisa. Dengan demikian semua data yang dapat diambil disebut sebagai ruang sampel atau “universe”. Karakter suatu universe adalah dapat dianalisa dari satu macam atau lebih parameter (unit atau multi demiensi) tergantung pada jumlah parameter yang diukur pada masing-masing sampel.

Sebagai contoh pada teknologi pertambangan dalam proses evaluasi cadangan, universe adalah deposit mineral yang terdapat pada daerah yang sedang dipelajari. Dengan demikian dalam kasus ini universe adalah deposit mineral misalnya untuk tambang tembaga, nikel, emas, timah atau mineral lainnya.

Pada servey geofisika semua data yang mungkin diperoleh dalam daerah penelitian disebut universe. Sebagai contoh pengukuran gaya berat, magnetic, geolistrik, elektromagnetik akan merupakan ruang sampel atau universe pada daerah yang diselidiki.

Universe harus terdifinisi dengan limit (batas) area. Batas universe dapat terbentuk struktur geologi atau didefinisikan dalam batas posisi koordinat dan atau kedalaman misalnya ditentukan sampai Lintang dan Bujur serta dengan interval kedalaman tertentu ( 50 m – 100 m, permukaan sampai 250 m dsb).

Unit sampel

Bagian dari universe dimana pengukuran dilakukan disebut unit sampel atau titik sampel. Dengan unit sampel tersebut, karakter suatu universe nantinya diharapkan dapat dianalisa dan dijelaskan. Pemilihan unit sampel dapat ditentukan berdasarkan pada tiga hal pokok yaitu :

1. Ketersediaan data

2. Metode statistik yang digunakan

3. Hasil target yang diharapkan

Ketiga hal tersebut saling tergantung misalnya hasil target yang diharapkan sangat tergantung pada ketersediaan data dan metode yang dipunyai. Demikian juga metode yang dipilih tersebut dapat tergantung pada data dan target yang dicapai.

Ukuran unit sampel sangat penting karena populasi sampel jarak 10 feet dapat berbeda dengan populasi sampel jarak 50 ft. karena itu ukuran unit sampel perlu ditentukan agar karakterisasi daerah penelitian nantinya dapat mememenuhi tujuan dengan efektif. Pada kasus lapangan ukuran unit sampel ini tergantung pada ukuran target geologi, keadaan lingkungan, teknologi yang digunakan, dana dan sebagainya.

Penampilan populasi data yang sangat sederhana adalah dengan menggunakan histrogram. Caranya adalah dengan mem-plot distribusi frekuensi pada sumbu ordinat dan nilai data pada sumbu absisi dan hasilnya disebut grafik histogram, dapat dilihat pada gambar berikut ;

Buat grafik histogram seperti model tersebut :

Data lapangan dari mining nickel eksploitation dengan data produksi Sbb :

1. Tahun 2005 produksi 1 juta ton bijih nikel dengan komposisi Nikel (Ni) 20 %; Cobalt (Co) 15 %; Molibdat (Mo) 10 % dan Besi sebagai besi oksida (FeO) 55 %

2. Tahun 2006 Produksi 1,5 juta ton dengan komposisi seperti pada tahun pertama.

3. Tahun 2007 produksi 2 juta ton dengan komposisi seperti pada tahun pertama

4. Tahun 2008 produksi 1,5 juta ton dengan komposisi Ni 25 %; Co 20 %; Mo 15 % dan sisanya adalah besi.

Variabel Random (V.R)

Variabel random adalah variabel dimana dapat diambil suatu kejadian dari beberapa kemungkinan. Misalnya kemungkinan untuk mendapatkan V.R. x adalah jumlah kemunculan x dibagi jumlah total semua sampel.

Distribusi Kemungkinan (Probabilitas)

Kemungkinan muncul satu sampel dari seleksi acak digambarkan dengan distribusi probabilitas V.R. Misalnya kemungkinan untuk mendapatkan satu grade dalam interval 2 – 4 % pada suatu endapan mineral atau berapa kemungkinan kita mendapat batu pasir dalam reservoir dengan analisa seismic.

Dalam kenyataan distribusi probabilitas tidak pernah diketahui, tapi dapat dihitung dari ekperimen dan kemudian dicoba untuk menentukan distribusi teoritik yang dihasilkannya. Pada data diskrit (ciri-ciri tersendiri) dengan nilai integer, distribusi kemungkinan akan berhubungan dengan setiap kemungkinan harga x yang dinyatakan dengan probabilitas p(x).

Probabilitas p(x) selalu positif sehingga p(x) >0 dan jumlah total semua p(x) = 1 untuk harga x dalam universe.

Pada distribusi kontiniu, berlaku untuk setiap x, distribusi probability dinyatakan dengan suatu fungsi densitas probabilitas f(x).

Probabilitas p(x) selalu positif sehingga p(x) >0 dan jumlah total semua p(x) = 1 untuk semua harga x dalam universe.

Pada distribusi kontiniu, berlaku untuk setiap x, distribusi probability dinyatakan dengan suatu fungsi densitas probabilitas f(x). Sehingga probabilitas satu harga yang terletak antara x dan (x + dx) menjadi f(x)dx dimana dx =0. Untuk probabilitas pada x kecil dari x₀ p(x<x₀)

Diperoleh :

Prop = = F (x₀) (1)

Untuk probabilitas x yang berada antara a dan b adalah :

Prop = (2)

Sebagai syarat adalah bahwa total probabilitas sama dengan satu sehingga, = 1 (3)

Istilah probabilitas adalah probabilitas

X₀ dan komulatifnya ditulis F(x₀), sehingga dapat ditulis dimana

F(- ) = 0 dan F (+ ) =1 (4)

Pada grafik distribusi frekuensi karakter populasi mempunyai beberapa ciri dalam statistik yaitu : harga rata-rata, median, dan modus.

Nilai x rata-rata

Harga x rata-rata dari semua data didefinisikan sebagai berikut :

Rata-rata X = (5)

Harga rata-rata merupakan harga prediksi x dalam populasi atau ditulis ekspektasi E (x) = x

Median

Median adalah nilai yang terletak ditengah pada ruang distribusi dimana kumpulan harga tersebut diurut dari yang kecil menuju ke yang besar. Jadi untuk jumlah data yang ganjil dan genap masing-masing median M-nya adalah :

M = ; n = ganjil

M = [ X_n/2 + ] 2 ; n = genap (6)

Modus

Mode (modus) merupakan harga x dengan frekuensi kemunculannya paling besar dari semua harga data x

Modus = L + ( ) c

Dimana L = tepi bawah frekuensi kelas modus

d1 = selisih frekuensi kelas modus dengan kelas sebelumnya

d2 = selisih frekuensi kelas modus dengan kelas sesudahnya

c = panjang kelas modus

Mid- range

Harga mid-range adalah perkiraan harga pertengahan antar harga maximum dengan harga minimum.

Midrange = ½(Max + Min) (7)

Nilai midrange ini dapat digunakan juga untuk mendekati harga rata-rata x atau untuk melihat apakah distribusi harga x semetris dengan x rata-rata sebagai sumbu tengahnya. Bagi data yang semetris dengan x rata-rata sama dengan midrange.

Bahan Latihan :

Tabel 1. Kandungan Ni untuk masing masing blok A,B,C,D,E dan F

BLOK	% Ni
A	2,0	2,0	2,1	2,1
B	2,2	2,3	2,2	2,3
C	2,3	1,9	2,1	2,3
D	2,2	2,3	2,3	2,3
E	2,7	2,7	2,6	2,5
F	2,0	1,9	2,2	2,0
G	2,3	2,4	2,4	2,4

Tentukan : Mean, Median, Modus dan Midrange data dalam tabel.

Distribusi data

Distribusi data dalam grafik distribusi frekuensi dapat dibagi menjadi beberapa bagian dengan tiap bagian mengandung jumlah data yang sama yaitu sebagai berikut :

a. Quartile (kwartil)

Jajaran datadibagi menjadi 4 kelompok yang sama banyaknya dengan demikian disebut kwartil dengan harga batas terletak pada jumlah komulatif relative q1 = 0,25; q2 = 0,5 dan q3 = 0,75

b. Deciles (desil)

Jajaran data dibagi sepuluh dengan harga batas terletak pada jumlah komulatif relative d1, d2, ……………. D9 = 0,1,0,2 ………, 0,9

c. Persentil

Jajaran data dibagi seratus bagian yang sama jumlahnya sehingga batasnya terletak pada haerga p1,p1 …………….p99 = (0,01,0,02, ……. 0,99)

2.2 Besaran Dispersi

Untuk penyebaran, variabilitas atau disperse suatu distribusi kemungkinan digunakan antara lain :

a. Jangkauan yang berarti beda antara nilai maximum dengan minimum

b. Simpangan rata-rata yaitu ekspektasi harga mutlak selisih x dengan meannya yaitu E( X₁ – X )

c. Variansi δ²

d. Standar deviasi δ

Untuk mengetahui penyebaran harga sekitar mean digunakan deviasi standar s yang dihitung dari sampel

S = (8)

Pada keadaan populasi bersifat acak maka rata-rata dari (xi – x) sama dengan 0. Kalau sifat penyebarannya data diperlihatkan dengan menggunakan nilai mutlak I x_i – x_rtI maka analisa akan mengalami kesulitan diantaranya adalah karena turunannya tidak kontiniu di x = x_rt. Dengan demikian maka sering dipilih parameter standar deviasi s atau variansi s².

Dari populasi dengan distribusi probabilitas kontiniu f(x) maka dapat dihitung standar deviasi sebagai berikut ;

δ = (9)

Dimana m adalah harga rata-rata populasi. Satuan standar deviasi s dan δ sama dengan satuan dari variabel x. sebagai contoh bila asli dinyatakan dalam satuan (%) maka satuan vareansi adalah (%)².

Bila harga x hampir sama atau tidak mempunyai variansi harga yang besar maka harga s akan kecil. Pada keadaan jumlah data terbatas maka s digunakan sebagai estimator untuk δ dan harga x_rt sebagai estimator untuk m.

Karakterisasi distribusi

Distribusi frekuensi n sampel seperti pada gambar 1, dapat ditransformasi menjadi distribusi probabilitas dengan membagi frekuensi kemunculan dengan n. Beberapa contoh histogram sampel dengan beberapa bentuk (pola) diperlihatkan pada gambar 2 berikut :

Parameter kecenderungan sentral dapat dilihat dari harga rata-rata x pada persamaan 5.

X_rt = 1/n

Dari teori probabilitas harga rata-rta dapat dirumuskan dengan :

m = (10)

Harga m merupakan harga ekspektasi dari x dan ditulis

m = E(x) (11)

seperti yang telah dinyatakan diatas bahwa harga rata-rata x adalah estimator dari m kecuali untuk kasus dimana terjadi harga sangat (ekstrem) besar (kasus emas) maka perlu menggunakan t-estimator.

Bila “expected value” X, E(x) = m maka estimator tersebut disebut “unbiased” tidak ada kesalahan sistematik.

Persamaan 9 dapat ditulis menjadi variansi

δ² = ∫(x-m)(x-m)f(x)dx (12)

untuk mendapatkan estimator yang “unbiased” persamaan 8 dibagi dengan (n-1)

s² = (13)

Dan persamaan 12 dapat ditulis dengan notasi

δ²= E(x-m)(x-m) (14)

Variansi dapat ditulis

S² = = n - ( /n ( n-1 ) (15)

Tabel 2 Data Kandungan Cromium (Cr) dalam ppm

No	Cr( ppm)	Xi²
1	205
2	255
3	195
4	220
5	235
	= 1110	² =248700

X₌ = 222

( )² =1232100

S² = = 5 x 248700-1232100 : 20

S = ² = √570 -à S = 23.88

Arti s terhadap nilai (ppm) Cr adalah sebagai berikut dimana pada range harga x :

X S =

Arti s terhadap nilai (ppm) Chromium (Cr) adalah sebagai berikut dimana pada range harga x :

X s =

222 + 23.88 = 245.88

222 – 23.88 =198.12

Maka 40 % pengukuran atau data akan jatuh dalam harga range tersebut.

Sedangkan untuk range harga x:

X 2s =

Maka 60 % harga data akan berada dalam range tersebut, namun ketepatan harga x menjadi menurun karena range harganya makin besar.

Kesimpulan : sebagai kesimpulan dari pengertian daerah penerimaan adalah dengan range besar akan memberikan ketepatan prediksi akan rendah. Tetapi sebaliknya dapat dikatakan bahwa dengan range besar confidence level (tingkat kepercayaan) menjadi tinggi.

2.3. HUBUNGAN DUA VARIABEL

Hubungan dua variabel yang dapat disebut variabel dua dimensi (2D) diperlihatkan oleh variansi gabungan yang disebut sebagai kovariansi (covariance). Kovariansi dihitung dari kedua harga variabel tersebut terhadap meannya masing-masing

Cov =

n-1

= n

n(n-1)

Selanjutnya koefisien korelasi r adalah

r = cov _xy , → -1 ≤ r ≤1

S_xS_y

Atau r_xy = Z x_iy_i - ( Z x_i Z y_i)/n

[ Z x_i² –(Z x_i)²/n]²[Z y_i²-(Zy_i)²/n]²

Besarnya korelasi antara variable x dan y dinyatakan dengan koefisien korelasi r yang mempunyai harga dari -1 sampai dengan 1

Contoh :

Tabel 2.3

Hubungan x dengan y

X (ppm)	X_i²	Y (ppm)	Y_i²	X_iY_i
205		130
255		165
195		100
220		135
235		145
	²		²

Harga rata-rata X dan Y

Cov _(xy) = = n

n(n-1)

Hubungan X dan Y dapat dinyatakan dengan koefisien korelasi (r)

r = -à -1 ≤ r ≤ 1

Latihan

Hitunglah koefisien korelasi r antara panjang dan lebar dari brachiopoda, dari tabel berikut

Tabel 2.4

Panjang dan lebar dari 6 sampel Brachiopoda

Panjang (mm)	Lebar (mm)
18,4	15,4
16,9	15,1
13,6	10,9
11,4	9,7
7,8	7,4
6,3	5,3

Sebagai petunjuk buatlah tabel X_i X_i² Y_i Y_i² X_iY_i, kemudian hitung koefisien korelasi

Panjang (xi)	Xi²	Lebar (yi)	Yi²	xiyi
18,4		15,4
16,9		15,1
13,6		10,9
11,4		9,7
7,8		7,4
6,3		5,3
	²		²

2.4 TEST Z (NORMAL)

Standar normal z dihitung dengan rumus :

Z =

Didapat distribusi frekuensi dengan unit standar s dan mean pada z sama dengan nol.

Misalnya pada suatu distribusi frekuensi komposisi kandungan Ni mempunyai harga mean dan standar deviasi :

μ = 14,2

δ = 4,7

Maka berapa probabilitas ditemukan Ni lebih kecil dari 3 %

Z = = -2,4

Dari tabel probabilitas komulatif untuk distribusi normal diperoleh

F(-2,4) = 0,0082

Dengan demikian dapat dikatakan bahwa probabilitas ditemukan kandungan Ni < 3% adalah cukup kecil yaitu mendekati nol

Kalau dicari beberapa probabilitas ditemukan kandungan Ni > 20%, maka dihitung lebih dulu : Z = = 1.2. Dengan menggunakan tabel probabilitas komulatif z diperoleh : P(Z > 1,2) = 1,0 – P(1,2)

= 1,0 – 0,8849 = 0,1151

Dengan demikian kemungkinan ditemukannya kandungan Ni > 20% adalah 1 dalam 10

Latihan :

Tentukan probabilitas ditemukan 10 % < % Ni < 20%

Z = = -0,89

P(1.2) = 0,89

P(-0,89) = 0,19 -

0,70

Teorema limit sentral Xx = μ

Bila distribusi rata-rata cenderung normal variansinya adalah :

S²_{x =}δ²/n standar error dari x adalah :

S _e = = δ

Sebagai contoh Brachiopoda X untuk 6 sampel adalah 30 mm dan diketahui suatu kelompok populasi braciopoda mempunyai

μ = 14,2

δ = 4,7

untuk mengetahui apakah 6 sampel tersebut sama dengan kelompok Brachiopoda maka dilakukan perbandingan mean dan S _e

H_{1 :}μ₁ ≠ μ₀

Tes hypotesa nol (H_o) tidak ada perbedaan.

H_{o :}μ₁ = μ₀

Alternatif hasilnya adalah bisa termasuk tipe Brachiopoda atau bertipe lain.

Untuk memutuskan apakah H₁ atau H₂ yang diterima, maka dilakukan tes Z

Z = =

Tabel 2.

Kesalahan I α dan kesalahan tipe II β

	Hipotesa benar	Hipotesa salah
Hipotesa diterima	Keputusan benar	Type II error β
Hipotesa ditolak	Type I error α	Keputusan benar

δ² = 22,1

δ = 4,7

Hipotesa H₀ : μ₁ = μ₀ 1

H₁ : μ₁ μ₀

Dengan level of significance α = 0,05

Tes Z = = 8,2 dengan menggunakan tabel komulatif Z untuk α = 0,05 maka Z = 1,9

Karena harga Z jatuh pada daerah penolakan dimana 8,2 > 1,9 maka dapat dinyatakan bahwa kedua populasi tersebut tidak sama dengan demikian hipotesa ditolak.

2.5. Tes t

Pada distribusi student t dibutuhkan derajat kebebasan υ = n adalah jumlah parameter

Pada distribusi t harga t dihitung dengan rumus :

t = =

X = mean sampel

μ₀= Mean populasi (18%)

n = jumlah populasi

S = standar deviasi observasi

Se = standar error observasi

Contoh : tabel 6

No	(%) X
1	13
2	17
3	15
4	23
5	27
6	29
7	18
8	27
9	20
10	24

Sehingga diperoleh :

X = 21,3

S² = 30,46

S = 5,52

Se = 0,57

Test ini mempunyai satu ekor maka disebut one line test

α = 5 % dilihat dalam tabel, nilai kritis harha t untuk derajad kebebasan 10 & α = 0,05. Harga t = 1,83

H₀ : μ₁ ≤ 18%

H₁ : μ₁ > 18%

Harga t hitung t = = 1.89

Dengan derajat kebebasan υ = 9 maka t = 1.83, dengan demikian data t jatuh dalam daerah kristis sehingga H₀ ditolak. Dengan demikian kandungan persentasi Cu lebih besar dari 18 %

2.6. Tes F

Untuk membandingkan distribusi dua popilasi yang berbeda dapat dilihat dari kesamaan atau perbedaan variansi kedua populasi tersebut. Perbandingan tersebut akan dilihat berdasarkan tingkat kesamaan variansi distribusi populasi dengan tes –F adalah sebagai berikut.

F = S₁²/S₂²

Dengan dua macam derajat kebebasan dari masing-masing populasi yaitu

υ₁= n₁-1

υ₂ = n₂ -1

tes statistik dilakukan dengan menguji hipotesa

Hipotesa H₀ : δ₁² = δ₂²

H₁ : δ₁² δ₂²

Misal nilai kritis F untuk υ₁ = 9 dan υ₂ = 9 dan level significance α = 0.05 maka dalam tabel F diperoleh harga : F = 3.18

Contoh :

Kandungan (%) x pada tabel 6 sebelumnya dibandingkan dengan populasi kandungan (%) X pada tabel 7 berikut ini :

Tabel 7

Sampel Namber	X(%)
11	15
12	10
13	15
14	23
15	18
16	26
17	24
18	18
19	19
20	21
	Tatal = 189
	Mean = 18,9
	S² = 23.21 S = 4.82

X = 18.9

S² = 23.21

S = 4.82

F = S₁²/S₂² = 30.46/23.21 = 1.3

Dengan demikian harga F data lebih kecil dari harga F yang diperoleh dari tabel yaitu 1.3 < 3.18 sehingga hipotesa H₀ diterima

ANALISIS REGRESI DAN KORELASI LINIER

Persamaan regresi linier sederhana memiliki dua variabel, misalnya x dan y

Y = a + b X 2.34

a =

b =

dengan :

b = koefisien arah garis regresi

a = intersep

n = banyaknya pasangan data

semua jumlahan dihitung nilai b dan a untuk data populasi dan produk

Contoh Tabel 2.9

Blok	Jumlah pekerja X	Jumlah produk Batu bara (ton) y	XY	X²
1 2 3 4 5 6 7 8 9 10
				²

KESALAHAN STANDAR SAMPEL ESTIMASI

Diperlukan nilai kesalahan standar populasi s untuk memproleh kesimpulan regresi. Nilai kesalahan standar populasi ini merupakan nilai simpangan baku (standard deviation) yang mengukur variasi titik-titik diatas dan dibawah garis regresi populasi. Jika kita tidak mengetahui nilai S, kita mengestimasi dengan S_e yaitu kesalahan standard estimasi sampel. Nilai S merupakan suatu simpangan baku secara matematis sbb:

S_e = 2.35

SOAL.

Dalam penelitian mengenai banyaknya curah hujan dan jumlah kotoran udara yang terbawa hujan, terkumpul data berikut :

Curah hujan, x (0,01 cm)	Zarah terbawa, y (microgram per m³)
4,3 4,5 5,9 5,6 6,1 5,2 3,8 2,1 7,5	126 121 116 118 114 118 132 141 108

a. Cari persamaan garis regresi untuk memprediksikan zarah yang terbawa hujan dari banyaknya curah hujan harian

b. Taksir banyaknya sarah yang terbawa hujan bila curah hujan harian x = 4,8 satuan.

c. Hitung kesalahan standar deviasi dari sampel tersebut dengan rumus sbb

S_e =

B. REGRESI GANDA

Analisis regresi ganda digunakan oleh peneliti, bila peneliti bermaksud meramalkan bagaimana keadaan (naik turunya) variabel depeneden (kriterium), bila dua atau lebih variabel independen sebagai factor predictor dimanipulasi (dinaik turunkan nilainya). Analisis regresi ganda akan dilakukan bila jumlah variabel independennya minimal 2.

Persamaan regresi untuk dua predictor adalah ;

Y = a + b₁X₁ + b₂X₂

Regresi ganda dua predictor

No	X₁	X₂	Y	X₁Y	X₂Y	X₁X₂	X₁²	X₂²
1 2 3 4 5 6 7 8 9 10	10 2 4 6 8 7 4 6 7 6	7 3 2 4 6 5 3 3 4 3	23 7 15 17 23 22 10 14 20 19
jumlah

Y = produktivitas; X₁ = kemampuan kerja pegawai

X₂ = kepemimpinan direktif

Untuk menghitung harga-harga a, b₁; b₂ dapat menggunakan persamaan berikut ;

= an + b₁ + b₂

= a + b1 +

= a + b₂

RUMUS KORELASI GANDA

R_{y (1,2)} =

Koefisien determinasi (R²) = R_y(1,2)

Uji signifikasi korelasi ganda

F =

Harga ini selanjutnya dikonsultasikan dengan F tabel, dengan didasarkan pada dk pembilang = 2 dan dk penyebut (10-2-1) = 7 untuk kesalahan 5 % dan 1 %

Kesimpulan jika F hitung lebih besar F tabel koefisien korelasi yang diuji adalah signifikan sehingga dapat diberlakukan untuk populasi yang diteliti dengan taraf kesalahan 5 % dan 1 %

BAB III.

ANALISA SEQUENCE

Pada bab ini dibahas data dari fenomena alam yg berdimensi satu. Oleh karena itu metode untuk membahasnya disebut analisa sekuensi (sequence Analysis).

Datanya berupa deret atau seri dalam waktu, jarak atau berupa satu variabel tertentu. Variabel

Tersebut dapat berupa temperatur, besar butir, berat, lintasan survey dan sebagainya. Dalam geofisika banyak ditemukan data profil, data bor , data pengamatan dalam waktu. Misalnya data letusan gunung api dicatat dalam skala waktu dengan demikian variabel bebasnya adalah waktu. Data anomaly gaya berat pada profil yang menjadi variabel adarah jarak sepanjang profil. Perubahan densitas terhadap temperatur berarti variabel adalah temperatur.

Data pengamatan dapat diperoleh dengan jarak yang sama. Pada proses tertentu misalnya untuk filter, korelasi, konvulsi dibutuhkan data dengan interval sama, oleh karena itu dibawah ini dibahas terlebih dahulu bagaimana merobah data menjadi berinterval sama.

1.1. Membuat Interval data sama

Interpolasi Linier

Posisi dan harga jarak yang sama dihitung dengan cara interpolasi linier dari dua titik terdekat. Harga Y” pada X^” yang dihitung dengan rumus sbb :

Y^” =

X	Y
420	5
424	? (Y”) = 7
430	10

Y^” =

Y” = (5)(4) /10 + 5 = 2 + 5 = 7

1.2. Runs Test

Runs test adalah metoda yang digunakan untuk data dikotomi yaitu mempunyai dua pilihan misalnya muncul tidak muncul. Urutan kemunculan data tersebut dapat diselidiki apakah pergantian kemunculan kedua bentuk tersebut bersifat acak atau tidak. Untuk melihat acak atau tidak digunakan Runs Test dimana satu run adalah urutan yang datanya sama. Sebagai contoh deret data berikut 13 runs (selang tanpa terjadi pergantian kemunculan), Jumlah data H(n1) = 11 dan jumlah data T(n2) = 9

H T HH T H TTT H T H T HH TT HHH

13 runs

n1 = 11

n2= 9

Jumlah rata-rata runs estimasi bersifat acak adalah :

υ =

Variansi harapannya (expected variance-nya) adalah ,

δ²_u =

Z test → Z = dimana u = jumlah runs

HIPOTESA

H₀ : υ ≤ u atau H₀ : υ ≥ u

H₁ : υ > u atau H_1
:υ < u

Banyak runs sedikit runs

H₀ di tolak H₀ di tolak

Tes seperti ini disebut one-tailed karena daerah penolakannya hanya terdapat pada satu ujung

H₀ : υ = u

H₁ : υ ≠ u

ANALISA VARIANSI SATU ARAH MENGGUNAKAN TES F

Model anova satu arah (one-way analysis of variance) digunakan untuk pengujian perbedaan antara k rata-rata sampel apabila subyek-subyek observasi atau penelitian ditentukan secara random pada setiap grup atau kelompok perlakuan yang ditentukan.

Persamaan linier yang menggambarkan model uji satu arah :

X_ik = μ + α_k + e_ik

Dengan :

μ = rata-rta keseluruhan dari semua k populasi klasifikasi.

α_k = efek klasifikasi dalam k kelompok tertentu darimana nilai data dijadikan sampel.

e_ik = kesalahan random yang tergabung dengan proses sampling

Ringkasan anova satu arah dapat dilihat pada tabel 2.8 berikut ini.

TABEL 2.8

PROGRAM ANALYSIS OF VARIANCE (ANOVA)

Sumber Variansi	Jumlah kuadrat (SS)	(d.f)	Kuadrat rata-rata	F test
Di antara criteria kelompok-kelompok A	SSA= -	K - 1	MSA =	F=
Diantara dalam samples	SSE= SST-SSA	N-K	MSE =
Total variation	SST=	N-1

Hipotesis nol dan hipotesis alternative untuk anova satu arah :

H₀:α_k = 0 H_a : α_k ¹0

Jika hipotesis nol benar, berarti : μ₁ = μ₂ =μ₃ = ---= μ_k

CONTOH 2.8

Ada tiga sampel random dari 3 group tenaga kerja berhubungan dengan penurunan produktivitas sbb ;

	Kelompok A	Kelompok B	Kelompok C
	7 8 7 9 9	11 9 9 8 12	4 6 5 8 5 8 6
Total Besar sampel	T₁= 40 n₁ = 5	T₂=60 n₂ =6	T₃ = 42 N₃ = 7

Jawab

Banyak sampel k =3

Jumlah data ketiga sampel N = n₁ + n₂ + n₃ = 5 + 6 +7 = 18

Perhitungan

1. Jumlah nilai masing-masing sampel : T₁ = 40; T₂ = 60; T₃= 42

2. = 40 + 60 + 42 = 142

3. ( )² = 20164

4. Jumlah kuadrat masing-masing kelompok :

= + +

+ + = 1172

5. = 7² + 8² + 7² + …..+ 5² + 8² + 6² = 1202

6. Jumlah kuadrat di antara kelompok-kelompok :

SSB = - = 1172 – 20164/18 = 51,778

7. Jumlah kuadrat di dalam kelompok-kelompok :

SSW = - = 1202 – 1172 = 30

8. Kuadrat rata-rata di antara kelompok-kelompok ;

MSB = = = 25,889

Dengan d.f = K-1 = 3-1 = 2

9. Kuadrat rata-rata di dalam kelompok-kelompok :

MSW = = = 2

Dengan ; d.f = N- K = 15

10. Nilai rasio F didapat dengan :

F = = = 12,94

Analisis:

1. Hipotesis

H₀ = penurunan rata-rata pada setiap populasi sama

H_a = penurunan rata-rata pada setiap populasi ada yang tidak sama

2. Nilai kritis

d.f diantara kriteria kelompok-kelompok (numerator) = K -1 = 3-1 =2

d.f kesalahan sampling (denumerator) = N- K = 18-3 = 15; α = 0,01

F_{(2;15;0,01) = 6,36}

3. Nilai hitung ; F = 12,94

4. Simpulan

Karena nilai F_hitung= 12,94 lebih besar dari nilai F_(2;15;0,01) = 6,36 berarti nilai F _hitung berada di daerah penolakan H₀. Dengan demikian kita H₀ kita tolak dan menerima H_a. ini berarti bahwa ada penurunan pada setiap populasi terhadap tiga kelompok yang tidak sama

Contoh :

_{Kandungan
Karbonat dalam Batuan (%)}

Replikat	SAMPEL
Replikat	1	2	3	4	5
1	19,2	18,7	12,5	20,3	19,9
2	18,7	14,3	14,3	22,5	24,3
3	21,3	20,2	8,7	17,6	17,6
4	16,5	17,6	11,4	18,4	20,2
5	17,3	19,3	9,5	15,9	18,4
6	22,4	16,1	16,5	19,0	19,1
	Tt₁ =115,4 n₁ = 6	Tt₂ =106,2 n₂ = 6	Tt₃ =72,9 n₃ = 6	Tt₄ =113,7 n₄ = 6	Tt₅ =119,5 n₅ = 6

Jawab :

Banyak sampel k = 5

Jumlah data ke lima sampel : N = n₁ + n₂ + n₃ + n₄ + n₅ = 30

Perhitungan :

1. Jumlah nilai masing-masing sampel Tt₁ = 114,4 , Tt₂ = 106,2 , Tt₃ = 72,9, Tt₄ = 113,7 Tt₅ = 119,5

2. ST = 526,7

3. (ST)² = 277412,89

4. Jumlah kuadrat rata-rata masing-masing kelompok :

13087,36/6 + 11278,44/6 + 5314,41/6 + 12927,69/6 + 14280,25/6 = 2181,227+ 1879,74 + 885,74 + 2154,62 + 2380,04 = 9481,37

= 9481,31

5. S(X)² = (19,2)² + (18,7)² +(21,3)² + (16,5)² + (17,3)² + (22,4)² +(18,7)² +(14,3)² +(20,2)² +(17,6)² +(19,3)² +(16,1)² +(12,5)² +(14,3)² +(8,7)² +(11,4)² +(9,5)² +(16,5)² + (20,3)² +(22,5)² +(17,6)² +(18,4)² +(15,9)² + (19,0)² + (19,9)² +(24,3)² +(17,6)² + (20,2)² + (18,4)² +(19,1)²

= 368,6 + 349,69 + 453,69 + 272,25 + 299,29 + 501,76 + 349,69 + 204,49 + 408,04 + 309,76 + 372,49 + 259,21 + 156,25 + 204,49 + 75,69 + 129,96 + 90,25 + 272,25 + 412,09 + 506,25 + 309.76 + 338.56 + 252,81 + 361 + 396,01 + 590,49 + 309.76 + 408,04 + 338,56 + 364,81 = 9975,75

6. Jumlah kuadrat diantara kelompok-kelompok

SSB = - (ST)²/N = 9481,31 - 277412,89/30

= 9481,31 – 9247,09 = 234,21

7. Jumlah kuadrat di dalam kelompok-kelompok :

SSW = S(X)² - = 9975 - 9481,31 = 493,69

8. Kuadrat rata-rata diantara kelompok-kelompok :

MSB = = = = 58,55

Dengan d.f. = K -1 = 5-1 =4

9. Kuadrat rata-rata di dalam kelompok-kelompok :

MSW = = = = = 19,75

Dengan : d.f. = N-K = 30 -5 = 25

10. Nilai rasio F didapat dengan :

F = = = 2,96

Analisis :

Hipotesis

1. H₀ = pengurangan berat rata-rta pada setiap populasi sama

H_a = pengurangan berat rata-rata pada setiap populasi ada yang tidak sama

2. Nilai kritis

d.f. di antara kriteria kelompok-kelompok (numerator) = K-1 = 5-1 =4

d.f. kesalahan sampling (denumerator) = N- K = 30 -5 = 25

α = 0,05

F_(4;25;0,05) = 2,76

3. Nilai hitung . F hitung = 2,96

4. Kesimpulan

Karena nilai hitung F_hitung = 2,96 lebih besar dari nilai F_(4;25;0,05) = 2,76 maka nilai F_hitung berada didaerah penolakan H₀. Dengan demikian kita menolak H₀ dan menerima H_a

GEOLOGYST AND GEOPHYSIC BLOG

Sabtu, 20 Oktober 2012

STATISTIKA DAN ANALISA DATA DALAM DUNIA PERTAMBANGAN

Entri Populer