Dalam melakukan penelitian, hal pertama yang dapat dilakukan adalah mengetahui karakteristik dari sekumpulan data. Untuk mengetahui karakteristik data, anda dapat melihat nilai dari statistik lima serangkai.
Statistik lima serangkai terdiri dari:
- Statistik Minimum (Xmin) : Nilai terkecil dari suatu data atau datum terkecil.
- Kuartil Kedua atau Median (Q2) : Nilai yang membagi data yang sudah diurutkan menjadi dua bagian sama banyak.
- Kuartil Ketiga atau Kuartil Atas (Q3) : Median dari semua data yang nilainya lebih dari kuartil dua.
- Statistik Maksimum (Xmax) : Nilai terbesar dari suatu data atau datum terbesar.
- Kuartil Pertama atau Kuartil Bawah (Q1) : Median dari semua data yang nilainya kurang dari kuartil dua.
Jika kita gambarkan urutan statistik lima serangkai berdasarkan nilainya, dapat terlihat sebagai berikut:
Selanjutnya anda bisa melihat distribusi data menggunakan ukuran pemusatan data, yaitu rata-rata (mean) dan median. Ukuran pemusatan data saja sebenarnya tidak cukup untuk menggambarkan distribusi dari data karena hanya memberikan informasi terkait nilai pusat dari distribusi sebuah data, oleh karena itu dibutuhkan ukuran penyebaran data untuk menentukan seberapa jauh data menyebar dari rata-ratanya. Terdapat beberapa ukuran untuk menentukan sebaran data, diantaranya adalah:
- Range (Jangkauan) : Selisih antara data terbesar (Xmax) dengan data terkecil (Xmin).
- Simpangan Baku (s) : Rataan jumlah kuadrat simpangan data terhadap rataannya. Semakin berpencar data pada penelitian, maka akan memiliki nilai simpangan baku yang semakin besar. Ketika memiliki data yang seragam, nilai s akan sama dengan nol.
- Interquartile Range (IQR) : Selisih (Q3 — Q1)
Sebagai contoh, dilakukan analisis dari penjelasan diatas menggunakan R Studio. Data yang digunakan berasal dari Library knitr, yaitu data cars dan variabel yang digunakan adalah variabel speed dan variabel distance.
Sebelumnya, install library terlebih dahulu
library (knitr)df <- cars #memisalkan data dengan variabel lainView(df) #melihat data
STATISTIK LIMA SERANGKAI
Statistik Minimum dan Maksimum
maxspd <- max(df$speed)[1] 25minspd <- min(df$speed)[1] 4maxdis <- max(df$speed)[1] 25mindis <- min(df$dist)[1] 2
Kuartil
QS1 <- quantile(df$speed,0.25) #kuartil pertama dari variabel speed25%12QS2 <- quantile(df$speed,0.5) #kuartil kedua dari variabel speed50%15QS3 <- quantile(df$speed,0.75) #kuartil ketiga dari variabel speed75%19QD1 <- quantile(df$dist,0.25) #kuartil pertama dari variabel distance25%26QD2 <- quantile(df$dist,0.5) #kuartil kedua dari variabel distance50%36QD3 <- quantile(df$dist,0.75) #kuartil ketiga dari variabel distance75%56
UKURAN PEMUSATAN DATA
Mean
mean(df$speed) #melihat rata rata variabel speed[1] 15.4mean(df$dist) #melihat rata rata variabel distance[1] 42.98
Modus
# Membuat Fungsigetmode <- function(df) {uniqv <- unique(df)uniqv[which.max(tabulate(match(df, uniqv)))]}# Menghitung modus menggunakan fungsi yang telah dibangunmodus1 <- getmode(df$speed)print(modus1)[1] 20modus2 <- getmode(df$dist)print(modus2)[1] 26
Median
median(df$speed) #melihat median variabel speed[1] 15median(df$dist) #melihat median variabel distance[1] 36
UKURAN PENYEBARAN DATA
Range
rangespd <- maxspd — minspd #Range dari variabel speed[1] 21rangedis <- maxdis — mindis #Range dari variabel distance[1] 23
Simpangan Baku
sdspeed <- sd(df$speed)[1] 5.287644sddis <- sd(df$dist)[1] 25.76938
Interquartile Range
iqrspd <- QS3-QS1 #iqr variabel speed75%7iqrdis <- QD3-QD175%30
By : Rafi Syahdan Al Fatah & Zalfa Rafifah.