Cara Mengatasi Missing Value Pada Dataset
Ketika kita ingin mengolah data untuk menjadi sebua model machine learning, maka data yang harus disajikan harus bersih dari field field kosong.
Biasanya kita akan menjumpai filed field bernilai NaN yang artinya field tersebut kosong atau tak diketahui. Ini sangat berpengaruh hasil model data kita
Inilah yang disebut Missing Value. Nilai yang hilang dari beberapa baris dataset
Cara Mengetahui Bahwa Dataset Kita Terdapat Missing Value?
Cara termudah adalah dengan menggunakan method method yang tersedia oleh package Pandas
Dengan Pandas, tak hanya kita bisa mengetahui dataset terdapat Missing Value atau tidak, kita bisa mencari mean, median dan modus, mengisikan data data yang kosong tersebut, dan melihat hasil data tersebut dari beberapa range tertentu
Pandas juga bisa membantu kita untuk memeriksa apakah dataset kita memiliki data yang kosong. Tak mungkinkan kita melihat satu persatu ratusan atau ribuan data. Maka dari itu kita membutuhkan method yang dikerjakan oleh python dalam package Pandas
Pertama. Kita harus membaca dataset tersebut dan mengeceknya menggunakan script dibawah
Mari kita beda script diatas
import pandas as pd
Disini kita mengimport pandas dan memberikan alias pada pacakge tersebut denga pd. Kenapa kita membutuhkan alias? Supaya kita tak terlalu panjang dalam mengingatnya. Memang untuk Pandas tak seberapa panjang untuk diingat, namun kita akan menjumpai package yang sangat panjang dan susah diingat
data_csv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/shopping_data_missingvalue.csv")
Di dalam Pandas terdapat method yang bernama read_csv yang mana ia membutuhkan argument berupa link api dataset kita. Yaitu, https://storage.googleapis.com/dqlab-dataset/shopping_data_missingvalue.csv
print(data_csv.isnull().values.any())
Lalu kita print untuk menetahui hasil outputnya. Jika mengembalikan nilai true. Maka berarti dataset ini memiliki data yang kosong dan harus kita isi
Cara Mengisi Data Data Kosong Pada Dataset
Nilai yang bisa kita masukkan untuk mengisi missing value pada data kita ada dua jenis. Dan berikut bagaimana cara mencari median dan bagaimana cara mencari mean
- mean
data_csv.mean()
- median
data_csv.median()
Simpan kode tersebut pada variabel. Menjadi seperti ini
mean = data_csv.mean()
Gunakan salah satu dari dua diatas. Kita bisa menggunakan median atau mean. Untuk kasus ini saya akan menggunakan median
Maka kita memerlukan method Pandas yang bernama fillna() yang akan kita isikan argument data yang ingin kita isi yaitu mean
data_csv.fillna(mean)
Ketika kita print, maka data tersebut akan menghasilkan output demikian
Untuk mempermudah berikut codesnap yang bisa kalian save
Mau Belajar Data Science Dimana?
Kamu bisa belajar segala ilmu data science di DQLab. Saya sendiri sudah mencobanya, kamua akan mempelajari modul dan mencobanya secara praktek
Tak hanya modulenya yang lengkap dan diberikan roadmap yang jelas. Di DQLab kita bisa latihan membuat project untuk mengisi portfoliomu biar makin pede dapet pekerjaan.
Gunakan link ini untuk mendapatkan 10% diskon dan 1 bulan gratis menikmati module premium. Atau masukkan kode
Comments
Post a Comment