Data Scientist Itu Kerjaanya Apa Aja Sih?
Kemarin baru saja saya baca buku berjudul Data Science From Scratch terbitan Oreilly. Bukunya berbahasa inggris, namun seru sekali ketika dibaca
Oreilly selalu pake illustrasi hewan |
Jujur, saya masih sedikit bacanya, masih paruh awal tapi tetap tertarik untuk melahapnya hingga habis.
Ada beberapa poin yang enlightening dari buku tersebut yang rasanya sayang sekali kalo ga saya beberkan di blog kesayangan-ku ini. Huek
Di bagian awal buku tersebut kurang lebih di jelaskan secara singkat apa saja peran peran data scientist, job utama, dan apa sih tugas utama data scientist secara garis besar. Menurut saya ini merupakan ilmu penting mengingat ketika saya melihat tutorial di youtube atau course course pada umumnya yang berkualitas namun deep-down saya sendiri masih bertanya tanya, sebenarnya ini kepakenya ketika ngapain sih
Ini sesuatu yang baru bagi saya, berbeda sekali ketika kita mengikuti tutorial youtube tentang pengembangan website atau mobile app yang tujuannya satu yaitu aplikasi harus berjalan baik dan benar
Menurut saya data science berbeda, ia lebih abstrak dan intuitif. Segala permasalahan tidak melulu diselesaikan secara teknikal
Kali ini saya akan menjelaskan apa aja tugas data scientist melalui sebuah perempumaan dan simulasi agar kalian bisa lebih memahami
Simulasi
Selamat menjalani hari pertama sebagai data scientist di perusahaan PT Maju Mundur, kalian akan sering berkomunikasi kepada VP untuk memberikan insight dari data data yang mereka miliki
Studi Kasus 1: Temukan Kunci Koneksi
VP ingin sekali mengetahui karyawan manakah yang mempunyai relasi kuat antar karyawan lain. Kamu bisa ga mencari siapakah kayawan yang dimaksud? Berikut nama nama karyawannya
users = [
{ "id": 0, "name": "Hero" },
{ "id": 1, "name": "Dunn" },
{ "id": 2, "name": "Sue" },
{ "id": 3, "name": "Chi" },
{ "id": 4, "name": "Thor" },
{ "id": 5, "name": "Clive" },
{ "id": 6, "name": "Hicks" },
{ "id": 7, "name": "Devin" },
{ "id": 8, "name": "Kate" },
{ "id": 9, "name": "Klein" }
]
Tidak hanya nama nama karyawan kamu juga mendapatkan id id yang saling terhubung sehingga kamu tau siapa-berteman-dengan-siapa
friendship_pairs = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
(4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]
Kamu bisa ga menjawab pertanyaan bos VP?
Studi Kasus 2: Rekomendasi
Kalo kamu sudah menyelasikan soal diatas. VP juga ingin kamu memberikan daftar data scientist yang kamu sarankan. Buat model atau function untuk memprediksinya.
Kamu akan mendapatkan data data yang berisi interest seperti ini
interests = [
(0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
(0, "Spark"), (0, "Storm"), (0, "Cassandra"),
(1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
(1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
(2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
(3, "statistics"), (3, "regression"), (3, "probability"),
(4, "machine learning"), (4, "regression"), (4, "decision trees"),
(4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
(5, "Haskell"), (5, "programming languages"), (6, "statistics"),
(6, "probability"), (6, "mathematics"), (6, "theory"),
(7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
(7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
(8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
(9, "Java"), (9, "MapReduce"), (9, "Big Data")
]
Studi Kasus 3: Informasi Seputar Gaji dan Pengalaman
VP ingin tahu fun fact karayawan mana aja nih yang punya hubungan gaji dan pengalaman. Kamu akan mendapatkan dataset seperti berikut
salaries_and_tenures = [(83000, 8.7), (88000, 8.1),
(48000, 0.7), (76000, 6),
(69000, 6.5), (76000, 7.5),
(60000, 2.5), (83000, 10),
(48000, 1.9), (63000, 4.2)]
Kamu bisa memberikan insight berupa visual
Studi Kasus 4: Dibayar atau Tidak Dibayar
VP juga pengen tahu nih akun mana aja dari karyawan dengan pengalaman dan gaji yang bayar produk perusahaan. Data yang akan diberikan seperti ini, bisa kah kamu mencari tahu?
0.7 paid
1.9 unpaid
2.5 paid
4.2 unpaid
6.0 unpaid
6.5 unpaid
7.5 unpaid
8.1 unpaid
8.7 paid
10.0 paid
Studi Kasus 5: Topik dan Interest
VP juga pengen tahu topik yang lagi trending. Kamu akan mendapatkan data berikut
interests = [
(0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"),
(0, "Spark"), (0, "Storm"), (0, "Cassandra"),
(1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"),
(1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"),
(2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"),
(3, "statistics"), (3, "regression"), (3, "probability"),
(4, "machine learning"), (4, "regression"), (4, "decision trees"),
(4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"),
(5, "Haskell"), (5, "programming languages"), (6, "statistics"),
(6, "probability"), (6, "mathematics"), (6, "theory"),
(7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"),
(7, "neural networks"), (8, "neural networks"), (8, "deep learning"),
(8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"),
(9, "Java"), (9, "MapReduce"), (9, "Big Data")
]
Bisa kah kamu mencari tahu?
Kontemplasi
Gimana, sewaktu baca studi kasus diatas, apakah kamu punya bayangan bagaimana cara menyelesaikannya? Kalo kamu sudah punya bayangan meski sedikit aja, selamat! barang kali pekerjaan data scientist cocok untuk kamu
Namun ingat ini baru perkenalan aja lhooo, kedepannya kamu akan bergulat dengan model model yang mebantu kamu untuk mencari tahu penjelasan dari data data berantakan yang biasa kamu jumpai di Kaggle
Lalu Apa Bedanya dengan Data Analyst?
Data Scientist dituntut untuk bisa mempelajari model berupa machine learning untuk mendapatkan hasil yang diinginkan. Sedangkan Data Analyst tidak demikian, DA memiliki job yang jauh lebih ringkas karena aplikasi yang mereka pakai cukup dengan aplikasi seperti Excel dan PowerBI
Data Scientist cenderung lebih ngodingnya karena mereka harus mengolah model model yang terkadang membutuhkan kemampuan ML untuk melihat dataset
Kesimpulan
Pekerjaan data scientist menurut Data Science From Scratch ternyata tidak seteknikal yang kita kira. Semuanya tergantung kekreatifitasan kita mengolah setumpuk data yang ingin dilihat oleh para atasan.
Comments
Post a Comment