Decision Tree merupakan salah satu metode klasifikasi pada Text Mining. Klasifikasi adalah proses menemukan kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang belum memiliki kelas data tertentu (Jianwei Han, 2001).
Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.
Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan. Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:
- Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
- Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
- Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
- Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
- Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi:
- Semua data dari anak cabang telah termasuk dalam kelas yang sama.
- Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
- Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.












Halo pak,.
saya sekarang sedang menyusun Tugas Akhir tentang data mining, dan memilih teknik Klasifikasi menggunakan Decision Tree. Saya sedang membuat penjelasan tentang algoritma2 decision tree. Bisa bapak jelaskan lebih rinci?
mohon bantuannya pak,.
sebelumnya terima kasih
Oleh: martinasiregar on Agustus 6, 2008
at 5:02 pm
cari di internet banyak… dan beli buku saja, saya bukannya ga mau, tapi sibuk… thx
Oleh: antonie on Agustus 6, 2008
at 5:25 pm
maaf pak, saya mau tanya buku tentang metode decision tree yang bagus apa ya, tapi klo bisa yang versi indonesia…terimakasih…
Oleh: adie on Agustus 15, 2008
at 1:45 am
ada buku terbitan graha ilmu, data mining analisis proses bisnis, warnanya kuning
Oleh: antonie on Agustus 15, 2008
at 12:21 pm
dimana bukunya bisa didapat pak
di pekanbaru udah ada belum??????
Oleh: acheim on Desember 15, 2008
at 1:24 pm