Apakah Hutan Rawak?

Hutan acak adalah teknik yang digunakan dalam memodelkan ramalan dan analisis tingkah laku dan dibina di atas pohon keputusan. Ini berisi banyak keputusan yang mewakili contoh yang berbeda dari klasifikasi input data ke dalam hutan rawak. Teknik hutan rawak mengambil kira keadaan secara individu, mengambil satu dengan majoriti suara sebagai ramalan yang dipilih.

Hutan Rawak Gambar 1. Struktur Hutan Rawak (Sumber)

Setiap pokok dalam klasifikasi mengambil input dari sampel dalam set data awal. Ciri-ciri kemudian dipilih secara rawak, yang digunakan untuk menanam pokok di setiap simpul. Setiap pokok di hutan tidak boleh dipangkas sehingga akhir latihan apabila ramalan dicapai dengan tegas. Dengan cara sedemikian, hutan rawak membolehkan mana-mana pengklasifikasi dengan korelasi yang lemah untuk membuat pengelasan yang kuat.

Ringkasan Pantas

  • Hutan acak adalah gabungan pohon keputusan yang dapat dimodelkan untuk ramalan dan analisis tingkah laku.
  • Pohon keputusan di hutan tidak dapat dipangkas untuk diambil sampel dan oleh itu, pemilihan ramalan.
  • Teknik hutan rawak dapat menangani set data yang besar kerana kemampuannya bekerja dengan banyak pemboleh ubah hingga ribuan.

Ramalan Pemodelan

Kaedah hutan rawak dapat membina model ramalan menggunakan pohon regresi hutan secara rawak, yang biasanya tidak dipotong untuk memberikan ramalan yang kuat. Kaedah pensampelan bootstrap digunakan pada pohon regresi, yang tidak boleh dipangkas. Nod optimum diambil sampel dari jumlah nod di pokok untuk membentuk ciri pemisahan yang optimum.

Teknik pensampelan rawak yang digunakan dalam pemilihan ciri pemisahan optimum menurunkan korelasi dan oleh itu, varians dari pohon regresi. Ini meningkatkan keupayaan ramalan pokok yang berbeza di hutan. Pensampelan dengan menggunakan bootstrap juga meningkatkan kebebasan antara pokok individu.

Kepentingan Pembolehubah

Pemboleh ubah (ciri) penting untuk hutan rawak kerana merupakan cabaran untuk menafsirkan model, terutama dari sudut pandang biologi. Pendekatan naif menunjukkan kepentingan pemboleh ubah dengan memberikan kepentingan kepada pemboleh ubah berdasarkan kekerapan kemasukannya dalam sampel oleh semua pokok. Ia dapat dicapai dengan mudah tetapi memberikan cabaran kerana kesan terhadap pengurangan kos dan peningkatan ketepatan adalah berlebihan.

Kepentingan permutasi adalah ukuran yang menjejaki ketepatan ramalan di mana pemboleh ubahnya disusun secara rawak dari sampel luar beg. Pendekatan kepentingan permutasi berfungsi lebih baik daripada pendekatan naif tetapi cenderung lebih mahal.

Oleh kerana cabaran hutan rawak tidak dapat menafsirkan ramalan dengan cukup baik dari perspektif biologi, teknik ini bergantung pada tahap naif, pengurangan pengotoran rata-rata, dan pendekatan kepentingan permutasi untuk memberi mereka interpretasi langsung terhadap cabaran tersebut. Ketiga-tiga pendekatan tersebut menyokong pemboleh ubah ramalan dengan pelbagai kategori.

Dalam kes pemboleh ubah prediktor berterusan dengan sebilangan kategori yang sama, kedua-dua kepentingan permutasi dan penurunan pengurangan pengotor tidak menunjukkan bias Data-Mining Bias Data-mining bias merujuk kepada anggapan kepentingan yang diberikan oleh pedagang terhadap suatu kejadian di pasaran yang sebenarnya adalah hasil kebetulan atau tidak dijangka. Pemilihan pemboleh ubah sering disertakan dengan berat sebelah. Untuk mengelakkannya, seseorang harus melakukan pengambilan sampel tanpa penggantian, dan jika inferensi bersyarat digunakan, teknik hutan rawak harus diterapkan.

Hutan Rawak serong

Hutan rawak serong adalah unik kerana mereka menggunakan pemisahan serong untuk membuat keputusan sebagai ganti pemisahan keputusan konvensional di simpul. Hutan serong menunjukkan banyak keunggulan dengan menunjukkan kualiti berikut.

Pertama, mereka dapat memisahkan pengagihan pada paksi koordinat dengan menggunakan satu pemisahan multivariasi yang merangkumi pembelahan paksi dalam yang diperlukan secara konvensional. Kedua, mereka mengurangkan penurunan bias dari keputusan untuk kekangan yang dirancang. Pembelahan paksi konvensional memerlukan dua tahap lagi bersarang ketika memisahkan kelas yang serupa dengan pembelahan serong menjadikannya lebih mudah dan cekap digunakan.

Pengelaskan Hutan Rawak

Pengelaskan hutan rawak adalah kumpulan pokok ramalan, di mana setiap pokok bergantung pada vektor rawak yang diambil sampel secara bebas, dengan taburan yang serupa dengan setiap pokok lain di hutan rawak. Pada asalnya dirancang untuk pembelajaran mesin, pengklasifikasi telah mendapat popularitas dalam komuniti penginderaan jauh, di mana ia diterapkan dalam klasifikasi citra yang dirasakan dari jarak jauh kerana ketepatannya yang tinggi. Ia juga mencapai kepantasan yang tepat dan parameterisasi yang efisien dalam proses tersebut. Pengkaji hutan rawak bootstraps sampel rawak di mana ramalan dengan undian tertinggi dari semua pokok dipilih.

Keperibadian pokok penting dalam keseluruhan proses. Keperibadian setiap pokok dijamin kerana kualiti berikut. Pertama, setiap latihan pokok dalam sampel menggunakan subset rawak dari sampel latihan awal. Kedua, pemisahan optimum dipilih daripada ciri-ciri node pokok yang tidak dipilih secara rawak. Ketiga, setiap pokok tumbuh tanpa had dan tidak boleh dipangkas sama sekali.

Kelebihan Hutan Rawak

Hutan rawak memberikan anggaran untuk kepentingan berubah-ubah, iaitu jaring neural. Mereka juga menawarkan kaedah yang unggul untuk bekerja dengan data yang hilang. Nilai yang hilang digantikan oleh pemboleh ubah yang paling banyak muncul dalam nod tertentu. Di antara semua kaedah klasifikasi yang ada, hutan rawak memberikan ketepatan tertinggi.

Teknik hutan rawak juga dapat menangani data besar dengan banyak pemboleh ubah menjadi ribuan. Secara automatik dapat mengimbangkan set data apabila kelas lebih jarang daripada kelas lain dalam data. Kaedah ini juga menangani pemboleh ubah dengan pantas, menjadikannya sesuai untuk tugas yang rumit.

Lebih Banyak Sumber

Finance menawarkan Pensijilan Pemodelan & Penilaian Kewangan (FMVA) ™ FMVA® Sertai 350,600+ pelajar yang bekerja untuk syarikat seperti Amazon, JP Morgan, dan program pensijilan Ferrari bagi mereka yang ingin mengambil kerjaya mereka ke tahap seterusnya. Untuk terus belajar dan mengembangkan asas pengetahuan anda, sila terokai sumber kewangan tambahan yang berkaitan di bawah:

  • Analisis Data Cross-Sectional Analisis Data Cross-Sectional Analisis data keratan rentas adalah analisis kumpulan data keratan rentas. Tinjauan dan rekod kerajaan adalah beberapa sumber data keratan rentas umum
  • Cluster Sampling Cluster Sampling Dalam statistik, cluster sampling adalah kaedah persampelan di mana keseluruhan populasi kajian dibahagikan kepada luaran yang homogen tetapi secara dalaman
  • Taburan Normal Taburan Normal Taburan normal juga disebut sebagai sebaran Gaussian atau Gauss. Jenis pengedaran ini banyak digunakan dalam sains semula jadi dan sosial. The
  • Keselamatan Roy-Kriteria Pertama Roy Keselamatan-Kriteria pertama Kriteria keselamatan-pertama Roy adalah teknik pengurusan risiko yang digunakan oleh pelabur untuk membandingkan dan memilih portfolio berdasarkan kriteria bahawa kebarangkalian

Disyorkan

Adakah Crackstreams telah ditutup?
2022
Adakah pusat arahan MC selamat?
2022
Adakah Taliesin meninggalkan peranan kritikal?
2022