Apakah Kaedah Ensemble?

Kaedah ensemble adalah teknik yang bertujuan untuk meningkatkan ketepatan hasil dalam model dengan menggabungkan beberapa model dan bukan menggunakan satu model. Model gabungan meningkatkan ketepatan hasil dengan ketara. Ini telah meningkatkan populariti kaedah ensemble dalam pembelajaran mesin.

Kaedah Ensemble

Ringkasan Pantas

  • Kaedah ensemble bertujuan untuk meningkatkan ramalan dalam model dengan menggabungkan beberapa model untuk menjadikannya satu model yang sangat dipercayai.
  • Kaedah ensemble yang paling popular adalah meningkatkan, mengemas, dan menumpuk.
  • Kaedah ensemble sangat sesuai untuk regresi dan klasifikasi, di mana mereka mengurangkan bias dan varians untuk meningkatkan ketepatan model.

Kategori Kaedah Ensemble

Kaedah ensemble tergolong dalam dua kategori luas, iaitu teknik ensemble berurutan dan teknik ensemble selari. Teknik ensembel berturutan menghasilkan pelajar asas dalam urutan, contohnya, Adaptive Boosting (AdaBoost). Generasi pelajar asas yang berurutan mendorong kebergantungan antara pelajar asas. Prestasi model ini kemudian ditingkatkan dengan memberikan bobot yang lebih tinggi kepada pelajar yang sebelumnya telah disalahtafsirkan.

Dalam teknik ensemble selari , pelajar asas dihasilkan dalam format selari, contohnya, hutan acak Random Forest Random Forest adalah teknik yang digunakan dalam memodelkan ramalan dan analisis tingkah laku dan dibina di atas pohon keputusan. Hutan rawak mengandungi banyak pokok keputusan. Kaedah selari menggunakan generasi asas pelajar asas untuk mendorong kebebasan antara pelajar asas. Kebebasan pelajar asas mengurangkan ralat dengan ketara kerana penggunaan purata.

Sebilangan besar teknik ensemble menerapkan algoritma tunggal dalam pembelajaran asas, yang menghasilkan homogenitas pada semua pelajar asas. Pelajar asas homogen merujuk kepada pelajar asas dari jenis yang sama, dengan kualiti yang serupa. Kaedah lain menerapkan pelajar asas heterogen, sehingga menimbulkan ensembel heterogen. Pelajar asas heterogen adalah pelajar dari pelbagai jenis.

Jenis Kaedah Ensemble Utama

1. Mengemas

Bagging, bentuk pendek untuk pengagregatan bootstrap, terutama diterapkan dalam klasifikasi dan regresi Analisis Regresi Analisis regresi adalah sekumpulan kaedah statistik yang digunakan untuk perkiraan hubungan antara pemboleh ubah bersandar dan satu atau lebih pemboleh ubah bebas. Ia dapat digunakan untuk menilai kekuatan hubungan antara pemboleh ubah dan untuk memodelkan hubungan masa depan di antara mereka. . Ini meningkatkan ketepatan model melalui penggunaan pohon keputusan, yang mengurangkan varians ke tahap yang besar. Pengurangan varians meningkatkan ketepatan, sehingga menghilangkan overfitting, yang merupakan cabaran bagi banyak model ramalan.

Bagging dikelaskan kepada dua jenis, iaitu bootstrapping dan agregasi. Bootstrapping adalah teknik pengambilan sampel di mana sampel diambil dari seluruh populasi (set) menggunakan prosedur penggantian. Persampelan dengan kaedah penggantian membantu membuat prosedur pemilihan secara rawak. Algoritma pembelajaran asas dijalankan pada sampel untuk menyelesaikan prosedur.

Agregasi dalam mengemas dilakukan untuk memasukkan semua kemungkinan hasil ramalan dan mengacak hasilnya secara rawak. Tanpa penggabungan, ramalan tidak akan tepat, kerana semua hasil tidak dipertimbangkan. Oleh itu, agregasi berdasarkan prosedur kebarangkalian bootstrap atau berdasarkan semua hasil model ramalan.

Bagging menguntungkan kerana pelajar asas lemah digabungkan untuk membentuk pelajar kuat tunggal yang lebih stabil daripada pelajar tunggal. Ini juga menghilangkan varians apa pun, dengan itu mengurangkan kelebihan model. Satu batasan bagging adalah bahawa ia mahal secara komputasi. Oleh itu, ia dapat menyebabkan lebih banyak bias pada model ketika prosedur pengantungan yang tepat diabaikan.

2. Meningkatkan

Meningkatkan adalah teknik ensemble yang belajar dari kesalahan ramalan sebelumnya untuk membuat ramalan yang lebih baik pada masa akan datang. Teknik ini menggabungkan beberapa pelajar asas yang lemah untuk membentuk satu pelajar yang kuat, dengan itu meningkatkan ramalan model dengan ketara. Meningkatkan kerja dengan mengatur pelajar yang lemah secara berurutan, sehingga pelajar yang lemah belajar dari pelajar yang seterusnya mengikut urutan untuk membuat model ramalan yang lebih baik.

Meningkatkan mengambil banyak bentuk, termasuk peningkatan gradien, Adaptive Boosting (AdaBoost), dan XGBoost (Extreme Gradient Boosting). AdaBoost menggunakan pelajar lemah yang berbentuk pohon keputusan, yang kebanyakannya merangkumi satu perpecahan yang terkenal sebagai tunggakan keputusan. Keputusan utama AdaBoost merangkumi pemerhatian yang mempunyai berat yang serupa.

Gradient boost Gradient Boosting Gradient boosting adalah teknik yang digunakan dalam membuat model untuk ramalan. Teknik ini banyak digunakan dalam prosedur regresi dan klasifikasi. menambahkan peramal secara berurutan ke ensemble, di mana peramal sebelumnya membetulkan penggantinya, sehingga meningkatkan ketepatan model. Prediktor baru sesuai untuk mengatasi kesan kesilapan pada peramal sebelumnya. Gradient of descent membantu gradient booster dalam mengenal pasti masalah dalam ramalan pelajar dan mengatasi mereka dengan sewajarnya.

XGBoost menggunakan pohon keputusan dengan kecerunan yang ditingkatkan, memberikan kelajuan dan prestasi yang lebih baik. Ia sangat bergantung pada kelajuan komputasi dan prestasi model sasaran. Latihan model harus mengikut urutan, sehingga membuat pelaksanaan mesin peningkatan gradien menjadi lambat.

3. Menyusun

Stacking, kaedah ensemble lain, sering disebut sebagai generalisasi bertumpuk. Teknik ini berfungsi dengan membenarkan algoritma latihan menggabungkan beberapa ramalan algoritma pembelajaran yang serupa. Penumpukan telah berjaya dilaksanakan dalam regresi, anggaran kepadatan, pembelajaran jarak jauh, dan klasifikasi. Ia juga dapat digunakan untuk mengukur kadar kesalahan yang berlaku semasa mengemas.

Pengurangan Varians

Kaedah ensemble sangat sesuai untuk mengurangkan varians dalam model, sehingga meningkatkan ketepatan ramalan. Varians dihapuskan apabila beberapa model digabungkan untuk membentuk ramalan tunggal yang dipilih dari semua ramalan lain yang mungkin dari model gabungan. Kumpulan model adalah tindakan menggabungkan pelbagai model untuk memastikan bahawa ramalan yang dihasilkan adalah yang terbaik, berdasarkan pertimbangan semua ramalan.

Sumber tambahan

Kewangan adalah penyedia rasmi perakuan Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certified Banking & Credit Analyst (CBCA) ™ akreditasi adalah standard global untuk penganalisis kredit yang merangkumi kewangan, perakaunan, analisis kredit, analisis aliran tunai , pemodelan perjanjian, pembayaran pinjaman, dan banyak lagi. program pensijilan, yang direka untuk membantu sesiapa sahaja menjadi penganalisis kewangan bertaraf dunia. Untuk terus memajukan kerjaya anda, sumber Kewangan tambahan di bawah akan berguna:

  • Jaring Elastik Jaring elastik Jaring elastik secara linier menggunakan hukuman dari teknik lasso dan rabung untuk mengatur model regresi. Teknik menggabungkan kedua lasso dan
  • Overfitting Overfitting Overfitting adalah istilah yang digunakan dalam statistik yang merujuk kepada kesalahan pemodelan yang terjadi ketika fungsi sesuai dengan sekumpulan data tertentu
  • Skalabiliti Skalabiliti Skalabiliti boleh jatuh dalam konteks strategi kewangan dan perniagaan. Dalam kedua kes tersebut, ia bermaksud kemampuan entiti untuk menahan tekanan
  • Spoofing Spoofing Spoofing adalah amalan perdagangan algoritma mengganggu yang melibatkan meletakkan tawaran untuk membeli atau menawarkan untuk menjual kontrak niaga hadapan dan membatalkan tawaran atau tawaran sebelum pelaksanaan perjanjian. Amalan ini bertujuan untuk mewujudkan gambaran permintaan yang salah atau pesimisme palsu di pasaran.

Disyorkan

Apa itu Perjanjian Jual Beli (SPA)?
Apakah Kebarangkalian Bersyarat?
Apa itu Imbuhan?