Apa itu Overfitting?

Overfitting adalah istilah yang digunakan dalam statistik yang merujuk kepada kesalahan pemodelan yang berlaku apabila fungsi sesuai dengan sekumpulan data tertentu. Akibatnya, overfitting mungkin tidak sesuai dengan data tambahan, dan ini dapat mempengaruhi ketepatan meramalkan pemerhatian masa depan.

Overfitting

Overfitting dapat dikenal pasti dengan memeriksa metrik pengesahan seperti ketepatan dan kehilangan. Metrik pengesahan biasanya meningkat sehingga titik di mana ia berhenti atau mula merosot apabila model dipengaruhi oleh overfitting. Semasa tren menaik, model mencari kecocokan yang baik, yang, apabila dicapai, menyebabkan tren mulai menurun atau stagnan.

Ringkasan Pantas

  • Overfitting adalah kesalahan pemodelan yang memperkenalkan bias pada model kerana terlalu berkait rapat dengan kumpulan data.
  • Overfitting menjadikan model hanya relevan dengan set datanya, dan tidak relevan dengan set data lain.
  • Beberapa kaedah yang digunakan untuk mencegah overfitting termasuk ensembling, peningkatan data, penyederhanaan data, dan validasi silang.

Bagaimana Mengesan Overfitting?

Mengesan overfitting hampir mustahil sebelum anda menguji data. Ini dapat membantu mengatasi ciri yang melekat pada overfitting, iaitu ketidakupayaan untuk menggeneralisasikan set data. Oleh itu, data dapat dipisahkan menjadi subset yang berlainan untuk memudahkan latihan dan ujian. Data dibahagikan kepada dua bahagian utama, iaitu satu set ujian dan satu set latihan.

Set latihan mewakili sebahagian besar data yang ada (sekitar 80%), dan melatih model. Set ujian mewakili sebahagian kecil dari set data (sekitar 20%), dan digunakan untuk menguji ketepatan data yang tidak pernah berinteraksi dengannya sebelumnya. Dengan mengelompokkan set data, kita dapat memeriksa kinerja model pada setiap set data untuk melihat overfitting ketika terjadi, serta melihat bagaimana proses latihan berjalan.

Prestasi dapat diukur dengan menggunakan peratusan ketepatan yang diperhatikan di kedua-dua set data untuk membuat kesimpulan mengenai kehadiran overfitting. Sekiranya model berprestasi lebih baik pada set latihan daripada pada set ujian, ini bermaksud bahawa model itu mungkin terlalu sesuai.

Bagaimana Mencegah Overfitting?

Berikut adalah beberapa cara untuk mengelakkan overfitting:

1. Latihan dengan lebih banyak data

Salah satu cara untuk mencegah overfitting adalah dengan melatih lebih banyak data. Pilihan seperti itu memudahkan algoritma Algoritma (Algos) Algoritma (Algos) adalah sekumpulan arahan yang diperkenalkan untuk melaksanakan tugas. Algoritma diperkenalkan untuk mengautomasikan perdagangan untuk menjana keuntungan pada frekuensi yang mustahil bagi pedagang manusia untuk mengesan isyarat lebih baik untuk mengurangkan kesalahan. Oleh kerana pengguna memasukkan lebih banyak data latihan ke dalam model, tidak akan terlalu banyak sampel dan akan dipaksa untuk membuat generalisasi untuk mendapatkan hasil.

Pengguna harus terus mengumpulkan lebih banyak data sebagai cara untuk meningkatkan ketepatan model. Walau bagaimanapun, kaedah ini dianggap mahal, dan oleh itu, pengguna harus memastikan bahawa data yang digunakan relevan dan bersih.

2. Pembesaran data

Alternatif untuk latihan dengan lebih banyak data adalah peningkatan data, yang lebih murah daripada yang sebelumnya. Sekiranya anda tidak dapat mengumpulkan lebih banyak data secara berterusan, anda dapat membuat set data yang tersedia kelihatan pelbagai. Pembesaran data menjadikan data sampel kelihatan sedikit berbeza setiap kali diproses oleh model. Proses tersebut menjadikan setiap kumpulan data tampak unik bagi model dan mencegah model mempelajari ciri-ciri kumpulan data tersebut.

Pilihan lain yang berfungsi dengan cara yang sama seperti peningkatan data adalah menambahkan kebisingan pada data input dan output. Menambah noise pada input membuat model menjadi stabil, tanpa mempengaruhi kualitas dan privasi data, sementara menambahkan noise pada output membuat data lebih beragam. Walau bagaimanapun, penambahan bunyi harus dilakukan dengan sederhana sehingga tahap kebisingan tidak terlalu banyak sehingga membuat data tidak betul atau terlalu berbeza.

3. Penyederhanaan Data

Overfitting dapat terjadi kerana kerumitan model, sehingga, walaupun dengan jumlah data yang banyak, model tersebut masih dapat mengatasi data set latihan. Kaedah penyederhanaan data digunakan untuk mengurangkan overfitting dengan mengurangkan kerumitan model untuk membuatnya cukup sederhana sehingga tidak berlebihan.

Beberapa tindakan yang dapat dilaksanakan meliputi pemangkasan pohon keputusan, pengurangan jumlah parameter Parameter Parameter Parameter merupakan komponen analisis statistik yang berguna. Ia merujuk kepada ciri-ciri yang digunakan untuk menentukan populasi tertentu. Ini digunakan untuk jaringan saraf, dan menggunakan putus pada jaringan netral. Memudahkan model juga dapat menjadikan model lebih ringan dan berjalan lebih pantas.

4. Berkumpul

Ensembling adalah teknik pembelajaran mesin yang berfungsi dengan menggabungkan ramalan dari dua atau lebih model yang berasingan. Kaedah ensembling yang paling popular termasuk meningkatkan dan mengemas. Peningkatan berfungsi dengan menggunakan model asas sederhana untuk meningkatkan kerumitan agregatnya. Ia melatih sebilangan besar pelajar lemah yang disusun mengikut urutan, sehingga setiap pelajar dalam urutan belajar dari kesalahan pelajar sebelum itu.

Meningkatkan menggabungkan semua pelajar yang lemah mengikut urutan untuk membawa satu pelajar yang kuat. Kaedah ensembling lain adalah mengantongi, yang bertentangan dengan peningkatan. Bagging berfungsi dengan melatih sebilangan besar pelajar kuat yang disusun dalam corak selari dan kemudian menggabungkannya untuk mengoptimumkan ramalan mereka.

Lebih Banyak Sumber

Finance adalah penyedia rasmi Pensijilan Pemodelan & Penilaian Kewangan global (FMVA) ™ Sertifikasi FMVA® Sertai 350,600+ pelajar yang bekerja untuk syarikat seperti program pensijilan Amazon, JP Morgan, dan Ferrari, yang direka untuk membantu sesiapa sahaja menjadi penganalisis kewangan bertaraf dunia . Untuk terus memajukan kerjaya anda, sumber Kewangan tambahan di bawah akan berguna:

  • Konsep Statistik Asas dalam Kewangan Konsep Statistik Asas untuk Kewangan Pemahaman yang kukuh mengenai statistik sangat penting dalam membantu kita memahami kewangan dengan lebih baik. Lebih-lebih lagi, konsep statistik dapat membantu pemantau memantau
  • Data Mining Bias Data-Mining Bias Data-mining bias merujuk kepada anggapan pentingnya yang diberikan oleh peniaga terhadap kejadian di pasar yang sebenarnya merupakan hasil kebetulan atau tidak dijangka
  • Hutan Acak Hutan Acak Hutan acak adalah teknik yang digunakan dalam memodelkan ramalan dan analisis tingkah laku dan dibina di atas pohon keputusan. Hutan rawak mengandungi banyak pokok keputusan
  • Kebarangkalian Tanpa Syarat Kebarangkalian Tanpa Syarat Kebarangkalian tanpa syarat, juga dikenali sebagai kebarangkalian marginal, merujuk kepada kebarangkalian yang tidak dipengaruhi oleh peristiwa sebelumnya atau masa depan. Dalam kata lain,

Disyorkan

Adakah Crackstreams telah ditutup?
2022
Adakah pusat arahan MC selamat?
2022
Adakah Taliesin meninggalkan peranan kritikal?
2022