Register Now

Login

Lost Password

Lost your password? Please enter your email address. You will receive a link and will create a new password via email.

Add post

Add question

Belajar Konsep Dasar  Machine Learning

Belajar Konsep Dasar Machine Learning

Tulisan ini diterjemahkan dan diedit dari sumber introduction machine learning mit opencourseware.


Manfaat : Membuat Mesin Yang Bisa Belajar dan Melakukan Pengambilan Keputusan (Prediksi)

Contoh perusahaan yang menggunalkan Machine Learning :

  • Netflix
  • Amazon
  • Google
  • Mobileye
  • Facebook
  • IBM Watson

Proses :

  • Mengelompokan data (training data)
  • Membuat garis pemisah antara data yang sudah dikelompokan
  • Melakukan prediksi jika ada data baru.

Pada proses prediksi yang dilakukan adalah : “Data baru cocoknya pada kelompok mana?” atau “Apa yang harus dilakukan jika data baru muncul?”

Problem :

  • Data berdasarkan label terbagi dua : ada yang mempunyai labels/tags/categories ada yang tidak.
  • Bekerja pada data yang memiliki banyak dimensi/atribut.

Pengetahuan Matematis yang diperlukan :

  • Statistika (regresi linier, persamaan linier, varia(n)si data, distribusi normal)
  • Aljabar (matrix, invers matrix, bebas linier, nilai eigen)
  • Kalkulus (menghitung nilai yang optimum, menghitung jarak)
  • Interpolasi (linear, kuadrat, kubik)

Apa bedanya pengkodingan biasa pada komputer dengan pengkodingan yang membuat mesin bisa belajar?

  1. Pengkodingan biasa : input, proses output. Contoh menghitung luas segitiga.
  2. Pengkodinga mesin learning : input, proses, output, output dijadikan informasi untuk merubah kodingan pada iterasi selanjtnya.

Bagaimana sebenarnya manusia belajar ?

Bagaimana seharusnya belajar komputer? Nah, bagi Anda sebagai manusia, ada beberapa kemungkinan.

  1. Hafalkan sebanyak mungkin fakta.
  2. Menyimpulkan informasi baru dari yang lama.

Apa yang sebenarnya machine learning lakukan ?

Melakukan pengelompokan, melabeli selanjutnya memprediksi.

Pengelompokan Data

Pengelompokan data akan mudah dilakukan jika kita bekerja dengan data yang mempunyai label/tag/categories/hastag. Kita tinggal mengelompokan data sesuai dengan labelnya. Done!

Bagaimana jika data tidak mempunyai label?

Kita akan mencoba menjawab pertanyaan ini setelah melakukan eksperimen berikut :

Eksperimen :

Saya mempunyai data pemain bola dengan label posisi dan datanya tinggi dan berat badan. Contoh :

King Eze, 190cm, 90kg, striker

The Lord Atep , 180cm, 70kg, striker

Bagaimana kita menemukan cara  mengkarakterisasi pola implisit tentang bagaimana berat dan tinggi badan memprediksi jenis posisi yang bisa dilakukan pemain ini ?atau

Bagimana algoritma yang akan memprediksi posisi pemain baru yang hanya diketahui berat dan tinggi badan?

Faktor faktor yang terlibat semestinya terlibat:

  • Di mana kita ingin mereka bermain?.
  • Berdasarkan pengamatan pada latihan, berpotensikah mereka di posisi di posisi tsb.
  • dst

Pikirkan tentang bagaimana kita melakukan inferensi untuk menemukan model. Lalu bagaimana kita menggunakan model itu untuk membuat prediksi. Apa yang akan kita lihat, dan kita akan melihat beberapa contoh hari ini, adalah prose machine learning dapat dilakukan dengan berbagai cara. Di sini kita bahas cara supervised learning dan non supervised learning.

1. Supervised learning

Misal kita punya data 100. Kita pura-pura punya data 50 kemudian kita buat modelnya. Setelah itu kita berikan 50 data sisanya untuk bahan latihan sehingga kita tahu apakah model bekerja dengan baik dan dapat dipercaya untuk melakukan prediksi

2.Non supervised learning

Pada kasus ini algoritma/model hanya akan diberikan banyak contoh data tanpa diketahui labelnya.
Saya hanya akan memberi Anda banyak contoh. Tapi saya tidak tahu label yang terkait dengan mereka.

Intuisi di Balik Proses Learning

Apa yang akan saya lakukan adalah menunjukkan pada dasarnya, intuisi di balik learning. Dan saya akan mulai dengan contoh pemain Persib. Jadi berikut adalah beberapa poin data tentang pemain Persib saat ini. Dan saya punya dua jenis posisi.

King Eze,                |190cm, 90kg, striker

Joni Bauman,        |189, 80kg, striker

Spaso,                     |185, 81kg, striker

Cristian gonzales  |187, 85 kg, striker

Sergio Van Dijk    |189, 89kg, strier

=========================

The Lord Atep     | 180cm, 70kg, sayap

Febri RX king      |, 170m, 70 kg, sayap

Pa Haji                   |, 172cm, 72kg,sayap

Gozali                    |, 165cm, 65kg, sayap

Zulham Zamrun | 168cm, 68kg,sayap

==========================

Saya punya sriker, dan saya punya sayap. Dan masing-masing hanya diberi label dengan nama, tinggi dan beratnya.

Misalkan masing-masing lima.
Jika saya memplotnya pada plot dua dimensi, inilah yang saya dapatkan.

Saya akan mengelompokan menjadi dua bagian. Lalu apa karakteristik pemain yg membedakan sehingga pemain tsb di kelompok 1 atau 2?

Dalam kasus yang tidak berlabel, yang saya miliki hanyalah serangkaian contoh. Jadi apa yang ingin saya lakukan
adalah memutuskan apa yang membuat dua pemain mirip dengan tujuan melihat dapatkah saya memisahkan ini
distribusi menjadi dua atau lebih kelompok.

“Serupa adalah ukuran jarak.”

Dikatakan bagaimana saya mengambil dua contoh dengan nilai atau fitur yang terkait, dan kita akan memutuskan seberapa jauh mereka? Dan dalam kasus yang tidak berlabel,
Cara sederhana untuk melakukannya adalah dengan mengatakan, jika saya tahu bahwa setidaknya ada k grup di sana – dalam hal ini, saya
akan memberi tahu Anda ada dua kelompok berbeda di sana – bagaimana saya bisa memutuskan cara terbaik untuk berkelompok
hal-hal bersama sehingga semua contoh dalam satu kelompok dekat satu sama lain.

Ada banyak cara untuk melakukannya. Saya akan tunjukkan satu. Ini cara yang sangat standar, dan itu
bekerja, pada dasarnya, sebagai berikut. Jika yang saya tahu adalah ada dua kelompok di sana, saya akan memulainya
hanya mengambil dua contoh sebagai contoh saya. Pilih mereka secara acak. Sebenarnya secara acak tidak
besar. Saya tidak ingin memilih terlalu dekat satu sama lain. Saya akan mencoba dan memilih mereka berjauhan.

Tetapi saya memilih dua contoh sebagai contoh saya. Dan untuk semua contoh lainnya dalam data pelatihan, saya
katakan yang mana yang paling dekat dengannya.
Apa yang akan saya coba dan lakukan adalah membuat cluster dengan properti yang jarak antar semua
contoh cluster itu kecil. Jarak rata-rata kecil. Dan lihat apakah saya dapat menemukannya
cluster yang mendapat jarak rata-rata untuk kedua cluster sekecil mungkin. Algoritma ini
bekerja dengan memilih dua contoh, mengelompokkan semua contoh lainnya hanya dengan mengatakan memasukkannya ke dalam
grup yang paling dekat dengan contoh itu.
Setelah saya mendapatkan kluster-kluster tersebut, saya akan menemukan elemen median

Dan perlakukan mereka sebagai contoh dan ulangi
proses.

Dan saya hanya akan melakukannya beberapa kali atau sampai saya tidak mendapatkan perubahan dalam
proses.

Jadi itu pengelompokan berdasarkan jarak.

Dan kita akan kembali ke jarak sedetik lagi.
Jadi, inilah yang akan dimiliki pemain sepakbola saya. Jika saya hanya melakukan ini berdasarkan berat, ada
garis pemisah alami.

Dan itu masuk akal. Baiklah? Ketiganya jelas berkerumun,
dan sekali lagi, itu hanya pada poros ini. Mereka semua ada di sini. Ketujuh orang ini berada di tempat yang berbeda.
Ada garis pemisah yang alami di sana. Jika saya melakukannya berdasarkan ketinggian, tidak sebersih itu.

Ini adalah
apa algoritma saya datang dengan sebagai garis pemisah terbaik di sini, yang berarti bahwa keempat, sekali lagi,
hanya berdasarkan sumbu ini berdekatan. Keenam ini berdekatan. Tapi itu hampir tidak sama
bersih.
Dan itu bagian dari masalah yang akan kita bahas adalah bagaimana cara menemukan cluster terbaik. Jika saya menggunakan tinggi keduanya
dan berat, saya mendapatkan itu, yang sebenarnya agak bagus, bukan?

Tiga kelompok itu bersama.
mereka dekat satu sama lain, dalam hal jarak di pesawat. Ketujuh itu masing-masing dekat
lain. Ada garis pemisah yang bagus dan alami di sini. Dan pada kenyataannya, itu memberi saya sebuah penggolong

 

Garis ini adalah garis yang berjarak sama antara pusat dari dua kelompok tersebut. Artinya, pokoknya apa saja
sepanjang garis ini adalah jarak yang sama ke pusat kelompok itu seperti halnya dengan kelompok itu.
Dan contoh baru apa pun, jika itu di atas garis, saya akan mengatakan dapatkan label itu, jika di bawah garis,
mendapat label itu. Dalam sedetik, kita akan kembali untuk melihat bagaimana kita mengukur jarak, tetapi
ide di sini cukup sederhana. Saya ingin menemukan pengelompokan dekat satu sama lain dan jauh dari
kelompok lain.
Sekarang anggaplah saya benar-benar tahu label pada pemain ini. Ini adalah penerima. Yaitu
para linemen.

Dan bagi Anda yang penggemar sepak bola, Anda bisa mengetahuinya, bukan? Yaitu
dua ujung yang ketat. Mereka jauh lebih besar. Saya pikir itu Bennett dan itu Gronk jika Anda benar-benar
penggemar berat Patriots. Tetapi itu adalah tujuan yang ketat, itu adalah penerima yang luas, dan itu akan datang
kembali sebentar, tetapi ada label.
Sekarang yang ingin saya lakukan adalah mengatakan, jika saya bisa mengambil keuntungan dari mengetahui label, bagaimana saya akan
bagilah kelompok-kelompok ini? Dan itu agak mudah dilihat. Ide dasar, dalam hal ini, adalah jika saya punya
diberi label grup dalam ruang fitur itu, yang ingin saya lakukan adalah menemukan bawah permukaan yang secara alami
membagi ruang itu. Sekarang bawah permukaan adalah kata yang mewah. Dikatakan, dalam kasus dua dimensi, saya
ingin tahu apa baris terbaik, jika saya dapat menemukan satu baris, yang memisahkan semua contoh
dengan satu label dari semua contoh label kedua.


Kita akan melihat bahwa, jika contoh dipisahkan dengan baik, ini mudah dilakukan, dan itu hebat. Tetapi dalam beberapa
kasus, itu akan menjadi lebih rumit karena beberapa contoh mungkin sangat dekat
satu sama lain. Dan itu akan menimbulkan masalah yang Anda lihat pada kuliah terakhir. Saya ingin menghindarinya
overfitting. Saya tidak ingin membuat permukaan yang sangat rumit untuk memisahkan hal-hal. Dan kita juga
mungkin harus menoleransi beberapa hal yang salah label, jika kita tidak bisa mengeluarkannya.
Dan seperti yang sudah Anda ketahui, dalam hal ini, dengan data berlabel, ada jalur pemasangan terbaik
disana. Siapa pun yang memiliki berat lebih dari 280 pound akan menjadi gelandang hebat. Siapa saja di bawah 280
pound lebih cenderung menjadi penerima. BAIK. Jadi saya punya dua cara berbeda untuk mencoba berpikir
tentang melakukan pelabelan ini. Aku akan kembali pada mereka berdua sebentar lagi.
Sekarang anggaplah saya menambahkan beberapa data baru. Saya ingin memberi label contoh baru. Sekarang ini sebenarnya
pemain dari posisi yang berbeda. Ini adalah punggung berjalan. Tapi saya katakan, yang saya tahu hanyalah penerima
dan linemen. Saya mendapatkan dua poin data baru ini.

Saya ingin tahu, apakah mereka lebih cenderung menjadi
penerima atau pelaut? Dan ada data untuk dua pria ini. Jadi jika saya kembali ke sekarang
merencanakan mereka, oh Anda perhatikan salah satu masalah

Jadi ada linemen saya, yang merah adalah penerima saya, dua titik hitam adalah dua punggung berjalan.
Dan perhatikan di sini. Akan sangat sulit untuk memisahkan kedua contoh itu dari satu
lain. Mereka begitu dekat satu sama lain. Dan itu akan menjadi salah satu hal yang harus kita lakukan
menjualkan. Tetapi jika saya berpikir tentang menggunakan apa yang saya pelajari sebagai pengklasifikasi dengan data yang tidak berlabel, di sana
dua kelompok saya. Sekarang Anda lihat, oh, saya punya contoh yang menarik. Contoh baru ini saya
akan mengatakan jelas lebih seperti penerima daripada gelandang. Tapi yang di sana, tidak jelas.

Hampir
tepatnya terletak di sepanjang garis pemisah antara dua kelompok itu.
Dan saya akan mengatakan, saya ingin memikirkan kembali pengelompokan atau saya ingin mengatakan, Anda tahu? Seperti saya
tahu, mungkin tidak ada dua kelompok di sini. Mungkin ada tiga. Dan saya ingin mengklasifikasikan
mereka sedikit berbeda. Jadi saya akan kembali ke sana. Di sisi lain, jika saya menggunakan label
data, ada garis pemisah saya. Ini sangat mudah. Kedua contoh baru itu jelas
di bawah garis pemisah. Mereka jelas contoh yang saya akan kategorikan sebagai lebih suka
penerima daripada mereka seperti linemen.
Dan saya tahu ini adalah contoh sepakbola. Jika Anda tidak menyukai sepakbola, pilih contoh lain. Tapi kamu mengerti
pengertian mengapa saya bisa menggunakan data dalam case berlabel dan case yang tidak berlabel untuk muncul
berbagai cara membangun kluster. Jadi apa yang akan kita lakukan selama 2 dan 1/2 berikutnya
kuliah adalah melihat bagaimana kita bisa menulis kode untuk belajar cara memisahkan hal-hal?
Kita akan mempelajari model berdasarkan data yang tidak berlabel. Itu sebabnya saya tidak tahu
apa labelnya, dengan hanya mencoba menemukan cara untuk mengelompokkan hal-hal yang berdekatan, dan kemudian
gunakan cluster untuk menetapkan label ke data baru. Dan kita akan belajar model dengan melihat
memberi label data dan melihat bagaimana cara terbaik kita menemukan cara memisahkan dengan garis atau a
pesawat atau kumpulan garis, contoh dari satu kelompok, dari contoh kelompok lain.
Dengan pengakuan bahwa kami ingin menghindari overfitting, kami tidak ingin membuat yang benar-benar
sistem yang rumit. Dan sebagai konsekuensinya, kita harus melakukan beberapa pertukaran
antara apa yang kita sebut positif palsu dan negatif palsu. Tapi penggolong yang dihasilkan kemudian bisa
beri label data baru dengan hanya memutuskan di mana Anda berada sehubungan dengan garis pemisah itu.
Jadi inilah yang akan Anda lihat selama 2 dan 1/2 kuliah berikutnya. Setiap mesin belajar
Metode memiliki lima komponen penting. Kita perlu memutuskan apa data pelatihan, dan bagaimana
apakah kita akan mengevaluasi keberhasilan sistem itu. Kami telah melihat beberapa contoh
bahwa. Kita perlu memutuskan bagaimana kita akan mewakili setiap contoh yang kita berikan kepada saya

 

Saya kebetulan memilih tinggi dan berat badan untuk pemain sepak bola. Tapi saya mungkin lebih baik
untuk memilih kecepatan rata-rata atau, saya tidak tahu, panjang lengan, sesuatu yang lain. Bagaimana saya mencari tahu apa
adalah fitur yang tepat. Dan terkait dengan itu, bagaimana cara mengukur jarak di antara mereka
fitur? Bagaimana cara saya memutuskan apa yang dekat dan apa yang tidak dekat? Mungkin harus berbeda, masuk
segi berat versus tinggi, misalnya. Saya perlu membuat keputusan itu.
Dan itu adalah dua hal yang akan kami tunjukkan kepada Anda contoh hari ini, bagaimana cara menjalaninya
bahwa. Mulai minggu depan, Profesor Guttag akan menunjukkan kepada Anda bagaimana Anda mengambilnya dan
sebenarnya mulai membangun versi yang lebih rinci dari pengukuran clustering, mengukur kemiripan dengan
temukan fungsi objektif yang ingin Anda perkecil untuk memutuskan cluster mana yang terbaik untuk digunakan.
Lalu apa metode optimasi terbaik yang ingin Anda gunakan untuk mempelajari model itu.
Jadi mari kita mulai membicarakan fitur. Saya punya serangkaian contoh, berlabel atau tidak. Saya perlu memutuskan
ada apa dengan contoh-contoh yang berguna untuk digunakan ketika saya ingin memutuskan apa yang dekat
hal lain atau tidak. Dan salah satu masalahnya adalah, jika itu benar-benar mudah, itu akan sangat mudah.
Fitur tidak selalu menangkap apa yang Anda inginkan. Saya akan mengulangi analogi sepakbola itu, tapi
mengapa saya memilih tinggi dan berat badan. Karena itu mudah ditemukan.
Anda tahu, jika Anda bekerja untuk New England Patriots, apa hal yang benar-benar Anda cari
ketika Anda bertanya, apa fitur yang tepat? Mungkin kombinasi beberapa hal lainnya.
Jadi Anda, sebagai desainer, harus mengatakan fitur apa saja yang ingin saya gunakan. Kutipan itu, oleh
cara, adalah dari salah satu ahli statistik besar abad ke-20, yang saya pikir menangkapnya dengan baik.
Jadi rekayasa fitur, saat Anda, sebagai programmer, turun untuk memutuskan apa saja
fitur yang ingin saya ukur dalam vektor yang akan saya kumpulkan, dan bagaimana saya memutuskannya
cara relatif untuk berat itu? Jadi John, dan Ana, dan aku bisa membuat pekerjaan kami sebutan ini benar-benar
mudah jika kita sudah duduk di awal istilah dan berkata, Anda tahu, kami sudah mengajarkan ini
tentu saja berkali-kali. Kami punya data dari, saya tidak tahu, John, ribuan siswa, mungkin
lebih dari waktu ini. Mari kita membangun algoritma pembelajaran kecil yang mengambil satu set data dan prediksi
nilai akhir Anda.
Anda tidak harus datang ke kelas, tidak harus melalui semua masalah, karena kita akan adil
prediksi nilai akhir Anda. Bukankah itu menyenangkan? Jadikan pekerjaan kami sedikit lebih mudah, dan Anda dapat atau
mungkin tidak menyukai gagasan itu. Tapi saya bisa memikirkan memprediksi nilai itu? Sekarang mengapa saya mengatakan ini
contoh. Saya mencoba melihat apakah saya bisa mendapatkan beberapa senyuman. Saya melihat beberapa dari mereka di sana.
Tapi pikirkan fitur-fiturnya

 

Apa yang saya ukur? Sebenarnya, saya akan meletakkan ini pada John karena ini miliknya. Apa yang akan dia ukur? Yah, IPK mungkin bukan prediktor kinerja yang buruk. Kamu
lakukan dengan baik di kelas lain, Anda cenderung berhasil di kelas ini.
Saya akan menggunakan ini dengan sangat hati-hati. Pengalaman pemrograman sebelumnya setidaknya merupakan prediktor,
tapi itu bukan prediktor yang sempurna. Anda yang belum memprogram sebelumnya, di kelas ini,
Anda masih dapat melakukannya dengan sangat baik di kelas ini. Tapi itu indikasi bahwa Anda pernah melihat yang lain
bahasa pemrograman.
Di sisi lain, saya tidak percaya pada astrologi. Jadi saya tidak berpikir bulan di mana Anda dilahirkan,
tanda astrologi di mana Anda dilahirkan mungkin ada hubungannya dengan seberapa baik
Anda akan memprogram. Saya ragu bahwa warna mata ada hubungannya dengan seberapa baik Anda memprogram. Anda mendapatkan
ide. Beberapa fitur penting, yang lain tidak.
Sekarang saya bisa melempar semua fitur dan berharap bahwa algoritma pembelajaran mesin macam
keluar dari yang ingin disimpannya dari yang tidak. Tetapi saya mengingatkan Anda tentang gagasan overfitting. Jika saya
lakukan itu, ada bahaya bahwa itu akan menemukan beberapa korelasi antara bulan kelahiran, warna mata,
dan IPK.
Dan itu akan mengarah pada kesimpulan yang benar-benar tidak kita sukai. Omong-omong, kalau-kalau Anda
khawatir, saya dapat meyakinkan Anda bahwa Stu Schmill di dekan departemen penerimaan tidak menggunakan
pembelajaran mesin untuk menjemputmu. Dia benar-benar melihat banyak hal karena tidak
mudah untuk menggantikannya dengan mesin – belum.
Baiklah. Jadi yang dikatakan adalah kita perlu memikirkan bagaimana cara memilih fitur. Dan sebagian besar,
apa yang kami coba lakukan adalah memaksimalkan sesuatu yang disebut rasio sinyal terhadap noise. Maksimalkan
fitur-fitur yang membawa sebagian besar informasi, dan menghapus yang tidak. Jadi saya mau
menunjukkan kepada Anda contoh bagaimana Anda berpikir tentang ini. Saya ingin memberi label reptil. aku ingin datang
dengan cara pelabelan hewan sebagai, apakah mereka reptil atau bukan.
Dan saya memberi Anda satu contoh. Dengan satu contoh, Anda tidak bisa berbuat banyak. Tapi dari ini
contoh, saya tahu bahwa seekor kobra, bertelur, memiliki sisik, beracun, berdarah dingin, memiliki
tidak ada kaki, dan itu adalah reptil. Jadi saya bisa mengatakan model reptil saya baik-baik saja, saya tidak yakin. Bukan saya
belum punya cukup data.
Tetapi jika saya memberi Anda contoh kedua, dan itu juga bertelur, memiliki sisik,
beracun, berdarah dingin, tanpa kaki. Ada model saya, bukan? Model yang masuk akal,
apakah saya mendesainnya atau algoritma pembelajaran mesin akan melakukannya, jika semua ini benar

 

beri label sebagai reptil. BAIK?
Dan sekarang aku memberimu boa constrictor. Ah. Itu reptil. Tetapi tidak sesuai dengan model. Dan masuk
khususnya, itu tidak bertelur, dan itu tidak beracun. Jadi saya harus memperbaiki model. Atau
algoritma harus memperbaiki model. Dan ini, saya ingin mengingatkan Anda, sedang melihat fitur-fiturnya.
Jadi saya mulai dengan lima fitur. Ini tidak cocok.
Jadi mungkin yang harus saya lakukan adalah menguranginya. Saya akan melihat skala. Saya akan melihat dingin
berdarah. Saya akan melihat kaki. Itu menangkap ketiga contoh. Sekali lagi, jika Anda memikirkannya
ini dalam hal pengelompokan, ketiganya akan cocok dengan itu.
BAIK. Sekarang saya beri Anda contoh lain – ayam. Saya tidak berpikir itu reptil. Bahkan saya cukup yakin
itu bukan reptil. Dan masih cocok dengan model ini, kan? Karena, sementara itu memiliki skala, yang Anda
mungkin atau tidak menyadari, itu tidak berdarah dingin, dan memiliki kaki. Jadi itu contoh negatifnya
memperkuat model. Kedengarannya bagus. Dan sekarang saya akan memberi Anda buaya. Itu reptil. Dan oh
fudge, kan? Itu tidak memuaskan model. Karena sementara itu memiliki skala dan dingin
berdarah, ia memiliki kaki.
Saya hampir selesai dengan contohnya. Tapi Anda mengerti intinya. Sekali lagi, saya harus memikirkan bagaimana caranya
Saya memperbaiki ini. Dan saya bisa dengan mengatakan, baiklah. Mari kita membuatnya sedikit lebih rumit – memiliki skala,
berdarah dingin, 0 atau empat kaki – saya akan mengatakan itu adalah reptil. Aku akan memberimu katak panah. Tidak a
reptil, itu amfibi. Dan itu bagus karena masih memuaskan ini. Jadi ini sebuah contoh
di luar gugusan yang mengatakan tidak ada sisik, tidak berdarah dingin, tetapi kebetulan memiliki empat kaki. Nya
bukan reptil. Itu bagus.
Dan kemudian aku memberimu– Aku harus memberimu python, kan? Maksudku, harus ada python di
sini. Oh ayolah. Setidaknya tumbuh pada saya ketika saya mengatakan itu. Harus ada python di sini. Dan saya
memberi Anda itu dan salmon. Dan sekarang saya dalam masalah. Karena lihat sisik, lihat dingin
berdarah, lihat kaki. Saya tidak bisa memisahkan mereka. Pada fitur-fitur itu, tidak ada cara untuk muncul
dengan cara yang dengan benar akan mengatakan bahwa python adalah reptil dan salmon tidak. Dan sebagainya
tidak ada cara mudah untuk menambahkan aturan itu.
Dan mungkin hal terbaik saya adalah kembali ke dua fitur, skala dan darah dingin.
Dan pada dasarnya mengatakan, jika sesuatu memiliki sisik dan berdarah dingin, saya akan menyebutnya reptil. Jika
tidak memiliki keduanya, saya akan mengatakan itu bukan reptil. Itu tidak akan sempurna. Itu akan terjadi
salah memberi label salmon. Tapi saya sudah membuat pilihan desain di sini yang penting. Dan itu
pilihan desain adalah bahwa saya tidak akan memiliki negatif palsu

 

Artinya adalah tidak akan ada contoh sesuatu yang bukan reptil yang akan saya sebut reptil. Saya mungkin memiliki beberapa kesalahan positif. Jadi saya melakukan itu dengan cara yang salah. Seorang penipu mengatakan, segala sesuatu yang bukan reptil saya akan mengkategorikan arah itu. Saya mungkin memiliki positif palsu, dalam hal itu, saya mungkin memiliki beberapa hal yang saya keliru akan label sebagai reptil. Dan khususnya, salmon akan menjadi contoh dari itu. Perdagangan ini dari positif palsu dan negatif palsu adalah sesuatu yang kami khawatir, seperti berpikir tentang itu. Karena dalam banyak kasus, tidak ada cara yang sempurna untuk memisahkan data. Dan jika Anda mengingat kembali contoh New England Patriots saya, bahwa berlari kembali dan penerima yang lebih luas begitu berdekatan dalam hal tinggi dan berat, tidak mungkin saya bisa memisahkan mereka. Dan saya hanya harus mau memutuskan berapa banyak false positive atau falsenegative yang ingin saya toleransi. Setelah saya menemukan fitur apa yang harus digunakan, mana yang baik, maka saya harus memutuskan tentang bantuan. Bagaimana cara membandingkan dua vektor fitur? Saya akan mengatakan vektor karena mungkin ada beberapa dimensi untuk itu. Bagaimana saya memutuskan cara membandingkannya? Karena saya ingin menggunakan jarak untuk mencari tahu bagaimana mengelompokkan hal-hal bersama atau bagaimana menemukan garis pemisah yang memisahkan hal-hal. Jadi salah satu hal yang harus saya putuskan adalah fitur mana. Saya juga harus memutuskan jarak. Dan akhirnya, saya mungkin ingin memutuskan bagaimana menimbang kepentingan relatif dari berbagai dimensi dalam vektor fitur. Beberapa mungkin lebih berharga daripada yang lain dalam membuat keputusan itu. Dan saya ingin menunjukkan kepada Anda sebuah contoh tentang hal itu. Jadi mari kita kembali ke binatang saya. Saya mulai dengan vektor fitur yang sebenarnya memiliki lima dimensi untuk itu. Itu bertelur, berdarah dingin, memiliki sisik, saya lupa apa yang lainnya, dan jumlah kaki. Jadi salah satu cara saya bisa memikirkan ini adalah mengatakan saya punya empat fitur biner dan satu fitur integer yang terkait dengan masing-masing hewan. Dan satu cara untuk belajar memisahkan reptil dari non reptil adalah dengan mengukur jarak antara pasangan contoh dan menggunakan jarak itu untuk memutuskan apa yang dekat satu sama lain dan apa yang tidak. Dan seperti yang telah kita katakan sebelumnya, itu akan digunakan untuk mengelompokkan hal-hal atau untuk menemukan permukaan classifier yang memisahkan mereka. Jadi, inilah cara sederhana untuk melakukannya. Untuk masing-masing contoh ini, saya akan membiarkan benar menjadi 1, salah menjadi 0. Jadi empat yang pertama adalah 0s atau 1s. Dan yang terakhir adalah jumlah kaki. Dan sekarang saya bisa mengatakan, baiklah. Bagaimana cara mengukur jarak antara hewan atau hal lain, tetapi vektor fitur semacam ini

 

Di sini, kita akan menggunakan sesuatu yang disebut Metrik Minkowski atau perbedaan Minkowski.
Diberi dua vektor dan kekuatan, p, kita pada dasarnya mengambil nilai absolut dari perbedaan
antara masing-masing komponen vektor, naikkan ke kekuatan p-th, ambil jumlah, dan
ambil rute ke-p itu. Jadi mari kita lakukan dua contoh nyata. Jika p sama dengan 1, saya hanya
mengukur jarak absolut antara setiap komponen, menjumlahkannya, dan itu milik saya
jarak. Ini disebut metrik Manhattan.
Yang Anda lihat lebih banyak, yang kita lihat terakhir kali, jika p sama dengan 2, ini Euclidean
jarak, kan? Ini adalah jumlah kuadrat dari perbedaan komponen. Ambil saja
akar pangkat dua. Ambil akar kuadrat karena membuatnya memiliki sifat tertentu dari kejauhan.
Itu jarak Euclidean. Jadi sekarang jika saya ingin mengukur perbedaan antara keduanya,
ini pertanyaannya. Apakah lingkaran ini lebih dekat ke bintang atau lebih dekat ke salib?
Sayangnya, saya meletakkan jawabannya di sini. Tapi itu berbeda, tergantung pada metrik yang saya gunakan. Kanan?
Jarak Euclidean, yah, itu kuadrat dari 2 kali 2, jadi sekitar 2,8. Dan itu tiga. Begitu
dalam hal hanya jarak standar di pesawat, kita akan mengatakan bahwa keduanya lebih dekat daripada
keduanya. Jarak Manhattan, mengapa disebut demikian? Karena Anda hanya bisa berjalan di sepanjang
jalan dan jalanan. Jarak Manhattan pada dasarnya akan mengatakan ini adalah satu, dua, tiga, empat
unit jauh. Ini satu, dua, tiga unit jauhnya.
Dan di bawah jarak Manhattan, ini lebih dekat, pasangan ini lebih dekat dari pasangan itu. Sekarang
Anda terbiasa berpikir Euclidean. Kami akan menggunakannya. Tetapi ini akan menjadi penting
ketika kita berpikir tentang bagaimana kita membandingkan jarak antara bagian-bagian yang berbeda ini. Begitu
biasanya, kami akan menggunakan Euclidean. Kita akan melihat Manhattan sebenarnya memiliki beberapa nilai. Jadi jika saya pergi
kembali ke tiga contoh saya – anak laki-laki, itu slide yang kotor, bukan? Tapi ini dia– ular berbisa,
boa constrictor, dan katak panah. Ada representasi.
Saya bisa bertanya, berapa jarak di antara mereka? Dalam selebaran untuk hari ini, kami telah memberi Anda sedikit
sepotong kode yang akan melakukan itu. Dan jika saya benar-benar menjalankannya, saya mendapatkan, sebenarnya, sedikit menyenangkan
hasil. Berikut adalah jarak antara vektor-vektor tersebut menggunakan metrik Euclidean. saya akan
kembali ke mereka. Tapi Anda bisa melihat dua ular itu, baik, cukup dekat dengan masing-masing
lain. Padahal, katak panah agak jauh dari itu. Bagus kan? Itu bagus
pemisahan yang mengatakan ada perbedaan antara keduanya.
BAIK. Sekarang saya melempar buaya. Kedengarannya seperti game Dungeons & Dragons

 

Saya melempar buaya, dan saya ingin melakukan perbandingan yang sama. Dan saya tidak mendapatkan hasil yang hampir sama baiknya.
Karena sekarang dikatakan, seperti sebelumnya, kedua ular itu saling berdekatan. Tetapi dikatakan bahwa
katak panah dan buaya lebih dekat, di bawah pengukuran ini, daripada salah satu dari mereka
yang lain. Dan untuk mengingatkan Anda, benar, buaya dan dua ular yang saya ingin dekat dengannya
satu sama lain dan jauh dari katak. Karena saya mencoba mengklasifikasikan reptil versus
tidak.
Jadi apa yang terjadi di sini? Nah, ini adalah tempat di mana rekayasa fitur akan menjadi
penting. Karena pada kenyataannya, buaya berbeda dari katak dalam tiga fitur. Dan hanya dalam dua
fitur dari, katakanlah, boa constrictor. Tetapi salah satu fitur itu adalah jumlah kaki. Dan
di sana, sementara pada sumbu biner, perbedaannya adalah antara 0 dan 1, di sini bisa antara 0
dan 4. Jadi itu menimbang jarak jauh lebih banyak dari yang kita inginkan. Dimensi kaki adalah
terlalu besar, jika Anda suka.
Bagaimana saya memperbaikinya? Ini sebenarnya, saya berpendapat, tempat alami untuk menggunakan jarak Manhattan.
Mengapa saya harus berpikir bahwa perbedaan dalam jumlah kaki atau jumlah perbedaan kaki adalah
lebih penting daripada apakah memiliki timbangan atau tidak? Kenapa saya harus memikirkan itu mengukur itu
jarak Euclidean-bijaksana masuk akal? Mereka adalah pengukuran yang sangat berbeda.
Dan faktanya, saya tidak akan melakukannya, tetapi jika saya menjalankan metrik Manhattan untuk hal ini, itu akan menjadi buaya
lebih dekat ke ular, tepatnya karena berbeda hanya dalam dua fitur, bukan tiga.
Cara lain saya bisa memperbaikinya adalah dengan mengatakan saya membiarkan terlalu banyak berat dikaitkan dengan
perbedaan jumlah kaki. Jadi mari kita menjadikannya fitur biner. Entah itu tidak punya
kaki atau memang memiliki kaki. Jalankan klasifikasi yang sama. Dan sekarang Anda melihat ular dan
buaya semua dekat satu sama lain. Sedangkan katak panah, tidak jauh seperti sebelumnya,
tapi ada pemisahan yang cukup alami, terutama menggunakan angka itu di antara mereka.
Apa maksud saya? Pilihan fitur penting. Melempar terlalu banyak fitur mungkin, pada kenyataannya, memberi
kami beberapa overfitting. Dan khususnya, menentukan bobot yang saya inginkan pada fitur tersebut memiliki
dampak nyata. Dan Anda, sebagai perancang atau pemrogram, memiliki banyak pengaruh dalam cara Anda berpikir
tentang menggunakan itu. Jadi rekayasa fitur sangat penting. Bagaimana Anda memilih fitur, apa yang Anda
Penggunaan akan menjadi penting. BAIK.
Bagian terakhir dari ini adalah kita akan melihat beberapa contoh di mana kami memberi Anda data,
mendapat fitur yang terkait dengan mereka. Kita akan, dalam beberapa kasus mereka diberi label, di lain
kasus tidak. Dan kami tahu bagaimana sekarang untuk berpikir tentang bagaimana kami mengukur jarak antara

 

Anda mungkin tidak bermaksud mengatakan bobot fitur. Anda bermaksud mengatakan bagaimana mereka diskalakan.
ERIC GRIMSON: Maaf. Timbangan dan bukan … terima kasih, John. Tidak saya lakukan. Saya ambil itu kembali. aku tidak bermaksud
katakanlah bobot fitur. Saya bermaksud mengatakan skala dimensi akan menjadi penting
sini. Terima kasih, atas amplifikasi dan koreksi. Anda benar sekali.
JOHN GUTTAG: Bobot, kami gunakan dengan cara yang berbeda, seperti yang akan kita lihat nanti.
ERIC GRIMSON: Dan kita akan melihat lain kali mengapa kita akan menggunakan bobot dengan cara yang berbeda. Begitu
ulangi itu. Blokir hal itu dari pikiran Anda. Kita akan berbicara tentang skala dan skala pada
sumbu sebagai hal yang penting di sini. Dan kami sudah mengatakan kami akan melihat dua jenis berbeda
belajar, berlabel dan tidak berlabel, mengelompokkan dan mengklasifikasikan. Dan saya ingin selesai dengan
menunjukkan kepada Anda dua contoh itu. Bagaimana kami akan memikirkannya secara algoritmik, dan kami akan melakukannya
lihat mereka lebih detail lain kali.
Ketika kita melihatnya, saya ingin mengingatkan Anda tentang hal-hal yang penting bagi Anda. Bagaimana saya
mengukur jarak antar contoh? Apa cara yang tepat untuk mendesain itu? Apa yang benar?
set fitur untuk digunakan dalam vektor itu? Lalu, kendala apa yang ingin saya pakai pada model?
Dalam hal data tidak berlabel, bagaimana saya memutuskan berapa banyak cluster yang ingin saya miliki? Karena saya
dapat memberi Anda cara yang sangat mudah untuk melakukan pengelompokan. Jika saya memberi Anda 100 contoh, saya katakan membangun 100
kelompok. Setiap contoh adalah clusternya sendiri.
Jaraknya sangat bagus. Ini benar-benar dekat dengan dirinya sendiri, tetapi melakukan pekerjaan yang buruk untuk melabeli sesuatu di atasnya.
Jadi saya harus memikirkan, bagaimana saya memutuskan berapa banyak cluster, apa kompleksitasnya
memisahkan layanan? Bagaimana saya pada dasarnya menghindari masalah overfitting, yang saya tidak mau
memiliki? Jadi hanya untuk mengingatkan Anda, kami telah melihat versi kecil ini, metode pengelompokan.
Ini adalah cara standar untuk melakukannya, cukup mengulangi apa yang kami miliki pada slide sebelumnya.
Jika saya ingin mengelompokkannya menjadi grup, saya mulai dengan mengatakan berapa banyak cluster yang saya cari? Pilih sebuah
contoh saya ambil sebagai representasi awal saya. Untuk setiap contoh lainnya dalam data pelatihan, letakkan
ke kluster terdekat. Setelah saya mendapatkannya, cari median, ulangi prosesnya. Dan itu mengarah ke
pemisahan itu. Sekarang setelah saya mendapatkannya, saya ingin memvalidasinya. Dan sebenarnya, saya seharusnya mengatakan ini
lebih baik. Dua kelompok itu datang tanpa melihat kedua titik hitam itu.
Setelah saya memasukkan titik hitam, saya ingin memvalidasi, seberapa baik ini benar-benar bekerja? Dan itu
Contohnya benar-benar tidak terlalu menggembirakan. Terlalu dekat. Jadi itulah tempat yang wajar untuk dikatakan

 

OK, bagaimana jika saya melakukan ini dengan tiga cluster? Itu yang saya dapatkan. Saya suka itu. Baiklah? Itu memiliki
cluster yang sangat bagus di sini. Fakta bahwa algoritme tidak mengetahui pelabelan tidak relevan.
Ada kelompok lima yang bagus. Ada kelompok empat yang bagus. Dan ada pengelompokan yang bagus
tiga di antaranya.
Dan faktanya, jika saya melihat jarak rata-rata antara contoh di masing-masing kelompok ini, itu
jauh lebih ketat daripada dalam contoh itu. Dan itu mengarah pada, kemudian, pertanyaan saya harus melihat
selama empat cluster? Mohon pertanyaan.
HADIRIN: Apakah tumpang tindih antara kedua kelompok itu tidak menjadi masalah?
ERIC GRIMSON: Ya. Pertanyaannya adalah, apakah tumpang tindih antara kedua kelompok itu menjadi masalah? Tidak, saya hanya menggambar di sini
jadi saya bisa membiarkan Anda melihat di mana potongan-potongan itu. Tetapi sebenarnya, jika Anda suka, pusatnya ada di sana. Itu
tiga poin semua lebih dekat ke pusat itu daripada mereka ke pusat itu. Jadi fakta bahwa mereka
tumpang tindih adalah pertanyaan yang bagus. Itu hanya cara saya menggambar mereka. Saya harus benar-benar menggambar
ini, bukan sebagai lingkaran, tetapi karena permukaan sedikit lebih berbelit-belit. BAIK? Setelah melakukan tiga, saya
dapatkah saya mencari empat?
Nah, poin-poin di sana, seperti yang sudah saya katakan, adalah contoh di mana akan sulit
untuk memisahkan mereka. Dan saya tidak ingin berpakaian berlebihan. Karena satu-satunya cara untuk memisahkan mereka
akan datang dengan cluster yang benar-benar berbelit-belit, yang saya tidak suka. Baiklah? Biarkan saya
selesai dengan menunjukkan kepada Anda satu contoh lain dari arah lain. Yaitu, misalkan saya memberi
Anda memberi label contoh.
Jadi sekali lagi, tujuannya adalah saya punya fitur yang terkait dengan setiap contoh. Mereka akan memilikinya
beberapa dimensi di atasnya. Tapi saya juga tahu label yang terkait dengan mereka. Dan saya ingin belajar
apa cara terbaik untuk membuat aturan yang akan membiarkan saya mengambil contoh baru dan menetapkan
mereka ke grup yang tepat. Sejumlah cara untuk melakukan ini. Anda bisa mengatakan saya sedang mencari
permukaan paling sederhana yang akan memisahkan contoh-contoh itu. Dalam kasus sepak bola saya yang ada di pesawat,
apa garis terbaik yang memisahkan mereka, yang ternyata mudah.
Saya mungkin mencari permukaan yang lebih rumit. Dan kita akan melihat contohnya sebentar lagi
di mana mungkin itu adalah urutan segmen garis yang memisahkannya. Karena tidak ada
hanya satu baris yang melakukan pemisahan. Seperti sebelumnya, saya ingin berhati-hati. Jika saya membuatnya juga
rumit, saya mungkin mendapatkan pemisah yang benar-benar bagus, tapi saya tidak cocok dengan datanya. Dan Anda akan melakukannya
lihat lain kali. Aku hanya akan menyorotnya padanya

 

Ada cara ketiga, yang akan mengarah ke hasil yang hampir sama yang disebut k tetangga terdekat.
Dan idenya di sini adalah saya punya satu set data berlabel. Dan apa yang akan saya lakukan adalah, untuk setiap hal baru
contoh, katakan temukan k, ucapkan lima contoh berlabel terdekat. Dan mengambil suara. Jika 3 dari 5 atau
4 dari 5 atau 5 dari 5 label itu sama, saya akan mengatakan itu bagian dari grup itu.
Dan jika saya memiliki kurang dari itu, saya akan membiarkannya sebagai tidak rahasia. Dan itu cara yang bagus
sebenarnya berpikir tentang cara mempelajarinya.
Dan biarkan saya menyelesaikannya dengan menunjukkan sebuah contoh kepada Anda. Sekarang saya tidak akan menggunakan pemain sepakbola yang satu ini.
Saya akan menggunakan contoh yang berbeda. Saya akan memberi Anda beberapa data pemungutan suara. Saya pikir ini sebenarnya
data simulasi. Tetapi ini adalah satu set pemilih di Amerika Serikat dengan preferensi mereka. Mereka
cenderung memilih Partai Republik. Mereka cenderung memilih Demokrat. Dan kedua kategori tersebut adalah usia mereka
dan seberapa jauh mereka tinggal dari Boston. Apakah itu relevan atau tidak, saya tidak tahu, tapi
mereka hanya dua hal yang akan saya gunakan untuk mengklasifikasikan mereka. Dan saya ingin mengatakan, bagaimana saya akan cocok
kurva untuk memisahkan kedua kelas?
Saya akan menyimpan setengah data untuk diuji. Saya akan menggunakan setengah dari data untuk melatih. Jadi kalau ini milik saya
data pelatihan, bisa saya katakan apa garis terbaik yang memisahkan ini? Saya tidak tahu yang terbaik, tapi
berikut adalah dua contoh. Garis solid ini memiliki properti bahwa semua Demokrat berada di satu sisi.
Segala sesuatu di sisi lain adalah seorang Republikan, tetapi ada beberapa Republikan di sisi ini
garis. Saya tidak dapat menemukan garis yang sepenuhnya memisahkan ini, seperti yang saya lakukan dengan para pemain sepak bola.
Tetapi ada garis yang layak untuk memisahkan mereka.
Ini kandidat lain. Garis putus-putus itu memiliki properti yang di sisi kanan Anda punya–
anak laki-laki, saya tidak berpikir ini disengaja, John, benar – tetapi di sisi kanan, Anda punya hampir semua
Partai Republik. Tampaknya sangat tepat. Satu Demokrat, tapi ada yang cukup bagus
pemisahan di sana. Dan di sisi kiri, Anda memiliki campuran hal-hal. Tetapi sebagian besar Demokrat
berada di sisi kiri garis itu. Baiklah? Fakta bahwa kiri dan kanan berkorelasi dengan jarak
dari Boston sama sekali tidak relevan di sini. Tetapi memiliki pukulan yang bagus untuk itu.
JOHN GUTTAG: Relevan, tetapi tidak disengaja.
ERIC GRIMSON: Tapi tidak disengaja. Terima kasih. Baiklah. Jadi sekarang pertanyaannya adalah, bagaimana saya akan mengevaluasi ini?
Bagaimana cara saya memutuskan mana yang lebih baik? Dan saya hanya akan menunjukkan kepada Anda, dengan sangat cepat, beberapa
contoh. Yang pertama adalah melihat apa yang disebut matriks kebingungan. Apa artinya? Saya t
mengatakan untuk ini, salah satu dari pengklasifikasi ini misalnya, garis solid. Berikut prediksi,
berdasarkan garis solid apakah mereka akan lebih cenderung menjadi Demokrat atau Republik

 

Dan inilah label yang sebenarnya. Hal yang sama untuk garis putus-putus.
Dan diagonal itu penting karena itu adalah hasil yang diberi label dengan benar. Kanan? Saya t
dengan benar, dalam kasus garis padat, dapatkan semua pelabelan yang benar dari Demokrat. Itu mendapat setengah dari
Partai Republik benar. Tetapi memiliki beberapa tempat yang sebenarnya dari Partai Republik, tetapi label itu sebagai
Demokrat. Itu, kami ingin menjadi sangat besar. Dan pada kenyataannya, itu mengarah pada ukuran alami yang disebut
ketepatan. Yaitu, hanya untuk kembali ke hal itu, kita mengatakan bahwa ini adalah positif yang sebenarnya. Artinya, saya
menandainya sebagai contoh, dan memang benar.
Ini benar-benar negatif. Saya menandainya sebagai bukan contoh, dan sebenarnya tidak. Dan kemudian ini
adalah positif palsu. Saya menandainya sebagai contoh dan bukan, dan ini salah
negatif. Saya menandainya sebagai bukan contoh, dan itu benar. Dan cara mudah untuk mengukurnya adalah dengan
lihat label yang benar di atas semua label. Positif sejati dan negatif sejati, the
yang saya benar. Dan dalam hal itu, kedua model muncul dengan nilai 0,7.
Jadi mana yang lebih baik? Yah, saya harus memvalidasi itu. Dan saya akan melakukannya sebentar lagi
melihat data lain. Kita juga bisa bertanya, bisakah kita menemukan sesuatu dengan kesalahan pelatihan yang lebih sedikit? Ini
hanya mendapatkan 70% benar. Tidak hebat. Nah, ini adalah model yang lebih rumit. Dan di sinilah tempatnya
Anda mulai khawatir tentang overfitting. Sekarang apa yang saya lakukan, adalah saya datang dengan
urutan garis yang memisahkannya. Jadi segala sesuatu di atas garis ini, saya akan katakan adalah
Republik. Segala sesuatu di bawah garis ini, saya akan katakan adalah seorang Demokrat.
Jadi saya menghindari yang itu. Saya menghindari yang itu. Saya masih menangkap banyak hal yang sama.
Dan dalam hal ini, saya mendapatkan 12 positif sejati, 13 negatif sejati, dan hanya 5 positif palsu. Dan
itu agak baik. Anda dapat melihat 5. Ini lima yang merah di sana. Akurasinya adalah
0,833. Dan sekarang, jika saya menerapkannya pada data pengujian, saya mendapatkan hasil yang OK. Ia memiliki akurasi sekitar
0,6.
Saya dapat menggunakan ide ini untuk mencoba dan menggeneralisasi untuk mengatakan dapatkah saya menghasilkan model yang lebih baik. Dan
Anda akan melihatnya nanti. Mungkin ada cara lain di mana saya mengukur ini. Dan saya
ingin menggunakan ini sebagai contoh terakhir. Ukuran lain yang baik kita gunakan disebut PPV, Positif
Nilai Prediktif yaitu berapa banyak positif sebenarnya yang saya dapatkan dari semua hal yang saya
berlabel positif. Dan dalam model solid ini, di garis putus-putus, saya bisa mendapatkan nilai sekitar 0,57. Itu
model kompleks pada data pelatihan lebih baik. Dan kemudian data pengujian bahkan lebih kuat.
Dan akhirnya, dua contoh lainnya disebut sensitivitas dan spesifisitas. Sensitivitas pada dasarnya memberi tahu
Anda berapa persen yang saya sirip benar

 

Dan spesifisitas mengatakan berapa persen yang saya perbaiki dengan benar berapa persen yang saya temukan dengan benar. Dan spesifisitas mengatakan berapa persen yang saya lakukan dengan benar
menolak. Dan saya tunjukkan ini kepada Anda karena di sinilah trade-off masuk. Jika sensitivitasnya bagaimana
banyak yang saya label dengan benar dari yang saya label dengan benar dan salah label
negatif, berapa banyak yang saya label dengan benar sebagai jenis yang saya inginkan? saya bisa membuat
sensitivitas 1.
Memberi label segala hal adalah hal yang saya cari. Besar. Semuanya benar. Tapi kekhususannya akan
menjadi 0. Karena saya akan memiliki banyak hal yang salah diberi label. Saya bisa membuat spesifisitas 1,
tolak semuanya. Katakan apa-apa sebagai contoh. Negatif sejati menjadi 1, dan saya hebat
tempat di sana, tetapi sensitivitas saya menjadi 0. Saya mendapat trade-off. Ketika saya berpikir tentang mesin
algoritma pembelajaran yang saya gunakan dan pilihan saya untuk classifier itu, saya akan melihat trade off di mana
Saya dapat meningkatkan spesifisitas dengan biaya sensitivitas atau sebaliknya.
Dan Anda akan melihat teknik yang bagus yang disebut ROC atau Kurva Operator Penerima yang memberi Anda arti
bagaimana Anda ingin berurusan dengan itu. Dan dengan itu, kita akan bertemu lagi lain kali. Kami akan mengambil milikmu
pertanyaan off line jika Anda tidak keberatan, karena saya sudah kehabisan waktu. Tapi kita akan bertemu lagi lain kali
tempat Profesor Guttag akan menunjukkan kepada Anda contoh-contoh ini

Sumber : mit opencourseware

(under revision)

Baca Lagi Biar Pinter

About Riad Taufik LazwardiSweet

Lecturer of Mathematics at 1. Kalbis Institute | Managed by Binus (2018-now) 2. Telkom University (2017-2018) 3. UIN Bandung (2015-2018)

Follow Me

Leave a reply