March Madness: Presenting the analytics.b(rack)et!

March Madness: Presenting the analytics.b(rack)et!

Pertama, dua penafian BESAR.

Pengetahuan domain saya yang berkaitan dengan bola basket NCAA hampir nol. Itu bukan sesuatu yang pernah saya alami. Olahraga perguruan tinggi tidak memiliki resonansi budaya yang sama di Kanada seperti halnya olahraga profesional. Saya ingat menghadiri pertandingan sepak bola sekolah sebagai bagian dari orientasi mahasiswa baru di universitas saya. Ada beberapa ratus penggemar di tribun, dan sangat sedikit liputan media. Itu bukan sesuatu yang banyak orang pedulikan. Bagian terbaiknya adalah Prajurit Waterloo saya dihancurkan, seperti yang cenderung dilakukan oleh sekolah berat matematika / teknik, oleh saingan kami Wilfrid Laurier Golden Hawks dan bagian siswa Waterloo meneriakkan “tidak apa-apa, tidak apa-apa, Anda akan bekerja untuk kami beberapa hari!” Semua ini untuk mengatakan, ini adalah 100% data didorong, model tingkat tim yang tidak mempertimbangkan cedera, perubahan daftar, perubahan pembinaan, atau alasan lain mengapa kemampuan tim mungkin telah berubah selama musim. Jadi, saya tidak menyarankan menggunakan hasil ini secara membabi buta. Tujuan dari latihan ini adalah untuk membangun distribusi probabilitas untuk hasil turnamen. Jika Anda bermain di kumpulan braket, ini hanya memberi Anda setengah dari apa yang Anda butuhkan untuk menjadi sukses. Memperkirakan distribusi pick sesama pesaing Anda dan menggunakannya, bersama dengan ini, untuk membangun braket “Game Theory Optimal” (#GTO) penting dalam kumpulan braket tetapi bukan bagian dari apa yang saya lakukan. Hasil ini lebih langsung berlaku untuk taruhan; lebih khusus, untuk turnamen berjangka dan alat peraga.

Oke, sekarang kita sudah membicarakan tentang apa yang tidak bisa saya lakukan, mari masuk ke apa yang saya bisa. Sebuah tim bola basket NCAA memainkan sejumlah permainan yang relatif kecil dalam satu musim, dan beberapa dari permainan tersebut melawan lawan “cupcake” di mana hasilnya diketahui sebelumnya dengan hampir pasti dan dengan demikian memberikan sedikit informasi baru. Jadi, kami memiliki contoh yang bagus dari masalah “data kecil”.

Saat saya mengajar di Bayesian Sports Betting, cara yang bagus untuk menangani masalah “data kecil” adalah dengan menggunakan ide variabel laten. Variabel laten adalah sesuatu yang memiliki nilai prediktif tetapi tidak dapat diamati secara langsung dan hanya dapat diukur dengan metode yang berguna tetapi tidak sempurna. Contoh favorit saya untuk menggambarkan variabel laten adalah keterampilan dalam mengendarai mobil. Kita tahu bahwa keterampilan mengemudi adalah hal yang nyata, kita tahu bahwa orang yang berbeda memiliki tingkat keterampilan mengemudi yang berbeda dan kita tahu bahwa pengemudi yang kurang terampil memiliki kemungkinan kecelakaan yang lebih tinggi daripada pengemudi yang lebih terampil, semuanya sama. Sayangnya, menilai keterampilan mengemudi seseorang itu sulit – tidak ada rapor universal yang didapat semua pengemudi. (Kami semakin dekat dengan kenyataan itu dengan munculnya perangkat telematika kendaraan, tapi itu topik yang berbeda untuk hari yang berbeda!) Yang kami tahu adalah bahwa pengemudi yang lebih baik Cenderung memiliki catatan yang lebih bersih, baik dalam hal sejarah kecelakaan dan dalam ketentuan tilang karena ngebut atau pelanggaran lainnya. Tetapi langkah-langkah ini tidak sempurna – mungkin bagi pengemudi yang buruk untuk memiliki catatan yang bersih, atau bagi pengemudi yang hebat untuk memiliki catatan yang ternoda, melalui nasib baik atau buruk secara acak. Kami masih lebih baik menggunakan informasi daripada tidak menggunakannya, tetapi kami perlu menyadari keterbatasannya karena berkaitan dengan memungkinkan kami untuk “mempelajari” sifat sebenarnya dari variabel laten ini.

Yang membawa saya kembali ke bola basket NCAA. Ada tim elit, ada tim yang mengerikan, dan ada segalanya di antaranya. Namun, kemampuan sebenarnya dari tim bola basket adalah variabel laten – kita dapat mengukurnya secara tidak langsung melalui catatan menang-kalah tim, tetapi catatan itu terdiri dari campuran sifat asli tim dan varian acak yang membuat olahraga menjadi sangat tidak terduga. . Untuk model ini, saya akan mewakili variabel laten ini dengan memberi setiap tim peringkat antara 0 dan 1, mewakili probabilitas kemenangan tim tersebut di lapangan netral melawan lawan dengan peringkat rata-rata. Sekali lagi, peringkat setiap tim dapat diperkirakan dari data dan model tetapi tidak pernah dapat diketahui dengan pasti.

Pendekatan Bayesian untuk variabel laten dimulai dengan perkiraan, yang dikenal sebagai “prior”, dan kemudian ketika informasi baru masuk, gabungkan informasi sebelumnya dan informasi baru ke dalam perkiraan terbaru yang disebut “posterior”.

“Sebuah tim bermain dengan kisaran angka yang tidak terlalu besar, dan mereka akan melakukannya tahun demi tahun jika mereka memiliki pelatih yang sama. Karena program itu akan merekrut pemain yang sangat mirip, pelatih akan menjalankan hal-hal yang sangat mirip dari tahun ke tahun dan tim akan ditambah atau dikurangi 2 dari beberapa nomor, dan tidak lebih dari itu, dan itu cukup terukir di batu” – Handicapper Alan Boston, diwawancarai di Be Better Bettors Podcast, 5 Jan 2022 (tanda 12:57)

Diterjemahkan ke dalam istilah Bayesian, apa yang Alan katakan adalah bahwa setiap tim tertentu sebelumnya untuk musim tertentu harus dekat dengan posterior tim itu dari akhir musim sebelumnya. Saya mengambil ide itu dan menambahkan peringkat pramusim dari beberapa sumber publik untuk merumuskan perkiraan peringkat saya sebelumnya:

Prioritas kemudian diperbarui menggunakan rekor masing-masing tim 2021-22 untuk menang/kalah, margin kemenangan dan kekuatan jadwal untuk menghasilkan perkiraan berikut untuk perkiraan peringkat posterior:

Kami dapat melacak jalur masing-masing dari empat unggulan #1 kami dari pra-musim sebelumnya, melalui hasil senilai satu musim dan ke bagian belakang:

Hal yang menyenangkan tentang sistem penilaian ini adalah mudah untuk menghitung probabilitas tim mana pun mengalahkan tim lain mana pun di lapangan netral:

Peluang Tim A mengalahkan Tim B = Nilai Tim A x (1 – Peringkat Tim B) / [Team A rating x (1 – Team B rating) + Team B rating x (1 – Team A rating)]

Jadi kami memiliki braket, kami memiliki perkiraan peringkat posterior untuk setiap tim dan kami memiliki formula untuk mengubahnya menjadi probabilitas menang. Sepertinya yang harus kita lakukan adalah menjalankan 100.000 turnamen simulasi dan mengumpulkan hasilnya untuk mendapatkan peluang menang masing-masing tim. Inilah yang akan kita dapatkan jika kita melakukan itu:

Saya membayangkan ini adalah bagaimana hampir semua analis top mencari tahu tanda kurung mereka, tetapi dengan peringkat tim mereka sendiri di tempat saya. Dan ya, saya pikir peringkat saya lebih masuk akal secara matematis daripada peringkat mereka, tetapi mereka memiliki akses ke data yang lebih detail serta pengetahuan domain yang tidak saya miliki, jadi mungkin itu mencuci.

Tapi, ada lebih banyak cerita.

Ketika saya mengatakan bahwa perkiraan peringkat posterior Duke adalah 0,923, saya memilih kata-kata saya dengan sangat hati-hati. Ini bukan peringkat, ini perkiraan peringkat. Apa bedanya? Di turnamen seperti ini, banyak. Peringkat posterior Duke BISA 0,923. Itu juga bisa menjadi sesuatu yang lain. Kekuatan pemodelan Bayesian adalah bahwa ia mampu memperkirakan tidak hanya nilai parameter tetapi juga rentang yang disebut interval prediksi. Interval prediksi 80% saya untuk Duke adalah dari 0,869 hingga 0,962, artinya jika kita mensimulasikan 100 alam semesta paralel, di 20 alam semesta tersebut, peringkat tim yang sebenarnya akan berada di luar kisaran itu. Apa yang benar-benar perlu kami masukkan ke dalam model kami adalah ketidakpastian ganda – pertama kami mensimulasikan alam semesta tempat kami berada (yaitu peringkat sebenarnya setiap tim), kemudian kami mensimulasikan hasil turnamen di alam semesta itu. Varians parameter dan varians proses – perbedaan antara dua konsep ini dan pentingnya mereka dalam pemodelan untuk taruhan olahraga adalah salah satu topik yang dibahas secara rinci dalam kursus Taruhan Olahraga Bayesian saya.

Untuk memahami mengapa varians parameter sangat penting untuk March Madness, pertimbangkan Tim X, yang peringkatnya diketahui 0,90. Tim ini akan berada di peringkat #16 dan memiliki kemungkinan besar untuk mencapai Sweet 16 atau Elite 8 tetapi tidak lebih jauh. Sekarang, pertimbangkan Tim Y, yang peringkatnya diperkirakan 0,90 tetapi pada kenyataannya sama-sama mungkin menjadi 0,85 atau 0,95. Dibandingkan dengan Tim X, Tim Y akan memiliki kemungkinan yang lebih tinggi untuk memenangkan turnamen DAN kemungkinan yang lebih tinggi untuk tidak bertahan pada akhir pekan pertama. Jika saya bertaruh pada pemenang turnamen atau pemenang regional dan saya memperlakukan Tim Y seolah-olah mereka adalah Tim X, saya akan meremehkan probabilitas kemenangan mereka. Inilah mengapa penting untuk memperlakukan peringkat tim sebagai variabel (“stokastik” jika Anda suka) daripada tetap.

Menggabungkan estimasi peringkat posterior DENGAN ketidakpastian parameter, berikut adalah analytics.b(rack)et:

Selain pemenang regional dan turnamen, kita dapat menggunakan braket ini untuk menentukan harga beberapa properti turnamen umum yang melibatkan benih:

Semoga berhasil, nikmati permainannya dan semoga variansnya menguntungkan Anda!

Author: Gerald Williams