Pengujian A/B adalah metodologi yang umum digunakan di website untuk menguji fitur atau produk baru. Hal ini adalah proses membuat keputusan berbasis data untuk antarmuka pengguna, pemasaran, dan produk secara keseluruhan. Proses utamanya adalah membagi pengguna menjadi grup kontrol dan grup eksperimen. Kemudian berikan produk atau fitur yang ada ke grup kontrol dan produk baru ke grup eksperimen. Pengamatan dicatat tentang bagaimana kelompok kontrol dan kelompok eksperimen merespons dan keputusan dibuat berdasarkan perilaku atau respons mereka tentang versi mana yang lebih baik.
Tes A/B juga dapat disebut eksperimen terkontrol secara acak, eksperimen terkontrol, pengujian terpisah.
Apa yang Bisa Diuji?
Hal ini adalah keputusan yang sangat penting untuk dibuat. Apa yang harus diuji? Banyak hal yang bisa diuji. Misalnya, dapat menjalankan tes A/B pada banyak hal seperti gambar fitur, judul, subjudul, format, tata letak, gaya penulisan, warna tombol, pemosisian tombol, kinerja algoritme, dan banyak lagi di situs web. Google menjalankan eksperimen tentang bagaimana nuansa biru yang berbeda memengaruhi keterlibatan pengguna. Mereka menunjukkan nuansa biru yang berbeda kepada kelompok yang berbeda untuk memahami nuansa biru mana yang mendapatkan lebih banyak klik.
Ada beberapa perubahan yang tidak terlihat juga. Amazon melakukan percobaan pada waktu pemuatan dan menemukan bahwa setiap peningkatan waktu pemuatan 100ms mengurangi penjualan mereka sebesar 1%. Di sini waktu pemuatan adalah perubahan yang tidak terlihat.
Lima langkah pengujian A/B
Ini adalah lima langkah pengujian A/B:
Prasyarat
Desain Eksperimen
Menjalankan Eksperimen
Hasil untuk Keputusan
Pemantauan Pasca Peluncuran
Prasyarat
a. Mendefinisikan metrik utama: adalah Kriteria Evaluasi Keseluruhan yang harus diukur secara praktis. Dalam contoh Google, jika kita ingin menguji apakah nuansa perubahan biru mempengaruhi jumlah klik, maka metrik evaluasi adalah jumlah klik.
b. Perubahan harus mudah dilakukan: Sangat mudah untuk mengubah warna tombol atau menambahkan fitur baru. Tetapi jika variannya adalah desain situs web yang sama sekali baru, itu akan menjadi perubahan yang memakan waktu dan mahal. Jadi, varian harus menjadi elemen yang masuk akal.
c. Unit Pengacakan: Pengacakan jelas merupakan parameter penting dalam proses pengujian A/B. Misalnya, meluncurkan kursus matematika baru, lalu menguji kursus ini pada dua kelompok. Ambil nilai matematika siswa sekolah swasta kelas atas sebagai kelompok eksperimen dan nilai matematika sekelompok siswa dari sekolah yang dinilai tidak begitu baik sebagai kelompok kontrol. Apakah menurut hasilnya akan dapat diandalkan?
Kita perlu mengambil siswa secara acak sehingga kelompok kontrol dan eksperimen mewakili populasi secara keseluruhan. Begitulah cara bisa mendapatkan hasil yang andal.
Pengacakannya adalah:
"'Siapa' atau 'Apa' yang dialokasikan secara acak untuk setiap kelompok".
Semakin besar jumlah unit pengacakan, ia mampu mendeteksi efek yang lebih kecil. Unit pengacakan yang paling umum digunakan adalah pengguna. Ada ribuan unit pengacakan.
Desain Eksperimen
Pada tahap ini, parameter eksperimental perlu dipikirkan. Empat parameter utama adalah:
Berapa persentase atau jumlah populasi yang akan digunakan untuk percobaan.
b. Memperkirakan ukuran sampel.
c. Berapa lama untuk menjalankan eksperimen.
d. Seberapa signifikan hasil yang dibutuhkan
Menjalankan Eksperimen
Hal pertama adalah mengumpulkan data dengan hati-hati. Hal ini adalah bagian terpenting. Data harus mewakili situasi saat ini. Jika tidak, seluruh tes tidak akan ada artinya.
Kemudian cari tahu alat pengujian A/B yang tepat untuk eksperimen. perlu tahu jenis tes apa yang harus dijalankan. Hal ini bisa berupa interval kepercayaan diri.
Uji kedua variasi secara bersamaan. Waktu sangat penting dalam tes A/B. Sering kali hari dalam seminggu atau sebulan, waktu dalam sehari berdampak pada kampanye pemasaran atau perilaku pengguna. Pertimbangkan nuansa eksperimen biru Google yang sebelumnya. Kita perlu menunjukkan nuansa biru yang berbeda kepada kelompok yang berbeda pada saat yang bersamaan. Jika menampilkan satu warna biru kepada satu grup pengguna sekarang dan warna biru lainnya ke grup lain sebulan kemudian, hasil eksperimen tidak valid.
Berikan waktu yang cukup untuk menghasilkan hasil yang bermanfaat. Katakanlah, menjalankan uji setiap hari dalam eksperimen dan setelah 7 hari mendapat nilai p 0,02 (di mana tingkat signifikansi diasumsikan 0,05) dan menghentikan pengujian. Apakah tes itu cukup baik? Karena mendapat satu hasil yang baik dan menghentikan tes, satu hasil yang baik itu mungkin tidak disengaja, karena suatu kesalahan, perlu memastikan bahwa hasil dapat direproduksi atau diulang.
Ambil umpan balik dari pengguna. Semua proses di atas berbicara tentang bagian kuantitatif dari tes. Tetapi adalah ide yang baik untuk mendapatkan umpan balik kualitatif dari pengguna. Survei atau jajak pendapat dapat membantu dalam kasus tersebut. Melalui jajak pendapat yang mengambil pendapat pengguna tentang mengapa mereka mengisi formulir, mengapa mereka tidak mengklik tombol tertentu, atau mengapa mereka mengklik tombol tertentu atau apa pun yang dipedulikan. Jajak pendapat semacam ini akan memungkinkan berinteraksi dengan audiens secara langsung dan mendapatkan umpan balik yang berguna.
Membuat Keputusan, bisa menjadi bagian yang rumit. Banyak waktu akan menghadapi tradeoff antara dua metrik. Misalnya, mungkin mengetahui bahwa keterlibatan pengguna naik dan pendapatan turun. Sekarang, yang mana yang harus dipilih, hal itu akan tergantung pada tujuan perusahaan.
Parameter penting lainnya untuk dipikirkan saat membuat keputusan adalah biaya peluncuran perubahan. Jika biayanya cukup layak atau jika biayanya tinggi, manfaatnya harus lebih besar daripada biayanya.
Katakanlah, jika Google akan melihat bahwa salah satu nuansa biru bukanlah pilihan yang baik, apa selanjutnya? Ini bisa terjadi ketika melakukan tes pada 2 variasi dan mengetahui bahwa keduanya tidak memuaskan. Dalam hal ini, baru saja mengetahui bahwa ini bukanlah pilihan yang baik. Pikirkan sesuatu yang berbeda, dapat dengan merancang tes baru berdasarkan pembelajaran dari tes ini.
Pemantauan Pasca Peluncuran
Setelah melakukan tes, cari tahu apa yang baik untuk website. Apakah sudah selesai? selesai dengan cara tertentu, tetapi penting juga untuk terus memantau setelah meluncurkan perubahan. Penting untuk terus mengumpulkan data berkualitas tentang efek perubahan. Efek jangka panjang bisa berbeda dari efek jangka pendek. Setelah mengumpulkan 10 tahun data dan menganalisisnya, mungkin menemukan hasil yang berbeda.
Pengujian A/B bisa sederhana dan sangat rumit. Penjelasan ini menjabarkan tata letak keseluruhan yang disederhanakan dari proses pengujian A/B. Dalam kehidupan nyata, mungkin ada banyak juggling antara ini atau itu, banyak pengambilan keputusan yang kompleks. Tetapi untuk memulainya mungkin merupakan sumber yang bagus untuk mempelajari tentang proses pengujian A/B.