sun
moon
Premium Partner :
  • partner tek.id acer
  • partner tek.id realme
  • partner tek.id samsung
  • partner tek.id telkomsel
  • partner tek.id poco
Selasa, 29 Des 2020 11:58 WIB

Engineer Tokopedia jelaskan cara menjaga stabilitas platform

Melalui acara START Summit Extension, para tim Engineer Tokopedia membagikan praktik terbaik mereka dalam membangun dan meningkatkan budaya kewaspadaan terhadap sistem platform Tokopedia. 

Engineer Tokopedia jelaskan cara menjaga stabilitas platform

Sebagai platform dengan total pengguna aktif sebanyak lebih dari 100 juta setiap bulannya Tokopedia perlu menanamkan budaya yang dapat diimplementasikan pada setiap divisi dan tim di dalamnya agar selalu memberikan pengalaman dan pelayanan yang terbaik. Budaya melayani pelanggan merupakan salah satunya, dimana sebagai perusahaan yang menanamkan nilai customer-centric, memastikan pengalaman pengguna merupakan prioritas utama.

Seluruh tim, termasuk tim teknologi Tokopedia juga tak luput dalam menanamkan budaya tersebut. Melalui acara START Summit Extension, para tim Engineer Tokopedia membagikan praktik terbaik mereka dalam membangun dan meningkatkan budaya kewaspadaan terhadap sistem platform Tokopedia. 

Dengan tema “High Severity! Behind Tokopedia’s Reliable Incident Management”, Engineer Tokopedia - Timothy Agustian memberikan penjelasan tentang bagaimana budaya kerja yang diterapkan oleh setiap karyawan dapat membentuk keseharian tim Engineer. Menurut Timothy, sebagai perusahaan yang dipercaya oleh jutaan penjual dan pembeli, seluruh tim teknologi Tokopedia memiliki tanggung jawab yang besar untuk mengelola setiap insiden yang terjadi. Menyelesaikan suatu insiden tanpa ada pihak yang dirugikan merupakan prioritas utama, sehingga menanamkan budaya kewaspadaan yang tinggi dan keandalan dalam mengelola serta mengidentifikasi masalah teknis sangatlah penting. 

  • Tahap I: Preparation & Monitoring

Dijelaskan lebih lanjut, Tokopedia memiliki beberapa tahapan dalam mengelola insiden. Tahapan yang pertama adalah Preparation & Monitoring, dimana tahap ini merupakan fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi. Fase ini mencakup pelatihan anggota tim tentang use case yang perlu ditangani, mengumpulkan dokumentasi hingga monitoring platform

  • Tahap II: Alerting

Tahap kedua dalam proses mengelola insiden Tokopedia, yakni Alerting. Saat alarm sudah berbunyi, ini merupakan tanda bahwa terdapat suatu insiden. Insiden yang baik adalah jika alerting-nya juga baik, sehingga tim dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna.

Ketika terjadi insiden, tim perlu membuat jalur komunikasi yang baik untuk dapat langsung menghubungi pihak-pihak yang berkaitan dengan insiden tersebut. Apabila tim yang menangani insiden ini tidak tersedia, maka dilakukan eskalasi ke tim leader, head, dan seterusnya. Dengan platform ini, diharapkan semua stakeholders dapat aware dan sigap dalam menangani insiden. 

  • Tahap III: Triage & Notify

Tahapan ketiga adalah Triage & Notify. Danish Jatmiko, Engineering Manager – Order & Campaign Tokopedia menjelaskan bahwa seluruh leader di Tokopedia selalu menekankan agar setiap tim selalu berharap yang terbaik. Namun, apabila hal buruk terjadi, diharapkan untuk dapat sigap dengan SOP yang sudah dikemas dengan baik. 

Tahapan ini menjelaskan tentang apa yang perlu dilakukan saat insiden datang. Danish menjelaskan bahwa hal pertama yang perlu dilakukan adalah menjaga agar tim terkait tidak panik. Terlebih, sebagai pemimpin perlu mengendalikan dan mengatur situasi yang terjadi. Selanjutnya, perlu mengetahui kondisi sistem seperti apa agar dapat mengenali dan mengidentifikasi musuh. Hal ini dapat membantu untuk mengetahui kelemahan dan kelebihan yang dimiliki.

Danish juga menjelaskan bahwa diperlukan mengetahui mengenai dampak yang terjadi setelah insiden, baik itu dampak pada halaman penjualan, transaksi penjualan, dan sebagainya. Setelah mengetahui semua dampak yang akan terjadi, kita bisa melakukan over communicate kepada stakeholders yang memiliki andil terhadap produk/platform tersebut, seperti tim produk dan tim operasional yang akan membantu menyampaikan informasi terkait kendala sistem ini kepada pengguna. 

Langkah yang tidak kalah pentingnya adalah bagaimana cara meredam atau menghentikan insiden yang terjadi sesegera mungkin. Tim bisa memberikan solusi sementara untuk dapat memperbaiki keadaan. Setelah insiden dapat diatasi dan kembali normal, tim dapat mengetahui apa yang sebenarnya terjadi dan mencari tahu solusi jangka panjangnya.

  • Tahap IV: Post-Mortem Investigation and Resolution

Tahapan terakhir pada manajemen insiden adalah Post-Mortem Investigation and Resolution. Dijelaskan Viriya Saddha Pannindriya, Software Engineer Lead – Order Tokopedia, di tahap ini kita perlu mencari tahu lebih dalam dan mendetail mengenai penyebab dari insiden yang terjadi.

Kita harus terus menggali lebih dalam tentang root cause sehingga dapat menentukan solusi jangka panjang. Setelah itu, kita dapat masuk ke tahap collateral damage, dimana kita juga perlu mencari tahu apakah root cause ini akan berdampak ke hal yang lainnya atau tidak karena insiden yang terjadi bisa saja berdampak pada sistem atau bisnis unit lainnya. 

Oleh karena itu, penting untuk melihat masalah sampai ke akar agar dapat mengetahui seberapa luas isu yang dihadapi. Setelah kita mengetahui core problems dan akar permasalahannya, kita dapat melanjutkan ke tahap berikutnya yakni memastikan agar insiden tersebut tidak terjadi lagi. Melalui Alerting dan Monitoring, kita dapat memperbaiki setiap temuan yang ada dan disesuaikan dengan prosedur dari Alerting dan Monitoring tersebut. 

Selanjutnya, kita perlu membuat sebuah dokumentasi dari pengalaman atau insiden tersebut sebagai track record. Dokumentasi ini berisikan tentang bagaimana kita mengatasi suatu insiden beserta cara-cara yang dilakukan untuk memperbaiki insiden tersebut. Hal ini bertujuan agar seluruh tim, baik yang sudah bekerja dalam kurun waktu yang lama, maupun tim yang baru bergabung dapat belajar dan melihat kembali tentang berbagai cara untuk menangani suatu insiden. 

START Summit Extension Desember menutup akhir tahun dengan lebih dari 30 ribu penonton yang menyaksikan acara ini melalui Tokopedia Play. Di tahun 2021, Tokopedia melalui Tokopedia Academy akan kembali menghadirkan rangkaian acara teknologi yang membagikan dan membawakan tema serta praktik terbaik untuk mendorong perkembangan talenta digital masa depan di Indonesia. 

Share
×
tekid
back to top