Note / soc-detection-engineering-and-use-case-lifecycle
SOC Detection Engineering and Use Case Lifecycle
Panduan tentang bagaimana SOC membangun, menguji, mengoperasikan, dan memperbaiki use case detection dari ide awal sampai tuning berkelanjutan.
Quick info
SOC Detection Engineering and Use Case Lifecycle
Ringkasan
Detection engineering adalah disiplin membangun logika deteksi yang berguna secara operasional, bukan sekadar membuat rule yang berbunyi. Detection yang baik harus relevan terhadap ancaman, didukung telemetry yang benar, menghasilkan alert yang dapat ditindaklanjuti, dan memiliki lifecycle tuning yang terus berjalan.
Use case detection yang matang menjawab pertanyaan berikut:
- teknik atau risiko apa yang ingin dideteksi?
- data apa yang dibutuhkan untuk melihatnya?
- logika seperti apa yang memberi signal-to-noise ratio sehat?
- bagaimana rule diuji, dipantau, dan ditune setelah live?
Kenapa Banyak Detection Gagal Secara Operasional
Detection sering gagal bukan karena rule syntax salah, tetapi karena:
- dibuat tanpa threat hypothesis yang jelas
- tidak memperhitungkan kualitas telemetry
- tidak punya ownership setelah deployment
- tidak dievaluasi dengan feedback incident nyata
- tidak dibedakan antara high-fidelity detection dan broad hunting analytic
Hasilnya adalah dua ekstrem yang sama-sama buruk:
- terlalu noisy sehingga diabaikan analyst
- terlalu ketat sehingga blind terhadap aktivitas nyata
Detection Use Case vs Rule vs Analytic
| Istilah | Definisi praktis |
|---|---|
| Use case | Desain deteksi terhadap satu risiko, teknik, atau abuse pattern tertentu |
| Rule / analytic | Implementasi teknis di platform tertentu |
| Alert | Hasil evaluasi rule ketika kondisi terpenuhi |
| Playbook | Langkah operasional saat alert diproses |
Satu use case bisa memiliki beberapa analytic pada berbagai data source.
Lifecycle Detection Engineering
1. Threat Selection
Pilih ancaman berdasarkan:
- threat landscape organisasi
- incident historis internal
- ATT&CK techniques yang relevan
- crown jewel dan identity risk
- compliance atau control requirement
Prioritasi terbaik lahir dari gabungan threat relevance dan business impact.
2. Hypothesis Definition
Tulis hipotesis secara jelas. Contoh:
- attacker akan menggunakan
w3wp.exe -> powershell.exepada web server untuk post-exploitation - compromised M365 account akan membuat mailbox rule atau OAuth consent setelah login anomali
- AWS IAM abuse akan terlihat sebagai kombinasi login tidak biasa, enumeration, lalu credential creation
Hipotesis yang baik membantu memilih telemetry dan logic yang tepat.
3. Telemetry Mapping
Petakan data source yang diperlukan:
- endpoint telemetry
- auth and identity logs
- email audit logs
- DNS, proxy, firewall, NDR
- cloud audit logs
- asset inventory dan identity enrichment
Pertanyaan wajib:
- Apakah data source ini benar-benar ada?
- Apakah field penting lengkap dan konsisten?
- Berapa latency ingest-nya?
- Adakah blind spot karena parser atau retention?
Detection logic yang bagus tidak akan berguna jika datanya rapuh.
4. Logic Design
Bangun analytic dengan mempertimbangkan:
- event selection
- threshold dan time window
- correlation antar event
- inclusion criteria
- exclusion criteria
- output entities dan context fields
Komponen logic yang baik:
- cukup sempit untuk actionable
- cukup luas untuk melihat variasi technique
- memiliki enrichment yang membantu triage
- tidak bergantung pada satu IOC yang rapuh kecuali memang IOC-specific use case
5. Test dan Validation
Sebelum production, lakukan:
- syntax validation
- unit-like validation terhadap sample log
- replay historical data bila memungkinkan
- adversary emulation atau lab simulation
- peer review oleh analyst atau engineer lain
Tujuan testing bukan hanya memastikan rule jalan, tetapi memastikan output-nya masuk akal secara operasional.
6. Deployment
Saat deploy, tetapkan:
- owner rule
- severity awal
- expected frequency
- runbook triage
- dashboard pemantauan alert volume
Rule tanpa owner biasanya cepat menjadi technical debt.
7. Monitoring
Setelah live, pantau:
- jumlah alert harian
- top entities
- false positive trend
- missed detection feedback
- alert-to-case conversion rate
Rule yang jarang berbunyi belum tentu bagus. Bisa jadi tidak pernah firing karena bug atau blind spot data.
8. Tuning
Tuning adalah bagian normal dari lifecycle. Trigger tuning biasanya datang dari:
- volume terlalu tinggi
- analyst feedback bahwa alert tidak actionable
- incident nyata lolos tanpa terdeteksi
- perubahan environment atau application behavior
- telemetry field baru yang bisa meningkatkan fidelity
9. Retirement atau Redesign
Detection perlu dipensiunkan atau didesain ulang bila:
- data source tidak lagi relevan
- technique sudah tertutup kontrol lain yang lebih efektif
- logic usang terhadap tradecraft baru
- maintenance cost lebih tinggi dari nilai operasionalnya
Komponen Use Case
Setiap use case sebaiknya punya elemen berikut:
| Elemen | Penjelasan |
|---|---|
| Objective | Risiko atau teknik yang ingin dideteksi |
| Scope | Endpoint, identity, email, network, cloud, atau gabungan |
| Threat mapping | ATT&CK tactic/technique atau abuse path bisnis |
| Data sources | Log yang dibutuhkan dan field penting |
| Logic summary | Ringkasan kondisi analytic |
| Expected benign patterns | Kondisi yang sering terlihat namun sah |
| Triage guidance | Apa yang harus dicek analyst pertama kali |
| Escalation trigger | Kondisi yang menaikkan alert jadi high priority |
| Metrics | Bagaimana rule diukur kesehatannya |
Detection Types yang Perlu Dibedakan
Atomic Detection
Deteksi satu event atau pola tunggal. Contoh: powershell.exe -enc.
Kelebihan:
- cepat dibuat
- latency rendah
Kekurangan:
- sering noisy
- konteks operasional lemah bila berdiri sendiri
Behavioral Detection
Deteksi perilaku atau urutan aksi. Contoh: web server process -> shell -> outbound network.
Kelebihan:
- lebih tahan terhadap IOC churn
- biasanya lebih relevan terhadap TTP
Kekurangan:
- implementasi lebih sulit
- perlu correlation dan telemetry yang baik
Risk-Based Correlation
Menggabungkan beberapa sinyal kecil menjadi satu prioritas lebih tinggi. Contoh: login anomali + mailbox rule + download spike.
Kelebihan:
- cocok untuk SOC modern
- mengurangi ketergantungan pada satu analytic tunggal
Kekurangan:
- perlu entity normalization dan data quality yang kuat
Relationship antara Detection dan Triage
Detection yang baik memudahkan triage. Minimal output alert harus membawa:
- entity utama
- field konteks utama
- ringkasan logic
- severity awal
- deep link ke log atau evidence pendukung
Jika alert memaksa analyst mencari semua konteks dari nol, use case masih kurang matang.
Sumber Ide Use Case
- incident internal sebelumnya
- purple team atau red team findings
- vendor report dan CTI
- ATT&CK coverage gap review
- hunt findings
- change pada teknologi atau exposure baru organisasi
Urutan prioritas terbaik biasanya:
- incident nyata yang pernah terjadi
- privileged identity abuse
- crown jewel asset abuse
- internet-facing exploit path
- common attacker tradecraft dengan telemetry kuat
Tuning Strategy yang Sehat
Saat rule noisy, jangan langsung menambah suppression sembarangan. Evaluasi:
- apakah event selection terlalu luas?
- apakah entity normalization salah?
- apakah threshold tidak cocok dengan baseline?
- apakah exclusion bisa dibuat berbasis konteks yang stabil?
- apakah rule ini sebenarnya lebih cocok dijadikan hunting analytic daripada production alert?
Suppression yang baik harus spesifik, terukur, dan tidak menutup jalur attack yang penting.
Coverage dan Gap Analysis
Coverage bukan berarti punya banyak rule. Coverage berarti mampu melihat teknik penting pada aset penting dengan telemetry yang memadai.
Gunakan lensa berikut:
- ATT&CK tactic/technique relevan
- asset class penting
- identity abuse paths
- cloud abuse paths
- post-exploitation behaviors
- data exfiltration indicators
Tanyakan:
- teknik mana yang sudah ada deteksinya?
- mana yang hanya punya hunting, belum alerting?
- mana yang belum punya telemetry memadai?
- mana yang terlalu noisy untuk dipakai produksi?
Metrics Detection Engineering
- true positive rate
- false positive rate
- mean time to tune
- alert-to-case conversion rate
- coverage on priority techniques
- number of incidents that led to rule improvement
- stale rules without review in defined period
Template Ringkas Use Case
Use case: Suspicious Web Server Post-Exploitation Chain
Objective:
- Detect likely post-exploitation on internet-facing web servers.
Threat hypothesis:
- Adversary uses web worker process to spawn shell or PowerShell, followed by outbound network activity.
Data sources:
- EDR process creation
- Network connection telemetry
- Asset inventory
Core logic:
- Parent process in {w3wp, httpd, nginx worker} spawns shell or scripting engine
- Followed by rare outbound connection within 5 minutes
Expected benign:
- Approved deployment automation on designated maintenance windows
Triage guidance:
- Check host criticality, maintenance ticket, command line, outbound destination, persistence artifacts
Escalation trigger:
- Production host with no approved change and persistence or callback observed
Owner:
- Detection EngineeringFeedback Loop dari Incident ke Detection
Setelah incident, selalu tanyakan:
- sinyal apa yang pertama muncul?
- rule apa yang firing atau justru tidak firing?
- konteks apa yang seharusnya ditambahkan ke analytic?
- apakah playbook triage perlu diubah?
- apakah ada use case baru yang harus dibuat?
SOC yang belajar dari incident akan memperkuat detection lebih cepat daripada SOC yang hanya mengumpulkan alert volume.
Kesalahan Umum
- membuat rule dari blog atau Sigma tanpa validasi environment sendiri
- menganggap ATT&CK coverage spreadsheet sama dengan detection capability nyata
- tidak memberi owner dan review cycle pada rule
- menumpuk suppression sampai analytic tidak berguna
- tidak membedakan hunting query dan production detection
- mengukur keberhasilan rule hanya dari jumlah firing
Kesimpulan
Detection engineering bukan aktivitas sekali jadi. Ini adalah lifecycle berulang: pilih ancaman yang relevan, petakan telemetry, bangun logic yang actionable, uji, deploy, monitor, tune, lalu ulangi berdasarkan feedback nyata.
Prinsip terpenting: detection yang bagus bukan yang paling canggih di atas kertas, tetapi yang paling membantu SOC menemukan ancaman nyata dengan biaya operasional yang sehat.
Related Notes
Related notes
Notes with similar topics and tags so you can keep reading with context.
Casefile / soc-alert-triage-and-prioritization-framework
SOC Alert Triage and Prioritization Framework
Panduan untuk melakukan alert triage dan penentuan prioritas insiden SOC secara cepat, konsisten, dan berbasis risiko.
Casefile / microsoft-sentinel-101
Microsoft Sentinel 101
Microsoft Sentinel - AI Generated Content
Casefile / siem-101-part-1
SIEM 101 part 1
SIEM adalah singkatan dari Security Information and Event Management