Mastoto // CyberKB

SOCMulti#siem#soc#prioritization#edr#l1#l2#incident-triage#alert-triage#risk-based-analysis

Note / soc-alert-triage-and-prioritization-framework

SOC Alert Triage and Prioritization Framework

Panduan untuk melakukan alert triage dan penentuan prioritas insiden SOC secara cepat, konsisten, dan berbasis risiko.

Quick info

Updated2d ago

Reading time8 min

Read-only view

Updated 2d ago8 min read18 views

SOC Alert Triage and Prioritization Framework

Ringkasan

Alert triage adalah proses memvalidasi, mengelompokkan, dan menentukan prioritas terhadap alert yang masuk ke SOC agar sumber daya investigasi dipakai pada kejadian yang paling penting terlebih dahulu. Triage yang baik bukan sekadar membaca severity dari tool, tetapi menggabungkan sinyal teknis, konteks aset, konteks user, dan potensi dampak bisnis.

Framework ini membantu SOC menjawab tiga hal inti:

Apakah alert ini valid?
Seberapa berisiko alert ini bagi environment?
Apa aksi paling tepat: close, monitor, investigate, atau escalate?

Tujuan Triage

Tujuan triage bukan membuktikan seluruh root cause, tetapi membuat keputusan awal yang cepat dan cukup akurat. Outcome yang diharapkan:

noise berkurang sebelum masuk ke jalur investigasi mahal
alert yang benar-benar penting naik prioritas lebih cepat
kualitas handoff antar shift dan antar level meningkat
SLA investigasi lebih mudah dipenuhi
keputusan close lebih dapat dipertanggungjawabkan

Prinsip Dasar

severity vendor bukan prioritas final
risiko adalah kombinasi sinyal teknis dan konteks bisnis
low-confidence alert pada privileged asset bisa lebih penting dari high-severity alert pada low-value asset
waktu analyst terbatas, jadi enrichment harus berurutan dan bernilai tinggi
triage harus repeatable agar konsisten antar analyst dan antar shift

Severity, Priority, dan Risk

Istilah ini sering tercampur, padahal berbeda:

Istilah	Arti	Contoh
Severity	Bobot teknis dari rule atau vendor alert	`Malicious PowerShell detected` dari EDR diberi severity high
Risk	Penilaian gabungan sinyal, konteks, dan potensi dampak	Alert medium pada domain admin tetap risk tinggi
Priority	Urutan penanganan operasional	Dua alert sama-sama risk tinggi, tetapi yang menyentuh crown jewel diproses lebih dulu

Rule praktis:

severity menjelaskan seberapa serius sinyal awal
risk menjelaskan seberapa berbahaya kejadian itu bagi organisasi
priority menentukan siapa yang dikerjakan sekarang

Data Minimum Sebelum Mengambil Keputusan

Minimal kumpulkan konteks berikut sebelum disposition awal:

Alert source dan detection logic singkat
Entity utama: host, user, IP, process, mailbox, workload, account, atau bucket
Asset criticality atau owner sistem
Privilege level user/account terkait
Satu artefak teknis utama: process tree, auth chain, atau network direction
Nearby alerts atau event tetangga dalam window waktu yang sama

Tanpa enam item ini, triage mudah bias atau terlalu vendor-driven.

Workflow Triage End-to-End

1. Intake

Saat alert masuk, baca:

nama rule atau analytic
source product
timestamp dan frequency
entity yang terpengaruh
action vendor: detect only, block, quarantine, allow

Tujuan tahap ini hanya memahami bentuk sinyal, bukan mengambil kesimpulan cepat.

2. Validasi Teknis Awal

Tentukan apakah event benar-benar terjadi dan field utamanya masuk akal:

parser atau field mapping benar
timestamp konsisten
entity tidak null atau salah mapping
event bukan hasil test, lab, scanner internal, atau simulation yang sah

Jika basic validation gagal, alert bisa masuk jalur data-quality issue, bukan incident path.

3. Rapid Enrichment

Ambil enrichment bernilai tertinggi dulu:

criticality aset
role dan privilege user
parent-child process atau login chain
source IP context
apakah ada change window atau activity admin resmi

Tahap ini idealnya singkat, terutama untuk L1.

4. Risk Assessment

Tanya pertanyaan berikut:

Seberapa berbahaya teknik atau behavior yang terlihat?
Seberapa sensitif asset atau akun yang terkena?
Seberapa besar peluang alert ini benign?
Ada indikasi blast radius atau persistence?
Kontrol apa yang sudah menahan aktivitas ini?

5. Correlation

Korelasikan ke source lain jika alert belum jelas:

endpoint ke network
identity ke email
IAM ke cloud activity
DNS ke EDR process
proxy ke mailbox click event

Alert yang awalnya lemah sering menjadi kuat setelah cross-source correlation.

6. Disposition

Pilih salah satu hasil berikut:

false positive
benign true positive
suspicious, needs monitoring
suspicious, needs escalation
confirmed malicious

Disposition harus ditulis bersama alasan, bukan label saja.

7. Documentation dan Handoff

Setelah keputusan dibuat, tulis:

apa alert-nya
konteks apa yang dicek
apa yang ditemukan
apa yang belum diketahui
mengapa alert ditutup atau dieskalasi

Risk Scoring Sederhana untuk Triage

Jika butuh model cepat, gunakan tiga komponen:

Komponen	Skor rendah	Skor sedang	Skor tinggi
Signal strength	heuristic lemah, satu event	beberapa indikator, confidence sedang	multiple strong indicators, vendor confidence tinggi
Entity sensitivity	low-value asset, low-priv user	business system biasa	crown jewel, exec, admin, prod, dormant privileged account
Blast radius potential	isolated	mungkin menyentuh beberapa entity	sudah ada spread, persistence, data access, lateral signal

Interpretasi sederhana:

total rendah -> close atau monitor
total sedang -> enrich lebih lanjut atau escalate ke L2
total tinggi -> prioritize dan escalate cepat

Decision Matrix Praktis

Kondisi	Contoh	Keputusan awal
Signal lemah, context benign kuat	admin script terjadwal di jump host resmi	Close sebagai benign true positive
Signal kuat, context belum lengkap	EDR detect encoded PowerShell di production server	Escalate cepat sambil lanjut enrichment
Signal sedang, user privileged	impossible travel pada global admin	Escalate prioritas tinggi
Signal sedang, control already blocked	attachment berbahaya sudah di-quarantine tanpa user interaction	Monitor atau close dengan evidence kontrol berhasil
Signal kuat, multi-source support	suspicious login + mailbox rule + mass download	Treat as likely incident

Perbedaan False Positive vs Benign True Positive

Ini salah satu sumber misklasifikasi paling umum.

Label	Arti
False positive	Rule atau tool mengidentifikasi sesuatu yang sebenarnya tidak terjadi atau tidak memenuhi kondisi yang dimaksud
Benign true positive	Aktivitas yang terdeteksi memang benar terjadi, tetapi sah dan tidak berbahaya dalam konteks environment

Contoh:

rule mendeteksi powershell.exe karena parser salah membaca field -> false positive
rule mendeteksi PowerShell encoded command saat tim deployment menjalankan automation yang tervalidasi -> benign true positive

Perbedaan ini penting untuk tuning detection di tahap berikutnya.

Alert Family dan Fokus Triage

Endpoint Alerts

Periksa:

process tree
command line
signer/path/hash
file creation atau persistence
outbound connection setelah execution

Identity Alerts

Periksa:

login source dan geolocation
MFA behavior
device ID dan user agent
privilege changes
mailbox atau SaaS follow-on activity

Email Alerts

Periksa:

apakah email delivered, clicked, replied, atau quarantined
siapa penerimanya dan role bisnisnya
attachment/hash/URL reputation
apakah ada rule inbox atau token abuse setelahnya

Cloud Alerts

Periksa:

console vs API access
source IP dan ASN
role assumption chain
perubahan policy, key, secret, atau logging
apakah actor adalah human account atau automation

Network Alerts

Periksa:

arah trafik
protocol dan port
asset role di kedua sisi
rarity destination
keterkaitan dengan process atau auth event

Kapan Harus Escalate Cepat

Escalate cepat jika salah satu berikut muncul:

account privileged, dormant, atau break-glass terlibat
asset adalah crown jewel, production, atau internet-facing
ada tanda persistence, credential access, atau lateral movement
ada multi-source confirmation
tool mendeteksi tapi gagal block
ada potensi data access atau business impact langsung

Kapan Alert Boleh Ditutup

Alert boleh ditutup bila:

aktivitas tervalidasi sebagai bagian dari workflow resmi
behavior konsisten dengan baseline historis
tidak ada source lain yang mendukung malicious interpretation
dampak dan blast radius minimum sudah diperiksa
alasan close terdokumentasi jelas

Template Triage Note

Plain Text

Alert: Impossible Travel for finance.user@corp
Source: Microsoft Entra ID
Initial severity: Medium
Current priority: High
Entities:
- User: finance.user@corp
- Source IP 1: 203.0.113.14
- Source IP 2: 198.51.100.32
Context checked:
- User role: Finance staff with access to payment workflow
- VPN exception: none found
- MFA: success observed after travel anomaly
- Nearby alerts: mailbox rule created 6 minutes later
Assessment:
- Alert risk increased due to role sensitivity and supporting mailbox activity
Disposition:
- Escalate to L2 for account compromise investigation

KPI yang Layak Dipantau

alert-to-disposition time
false positive rate setelah enrichment L1
escalation acceptance rate oleh L2
repeat noise per use case
persentase triage note yang lengkap konteksnya
jumlah missed escalations yang ditemukan belakangan

Anti-Pattern yang Harus Dihindari

close alert hanya karena analyst pernah melihat alert serupa sebelumnya
percaya penuh pada severity tool tanpa cek context
menahan escalation hanya karena belum 100 persen pasti
tidak membedakan false positive dan benign true positive
tidak mendokumentasikan unknowns
fokus hanya pada IOC tanpa melihat behavior

Kesimpulan

Triage yang matang adalah filter kualitas pertama SOC. Jika triage kuat, beban investigasi turun dan incident nyata lebih cepat terlihat. Jika triage lemah, SOC akan tenggelam dalam noise atau justru terlambat merespons kejadian penting.

Prinsip sederhana yang harus diingat: triage bukan soal membaca alert, tetapi soal menilai makna alert dalam konteks risiko organisasi.

Related Notes

Related notes

Notes with similar topics and tags so you can keep reading with context.

3 related notes

Closest matchScore 20

Casefile / soc-escalation-containment-and-handoff

SOC Escalation Containment and Handoff

Panduan operasional tentang kapan harus mengeskalasi alert, bagaimana menentukan aksi containment yang proporsional, dan bagaimana membuat handoff yang bernilai tinggi di SOC.

3 shared tagsSame categorySame platform

#soc#l1#l2

SOCMultiUpdated 7d ago

Thread 2Score 20

Casefile / soc-detection-engineering-and-use-case-lifecycle

SOC Detection Engineering and Use Case Lifecycle

Panduan tentang bagaimana SOC membangun, menguji, mengoperasikan, dan memperbaiki use case detection dari ide awal sampai tuning berkelanjutan.

3 shared tagsSame categorySame platform

#siem#soc#edr

SOCMultiUpdated 19d ago

Thread 3Score 20

Casefile / context-driven-analysis

Context Driven Analysis

Kerangka kerja komprehensif untuk melakukan alert triage dan investigasi berbasis konteks pada SOC L1, L2, dan L3 agar keputusan lebih cepat, akurat, dan konsisten.

3 shared tagsSame categorySame platform

#soc#l1#l2

SOCMultiUpdated 25d ago