Namunalarni tanish

Pattern tanish - bu algoritmlar ma’lumotlarda barqaror tuzilmalarni topishni o’rganadigan soha: sinflar, klasterlar, takrorlanuvchi shakllar, motivlar va qaramliklar. Maqsad - «semantik shablonlarni» avtomatik ravishda aniqlash va ularni bashorat qilish, o’xshashliklarni topish, segmentlarni aniqlash va qarorlar qabul qilish uchun ishlatishdan iborat.

1) Vazifalar qo’yish

Tasniflash: obʼektni sinfga kiritish (frod/frod emas, hodisa turi).
Ko’p qirrali/ko’p qirrali tasnif: bir vaqtning o’zida bir nechta sinflar.
Klaster va segmentlash: belgilarsiz guruhlash, anormal/nishon guruhlarini ajratish.
O’xshashlik/o’xshashlikni qidirish: relevantlik bo’yicha tartibga solish, nearest neighbors.
Tuzilmalar segmentatsiyasi: obyekt qismlarini belgilash (rasm, log-yozuv, sessiya).
Ketma-ketlikni aniqlash: vaqtinchalik seriya/log/matn uchun belgilar.
Qoidalar va motivlarni ajratib olish: tez-tez to’plamlar/ketma-ketliklar, assotsiativ qoidalar.
Grafik vazifalar: tugun/qovurgʻalarni tasniflash, jamoalarni aniqlash.

O’qitish rejimlari:

Nazorat (belgilar mavjud), nazorat qilinmaydigan (klaster/qoidalar), yarim nazorat (soxta belgilar), o’z-o’zini o’rganish (self-supervised: contrastive/augmentations).

2) Ma’lumotlar va taqdimnomalar

Jadval: son va toifaviy belgilar; o’zaro hamkorlik, derazalar bo’yicha statistika.
Vaqtinchalik qatorlar/hodisa loglari: laglar, trendlar, mavsumiylik, DTW-xususiyatlar, spektral belgilar.
Matn: tokenlar/embeddingi (Bag-of-Words, TF-IDF, word2vec/fastText, BERT-embeddingi), n-gramm, asosiy iboralar.
Tasvirlar/audio: spektrlar/tebranish fichlari, lokal deskriptorlar (SIFT/HOG), global embeddinglar CNN.
Grafalar: tutash matritsasi, node2vec/DeepWalk, GNN-embeddingi.
Ko’p modallik: embeddinglar birlashmasi (late/early fusion), cross-attention.

Asosiy tamoyillar: point-in-time to’g "riligi, kelajakda oqish yo’qligi, standartlashtirish/robast-skeyling, toifalarni kodlash (one-hot/target/hash), o’tkazmalar va chiqindilarni ehtiyotkorlik bilan qayta ishlash.

3) Usullar

3. 1 Klassik statistik va metrik

Chiziqli modellar: muntazam ravishda (L1/L2/Elastic Net) logistika/chiziqli regressiya.
Eng yaqin qoʻshnilarning usullari: kNN, ball-tree/FAISS embeddinglar boʻyicha qidirish uchun.
SVM/yadro usullari: RBF/polinomial yadrolar, one-class SVM («norma» uchun).
Sodda Bayes/duragaylar: matn/toifalar uchun tezkor beyzlaynlar.
O’lchamning pasayishi: vizualizatsiya va oldindan ishlash uchun PCA/ICA/t-SNE/UMAP.

3. 2 Daraxtlar va ansambllar

Random Forest, Gradient Boosting (XGBoost/LightGBM/CatBoost): tabletkadagi kuchli beyzlaynlar, aralash fich turlariga chidamli, belgilar muhimligini beradi.
Steking/blending: turli xil modellardagi ansambllar.

3. 3 Modallik bo’yicha neyron tarmoqlar

Ketma-ketlik: RNN/LSTM/GRU, Temporal Convolutional Networks, Transformers (shu jumladan uzun qatorlar uchun).
Kompyuter ko’rish: CNN/ResNet/ConvNeXt, Vision Transformer; deteksiya/segmentatsiya (Faster/Mask R-CNN, U-Net).
Matn: Encoder-only (BERT-sinf), Encoder-Decoder (T5), tasnif/reyting/NER.
Grafalar: GCN/GAT/GraphSAGE tarkibiy patternlar uchun.

3. 4. Pattern-kon va qoidalar

Tez-tez toʻplamlar/ketma-ketliklar: Apriori/Eclat, FP-Growth, PrefixSpan.
Assotsiativ qoidalar: support/lift/confidence; biznes qiymati bo’yicha filtrlash.
Vaqtinchalik seriyalarning motivlari/shablonlari: Matrix Profile, SAKS, rejimlarni o’zgartirish bo’yicha segmentatsiya.

4) Validatsiya va eksperimentlar

Splitlar: i.i.d. statsionar ma’lumotlar uchun K-fold; ketma-ketliklar uchun temporal CV/rolling-windows.
Stratifikatsiya va guruhlash: foydalanuvchilar/sessiyalar/kampaniyalar o’rtasidagi oqishni nazorat qilish.
Out-of-time test: «kelajak» davridagi yakuniy test.
Beyzlaynlar: sodda qoidalar, chastota prognozlari, oddiy logreg/GBM.

5) Sifat metrikasi

Tasniflash: accuracy (balansda), ROC-AUC, PR-AUC noyob sinflarda, logloss, F1, precision/recall @k, NDCG/Lift.
Klaster: silhouette, Davies-Bouldin, Calinski-Harabasz; tashqi - «oltin standart» mavjud bo’lganda ARI/NMI.
Rasmlardagi segmentatsiya: IoU/Dice.
Ketma-ketlik/NER: token-/entity-level F1; onlayn tanib olish uchun time-to-first-correct.
Biznes-metrika: inkremental foyda, qo’l yukini kamaytirish, ishlov berish tezligi.

6) Sharhlanuvchanlik va ishonch

Global miqyosda: fich (gain/permutation), PDP/ICE, SHAP-summary ahamiyati.
Mahalliy: SHAP/LIME/Anchors aniq yechimni tushuntirish uchun.
Qoidalar uchun: shaffof metriklar (support/lift), qoidalar to’qnashuvi, qoplash.
Embeddinglarni vizualizatsiya qilish: «kartalar» patternlari va klasterlari uchun UMAP/t-SNE.

7) Ma’lumotlarning barqarorligi va sifati

Ishsizlik: barqaror skeylerlar (median/MAD), vinzorizatsiya, chiqindilardan himoya qilish.
Dreyf: taqsimot monitoringi (PSI/JS/KL), maqsadli dreyf va fich, davriy qayta kalibrlash.
Adolat: segmentlar bo’yicha xatolarni taqqoslash, FPR/TPR, bias-skill bo’yicha cheklovlar.
Maxfiylik/komplayens: maydonlarni minimallashtirish, taxalluslashtirish, rollarga kirish.

8) Payplayn (ma’lumotlardan prodakshengacha)

1. KPI (va «oltin» tekshirish stsenariylari) vazifasini aniqlash.
2. Ma’lumotlarni yig’ish/tayyorlash: sxemalar, deduplikatsiya, vaqtinchalik zonalar, agregatlar va embeddinglar.
3. Beyzlaynlar: oddiy qoidalar/logreg/GBM; sanity-checks.
4. Tasavvurlarni boyitish: domen belgilari, modallik embeddinglari, feature store.
5. O’qitish va tanlash: to’rlar/bayes-optimallashtirish, erta to’xtash, kross-validatsiya.
6. Kalibrlash va chegaralar: Platt/isotonic, biznes qiymatiga chegaralarni tanlash.
7. Deploy: REST/gRPC batch/onlayn; artefaktlar va sxemalarni versiyalash.
8. Monitoring: sifat (ML-metrika + biznes), tarqatish, kechikish; alertlar va runibuklar.
9. Retrening: jadval/dreyf hodisasi bo’yicha; A/V/kanar relizlari.

9) Ssenariylar bo’yicha amaliy patternlar

Frod va risk-skoring (tabletka): GBM/steking → grafik belgilar (qurilmalar/kartalar bo’yicha aloqalar) va GNN qo’shing; qat’iy latency-cheklovlar; PR-AUC/recall @FPR bo’yicha optimallashtirish ≤ x%.
Personallashtirish va kontent (reyting): foydalanuvchilar/obyektlarning o’rganiladigan embeddinglari + ikkilik klik-signal; loss: pairwise/listwise; onlayn yangilanishlar.
Loglar/ketma-ketliklar tahlili: TCN/Transformer, augmentatsiyalarda contrastive self-supervised; rejim motivlari va smenalari deteksiyasi.
Matnli niyat/mavzularni tanib olish: BERT-klass, fine-tuning; asosiy tokenlar/attention orqali talqin qilinishi.
Tasvir/video (sifat nazorati/hodisalar): nuqsonlar tasnifi, lokalizatsiya (Grad-CAM/Mask R-CNN), IoU metrikasi va eskalatsiya qoidalari.
Grafalar (jamoalar/firibgarlik zanjirlari): GNN + grafik anomaliyalar evristikasi (degree/triangles/ -koeffitsiyent).

10) Model tanlash: yechimlarning oddiy matritsasi

Maʼlumotlar	Maqsad	Tavsiya etilgan boshlash
Tablichnыe, aralash tipы	Tasniflash/reyting	LightGBM/CatBoost + SHAP talqinlanuvchanligi
Vaqtinchalik ketma-ketliklar	Vaqt belgilari	TCN/Transformer; oddiy uchun - lag-fichlarda logreg
Matn	Mavzular/niyatlar	BERT-klass + tokenizatsiya; beyzlayn - TF-IDF + logreg
Rasmlar	Tasniflash/nuqsonlar	ResNet/ConvNeXt; Beisline - MobileNet
Grafalar	Tugunlar/jamoalar	GCN/GAT; beisline - node2vec + logreg
Yorliqsiz	Segmentatsiya/motivlarni izlash	K-means/HDBSCAN, Matrix Profile, assotsiativ qoidalar

11) Xatolar va overfitni kamaytirish usullari

Muntazam (L1/L2/dropout), erta to’xtash, data augmentation va mixup/cutout (CV/audio uchun).
Oqishni nazorat qilish: qattiq vaqtinchalik splitlar, guruh bo’linmalari, embeddinglarni validatsiyada «muzlatish».
Ehtimollarni kalibrlash va biznes cheklovlari ostida barqaror chegaralar.
Ensembling/Model soup siljishlarga chidamlilik uchun.

12) Chiqarishdan oldingi chek-varaq

To’g "ri splitlar (temporal/group), oqish yo’q
OOT oynasi va asosiy segmentlardagi barqaror metriklar
Kalibrlangan ehtimollar; chegaralar/kostmatritsalar aniqlandi
SLO ishga tushirildi: sifat, kechikish, foydalanish imkoniyati
Inferens loglari, artefaktlar versiyasi, ma’lumotlar kontraktlari
Retrening rejasi va degradatsiya strategiyasi (fallback)
Hujjatlar va runibuklar (RCA, xatolar, eskalatsiya yo’llari)

Mini-lugʻat

Pattern-mining: tez-tez uchraydigan toʻplamlar/ketma-ketliklarni qidirish.
Embedding: semantika/o’xshashlikni saqlaydigan obyektning vektorli tasviri.
Contrastive learning: o’rganish, «o’xshash» misollarni yaqinlashtirish va «turli» larni ajratish.
Silhouette/NMI/ARI: klaster sifati metrikasi.
IoU/Dice: segmentatsiya sifati metrikasi.

Jami

Patternlarni aniqlash - bu nafaqat "X modeli" ni tanlash, balki tasavvurlar, to’g "ri validatsiya va operatsion tsiklning fanidir. Kuchli tasavvurlar (fichlar/embeddinglar), barqaror beyzlaynlar (GBM/SVM/oddiy CNN), sifatli splitlar va mahsulotdagi qatʼiy monitoring eng katta samara beradi. Agar ML- va biznes-metrik ko’rsatkichlar bo’yicha o’lchanadigan o’sishni keltirsa, murakkablik (chuqur arxitektura, ko’p modallik, grafalar) qo’shing.

Namunalarni tanish