II ալգորիթմների աուդիտ
1) Ի՞ նչ է II- ի աուդիտը, և ինչո՞ ւ է այն անհրաժեշտ։
II ալգորիթմների աուդիտը տվյալների, մոդելների, գործընթացների և վերահսկողության համակարգված ստուգումն է, որը ապացուցում է, որ II-ն աշխատում է հուսալի, արդար, անվտանգ և օրինական, իսկ ռիսկերը կառավարվում են։
Նպատակները
Վստահության բարձրացում (stakeholders, հաճախորդներ, կարգավորիչ)։
Նվազեցնել վիրահատական/հեղինակական/իրավական ռիսկերը։
Ապահովել կյանքի ցիկլի վերարտադրողականությունը և կառավարումը (ML/LLM Ops)։
Ամրապնդել բիզնեսի լուծումները չափված որակի և ռիսկի չափված։
2) Տարածք և սահմաններ
Տվյալների մակարդակը 'հավաքումը/համաձայնությունը, որակը, պաշտպանությունը, գաղտնիությունը, ծագման գծերը։
Մոդելի մակարդակը 'մեթոդաբանություն, վալիդացիա, բացատրություն, ռոբաստիկա, խոցելիություն։
Ապրանքի մակարդակը ՝ UX ռիսկերը, մարդկային-կոնտակտը, հետադարձ կապը և էսկալացիան։
Վիրահատությունների մակարդակը ՝ 108, SLO, միջադեպեր, արձագանքներ, տարբերակների կառավարում։
Իրավաբան և էթիկա 'տվյալների սուբյեկտների իրավունքները, արգելքները/սահմանափակումները, պաշտպանությունները։
Մատակարարները և 3rd-party: արտաքին մոդելները, API, տվյալները, լիցենզիաները, պայմանագրային երաշխիքները։
3) Ռիսկային մեթոդաբանություն (կմախք)
1. Օգտագործման քննադատությունը 'ազդեցություն ֆինանսների/առողջության/իրավունքների վրա (ցածր/միջին/բարձր)։
2. Ռիսկերի նույնականացումը 'տվյալներ, արդարություն, անվտանգություն, գաղտնիություն, հալյուցինացիաներ, չարաշահումներ։
3. Նրանք նաև վերահսկում էին ապացույցները, թե որ մեխանիզմները նվազեցնում են ռիսկը և ինչ արտեֆակտներ են ապացուցում։
4. Գնահատումը և սկորինգը 'բալային մասշտաբները (0-3/0-5) ալյումիններով, «go/71-go» շեմերը։
5. Ռեմդիացիան և բարելավման պլանը 'SLA ուղղումներ, սեփականատերեր, dedline։
6. Շարունակականություն 'կրկնվող աուդիտների հաճախականությունը, չնախատեսված ստուգման հարվածները։
4) Մոսկվան և արտեֆակտները (evidence)
Windows Sheet: աղբյուրներ, սխեմաներ, իրավունքներ և համաձայնություններ, մաքրում, մաքրում, ռեթենշն։
Model Card: Նշանակումը, ուսուցման տվյալները, մետրերը, սահմանափակումները, անվտանգ օգտագործման պայմանները։
Eval Report: Օֆֆլինի գնահատման մեթոդը, սպլիտները, bootstrap/CI, սթրեսային քեյսները։
Risk Register: ռիսկերների լուծումը հավանականության/ազդեցության հետ, ռելեմիայի կարգավիճակը։
Change Log: Տվյալների/կոդի/մոդելի/պրոմպտի տարբերակները, թողարկման ամսաթվերը։
Playbooks: runbooks արձագանք, էսկալացիա, DSAR/տվյալների հեռացում, պատահարների պատասխանը։
Supplier Dossier 'պրովայդերների պայմանները (LLM API, մոդելներ), սահմանափակումներ և երաշխիքներ։
5) Տվյալների աուդիտ
Օրինականությունը և համաձայնությունը 'իրավական հիմքեր, մշակման նպատակներ, հիբրիդային փոխանցումներ։
Որակը/վստահությունը 'թարմ, ամբողջական, եզակի, բաշխման դրեյֆը։
Մոսկվա (bias) 'դասարանների անհավասարակշռություններ, ներկայացում, նախկին նշաններ։
Գաղտնիությունը 'կեղծանունացում/տոկենիզացիա, դիֆերենցիալ գաղտնիություն (կիրառելով), հասանելի ամսագրեր։
Գծեր 'աղբյուրից մինչև վիտրինը և ֆիչե պլատֆորմը։ թվանշանների վերարտադրողականությունը։
Լիցենզիաներ և IP 'արտադրության ուսուցման/տարածման իրավունքները։
Մինի-չեկի ցուցակի ՝ կա՞ արդյոք գլոսարիում/դաշտեր, սխեմաների պայմանագրեր, DQ թեստեր, համաձայնությունների ամսագիր, DSAR ընթացակարգ։
6) Դասական ML մոդելների աուդիտ
Վալիդացիան և վերապատրաստումը 'ճիշտ համախմբումներ, leakage ստուգումներ, որոնք տեղադրված են համապատասխան կտրվածքների վրա։
Ռոբաստիա 'սթրեսային թեստեր (աղմուկ, արտանետումներ, բացթողումներ, տեղաշարժեր), adversarial sample' s խելացի խառնուրդներում։
Արդարություն ՝ parate impact, equal openstunity, calibration parity; սեգմենտների վերլուծություն։
Բացատրություն 'տեղական/գլոբալ SHAP/ICE, կարևոր։
Օգտագործման սահմանափակումները 'անորոշության գոտիներ, fallback տրամաբանություն, human-in-the-loop։
Որակի տնտեսությունը 'coust curves, սխալների պրոֆիլներ, guardrail-metrics։
7) LLM/գեներատիվ համակարգերի աուդիտ (ավելացված)
Հալյուցինացիաներ և հուսալիություն 'պատասխանների մասը աղբյուրների, փաստաբանական էվալսի հետ։
Բովանդակության անվտանգությունը 'վնասակար/արգելված ֆիլտրը, պաշտպանությունը jailbreak/prompt-inject-ից։
Համատեքստը և արտահոսքերը 'RAG (PII/գաղտնիքները), policy աղբյուրների մեջբերման վրա։
Գործիքները և գործառույթները 'անվտանգ սահմանները գործառույթների զանգահարելիս (DDL/DML, լիմիտներ)։
Վարքի ռեգրեսիա ՝ A/B պրոմպորտների հավաքման, ռուսական հրահանգների «լվացման», պրոմպերի տարբերակը։
Յուզաբիլիտին և էթիկան 'ռիսկի դեքսի մերժումը/վերահղումը, ճիշտ դիսկլեմերները, պաշտպանությունը չարաշահման ավտոմատացումից։
8) Անվտանգությունն ու գործառնական ռիսկերը
Մոդելային անվտանգություն 'ուսուցման տվյալների, membership inference, model stealing - թեստեր և գվարդիաներ։
Supply-chain ML 'արտեֆակտների ամբողջականությունը (մոդելներ, քաշներ, սաղմեդդինգներ), ստորագրությունները, կախվածության վերահսկումը։
Ենթակառուցվածքը 'շրջակա միջավայրի մեկուսացում, գաղտնի կառավարում, egress, քվոտաներ։
Դիտարկումը 'logs/metrics/tresing, drift և որակի ալտերտեր, հարցումների/էքսպորտի աուդիտ։
Միջադեպերը '«AI-2019», RACI, ծանուցումների ժամկետները, փոստի մորտեմները։
9) Metriki և eval-պրակտիկա
Խնդրի որակը 'Accuracy/AUC/MAE/F1; для LLM — pass@k, faithfulness, groundedness.
Արդարություն 'կոտրվածքներ, equalized odds/TPR-gap, unfairness-score։
Ռոբաստի 'աղմուկով/հերթափոխով մետրի նվազում; worst-cast հատվածում։
Անվտանգություն 'jailbreak-rate, toxicity/abuse rate, wwww.exfil success rate։
Տնտեսությունը 'cost-to-serve, latency p95/p99, cache hit-rate, սխալներ/1000 հարցումներ։
Վստահություն և փորձ 'բողոքներ, բողոքարկումներ, ձեռքով հավատալիքներ, արձագանքի ժամանակ։
10) Առցանց կառավարումը և վերահսկումը։
Drift-դետեկտորները 'ֆիչի/կանխատեսումների մասսայական համեմատություններ; ալերտներ և աուտո-դեգրադացիա։
Guardrails: Միջակայքներ, վստահության շեմեր, բլոկային թերթիկներ/allow թերթիկներ։
Human-in-the-loop: կրիտիկական միջադեպերում պարտադիր ստուգում է, ուսուցում հետադարձ կապի վրա։
A/B և դիտարկված էֆեկտները 'մոդելի փոխարկումը բիզնես մետրերի և guardrail KPI-ի հետ։
Արձագանքները և օրինագծերը ՝ canary/blue-green, մոդելների/prompts/տվյալների տարբերակը։
11) Օրենքի և ներքին քաղաքական գործիչների համապատասխանությունը
Մասնավորությունը և սուբյեկտների իրավունքները 'մուտքի/հեռացման/բացատրության, ռետենշնի, տեղայնացման իրավունք։
Թափանցիկության պահանջները 'նպատակ, կապ միգրացիայի, սահմանափակումների համար։
II ռիսկերի կառավարումը 'բարձր ռիսկային համակարգերի իրականացում, ազդեցության գնահատում (AIA/PIA), պարբերական ակնարկներ։
Պայմանագրերը և SLA-ը վենդորների հետ 'լոգարանների արտահանումը, մշակման տեղը, ենթահամակարգերը, միգրանտների իրավունքները։
12) Դերեր և պատասխանատվություն
AI/ML Owner 'մոդելի և որակի սեփականատերը։
WindowSteward: Տվյալների սեփականատեր և DQ/lineja։
Risk & Compliance: քաղաքականություն, ստուգումներ, փոխազդեցություն կարգավորողի հետ։
System/Privacy: Հասանելի վերահսկողություն, հարձակման/արտահոսքի թեստեր։
Cort/UX 'ինտերֆեյսի և բովանդակության ռիսկային դիզայնը։
Audit Lead (արտաքին/ներքին) 'անկախ գնահատում և զեկույց։
13) Գործիքներ և լուծումների դասեր
DQ/կատալոգը/լինեժը 'որակի թեստեր, lineage, glossaries, հավաքածուի անձնագրեր։
Evals-ը և թեստային հավաքածուները 'offline/առցանց գնահատում, սթրեսի քեյսների արտադրություն, benchmark հավաքածուներ։
LLM անվտանգությունը 'prompt-inject, բովանդակության ֆիլտրեր, policy-nokers։
Տե՛ ս ՝ ինտելետրիա, drift դետեկտորներ, գործողությունների/սուլֆերի աուդիտ։
Prompts/մոդելների կառավարումը 'ռոտորները, տարբերակների վերահսկումը, վերարտադրումը։
Red Team պլատֆորմները ՝ ռուսական և հարձակումներ, սցենարներ, ավտոմատ փորձարկումներ։
14) Անտիպատերնի
«Միայն acuracy» 'fairness/robustness/privacy/2019։
Ոչ փաստաթղթեր. Model Card, Windows Sheet, change log.
Հում PII-ը ֆիուսներում/LLM-ի կոնտեքստում 'արտահոսքեր և իրավաբանական ռիսկեր։
Առցանց մոնիտորինգի բացակայությունը 'իրադարձությունը տեղի ունեցավ, ոչ ոք չնկատեց։
Անթափանց UX 'օգտագործողը չի հասկանում, որ դա II-ն է և ինչպես վիճարկել։
Միաեղջյուրի աուդիտ 'առանց ցիկլիզմի և վերանայման։
15) Ինտեգրման ճանապարհային քարտեզը
1. Foundation: II քաղաքականությունը, ռոլեյի մոդելը, Risk Register, Model Card/Windows Sheet ձևանմուշները։
2. Տվյալների վերահսկումը 'պայմանագրեր, DQ թեստեր, ծագման գծեր, լիցենզիաներ և համաձայնություններ։
3. Eval-շրջանակը 'որակի/արդարության/անվտանգության փոխաբերություններ, սթրեսների հավաքածուներ։
4. LLM-հիգիենան ՝ RAG քաղաքականությունը, ֆիլտրերը, պաշտպանությունը inject-ից, աղբյուրների ամսագիրը։
5. Մոսկվան և միջադեպերը 'հեռուստացույց, ալտերտեր, արձագանքներ, runbooks, անձնակազմի ուսուցում։
6. Արտաքին պատրաստակամությունը 'կարգավորողի/հաճախորդների հաշվետվությունները, բարձր քննադատության անկախ աուդիտը։
7. Շարունակական բարելավում 'ռետրո ցիկլեր, գվարդիա բյուջե, red team նստաշրջան։
16) Չեկ-թուղթ մոդելի/II ֆունկցիայի գործարկումից առաջ
- Լցված են Sheet-ը և Model Card-ը։ ապացուցված են իրավունքները/լիցենզիաները։
- Evals: Որակը, fairness հատվածներով, ռոբասով, անվտանգությամբ։
- LLM-ի համար 'հալյուցինացիաների/www.undedness չափումներ; պաշտպանություն prompt-inject/jailbreak-ից։
- Alerts և alerts (որակը, dreaf, թունավորությունը, latency/cost)։
- Կա human-in-the-loop և կրիտիկական լուծումների համար միգրացիայի գործընթացը։
- DSAR/հեռացում/retenshn նկարագրված և ստուգված է։
- Մոդելների/պրոմպտների իրականացումը նորարարված է; պատրաստ են արձագանքներ և canary։
- Express-review և red teaming; արգելափակող findings-ը վերացվել է։
17) Արտահանման հաշվետվության կառուցվածքի օրինակ (կմախք)
1. Ռեզյումե և ռիսկերի սկորինգը (բյուջեներով)։
2. Համակարգի նկարագրությունը (նպատակը, օգտագործողները, կոնտեքստը)։
3. Տվյալները (աղբյուրներ, իրավունքները, որակը, ոճը, ծագման գծերը)։
4. Մոդել/LLM (ճարտարապետություն, ուսուցում, չափումներ, սահմանափակումներ)։
5. Անվտանգություն/գաղտնիություն (վերահսկումներ, հարձակումների թեստեր, հասանելի ամսագիր)։
6. Eval-արդյունքները (որակը, fairness, ռոբասությունը, անվտանգությունը, UX)։
7. Վիրահատություններ (105, SLO, միջադեպեր, արձագանքներ)։
8. Ինտեգրման համապատասխանությունը (քաղաքականություններ, գործընթացներ, արտեֆակտներ)։
9. Խախտումներ/gap 's և վերարտադրման պլանը (SLA, սեփականատերերը)։
10. Ծրագրերը ՝ Model Card, Direct Sheet, փորձարկումների լոգներ, տարբերակներ։
18) Minido-YAML (կեղծ-YAML)
Model Card (հակիրճ)
yaml model:
name: churn_xgb_v12 purpose: owners customer outflow forecast: [data_science@company]
data:
sources: [events_app, payments, support_tickets]
rights: consent:true; pii:tokenized evals:
metrics: {auc: 0. 86, f1: 0. 62}
fairness: {tpr_gap_gender: 0. 03}
limits:
do_not_use_for: credit decisions operations:
monitoring: {drift: enabled, latency_p95_ms: 120}
rollback: canary -> blue_green
LLM Guardrails
yaml llm:
blocked_content: [pii, sexual, violence, illegal_advice]
tools_allowlist: [sql_read_analytics, search_docs]
max_tokens: 1024 require_sources: true pii_redaction: on injection_scan: on
19) Արդյունքը
II-ի ալգորիթմների աուդիտը ոչ թե միանվագ «վանդակավոր» է, այլ ամբողջ տվյալների և մոդելների ռիսկերների կառավարման շարունակական գործընթացը 'համաձայնությունից և տեղահանումից մինչև հալյուցինացիաներ։ Երբ ստանդարտ, eval-շրջանակը, վիրահատական վերահսկումները և թափանցիկ UX-ը միասին են աշխատում, II-ն դառնում է վստահելի, ստուգված և տնտեսապես արդյունավետ ապրանք։