Štatistická analýza
Štatistická analýza je matematické skúmanie údajov pomocou štatistických metód na vyvodzovanie záverov, testovanie hypotéz a podporu rozhodovania. Je základom v...
+++ title = “Matica zámen” description = “Matica zámen tabuľkovo porovnáva predpovede modelu so skutočnými hodnotami: riadky predstavujú skutočné triedy, stĺpce predpokladané triedy. Diagonála zobrazuje správne predpovede; mimodiagonálne prvky zobrazujú typy chýb. Pre modely infraštruktúrnej inšpekcie matice zámen odhaľujú, ktoré typy defektov alebo stupne kvality sú zamieňané — napr. výkvet zamenený za koróziu. Zahŕňa interpretáciu matice, viac triedne zámeny a odvodenie presnosti a úplnosti na triedu.” keywords = [“matica zámen”, “chybová matica”, “klasifikačná matica”, “viac triedne zámeny”, “zámena predpovedí”, “chyby modelu”, “skutočná trieda”, “predpokladaná trieda”, “interpretácia matice zámen”, “presnosť na triedu”]
shortDescription = “Matica zámen je tabuľka, ktorá porovnáva predpovede modelu so skutočnými hodnotami, odhaľujúc správne klasifikácie na diagonále a typy chýb v mimodiagonálnych bunkách pre vyhodnotenie klasifikačného modelu.”
tags = [“Technológia”, “Strojové učenie”, “Hlboké učenie”, “Počítačové videnie”, “Vyhodnotenie modelu”] glossaryTitle = “Čo je matica zámen?” glossaryDescription = “Matica zámen je špecifické tabuľkové usporiadanie, ktoré umožňuje vizualizáciu výkonu klasifikačného algoritmu porovnaním predpokladaných tried s reálnymi skutočnými triedami. V matici riadky predstavujú skutočné triedy a stĺpce predpokladané triedy (alebo naopak), pričom diagonálne bunky označujú správne predpovede a mimodiagonálne bunky chyby. Pre AI modely infraštruktúrnej inšpekcie používané pri posudzovaní letiskových dráh a mostov sú matice zámen základným vyhodnocovacím nástrojom, ktorý odhaľuje, ktoré typy defektov sa bežne zamieňajú — napríklad či model zamieňa výkvet s koróziou, alebo nesprávne klasifikuje aligátorové trhliny ako pozdĺžne trhliny. Z matice zámen odborníci odvodzujú všetky štandardné klasifikačné metriky vrátane presnosti, úplnosti, špecificity, F1-skóre a celkovej presnosti pre každú triedu jednotlivo, čo umožňuje cielené zlepšovanie modelu.” showCTA = true ctaHeading = “Vyhodnoťte svoje inšpekčné modely s presnosťou” ctaDescription = “TarmacView používa analýzu matice zámen na validáciu AI modelov infraštruktúrnej inšpekcie pre úlohy klasifikácie typu povrchu, stupňa kvality a defektov. Zabezpečte, aby vaše modely fungovali spoľahlivo s metrikami vyhodnotenia na úrovni jednotlivých tried odvodenými z komplexných matíc zámen.” ctaPrimaryText = “Kontaktujte nás” ctaPrimaryURL = “/contact/” ctaSecondaryText = “Dohodnúť si demo” ctaSecondaryURL = “/demo/”
[[faq]] question = “Čo je matica zámen a ako je štruktúrovaná?” answer = “Matica zámen je krížová tabuľka skutočných tried (ground truth) oproti predpokladaným triedam priradeným klasifikačným modelom. Riadky zvyčajne predstavujú skutočné triedy a stĺpce predpokladané triedy. Každá bunka (i, j) obsahuje počet prípadov, ktoré patria do skutočnej triedy i, ale boli predpovedané ako trieda j. Diagonálne bunky (i, i) predstavujú správne predpovede a mimodiagonálne bunky chyby. Pre binárnu klasifikáciu je matica 2×2 s bunkami pre skutočne pozitívne, falošne pozitívne, falošne negatívne a skutočne negatívne prípady. Pre viac triedne problémy s K triedami je matica K×K, pričom každá trieda má svoj vlastný riadok a stĺpec.”
[[faq]] question = “Ako sa matica zámen používa na vyhodnotenie modelov infraštruktúrnej inšpekcie?” answer = “V infraštruktúrnej inšpekcii AI modely vykonávajú tri primárne klasifikačné úlohy: klasifikáciu typu povrchu (asfalt, betón, kompozit, štrk), klasifikáciu stupňa kvality (dobrý, uspokojivý, zlý, zlyhaný podľa noriem ICAO alebo ASTM) a klasifikáciu defektov (typy trhlín, odlupovanie, zvetrávanie, degradácia spojov). Pre každú úlohu matica zámen odhaľuje, kde presne model robí chyby. Pri klasifikácii defektov môže matica zámen ukázať, že model často zamieňa výkvet s raným štádiom korózie na betónových mostných komponentoch, alebo si mýli aligátorové trhliny s blokovými trhlinami na asfaltových vozovkách. Analýzou mimodiagonálnych vzorov môžu vývojári modelov identifikovať vizuálne podobné triedy, ktoré potrebujú ďalšie tréningové dáta, špecifickú extrakciu znakov alebo augmentáciu špecifickú pre triedu na zníženie zámen.”
[[faq]] question = “Aký je rozdiel medzi maticou zámen pre binárnu a viac triednu klasifikáciu?” answer = “Pre binárnu klasifikáciu (dve triedy, typicky pozitívna a negatívna) má matica 2×2 štyri bunky: skutočne pozitívne (správne pozitívne predpovede), falošne pozitívne (negatívne prípady predpovedané ako pozitívne, chyby typu I), falošne negatívne (pozitívne prípady predpovedané ako negatívne, chyby typu II) a skutočne negatívne (správne negatívne predpovede). Pre viac triednu klasifikáciu s K triedami (K ≥ 3) je matica K×K. Každá trieda sa vyhodnocuje spôsobom jedna-proti-všetkým — pre konkrétnu triedu i je počet skutočne pozitívnych diagonálna bunka (i, i), falošne pozitívne sú súčet stĺpca i bez diagonály a falošne negatívne sú súčet riadku i bez diagonály. Viac triedne matice sú väčšie a ponúkajú bohatšiu analýzu chýb, ukazujúc, ktoré konkrétne dvojice tried sú najčastejšie zamieňané.”
[[faq]] question = “Ako vypočítate presnosť a úplnosť pre každú triedu z matice zámen?” answer = “Pre danú triedu i v matici K×K: Presnosť pre triedu i = TP_i / (TP_i + FP_i), kde TP_i je diagonálna bunka (i, i) a FP_i je súčet stĺpca i mínus TP_i. Úplnosť pre triedu i = TP_i / (TP_i + FN_i), kde FN_i je súčet riadku i mínus TP_i. Napríklad pri 4-triednej klasifikácii typu povrchu s asfaltom, betónom, kompozitom a štrkom sa presnosť pre „asfalt” rovná počtu správne predpovedaných asfaltových obrázkov vydelenému všetkými obrázkami predpovedanými ako asfalt. Úplnosť sa rovná správne predpovedanému asfaltu vydelenému všetkými skutočnými asfaltovými obrázkami. F1-skóre je harmonický priemer presnosti a úplnosti: F1 = 2 × (Presnosť × Úplnosť) / (Presnosť + Úplnosť)."
[[faq]] question = “Čo znamená normalizovaná matica zámen?” answer = “Normalizácia konvertuje hodnoty v matici zámen na pomery alebo percentá pre ľahšie porovnanie medzi triedami s rôznymi veľkosťami vzoriek. Normalizácia po riadkoch (normalize=‘true’ v scikit-learn) delí každú bunku súčtom jej riadku, čo ukazuje pre každú skutočnú triedu, aký podiel prípadov bol predpovedaný ako každá trieda. To odhaľuje úplnosť na triedu. Normalizácia po stĺpcoch (normalize=‘pred’) delí súčtami stĺpcov, čo ukazuje presnosť na triedu. Normalizácia je nevyhnutná, keď sú distribúcie tried nevyvážené — trieda s 10 000 prípadmi a 90% presnosťou prispieva 9 000 správnymi predpoveďami, zatiaľ čo trieda so 100 prípadmi pri 90% presnosti prispieva 90 správnymi predpoveďami. Bez normalizácie väčšia trieda vizuálne dominuje matici a zakrýva slabý výkon na zriedkavých, ale kritických triedach defektov.”
[[faq]] question = “Ako pomáhajú matice zámen pri klasifikácii typu povrchu letiskových dráh?” answer = “Pre klasifikáciu typu povrchu letiskových dráh podľa noriem ICAO matica zámen odhaľuje, či model správne rozlišuje medzi asfaltom (flexibilný), betónom (tuhý), kompozitom (asfalt na betóne) a štrkom/nespevnenými povrchmi. Bežné zámeny zahŕňajú: kompozitné povrchy klasifikované ako čistý asfalt, keď je asfaltový náter hrubý, starý betón klasifikovaný ako kompozit, keď textúra povrchu pripomína náter, a pórovité trecie vrstvy (PFC) klasifikované nesprávne kvôli ich odlišnému vizuálnemu vzhľadu. Matica zámen pomáha identifikovať, ktoré dvojice typov povrchu sú najproblematickejšie, čo usmerňuje cielený zber dát alebo zlepšovanie modelu. Pre súlad s ICAO je presná klasifikácia typu povrchu kritická pre výpočty výkonnosti lietadiel vrátane dĺžky pristátia, brzdného účinku a koeficientov trenia pneumatík.”
[[faq]] question = “Ako možno matice zámen efektívne vizualizovať pre reportovanie?” answer = “Efektívna vizualizácia matice zámen kombinuje farebné kódovanie, anotácie a normalizáciu. Štandardný prístup používa teplotnú mapu s divergentnou farebnou škálou — zelenú alebo modrú pre vysoké hodnoty na správnej diagonále, červenú alebo teplé farby pre mimodiagonálne chyby. Hodnoty buniek sú prekryté textovými anotáciami, buď ako počty alebo percentá v závislosti od publika. Pre technické správy bunky s tromi hodnotami (počet, percento riadku a percento stĺpca) poskytujú úplné informácie. Pre výkonné zhrnutia je vhodnejšia normalizovaná matica po riadkoch s percentami a jednotnou farebnou škálou. Osvvedčené postupy zahŕňajú: zabezpečenie, aby farebná škála pokrývala celý rozsah hodnôt, jasné označenie všetkých riadkov a stĺpcov, pridaním legendy farebnej škály a uvedením celkovej presnosti v popise. Python knižnice ako scikit-learn, matplotlib a seaborn poskytujú vstavané funkcie na generovanie vizualizácií matíc zámen pripravených na publikáciu.”
[[faq]] question = “Aká je matica zámen pre model klasifikácie defektov na betónovej infraštruktúre?” answer = “Pre klasifikáciu defektov betónovej infraštruktúry typická matica zámen môže zahŕňať triedy ako: trhliny (s podtypmi: vlásočnicové, mierne, závažné), odlupovanie, delaminácia, výkvet, korózne škvrny, odšupovanie, degradácia spojov a zdravý betón. Rozmery matice závisia od počtu tried defektov, ktoré model rozpoznáva. Každá diagonálna bunka zobrazuje správne detekcie podľa typu defektu, zatiaľ čo mimodiagonálne bunky odhaľujú špecifické zámeny — napríklad výkvet (biele kryštalické usadeniny) často zamieňaný s ranými koróznymi škvrnami (biele/hrdzavé usadeniny), alebo delaminácia zamieňaná s odlupovaním, keď obe vyzerajú ako povrchové nepravidelnosti. Analýza týchto vzorov zámen umožňuje cielenú augmentáciu: pridanie ďalších tréningových príkladov zamieňaných dvojíc, aplikáciu farebných transformácií na zdôraznenie rozdielov chemického zafarbenia alebo úpravu váh tried vo funkcii straty.”
[[faq]] question = “Ako súvisí Cohenov kappa s maticou zámen?” answer = “Cohenov kappa (κ) je metrika odvodená z matice zámen, ktorá meria súhlas medzi predpovedanými a skutočnými triedami pri zohľadnení súhlasu, ktorý by nastal náhodne. Vzorec je κ = (Presnosť - p_e) / (1 - p_e), kde p_e je pravdepodobnosť náhodného súhlasu vypočítaná z riadkových a stĺpcových súčtov matice zámen. Hodnoty kappa sa pohybujú od -1 (úplný nesúhlas) do +1 (dokonalý súhlas), pričom 0 znamená súhlas nie lepší ako náhoda. Pre infraštruktúrnu inšpekciu je kappa obzvlášť cenný pri vyhodnocovaní modelov na nevyvážených súboroch dát — model, ktorý dosahuje 95% presnosť jednoduchým predpovedaním „zdravý betón” pre každý obrázok, by mal nízky kappa, pretože náhodný súhlas je vysoký. Kappa pod 0,40 znamená slabý súhlas, 0,40–0,75 znamená uspokojivý až dobrý súhlas a nad 0,75 znamená vynikajúci súhlas nad rámec náhody." +++

Matica zámen, známa aj ako chybová matica, je špecifické tabuľkové usporiadanie, ktoré umožňuje podrobnú vizualizáciu výkonu klasifikačného algoritmu. Je to jeden z najzákladnejších a najinformatívnejších nástrojov pri vyhodnocovaní modelov strojového učenia, poskytujúci úplný obraz o tom, kde model uspeje a, čo je dôležitejšie, kde zlyháva. Matica krížovo porovnáva skutočné triedy (ground truth) s predpokladanými triedami produkovanými modelom, pričom každá bunka obsahuje počet prípadov spadajúcich do tejto kombinácie.
Štandardnou konvenciou je umiestniť skutočné triedy ako riadky a predpokladané triedy ako stĺpce. Pre klasifikačný problém s K rôznymi triedami má matica zámen rozmery K×K. Prvok na pozícii C[i][j] predstavuje počet prípadov patriacich do skutočnej triedy i, ktoré model predpovedal ako triedu j. Diagonálne prvky C[i][i] teda predstavujú správne klasifikácie — prípady, kde sa predpokladaná trieda zhoduje so skutočnou triedou. Všetky mimodiagonálne prvky predstavujú nesprávne klasifikácie rôznych typov a závažnosti.
Matica zámen odvodzuje svoj názov od poznatku, ktorý poskytuje o tom, ktoré triedy si model navzájom „zamieňa". Model, ktorý spoľahlivo rozlišuje medzi asfaltovými a betónovými povrchmi, ale často zamieňa kompozitnú vozovku s asfaltovou, bude vykazovať vysoké hodnoty na diagonále asfalt-asfalt a betón-betón, ale významnú mimodiagonálnu koncentráciu na priesečníku kompozit-asfalt. Tento vzor hovorí vývojárovi modelu presne, kam zamerať úsilie o zlepšenie.
Matematický základ matice zámen je zakorenený v analýze kontingenčných tabuliek, štatistickej metóde siahajúcej až k práci Karla Pearsona z raného 20. storočia o chí-kvadrát testoch pre kategorické dáta. V kontexte strojového učenia bola matica formalizovaná ako štandardný vyhodnocovací nástroj v 60. rokoch 20. storočia s rozvojom automatických systémov rozpoznávania vzorov. Dnes každý významný rámec strojového učenia zahŕňa výpočet matice zámen — scikit-learn poskytuje sklearn.metrics.confusion_matrix, TensorFlow ponúka tf.math.confusion_matrix a PyTorch umožňuje výpočet matíc cez torchmetrics.ConfusionMatrix. Implementácia scikit-learn je najpoužívanejšia v Python-based pipeline pre infraštruktúrnu inšpekciu, prijímajúc polia skutočných a predpokladaných značiek a vracajúc maticu K×K s konfigurovateľnými možnosťami normalizácie.
Binárna matica zámen je najjednoduchšia a najviac vyučovaná forma, použiteľná vtedy, keď má klasifikačný problém presne dve triedy — konvenčne označované ako pozitívna a negatívna. Pre infraštruktúrnu inšpekciu by binárny problém mohol byť: „obsahuje tento obrázok vozovky trhlinu?" (pozitívny = trhlina prítomná) alebo „je tento mostný komponent zdravý?" (pozitívny = defekt detekovaný).
Binárna matica 2×2 obsahuje presne štyri bunky:
| Predpokladaný pozitívny | Predpokladaný negatívny | |
|---|---|---|
| Skutočne pozitívny | Skutočne pozitívny (TP) | Falošne negatívny (FN) |
| Skutočne negatívny | Falošne pozitívny (FP) | Skutočne negatívny (TN) |
Skutočne pozitívne (TP) — Prípady správne identifikované ako patriace do pozitívnej triedy. Pre model detekcie trhlín je TP počet obrázkov obsahujúcich trhliny, ktoré model správne označil ako prasknuté. Každý skutočne pozitívny prípad predstavuje správne identifikovaný defekt, umožňujúci včasnú údržbu. Vysoký počet TP indikuje vysokú citlivosť alebo úplnosť — model zachytáva defekty, na ktoré je navrhnutý.
Falošne pozitívne (FP) — Negatívne prípady nesprávne klasifikované ako pozitívne. Nazývajú sa aj chyby typu I v štatistickom testovaní hypotéz. Falošne pozitívny prípad pri detekcii trhlín znamená, že model označil neporušenú vozovku ako prasknutú. Hoci falošne pozitívne prípady nespôsobujú štrukturálne bezpečnostné problémy (žiadny defekt nezostane neodhalený), generujú falošné poplachy, ktoré plytvajú zdrojmi inšpekcie — tímy vyslané na vyšetrenie neexistujúcich defektov, rozpočty údržby alokované na zbytočné opravy a celkové narušenie dôvery v AI systém. V letiskových prevádzkach, kde súlad s ICAO Annex 14 vyžaduje dokumentované nálezy inšpekcií, nadmerné falošne pozitívne prípady zaťažujú pracovný tok reportovania.
Falošne negatívne (FN) — Pozitívne prípady nesprávne klasifikované ako negatívne. Sú to chyby typu II a všeobecne sa považujú za nebezpečnejší typ chyby v infraštruktúrnej inšpekcii. Falošne negatívny prípad znamená, že skutočný defekt — trhlina, odlupovanie, miesto korózie — zostáva neodhalený. Pre letiskové dráhy vystavené zaťaženiu lietadlami sa neodhalená trhlina môže šíriť pri opakovanom zaťažení pneumatikami, čo vedie k zrýchlenej degradácii vozovky a potenciálnej tvorbe cudzích predmetov (FOD). Falošne negatívne prípady predstavujú zmeškané defekty kritické pre bezpečnosť a musia byť minimalizované aj za cenu akceptovania viac falošne pozitívnych prípadov.
Skutočne negatívne (TN) — Prípady správne identifikované ako nepatriace do pozitívnej triedy. Predstavujú správne identifikované neporušené oblasti vozovky. Hoci skutočne negatívne prípady priamo neprispievajú k odhaľovaniu defektov, sú nevyhnutné pre validáciu celkovej presnosti modelu a pre výpočet metrík ako špecificita (miera skutočne negatívnych).
Vzťah medzi týmito štyrmi hodnotami určuje všetky odvodené metriky:
Presnosť (Accuracy) = (TP + TN) / (TP + TN + FP + FN) — Podiel všetkých predpovedí, ktoré sú správne.
Presnosť (Precision) (Pozitívna prediktívna hodnota) = TP / (TP + FP) — Zo všetkých prípadov predpovedaných ako pozitívne, aký podiel je skutočne pozitívny. Vysoká presnosť znamená málo falošných poplachov.
Úplnosť (Recall) (Citlivosť, Miera skutočne pozitívnych) = TP / (TP + FN) — Zo všetkých skutočne pozitívnych prípadov, aký podiel model zachytil. Vysoká úplnosť znamená málo zmeškaných defektov.
Špecificita (Specificity) (Miera skutočne negatívnych) = TN / (TN + FP) — Zo všetkých skutočne negatívnych prípadov, aký podiel bol správne identifikovaný ako negatívny.
F1-skóre = 2 × (Presnosť × Úplnosť) / (Presnosť + Úplnosť) — Harmonický priemer presnosti a úplnosti, poskytujúci jedinú vyváženú metriku.
Pre infraštruktúrnu inšpekciu sa kompromis medzi presnosťou a úplnosťou riadi pomocou rozhodovacieho prahu modelu. Model detekcie trhlín môže produkovať skóre pravdepodobnosti medzi 0 a 1 pre každý obrázok. Nastavenie prahu na 0,5 poskytuje štandardnú rovnováhu medzi presnosťou a úplnosťou. Zníženie prahu na 0,3 zvyšuje úplnosť (menej zmeškaných trhlín), ale znižuje presnosť (viac falošných poplachov). Zvýšenie prahu na 0,8 zlepšuje presnosť, ale riskuje prehliadnutie jemných trhlín. Optimálny prah závisí od operačného kontextu: pre kritické letiskové dráhy, kde by zmeškanie trhliny mohlo viesť k tvorbe FOD, je vhodný nižší prah uprednostňujúci úplnosť. Pre rutinné vizuálne inšpekcie, kde falošné poplachy plytvajú obmedzenými rozpočtami údržby, môže byť vhodnejší vyšší prah uprednostňujúci presnosť.
Keď klasifikačná úloha zahŕňa tri alebo viac tried, matica zámen sa rozširuje na rozmery K×K, kde K je počet tried. Viac triedna klasifikácia je dominantnou paradigmou v AI pre infraštruktúrnu inšpekciu, kde modely musia súčasne rozlišovať medzi viacerými typmi povrchov, viacerými kategóriami defektov alebo viacerými stupňami kvality.
Príklad s 3 triedami pre klasifikáciu typu povrchu letiskových dráh by mohol mať triedy: Asfalt (A), Betón (B) a Kompozit (K). Hypotetická matica zámen pre 1 000 validačných obrázkov:
| Skutočná \ Predpokladaná | Asfalt | Betón | Kompozit | Spolu |
|---|---|---|---|---|
| Asfalt | 420 | 15 | 15 | 450 |
| Betón | 10 | 280 | 10 | 300 |
| Kompozit | 30 | 20 | 200 | 250 |
| Spolu | 460 | 315 | 225 | 1000 |
Diagonála zobrazuje správne predpovede: 420 asfalt, 280 betón, 200 kompozit — spolu 900 správnych z 1 000, čo dáva 90% celkovú presnosť. Mimodiagonálne bunky odhaľujú štruktúru chýb: Asfalt bol zamieňaný s Betónom (15 prípadov) a Kompozitom (15 prípadov) približne rovnako. Betón bol zamieňaný s Asfaltom (10) a Kompozitom (10) rovnako. Kompozit bol najčastejšie zamieňaný s Asfaltom (30 prípadov) — takmer dvojnásobok zámeny s Betónom (20). Tento vzor hovorí vývojárovi modelu, že kompozitné povrchy sú najnáročnejšou triedou, najmä keď vizuálne pripomínajú čistý asfalt.
Pre viac triedne matice zámen prístup jedna-proti-všetkým konvertuje K-triedny problém na K binárnych podproblémov pre výpočet metrík. Pre danú triedu i:
Pre triedu Kompozit v uvedenom príklade:
Viac triedna matica zámen sa škáluje na ľubovoľný počet tried. Pre modely infraštruktúrnej inšpekcie s 10–15 typmi defektov sa matica stáva bohatým zdrojom informácií odhaľujúcim nielen to, ktoré triedy fungujú slabo, ale presne ktoré dvojice tried sú problematické. To je zásadne informatívnejšie ako jediné číslo presnosti.
Matica zámen je zdrojom, z ktorého sú odvodené všetky klasifikačné metriky na úroveň triedy. Pochopenie odvodenia umožňuje odborníkom správne interpretovať výkon modelu a identifikovať, ktoré triedy potrebujú zlepšenie.
Pre každú triedu i v klasifikačnom probléme s K triedami:
Presnosť_i = C[i][i] / súčet(C[:][i]) = TP / (TP + FP)
Presnosť odpovedá na otázku: „Keď model predpovedá triedu i, ako často je správny?" Toto sa tiež nazýva pozitívna prediktívna hodnota. Pri klasifikácii defektov vysoká presnosť na triede „kritická konštrukčná trhlina" znamená, že keď model označí závažnú trhlinu, inšpektori môžu tomuto nálezu dôverovať.
Úplnosť_i = C[i][i] / súčet(C[i][:]) = TP / (TP + FN)
Úplnosť odpovedá na otázku: „Zo všetkých skutočných prípadov triedy i, koľko ich model našiel?" Toto sa tiež nazýva citlivosť alebo miera skutočne pozitívnych. Pri klasifikácii defektov vysoká úplnosť na „odlupovaní" znamená, že väčšina skutočných odlupovaní je detekovaná, čo minimalizuje zmeškanú degradáciu.
F1_i = 2 × (Presnosť_i × Úplnosť_i) / (Presnosť_i + Úplnosť_i)
F1 je harmonický priemer, vždy ležiaci medzi presnosťou a úplnosťou. F1 je preferovaný pred aritmetickým priemerom, pretože penalizuje extrémnu nerovnováhu — model s presnosťou=1,0 a úplnosťou=0,0 má F1=0,0, čo správne indikuje, že model je nepoužiteľný napriek aritmetickému priemeru 0,5.
Pre porovnanie modelov naprieč všetkými triedami existujú tri metódy priemerovania:
Makro-priemer vypočíta metriku nezávisle pre každú triedu a spriemeruje ich s rovnakou váhou: Makro-Presnosť = (1/K) × súčet(Presnosť_i). Toto zaobchádza so všetkými triedami rovnako bez ohľadu na ich frekvenciu. Pre 3-triedny príklad povrchov: Makro-Presnosť = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Makro-priemer je vhodný, keď sú všetky triedy rovnako dôležité — napríklad pri klasifikácii typov poškodenia vozovky, kde aj zriedkavé defekty sú dôležité pre bezpečnosť.
Mikro-priemer agreguje počty naprieč všetkými triedami pred výpočtom metriky: Mikro-Presnosť = súčet(TP_i) / súčet(TP_i + FP_i). Pre príklad: Mikro-Presnosť = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Je pozoruhodné, že mikro-priemer presnosti sa rovná celkovej presnosti pre klasifikáciu s jednou značkou. Mikro-priemer je riadený najčastejšími triedami a je vhodný, keď je prioritou celková správnosť.
Vážený priemer vypočíta metriku na triedu a spriemeruje ju váženú počtom skutočných prípadov na triedu: Vážená-Presnosť = súčet(Presnosť_i × n_i) / súčet(n_i), kde n_i je skutočný počet pre triedu i. Pre príklad: Vážená-Presnosť = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Vážený priemer je odporúčaným predvoleným nastavením pre nevyvážené súbory dát, pretože zohľadňuje frekvenciu tried bez skrývania slabého výkonu na menšinových triedach.
| Metóda priemerovania | Vzorec | Najvhodnejšie pre |
|---|---|---|
| Makro | (1/K) × Σ Metrika_i | Rovnaká dôležitosť tried, zriedkavé defekty sú dôležité |
| Mikro | Σ TP / (Σ TP + Σ FP) | Celková správnosť súboru dát |
| Vážený | Σ (Metrika_i × n_i) / Σ n_i | Nevyvážené triedy, praktické predvolené nastavenie |
MCC je odvodený z matice zámen a poskytuje jedinú metriku, ktorá sumarizuje celú maticu spôsobom odolným voči nevyváženosti tried. Pre viac triednu klasifikáciu sa MCC pohybuje od -1 do +1, kde +1 znamená dokonalú predpoveď, 0 náhodnú predpoveď a -1 úplný nesúhlas. MCC je definovaný ako:
MCC = [súčet(súčet(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [súčet(súčet(C[p][q] * C[p][r]))] × [súčet(súčet(C[s][t] * C[u][t]))] )
kde súčty sú cez príslušné rozsahy indexov podľa definície Gorodkina (2004). MCC je všeobecne považovaný za najinformatívnejšiu jednotnú metriku pre hodnotenie klasifikátorov, pretože využíva všetky štyri kvadranty matice zámen (pri binárnej) alebo všetkých K² buniek (pri viac triednej), na rozdiel od presnosti, ktorá využíva iba diagonálu.
Celková presnosť je najintuitívnejšie chápaná metrika odvodená z matice zámen: súčet diagonály (správne predpovede) vydelený celkovým počtom vzoriek. Pre akúkoľvek maticu zámen sa celková presnosť vypočíta ako:
Presnosť = Σ C[i][i] / Σ C[i][j] pre všetky i, j
Presnosť predstavuje podiel všetkých predpovedí, ktoré model urobil správne. Hoci je intuitívna, presnosť má kritické obmedzenia, ktoré samotná matica zámen pomáha diagnostikovať.
Paradox presnosti opisuje situácie, kde vysoká presnosť neindikuje dobrý výkon modelu kvôli nevyváženosti tried. Uvažujme model detekcie defektov vozovky vyhodnotený na súbore dát, kde 95% obrázkov zobrazuje neporušenú vozovku (negatívne) a 5% zobrazuje trhliny (pozitívne). Triviálny model, ktorý predpovedá „neporušený" pre každý obrázok, dosahuje 95% presnosť — napriek tomu detekuje nulové trhliny. Matica zámen okamžite odhalí toto zlyhanie: model má TP=0, FP=0, FN=500 (všetky trhliny zmeškané), TN=9 500 (všetky neporušené správne identifikované). Napriek 95% celkovej presnosti je úplnosť pre triedu trhlín 0%.
Matica zámen robí paradox presnosti viditeľným. Samotná presnosť nedokáže rozlíšiť medzi:
Pre infraštruktúrnu inšpekciu je toto rozlíšenie kritické z hľadiska bezpečnosti. ICAO Annex 14 vyžaduje, aby inšpekcie povrchu dráh identifikovali všetky defekty, ktoré by mohli ohroziť prevádzku lietadiel. Model s 99% presnosťou, ktorý zmešká 100% zriedkavého, ale nebezpečného typu defektu (napríklad hlbokej konštrukčnej trhliny v pristávacej zóne dráhy), predstavuje bezpečnostné riziko, ktoré by samotná presnosť maskovala.
Z matice zámen môžu odborníci vypočítať presnosť na triedu (tiež nazývanú úplnosť alebo citlivosť pre pozitívnu triedu v binárnom nastavení):
Presnosť_triedy_i = C[i][i] / súčet(C[i][:])
Toto udáva podiel skutočných prípadov triedy i, ktoré model správne klasifikoval. Pre nevyvážené súbory dát je presnosť na triedu oveľa informatívnejšia ako celková presnosť. Užitočným prístupom k reportovaniu je prezentovať celkovú presnosť spolu s minimálnou presnosťou na triedu — trieda s najnižšou individuálnou presnosťou sa stáva slabým miestom modelu, ktoré si vyžaduje pozornosť.
Vyvážená presnosť rieši nevyváženosť tried priemerovaním úplnosti naprieč všetkými triedami:
Vyvážená presnosť = (1/K) × Σ (C[i][i] / súčet(C[i][:]))
Pre príklad 95% neporušených / 5% trhlín s triviálnym modelom vždy-neporušený: Vyvážená presnosť = (Úplnosť_neporušený + Úplnosť_trhlina) / 2 = (9500/9500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Vyvážená presnosť správne identifikuje tento model ako nie lepší než náhodný (0,50), zatiaľ čo celková presnosť (0,95) je zavádzajúco vysoká.
Najsilnejšou diagnostickou schopnosťou matice zámen je jej schopnosť odhaliť ktoré konkrétne triedy sú s ktorými zamieňané — vzor mimodiagonálnych chýb. Táto informácia priamo usmerňuje stratégie zlepšovania modelu.
Bežné vzory zámen v modeloch infraštruktúrnej inšpekcie zahŕňajú:
Zámena v rámci kategórie — Dva vizuálne podobné typy defektov sú často navzájom zamieňané. Výkvet (biele kryštalické usadeniny solí na betóne) a rané štádium korózie (hrdzavé škvrny) sú často zamieňané, pretože oba vyzerajú ako povrchové zafarbenie. Na asfaltových vozovkách sú aligátorové trhliny (vzájomne prepojené polygóny z únavy) niekedy zamieňané s blokovými trhlinami (obdĺžnikové bloky zo zmršťovania), keď je hustota siete trhlín stredná.
Hierarchická zámena — Model správne identifikuje všeobecnú kategóriu, ale zamieňa konkrétny podtyp. Model môže správne detekovať, že povrch je „popraskaný", ale zamieňať „priečnu trhlinu" s „pozdĺžnou trhlinou" — obe sú lineárne trhliny líšiace sa len orientáciou voči osi vozovky alebo smeru dopravy.
Medzikategoriálna zámena — Stav povrchu je zamenený za zásadne odlišný stav. Okraje tieňov na vozovke môžu byť zamenené s okrajmi trhlín kvôli podobným kontrastným gradientom. Materiál tesnenia spojov môže byť zamenený s materiálom na vyplnenie trhlín. Šmykové stopy pneumatík v dotykových zónach pristátia na dráhe môžu byť zamenené s degradáciou povrchu.
Frakcia zámeny pre dvojicu tried (i, j) je:
Zámena(i → j) = C[i][j] / súčet(C[i][:])
Toto udáva, pre skutočné prípady triedy i, aký podiel bol nesprávne klasifikovaný ako trieda j. Frakcia zámeny 0,15 medzi kompozitom (skutočný) a asfaltom (predpovedaný) znamená, že 15% kompozitných povrchov je zamenených za asfalt — primárny režim zlyhania pre túto triedu.
Podobne normalizovaná matica zámen s normalizáciou po riadkoch nastaví každý riadok tak, aby sa sčítal na 1,0, priamo zobrazujúc podiel každej skutočnej triedy rozloženej medzi predpovedané triedy. Toto je najbežnejší formát vizualizácie pre viac triedne matice zámen, pretože robí vzory zámen okamžite viditeľnými bez ohľadu na veľkosť vzoriek tried.
Normalizovaná matica zámen sa typicky zobrazuje ako tepelná mapa s použitím divergentnej farebnej schémy. Diagonála (správne predpovede) je zobrazená v zelenej alebo modrej farbe, vytvárajúc viditeľný „hrebeň správnosti", ktorý by mal byť dominantným vizuálnym prvkom. Mimodiagonálne bunky sú zobrazené v červenej alebo teplých farbách, s intenzitou úmernou frakcii zámeny. Toto vizuálne kódovanie umožňuje okamžitú identifikáciu:
Po identifikácii zamieňaných dvojíc tried možno aplikovať nasledujúce cielené stratégie:
Klasifikácia typu povrchu je základnou úlohou v infraštruktúrnej inšpekcii. Pre letiskové dráhy vyžadujú Medzinárodná organizácia civilného letectva (ICAO) a Federálna letecká správa (FAA) presnú identifikáciu typu povrchu pre výpočty výkonnosti lietadiel.
Typický model klasifikácie typu povrchu pre letiskové dráhy musí rozlišovať medzi:
Matica zámen pre 4-triedny model typu povrchu testovaný na 2 000 validačných obrázkoch by mohla vyzerať takto:
| Skutočná \ Predpokladaná | Asfalt | Betón | Kompozit | Štrk |
|---|---|---|---|---|
| Asfalt (n=600) | 564 | 6 | 24 | 6 |
| Betón (n=500) | 10 | 465 | 20 | 5 |
| Kompozit (n=400) | 48 | 28 | 312 | 12 |
| Štrk (n=500) | 5 | 10 | 5 | 480 |
Táto matica odhaľuje:
Asfalt (94,0% úplnosť): 24 z 600 asfaltových obrázkov bolo nesprávne klasifikovaných ako kompozit — najvýznamnejšia zámena pre túto triedu. K tomu dochádza, keď asfaltové povrchy majú reflexné vzory praskania, ktoré vizuálne pripomínajú kompozitnú vozovku (asfalt na betóne s odrazom trhlín). 6 nesprávnych klasifikácií na betón sa môže vyskytnúť na svetlom oxidovanom asfalte, ktorý pripomína starý betón.
Betón (93,0% úplnosť): Primárnou zámenou je 20 obrázkov nesprávne klasifikovaných ako kompozit — typicky betónové povrchy s tenkými asfaltovými záplatami alebo pásmi náteru, ktoré vytvárajú vzhľad podobný kompozitu.
Kompozit (78,0% úplnosť): Toto je problémová trieda. 48 zo 400 kompozitných obrázkov (12%) bolo klasifikovaných ako čistý asfalt. K tomu dochádza, keď je asfaltový náter dostatočne hrubý na to, aby podkladová betónová textúra a škáry neboli viditeľné na zachytených snímkach. Ďalších 28 (7%) bolo klasifikovaných ako čistý betón — typicky keď sa asfaltový náter v dopravných oblastiach opotreboval a odkryl betónový podklad. Model má problémy, pretože vzhľad kompozitnej vozovky pokrýva spektrum medzi čistým asfaltom a čistým betónom.
Štrk (96,0% úplnosť): Štrk je vizuálne najodlišnejšou triedou a dosahuje najvyššiu úplnosť.
Pre súlad s ICAO je zámena medzi kompozitom a čistým asfaltom najvýznamnejšia z prevádzkového hľadiska. Výpočty výkonnosti lietadiel — najmä dĺžky vzletu a pristátia — závisia od typu povrchu. Zamenenie kompozitnej vozovky za čistý asfalt by mohlo viesť k nesprávnym odhadom brzdného koeficientu, čo ovplyvňuje bezpečnostné rezervy.
Cielené zlepšenia pre triedu kompozitu zahŕňajú: zachytenie tréningových obrázkov pri rôznom veku náteru (nový hrubý náter vs. opotrebovaný tenký náter), pridanie obrázkov zobrazujúcich vzory reflexného praskania špecifické pre kompozitnú konštrukciu a trénovanie špecializovaného binárneho diskriminátora medzi čistým asfaltom a kompozitným náterom.
Klasifikácia stupňa kvality priraďuje kategorické hodnotenie stavu infraštruktúrnym povrchom. Pre letiskové dráhy medzi bežné systémy hodnotenia patrí Index stavu vozovky (PCI) podľa ASTM D5340 a Klasifikácia stavu letiskovej vozovky používaná v systémoch správy letiskových vozoviek odkazovaných ICAO.
Stupne kvality typicky nasledujú 4-stupňovú alebo 5-stupňovú škálu:
| Stupeň | Rozsah PCI | Popis | Vizuálne indikátory |
|---|---|---|---|
| Dobrý | 86–100 | Minimálne alebo žiadne poškodenie | Málo trhlín, žiadne odlupovanie, neporušené škáry |
| Uspokojivý | 71–85 | Mierna degradácia | Určité praskanie, mierne odlupovanie, mierne zvetrávanie |
| Zlý | 56–70 | Významná degradácia | Rozsiahle praskanie, stredné odlupovanie, viditeľné rozpadávanie |
| Vážny/Zlyhaný | 0–55 | Závažná degradácia | Rozsiahle vzájomne prepojené praskanie, závažné odlupovanie, konštrukčné defekty |
Matica zámen pre klasifikáciu stupňa kvality na 1 000 úsekoch dráhovej vozovky:
| Skutočná \ Predpokladaná | Dobrý | Uspokojivý | Zlý | Zlyhaný |
|---|---|---|---|---|
| Dobrý (n=350) | 315 | 28 | 7 | 0 |
| Uspokojivý (n=300) | 36 | 237 | 24 | 3 |
| Zlý (n=200) | 0 | 30 | 152 | 18 |
| Zlyhaný (n=150) | 0 | 0 | 16 | 134 |
Táto matica odhaľuje charakteristický vzor ordinálnej klasifikačnej zámeny: chyby sú sústredené na susedných stupňoch. Model len zriedka zamieňa Dobrý za Zlyhaný (0 prípadov) alebo Zlyhaný za Dobrý (0 prípadov), pretože tieto triedy sú vizuálne veľmi odlišné. Avšak zámena medzi susednými stupňami je bežná:
Dobrý ↔ Uspokojivý (28 + 36 = 64 zámen): Tieto dva stupne sú najčastejšie zamieňanou dvojicou, predstavujúcou hraničné prípady, kde je prítomné mierne praskanie, ale celkový stav je blízko hranice Dobrý-Uspokojivý (PCI ≈ 85). 28 dobrých úsekov klasifikovaných ako uspokojivé môže mať rané vlásočnicové praskanie, ktoré model interpretuje ako významné; 36 uspokojivých úsekov klasifikovaných ako dobré môže mať veľmi jemné praskanie pod prahom detekcie modelu.
Uspokojivý ↔ Zlý (24 + 30 = 54 zámen): Hodnotenie miernej degradácie je subjektívne aj medzi ľudskými inšpektormi. 24 uspokojivých úsekov klasifikovaných ako zlé má pravdepodobne hustotu trhlín blízko hranice Uspokojivý-Zlý; 30 zlých úsekov klasifikovaných ako uspokojivé môže predstavovať prípady, kde je závažnosť praskania hraničná.
Zlý ↔ Zlyhaný (18 + 16 = 34 zámen): Na závažnom konci je zámena medzi Zlým (rozsiahle praskanie) a Zlyhaným (konštrukčná degradácia) relatívne nízka, pretože zlyhaná vozovka vykazuje kvalitatívne odlišné poškodenie — odlupovanie, poklesy a rozpad povrchu presahujúce jednoduché praskanie.
Matica je asymetrická: zámena Dobrý→Uspokojivý (28) je nižšia ako zámena Uspokojivý→Dobrý (36). To znamená, že model je konzervatívnejší pre uspokojivé úseky (tendencia znižovať hodnotenie dobrých úsekov na uspokojivé) než pre dobré úseky (tendencia zvyšovať hodnotenie uspokojivých na dobré). Táto asymetria je relevantná pre plánovanie údržby — konzervatívne nesprávne klasifikácie (hodnotenie lepšej vozovky ako horšej) sú prevádzkovo bezpečnejšie, pretože vedú k skoršiemu zásahu údržby namiesto oneskorenej akcie.
Cohenov vážený kappa je obzvlášť vhodný pre matice zámen stupňov kvality, pretože zohľadňuje poradie tried. Chyby na susedných stupňoch (Uspokojivý klasifikovaný ako Zlý) sú penalizované menej prísne ako vzdialené chyby (Dobrý klasifikovaný ako Zlyhaný). Lineárne váženie penalizuje proporcionálne k vzdialenosti stupňov, zatiaľ čo kvadratické váženie penalizuje druhú mocninu vzdialenosti stupňov — vhodnejšie, keď majú rozdiely v stupňoch nelineárne bezpečnostné dôsledky.
Pre maticu uvedenú vyššie by vážený kappa (lineárny) mohol byť približne 0,78, čo indikuje významný súhlas nad rámec náhody, zatiaľ čo nevážený kappa by bol nižší, približne 0,72, pretože zaobchádza so všetkými mimodiagonálnymi chybami rovnako bez ohľadu na závažnosť.
Klasifikácia defektov je najkomplexnejšou a najkritickejšou úlohou z hľadiska bezpečnosti pre AI modely infraštruktúrnej inšpekcie. Pre betónové mostné komponenty alebo letiskové dráhy môže model potrebovať súčasne rozpoznávať 10–15 rôznych typov defektov.
Typické triedy defektov pre inšpekciu betónovej infraštruktúry zahŕňajú:

Čiastočná matica zámen zameraná na najčastejšie zamieňané dvojice defektov pre model inšpekcie betónovej mostovky:
| Skutočná \ Predpokladaná | Vlásočnicová trhlina | Konštrukčná trhlina | Odlupovanie | Výkvet | Korózna škvrna | Neporušený |
|---|---|---|---|---|---|---|
| Vlásočnicová trhlina | 820 | 30 | 5 | 40 | 10 | 95 |
| Konštrukčná trhlina | 15 | 440 | 20 | 5 | 15 | 5 |
| Odlupovanie | 0 | 10 | 285 | 5 | 20 | 0 |
| Výkvet | 25 | 0 | 5 | 145 | 60 | 15 |
| Korózna škvrna | 5 | 5 | 15 | 35 | 180 | 10 |
| Neporušený | 65 | 0 | 0 | 10 | 15 | 1910 |
Výkvet ↔ Korózna škvrna (60 + 35 = 95 zámen): Najvýznamnejšia dvojica zámen v klasifikácii betónových defektov. Oba sa prejavujú ako povrchové zafarbenie — výkvet ako biele kryštalické usadeniny, korózne škvrny ako hrdzavé fľaky. Keď výkvet obsahuje nečistoty alebo keď je korózne škvrnanie v ranom štádiu (hrdzavé, ale ešte nie vzorované), sú tieto dva vizuálne nerozoznateľné. Táto zámena má materiálne dôsledky: výkvet indikuje migráciu vody (problém údržby), zatiaľ čo korózne škvrnanie indikuje aktívnu koróziu výstuže (konštrukčný bezpečnostný problém). Zamenenie jedného za druhé by mohlo viesť k dramaticky nesprávnemu stanoveniu priorít údržby.
Vlásočnicová trhlina ↔ Neporušený (95 + 65 = 160 zámen): Vlásočnicové trhliny blízko limitu rozlíšenia modelu (približne 0,2 mm pri rozlíšení snímky 0,5 mm/pixel) sú často prehliadané. 95 vlásočnicových trhlín bolo klasifikovaných ako neporušený (falošne negatívne), čo predstavuje zmeškanú ranú degradáciu. 65 neporušených povrchov bolo klasifikovaných ako vlásočnicovo prasknuté (falošne pozitívne), čo predstavuje falošné poplachy. Toto je klasický kompromis citlivosti detekcie na hranici vnímania.
Odlupovanie ↔ Korózna škvrna (20 + 15 = 35 zámen): Oblasti odlupovania odhaľujúce skorodované výstužné prúty majú často hrdzavé zafarbenie okolo okrajov odlupovania, čo vedie k zámene medzi týmito dvoma triedami. V mnohých prípadoch oba defekty koexistujú — odlupovanie spôsobené podkladovou koróziou — čo robí úlohu klasifikácie s jednou značkou inherentne nejednoznačnou.
Konštrukčná trhlina ↔ Vlásočnicová trhlina (30 + 15 = 45 zámen): Trhliny blízko hranice vlásočnicovo-konštrukčné (približne 0,3 mm šírka) sú zamieňané na základe vnímanej šírky. Bez presnej meracej schopnosti na submilimetrovej úrovni v štandardných inšpekčných snímkach je táto zámena očakávaná a môže byť prijateľná, ak sú oba typy trhlín označené na inšpekciu.
Na základe vzorov zámen zahŕňajú špecifické stratégie nápravy:
Výkvet vs. Korózna škvrna: Pridajte tréningové dáta zobrazujúce výkvet so zabudovanými nečistotami (žltkastý odtieň) a ranú koróziu bez viditeľnej hrdze (zelenkastý odtieň). Aplikujte farebnú augmentáciu zdôrazňujúcu tieto jemné spektrálne rozdiely. Zvážte pridanie blízko-infračervených alebo multispektrálnych kanálov, ktoré detegujú rozdiely v chemickom zložení.
Vlásočnicová trhlina vs. Neporušený: Zlepšite rozlíšenie snímok alebo nasaďte super-rozlíšovacie predspracovanie. Aplikujte cielenú augmentáciu simulujúcu vlásočnicové trhliny na rôznych textúrach povrchu. Zvážte odmietnutie hraničných predpovedí a ich označenie na ľudské posúdenie.
Odlupovanie vs. Korózna škvrna: Tréning modelu by mal používať viacnásobné značkovanie, kde odlupovanie a korózia môžu koexistovať. Alternatívne vytvorte hierarchický klasifikátor, ktorý najprv deteguje „oblasť degradácie" a potom na druhej úrovni rozlišuje odlupovanie od škvŕn.
Konštrukčná vs. Vlásočnicová trhlina: Integrujte odhad šírky trhliny ako regresnú hlavu namiesto klasifikácie. Použite spojitý odhad šírky na nastavenie prahov závažnosti, ktoré možno doladiť podľa inšpekčnej normy.
Efektívna vizualizácia a reportovanie matice zámen je nevyhnutné pre komunikáciu výkonu modelu zainteresovaným stranám — od dátových vedcov cez manažérov údržby letísk až po regulačné orgány.
Štandardný formát vizualizácie matice zámen je tepelná mapa s nasledujúcimi konvenciami:
Pre obrázky v publikačnej kvalite štandardný prístup používa matplotlib s seaborn.heatmap v Pythone:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_true, y_pred, labels=názvy_tried)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
xticklabels=názvy_tried, yticklabels=názvy_tried,
cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Predpokladaná trieda')
ax.set_ylabel('Skutočná trieda')
ax.set_title(f'Matica zámen (Celková presnosť: {presnosť:.2%})')
plt.tight_layout()
Voľba normalizácie výrazne ovplyvňuje interpretáciu:
Normalizácia po riadkoch (normalize=‘true’): Každý riadok sa sčíta na 1,0 (100%). Diagonálne hodnoty zobrazujú úplnosť na triedu. Hodnoty v riadku zobrazujú „keď je skutočná trieda X, aký podiel bol predpovedaný ako každá trieda?" Toto je najbežnejšia normalizácia pre diagnostickú analýzu.
Normalizácia po stĺpcoch (normalize=‘pred’): Každý stĺpec sa sčíta na 1,0 (100%). Diagonálne hodnoty zobrazujú presnosť na triedu. Hodnoty v stĺpci zobrazujú „keď model predpovedal X, aký podiel skutočne patril do každej skutočnej triedy?" Toto je užitočné pre pochopenie distribúcie falošne pozitívnych.
Bez normalizácie: Zobrazujú sa surové počty. Nevyhnutné pre overenie veľkosti vzoriek, ale sťažuje porovnanie, keď majú triedy rôznu frekvenciu.
Formát troch hodnôt: Každá bunka zobrazuje tri hodnoty: surový počet, % riadku a % stĺpca. To poskytuje úplné informácie v jednej vizualizácii, ale môže byť vizuálne preplnené pre veľké matice.
Pre reportovanie modelov infraštruktúrnej inšpekcie odporúčaná šablóna zahŕňa:
Pre sledovanie vývoja modelu by sa matice zámen mali generovať a zaznamenávať v pravidelných tréningových kontrolných bodoch (každých 10–20 epoch). Porovnanie matíc naprieč kontrolnými bodmi odhaľuje:
Platforma Arena a MLflow poskytujú sledovanie matice zámen ako súčasť správy experimentov, automaticky generujúc a verzujúc matice pre každý tréningový beh.
Nie všetky zámeny v matici sú rovnaké. Doménoví experti by mali preskúmať vzory zámen a klasifikovať každú mimodiagonálnu dvojicu ako:
Vyhnuteľná zámena: Dve triedy sú vizuálne odlišné pre ľudského experta a zámena modelu indikuje nedostatok v tréningových dátach, architektúre modelu alebo učení znakov. Výkvet vs. korózne škvrny na snímkach s jasnými farebnými rozdielmi spadá do tejto kategórie.
Nevyhnuteľná zámena: Dve triedy sú skutočne ťažko rozlíšiteľné aj pre ľudských expertov, alebo diferenciácia vyžaduje informácie, ktoré nie sú dostupné na vstupe (napr. údaje o časovej progresii, podpovrchové snímanie). Vlásočnicová trhlina vs. povrchový škrabanec, kde oba vyzerajú ako jemné lineárne znaky, môžu byť nevyhnuteľne zamieňané len z vizuálnych snímok.
Nejednoznačná skutočná hodnota: Samotná skutočná trieda je neistá kvôli nezhode medzi anotátormi. Ak dvaja ľudskí inšpektori nesúhlasia v 15% prípadov, či je povrch „uspokojivý" alebo „zlý", nemožno očakávať, že model prekročí tento strop zhody. Maticu zámen treba interpretovať relatívne k základnej línii ľudskej zhody — model dosahujúci 90% zhodu s referenčným štandardom môže byť vynikajúci, ak je spoľahlivosť medzi hodnotiteľmi len 85%.
Pre modely infraštruktúrnej inšpekcie používané v kontexte regulačného súladu — ako je certifikácia letísk ICAO Annex 14 alebo FAA AC 150/5320-5D správa vozoviek — slúži matica zámen ako kľúčový validačný artefakt. Regulačné reportovanie by malo zahŕňať:
Matica zámen, keď je správne vytvorená a interpretovaná, transformuje hodnotenie modelu z jedného čísla presnosti na bohatý diagnostický nástroj, ktorý odhaľuje kompletnú štruktúru chýb klasifikačného systému. Pre aplikácie infraštruktúrnej inšpekcie, kde sa náklady rôznych typov chýb dramaticky líšia — zmeškaný konštrukčný defekt stojí oveľa viac ako falošný poplach na neporušenej vozovke — toto detailné porozumenie umožňuje odborníkom doladiť, validovať a nasadiť modely, ktoré spĺňajú špecifické požiadavky spoľahlivosti leteckej bezpečnosti.
Budujeme sieť partnerov pre revolúciu v údržbe letísk pomocou špičkovej technológie.
Štatistická analýza je matematické skúmanie údajov pomocou štatistických metód na vyvodzovanie záverov, testovanie hypotéz a podporu rozhodovania. Je základom v...
Detekcia zmien porovnáva koregistrované snímky alebo mračná bodov tej istej konštrukcie nasnímané v rôznych časoch s cieľom identifikovať nové, zhoršujúce sa al...
Detekcia trhlín pomocou AI využíva počítačové videnie — konvolučné neurónové siete, vision transformery a modely sémantickej segmentácie — na automatickú identi...