Matice záměn

{

Pracoviště datového analytika zobrazující vizualizaci matice záměn formou teplotní mapy na monitoru počítače se zelenou diagonálou a červenými mimodiagonálními buňkami

Definice a struktura

Matice záměn, známá také jako chybová matice, je specifické tabulkové uspořádání, které umožňuje detailní vizualizaci výkonu klasifikačního algoritmu. Je jedním z nejzákladnějších a nejinformativnějších nástrojů pro hodnocení modelů strojového učení a poskytuje úplný obraz o tom, kde model uspěl a, což je důležitější, kde selhal. Matice provádí křížovou tabulaci skutečných tříd (ground truth) oproti predikovaným třídám vytvořeným modelem, přičemž každá buňka obsahuje počet instancí spadajících do této kombinace.

Standardní konvence umísťuje skutečné třídy jako řádky a predikované třídy jako sloupce. Pro klasifikační problém s K různými třídami má matice záměn rozměry K×K. Prvek na pozici C[i][j] představuje počet instancí patřících do skutečné třídy i, které model predikoval jako třídu j. Diagonální prvky C[i][i] tedy představují správné klasifikace — instance, u nichž se predikovaná třída shoduje se skutečnou třídou. Všechny mimodiagonální prvky představují chybné klasifikace různého typu a závažnosti.

Matice záměn odvozuje svůj název od vhledu, který poskytuje do toho, které třídy model vzájemně „zaměňuje“. Model, který spolehlivě rozlišuje mezi asfaltovými a betonovými povrchy, ale často zaměňuje kompozitní vozovku s asfaltem, bude vykazovat vysoké hodnoty podél diagonály asfalt-asfalt a beton-beton, ale významnou mimodiagonální koncentraci na průsečíku kompozit-asfalt. Tento vzorec říká vývojáři modelu přesně, kde zaměřit úsilí o zlepšení.

Matematický základ matice záměn je zakořeněn v analýze kontingenčních tabulek, statistické metodě sahající k práci Karla Pearsona z počátku 20. století o chí-kvadrát testech pro kategoriální data. V kontextu strojového učení byla matice formalizována jako standardní nástroj hodnocení v 60. letech 20. století s rozvojem automatizovaných systémů rozpoznávání vzorů. Dnes každý významný framework pro strojové učení zahrnuje výpočet matice záměn — scikit-learn poskytuje sklearn.metrics.confusion_matrix, TensorFlow nabízí tf.math.confusion_matrix a PyTorch umí vypočítat matice pomocí torchmetrics.ConfusionMatrix. Implementace ze scikit-learn je nejpoužívanější v Pythonových pipeline pro inspekci infrastruktury, přijímá pole skutečných a predikovaných tříd a vrací matici K×K s konfigurovatelnými možnostmi normalizace.

Binární matice záměn

Binární matice záměn je nejjednodušší a nejčastěji vyučovaná forma, použitelná když klasifikační problém má právě dvě třídy — konvenčně označované jako pozitivní a negativní. Pro inspekci infrastruktury by binárním problémem mohlo být: „obsahuje tento snímek vozovky trhlinu?“ (pozitivní = trhlina přítomna) nebo „je tento mostní prvek zdravý?“ (pozitivní = vada detekována).

Binární matice záměn 2×2 obsahuje přesně čtyři buňky:

Predikováno pozitivněPredikováno negativně
Skutečně pozitivníTrue Positive (TP)False Negative (FN)
Skutečně negativníFalse Positive (FP)True Negative (TN)

True Positives (TP) — Instance správně identifikované jako patřící do pozitivní třídy. U modelu pro detekci trhlin je TP počet snímků obsahujících trhliny, které model správně označil jako popraskané. Každá skutečně pozitivní detekce představuje správně identifikovanou vadu, umožňující včasné údržbové opatření. Vysoký počet TP indikuje vysokou senzitivitu neboli úplnost (recall) — model zachytí vady, které má najít.

False Positives (FP) — Negativní instance nesprávně klasifikované jako pozitivní. Ty se také nazývají chyby I. druhu v statistickém testování hypotéz. Falešně pozitivní výsledek při detekci trhlin znamená, že model označil neporušenou vozovku jako popraskanou. I když falešně pozitivní výsledky nezpůsobují problémy s konstrukční bezpečností (žádná vada nezůstane nezjištěna), generují falešné poplachy, které plýtvají inspekčními zdroji — týmy vyslané k prošetření neexistujících vad, rozpočty na údržbu alokované na zbytečné opravy a celkové narušení důvěry v AI systém. V letištním provozu, kde soulad s ICAO Annex 14 vyžaduje dokumentovaná zjištění z inspekcí, nadměrný počet falešně pozitivních výsledků zatěžuje pracovní postup reportování.

False Negatives (FN) — Pozitivní instance nesprávně klasifikované jako negativní. Jedná se o chyby II. druhu a jsou obecně považovány za nebezpečnější typ chyby v inspekci infrastruktury. Falešně negativní výsledek znamená, že skutečná vada — trhlina, odlupování, místo koroze — zůstala nezjištěna. U letištních zpevněných ploch vystavených zatížení letadly se může nezjištěná trhlina šířit vlivem opakovaného zatížení pneumatikami, což vede k urychlenému zhoršení vozovky a potenciálnímu vzniku cizích předmětů (FOD). Falešně negativní výsledky představují zmeškané bezpečnostně kritické vady a musí být minimalizovány i za cenu přijetí více falešně pozitivních výsledků.

True Negatives (TN) — Instance správně identifikované jako nepatřící do pozitivní třídy. Ty představují správně identifikované neporušené plochy vozovky. I když skutečně negativní výsledky přímo nepřispívají k objevování vad, jsou nezbytné pro validaci celkové přesnosti modelu a pro výpočet metrik jako je specificita (míra skutečně negativních výsledků).

Vztah mezi těmito čtyřmi hodnotami určuje všechny odvozené metriky:

Přesnost (Accuracy) = (TP + TN) / (TP + TN + FP + FN) — Podíl všech predikcí, které jsou správné.

Precision (pozitivní prediktivní hodnota) = TP / (TP + FP) — Ze všech instancí predikovaných jako pozitivní, jaký podíl je skutečně pozitivní. Vysoká precision znamená málo falešných poplachů.

Recall (Senzitivita, míra skutečně pozitivních) = TP / (TP + FN) — Ze všech skutečně pozitivních instancí, jaký podíl model zachytil. Vysoký recall znamená málo zmeškaných vad.

Specificita (míra skutečně negativních) = TN / (TN + FP) — Ze všech skutečně negativních instancí, jaký podíl byl správně identifikován jako negativní.

F1-skóre = 2 × (Precision × Recall) / (Precision + Recall) — Harmonický průměr precision a recall, poskytující jedinou vyváženou metriku.

Pro inspekci infrastruktury je kompromis mezi precision a recall řízen pomocí rozhodovacího prahu modelu. Model detekce trhlin může pro každý snímek vydávat skóre pravděpodobnosti mezi 0 a 1. Nastavení prahu na 0,5 dává standardní vyvážení precision a recall. Snížení prahu na 0,3 zvyšuje recall (méně zmeškaných trhlin), ale snižuje precision (více falešných poplachů). Zvýšení prahu na 0,8 zlepšuje precision, ale riskuje přehlédnutí jemných trhlin. Optimální práh závisí na provozním kontextu: pro kritické letištní zpevněné plochy, kde by přehlédnutí trhliny mohlo vést ke vzniku FOD, je vhodnější nižší práh upřednostňující recall. Pro rutinní vizuální inspekce, kde falešné poplachy plýtvají omezenými rozpočty na údržbu, může být výhodnější vyšší práh upřednostňující precision.

Více tříd: matice záměn

Když klasifikační úloha zahrnuje tři nebo více tříd, matice záměn se rozšiřuje na rozměry K×K, kde K je počet tříd. Klasifikace s více třídami je dominantním paradigmatem v AI pro inspekci infrastruktury, kde modely musí současně rozlišovat mezi několika typy povrchu, několika kategoriemi vad nebo několika stupni kvality.

Příklad se 3 třídami pro klasifikaci typu povrchu letištních zpevněných ploch by mohl mít třídy: Asfalt (A), Beton (C) a Kompozit (O). Hypotetická matice záměn pro 1 000 validačních snímků:

Skutečná \ PredikovanáAsfaltBetonKompozitCelkem
Asfalt4201515450
Beton1028010300
Kompozit3020200250
Celkem4603152251000

Diagonála ukazuje správné predikce: 420 asfalt, 280 beton, 200 kompozit — celkem 900 správných z 1 000, což dává 90% celkovou přesnost. Mimodiagonální buňky odhalují strukturu chyb: Asfalt byl zaměňován s Betonem (15 instancí) a Kompozitem (15 instancí) zhruba stejně. Beton byl zaměňován s Asfaltem (10) a Kompozitem (10) stejně. Kompozit byl nejčastěji zaměňován s Asfaltem (30 instancí) — téměř dvojnásobek ve srovnání s Betonem (20). Tento vzorec říká vývojáři modelu, že kompozitní povrchy jsou nejobtížnější třídou, zejména když vizuálně připomínají čistý asfalt.

U matic záměn s více třídami se pro výpočet metrik používá přístup jedna-proti-všem, který převádí problém K tříd na K binárních podproblémů. Pro danou třídu i:

  • TP(i) = C[i][i] (diagonální prvek)
  • FP(i) = sum(C[:][i]) - C[i][i] (součet sloupce i minus diagonála)
  • FN(i) = sum(C[i][:]) - C[i][i] (součet řádku i minus diagonál)
  • TN(i) = celkový_počet_vzorků - TP(i) - FP(i) - FN(i)

Pro třídu Kompozit v příkladu výše:

  • TP = 200
  • FP = (15 + 10) = 25 (Kompozitní predikce z řádků Asfalt a Beton)
  • FN = (30 + 20) = 50 (Skutečné kompozity predikované jako Asfalt nebo Beton)
  • TN = 1000 - 200 - 25 - 50 = 725
  • Precision = 200 / (200 + 25) = 0,889
  • Recall = 200 / (200 + 50) = 0,800
  • F1 = 2 × (0,889 × 0,800) / (0,889 + 0,800) = 0,842

Matice záměn s více třídami se škáluje na libovolný počet tříd. U modelů pro inspekci infrastruktury s 10–15 typy vad se matice stává bohatým zdrojem informací, který odhaluje nejen které třídy mají špatný výkon, ale přesně které dvojice tříd jsou problematické. To je zásadně informativnější než jediné číslo přesnosti.

Odvození precision, recall a F1 na třídu

Matice záměn je zdrojem, z něhož jsou odvozeny všechny metriky klasifikace na úroveň tříd. Porozumění odvození umožňuje odborníkům správně interpretovat výkon modelu a identifikovat, které třídy potřebují zlepšení.

Vzorce metrik na třídu

Pro každou třídu i v klasifikačním problému s K třídami:

Precision_i = C[i][i] / sum(C[:][i]) = TP / (TP + FP)

Precision odpovídá na otázku: „Když model predikuje třídu i, jak často je to správně?“ Toto se také nazývá pozitivní prediktivní hodnota. U klasifikace vad znamená vysoká precision u třídy „kritická konstrukční trhlina“, že když model označí závažnou trhlinu, inspektoři mohou tomuto zjištění důvěřovat.

Recall_i = C[i][i] / sum(C[i][:]) = TP / (TP + FN)

Recall odpovídá na otázku: „Ze všech skutečných instancí třídy i, kolik jich model našel?“ Toto se také nazývá senzitivita nebo míra skutečně pozitivních. U klasifikace vad znamená vysoký recall u „odlupování“, že většina skutečných odlupování je detekována, čímž se minimalizuje zmeškané zhoršení.

F1_i = 2 × (Precision_i × Recall_i) / (Precision_i + Recall_i)

F1 je harmonický průměr, vždy ležící mezi precision a recall. F1 je preferován před aritmetickým průměrem, protože penalizuje extrémní nevyváženost — model s precision=1,0 a recall=0,0 má F1=0,0, což správně indikuje, že model je k ničemu navzdory aritmetickému průměru 0,5.

Makro, mikro a vážené průměrování

Pro porovnávání modelů napříč všemi třídami existují tři metody průměrování:

Makro-průměr počítá metriku nezávisle pro každou třídu a průměruje je se stejnou vahou: Makro-Precision = (1/K) × sum(Precision_i). To zachází se všemi třídami stejně bez ohledu na jejich četnost. Pro příklad se 3 třídami povrchu: Makro-Precision = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Makro-průměr je vhodný, když jsou všechny třídy stejně důležité — například při klasifikaci typů poškození vozovek, kde i vzácné vady jsou důležité pro bezpečnost.

Mikro-průměr agreguje počty napříč všemi třídami před výpočtem metriky: Mikro-Precision = sum(TP_i) / sum(TP_i + FP_i). Pro příklad: Mikro-Precision = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Je pozoruhodné, že mikro-průměr precision se rovná přesnosti (accuracy) pro klasifikaci s jedním štítkem. Mikro-průměr je řízen nejčastějšími třídami a je vhodný, když je prioritou celková správnost.

Vážený průměr počítá metriku na třídu a průměruje s váhami podle počtu skutečných instancí na třídu: Vážená-Precision = sum(Precision_i × n_i) / sum(n_i), kde n_i je skutečný počet pro třídu i. Pro příklad: Vážená-Precision = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Vážený průměr je doporučeným výchozím nastavením pro nevyvážené datové sady, protože zohledňuje četnost tříd, aniž by skrýval špatný výkon u méně častých tříd.

Metoda průměrováníVzorecNejlepší pro
Makro(1/K) × Σ Metrika_iStejná důležitost tříd, vzácné vady jsou důležité
MikroΣ TP / (Σ TP + Σ FP)Celkovou správnost datové sady
VáženýΣ (Metrika_i × n_i) / Σ n_iNevyvážené třídy, praktické výchozí nastavení

Matthewsův korelační koeficient (MCC)

MCC je odvozen z matice záměn a poskytuje jedinou metriku, která shrnuje celou matici způsobem odolným vůči nevyváženosti tříd. Pro klasifikaci s více třídami se MCC pohybuje od -1 do +1, kde +1 znamená dokonalou predikci, 0 znamená náhodnou predikci a -1 znamená úplný nesouhlas. MCC je definován jako:

MCC = [sum(sum(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [sum(sum(C[p][q] * C[p][r]))] × [sum(sum(C[s][t] * C[u][t]))] )

kde se sumy provádějí přes příslušné rozsahy indexů podle definice Gorodkina (2004). MCC je široce považován za nejinformativnější jednotlivou metriku pro hodnocení klasifikátorů, protože využívá všechny čtyři kvadranty matice záměn (u binární) nebo všech K² buněk (u více tříd), na rozdíl od přesnosti, která používá pouze diagonálu.

Celková přesnost z matice záměn

Celková přesnost (overall accuracy) je nejintuitivněji chápaná metrika odvozená z matice záměn: součet diagonály (správné predikce) dělený celkovým počtem vzorků. Pro libovolnou matici záměn se celková přesnost vypočítá jako:

Přesnost (Accuracy) = Σ C[i][i] / Σ C[i][j] pro všechna i, j

Přesnost představuje podíl všech predikcí, které model udělal správně. I když je intuitivní, přesnost má zásadní omezení, která sama matice záměn pomáhá diagnostikovat.

Paradox přesnosti

Paradox přesnosti popisuje situace, kdy vysoká přesnost neindikuje dobrý výkon modelu kvůli nevyváženosti tříd. Uvažujme model pro detekci vad vozovek hodnocený na datové sadě, kde 95 % snímků ukazuje neporušenou vozovku (negativní) a 5 % trhliny (pozitivní). Triviální model, který predikuje „neporušeno“ pro každý snímek, dosahuje 95% přesnosti — přesto nezachytí žádnou trhlinu. Matice záměn toto selhání okamžitě odhalí: model má TP=0, FP=0, FN=500 (všechny trhliny zmeškané), TN=9 500 (všechny neporušené správně identifikovány). Navzdory 95% celkové přesnosti je recall pro třídu trhlin 0 %.

Matice záměn činí paradox přesnosti viditelným. Přesnost samotná nedokáže rozlišit mezi:

  • Vyváženým modelem, který zachytí 95 % trhlin a označí 5 % neporušených povrchů jako popraskané
  • Degenerovaným modelem, který predikuje neporušeno pro všechno

Pro inspekci infrastruktury je toto rozlišení bezpečnostně kritické. ICAO Annex 14 vyžaduje, aby inspekce povrchu vzletových a přistávacích drah identifikovaly všechny vady, které by mohly ohrozit provoz letadel. Model s 99% přesností, který zmešká 100 % vzácného, ale nebezpečného typu vady (například hluboké konstrukční trhliny v dotykové zóně dráhy), představuje bezpečnostní riziko, které by samotná přesnost maskovala.

Přesnost na třídu

Z matice záměn mohou odborníci vypočítat přesnost na třídu (nazývanou také recall nebo senzitivita pro pozitivní třídu v binárním nastavení):

Přesnost_třídy_i = C[i][i] / sum(C[i][:])

To udává podíl skutečných instancí třídy i, které model správně klasifikoval. U nevyvážených datových sad je přesnost na třídu mnohem informativnější než celková přesnost. Užitečný přístup k reportování je prezentovat celkovou přesnost spolu s minimální přesností na třídu — třída s nejnižší individuální přesností se stává slabým místem modelu, které vyžaduje pozornost.

Vyvážená přesnost

Vyvážená přesnost řeší nevyváženost tříd průměrováním recall napříč všemi třídami:

Vyvážená přesnost = (1/K) × Σ (C[i][i] / sum(C[i][:]))

Pro příklad s 95% neporušených / 5% trhlin u triviálního modelu vždy predikujícího neporušeno: Vyvážená přesnost = (Recall_neporušeno + Recall_trhliny) / 2 = (9 500/9 500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Vyvážená přesnost správně identifikuje tento model jako nelepší než náhodný (0,50), zatímco celková přesnost (0,95) je zavádějící vysoká.

Identifikace zaměňovaných tříd

Nejmocnější diagnostická schopnost matice záměn je její schopnost odhalit které konkrétní třídy jsou s kterými zaměňovány — vzorec mimodiagonálních chyb. Tato informace přímo řídí strategie zlepšování modelu.

Vzorce záměn

Mezi běžné vzorce záměn v modelech pro inspekci infrastruktury patří:

Záměna v rámci kategorie — Dva vizuálně podobné typy vad jsou často vzájemně zaměňovány. Výkvěty (bílé krystalické usazeniny solí na betonu) a raná fáze koroze (rezavé skvrny) jsou často zaměňovány, protože obojí se projevuje jako změna barvy povrchu. U asfaltových vozovek jsou síťové trhliny (vzájemně propojené polygony z únavy) někdy zaměňovány s blokovými trhlinami (obdélníkové bloky ze smršťování), když je hustota sítě trhlin střední.

Hierarchická záměna — Model správně identifikuje obecnou kategorii, ale zaměňuje konkrétní podtyp. Model může správně detekovat, že povrch je „popraskaný“, ale zaměnit „příčnou trhlinu“ s „podélnou trhlinou“ — obě jsou lineární trhliny lišící se pouze orientací vzhledem k ose vozovky nebo směru dopravy.

Mezikategoriální záměna — Stav povrchu je zaměněn za zásadně odlišný stav. Okraje stínů na vozovce mohou být zaměněny s okraji trhlin kvůli podobným gradientům kontrastu. Materiál těsnění spár může být zaměněn s výplňovým materiálem trhlin. Stopy po smyku pneumatik v dotykových zónách drah mohou být zaměněny s povrchovou degradací.

Kvantifikace zaměňovaných dvojic

Podíl záměny pro dvojici tříd (i, j) je:

Záměna(i → j) = C[i][j] / sum(C[i][:])

To udává, jaký podíl skutečných instancí třídy i byl chybně klasifikován jako třída j. Podíl záměny 0,15 mezi kompozitem (skutečný) a asfaltem (predikovaný) znamená, že 15 % kompozitních povrchů je zaměněno za asfalt — primární způsob selhání pro tuto třídu.

Podobně normalizovaná matice záměn s normalizací po řádcích nastaví každý řádek na součet 1,0, čímž přímo ukazuje podíl každé skutečné třídy rozdělený napříč predikovanými třídami. Toto je nejběžnější formát vizualizace pro matice záměn s více třídami, protože činí vzorce záměn okamžitě viditelnými bez ohledu na velikosti vzorků tříd.

Vizualizace teplotní mapou

Normalizovaná matice záměn se obvykle zobrazuje jako teplotní mapa s divergentním barevným schématem. Diagonála (správné predikce) je zobrazena zeleně nebo modře, čímž vytváří viditelný „hřeben správnosti“, který by měl být dominantním vizuálním prvkem. Mimodiagonální buňky jsou zobrazeny červeně nebo teplými barvami, s intenzitou úměrnou podílu záměny. Toto vizuální kódování umožňuje okamžitou identifikaci:

  • Tmavé diagonální buňky: Třídy s vysokým recall (většina skutečných instancí správně klasifikována)
  • Světlé diagonální buňky: Třídy s nízkým recall vyžadující zlepšení
  • Červené mimodiagonální hotspoty: Konkrétní zaměňované dvojice potřebující cílenou nápravu
  • Červenost celého řádku: Třída, která je široce zaměňována s mnoha jinými, což indikuje, že třída sama může potřebovat lepší definici nebo více trénovacích dat

Zlepšení řízené záměnami

Jakmile jsou identifikovány zaměňované dvojice tříd, lze použít následující cílené strategie:

  1. Sběr dat: Získat více trénovacích příkladů specificky zaměňované dvojice, zejména okrajových případů, které zvýrazňují jejich rozlišovací znaky
  2. Extrakce příznaků: U modelů, které nejsou založeny na hlubokém učení, navrhnout příznaky, které specificky diskriminují mezi zaměňovanými třídami — pro výkvěty vs. korozi příznaky zachycující barevnou teplotu a zrnitost textury
  3. Důraz na augmentaci: Aplikovat transformace, které zdůrazňují rozlišovací charakteristiky — pro síťové vs. blokové trhliny augmentovat vzorce propojení trhlin
  4. Váhy tříd: Zvýšit váhu ztrátové funkce pro zaměňované třídy během tréninku, aby byly chybné klasifikace více penalizovány
  5. Modifikace architektury: Přidat mechanismy pozornosti, které se zaměřují na specifické oblasti obrazu, jež jsou nejvíce diskriminativní mezi zaměňovanými třídami
  6. Hierarchická klasifikace: Pokud je záměna hierarchická (správná kategorie, špatný podtyp), zvážit dvoustupňový klasifikátor, který nejprve identifikuje obecnou kategorii a poté rozlišuje podtypy

Matice záměn pro klasifikaci typu povrchu

Klasifikace typu povrchu je základním úkolem v inspekci infrastruktury. U letištních zpevněných ploch vyžadují Mezinárodní organizace pro civilní letectví (ICAO) a Federální letecká správa (FAA) přesnou identifikaci typu povrchu pro výpočty výkonnosti letadel.

Klasifikační úloha

Typický model klasifikace typu povrchu pro letištní zpevněné plochy musí rozlišovat mezi:

  • Asfalt (pružná vozovka): Živičné povrchy, charakterizované tmavě černou/hnědou barvou, viditelnou texturou kameniva a bezespárým souvislým povrchem
  • Beton (tuhá vozovka): Povrchy z portlandského cementového betonu, charakterizované světle šedým zbarvením, viditelnými smršťovacími spárami v pravidelných intervalech a hladší texturou povrchu
  • Kompozit: Asfaltový překryv na betonovém podkladu, charakterizovaný vzhledem asfaltu s podkladovými vzory reflexního praskání spár
  • Štěrk/nezpevněný povrch: Zhutněné kamenivo pro všeobecné letectví, charakterizované sypkým povrchovým materiálem, hnědo/tan zbarvením a bez značení vozovky
  • Porézní protismyková vrstva (PFC): Specializovaný otevřený asfaltový povrch pro odvod vody, charakterizovaný hrubou, porézní texturou a tmavším vzhledem

Matice záměn pro typy povrchu

Matice záměn pro 4-třídový model typu povrchu testovaný na 2 000 validačních snímcích by mohla vypadat jako:

Skutečná \ PredikovanáAsfaltBetonKompozitŠtěrk
Asfalt (n=600)5646246
Beton (n=500)10465205
Kompozit (n=400)482831212
Štěrk (n=500)5105480

Tato matice odhaluje:

Asfalt (94,0% recall): 24 z 600 asfaltových snímků bylo chybně klasifikováno jako kompozit — nejvýznamnější záměna pro tuto třídu. K tomu dochází, když asfaltové povrchy mají vzory reflexního praskání, které vizuálně připomínají kompozitní vozovku (asfalt na betonu s odrazem trhlin). 6 chybných klasifikací na beton může nastat u světle zbarveného oxidovaného asfaltu, který připomíná stárnoucí beton.

Beton (93,0% recall): Primární záměnou je 20 snímků chybně klasifikovaných jako kompozit — typicky betonové povrchy s tenkými asfaltovými záplatami nebo překryvnými pásy, které vytvářejí vzhled podobný kompozitu.

Kompozit (78,0% recall): Toto je problémová třída. 48 ze 400 kompozitních snímků (12 %) bylo klasifikováno jako čistý asfalt. K tomu dochází, když je asfaltový překryv dostatečně silný, že podkladová betonová textura a spáry nejsou na zachycených snímcích viditelné. Dalších 28 (7 %) bylo klasifikováno jako čistý beton — typicky když se asfaltový překryv v dopravních oblastech opotřeboval do tenké vrstvy a odhalil betonový podklad. Model má potíže, protože vzhled kompozitní vozovky se pohybuje v rozmezí mezi čistým asfaltem a čistým betonem.

Štěrk (96,0% recall): Štěrk je vizuálně nejodlišnější třídou a dosahuje nejvyššího recall.

Provozní důsledky

Pro soulad s ICAO je záměna mezi kompozitem a čistým asfaltem provozně nejvýznamnější. Výpočty výkonnosti letadel — zejména délky vzletu a přistání — závisí na typu povrchu. Záměna kompozitní vozovky za čistý asfalt by mohla vést k nesprávným odhadům brzdného koeficientu, což by ovlivnilo bezpečnostní rezervy.

Cílená zlepšení pro třídu kompozit zahrnují: pořizování trénovacích snímků při různém stáří překryvu (nový tlustý překryv vs. opotřebovaný tenký překryv), přidání snímků ukazujících vzory reflexního praskání specifické pro kompozitní konstrukci a trénování vyhrazeného binárního diskriminátoru mezi čistým asfaltem a kompozitním překryvem.

Matice záměn pro klasifikaci stupňů kvality

Klasifikace stupňů kvality přiřazuje kategoriální hodnocení stavu infrastrukturním povrchům. U letištních zpevněných ploch zahrnují běžné systémy hodnocení Index stavu vozovky (PCI) dle ASTM D5340 a Klasifikaci stavu letištní vozovky používanou v systémech hospodaření s letištními vozovkami odkazovaných ICAO.

Klasifikační úloha

Stupně kvality obvykle sledují 4- nebo 5-úrovňovou škálu:

StupeňRozsah PCIPopisVizuální indikátory
Dobrý86–100Minimální nebo žádné poškozeníMálo trhlin, žádné odlupování, neporušené spáry
Uspokojivý71–85Střední zhoršeníNěkteré trhliny, mírné odlupování, mírné zvětrávání
Špatný56–70Významné zhoršeníRozsáhlé trhliny, střední odlupování, viditelné rozpadání
Havarijní0–55Závažné zhoršeníRozsáhlé propojené trhliny, závažné odlupování, konstrukční vady

Matice záměn pro stupně kvality

Matice záměn pro klasifikaci stupňů kvality na 1 000 úsecích runwayí:

Skutečná \ PredikovanáDobrýUspokojivýŠpatnýHavarijní
Dobrý (n=350)3152870
Uspokojivý (n=300)36237243
Špatný (n=200)03015218
Havarijní (n=150)0016134

Tato matice odhaluje charakteristický vzorec ordinální klasifikační záměny: chyby jsou soustředěny na sousední stupně. Model zřídka zaměňuje Dobrý za Havarijní (0 instancí) nebo Havarijní za Dobrý (0 instancí), protože tyto třídy jsou vizuálně velmi odlišné. Záměna sousedních stupňů je však běžná:

Dobrý ↔ Uspokojivý (28 + 36 = 64 záměn): Tyto dva stupně jsou nejčastěji zaměňovanou dvojicí, představující hraniční případy, kde je mírné praskání přítomno, ale celkový stav je blízko hranice Dobrý-Uspokojivý (PCI ≈ 85). 28 sekcí Dobrý klasifikovaných jako Uspokojivý může mít rané vlásečnicové trhliny, které model interpretuje jako významné; 36 sekcí Uspokojivý klasifikovaných jako Dobrý může mít velmi jemné praskání pod prahem detekce modelu.

Uspokojivý ↔ Špatný (24 + 30 = 54 záměn): Hodnocení středního zhoršení je subjektivní i mezi lidskými inspektory. 24 sekcí Uspokojivý klasifikovaných jako Špatný má pravděpodobně hustoty trhlin blízko hranice Uspokojivý-Špatný; 30 sekcí Špatný klasifikovaných jako Uspokojivý může představovat případy, kde je závažnost trhlin hraniční.

Špatný ↔ Havarijní (18 + 16 = 34 záměn): Na závažném konci je záměna mezi Špatným (rozsáhlé praskání) a Havarijním (konstrukční zhoršení) relativně nízká, protože havarijní vozovka vykazuje kvalitativně odlišné poškození — odlupování, poklesy a dezintegraci povrchu přesahující prosté praskání.

Směrovost mimodiagonálních hodnot

Matice je asymetrická: záměna Dobrý→Uspokojivý (28) je nižší než záměna Uspokojivý→Dobrý (36). To znamená, že model je konzervativnější u sekcí Uspokojivý (má tendenci degradovat Dobré sekce na Uspokojivý) než u sekcí Dobrý (má tendenci povyšovat Uspokojivý na Dobrý). Tato asymetrie je relevantní pro plánování údržby — konzervativní chybné klasifikace (hodnocení lepší vozovky jako horší) jsou provozně bezpečnější, protože vedou k dřívějšímu zásahu údržby namísto odložené akce.

Kappa pro ordinální klasifikaci

Cohenovo vážené Kappa je zvláště vhodné pro matice záměn stupňů kvality, protože zohledňuje pořadí tříd. Chyby na sousedních stupních (Uspokojivý klasifikovaný jako Špatný) jsou penalizovány méně přísně než vzdálené chyby (Dobrý klasifikovaný jako Havarijní). Lineární váhování penalizuje úměrně vzdálenosti stupňů, zatímco kvadratické váhování penalizuje druhou mocninu vzdálenosti stupňů — vhodnější, když mají rozdíly stupňů nelineární bezpečnostní důsledky.

Pro výše uvedenou matici by vážené Kappa (lineární) bylo přibližně 0,78, což indikuje podstatnou shodu nad rámec náhody, zatímco nevážené Kappa by bylo nižší, přibližně 0,72, protože zachází se všemi mimodiagonálními chybami stejně bez ohledu na závažnost.

Matice záměn pro klasifikaci vad

Klasifikace vad je nejsložitějším a bezpečnostně nejkritičtějším úkolem pro modely AI v inspekci infrastruktury. U betonových mostních prvků nebo letištních zpevněných ploch může model potřebovat současně rozpoznávat 10–15 různých typů vad.

Klasifikační úloha

Mezi typické třídy vad pro inspekci betonové infrastruktury patří:

  • Vlásečnicové trhliny: Velmi jemné trhliny (< 0,3 mm šířka), často kosmetické, ale mohou indikovat rané zhoršení
  • Konstrukční trhliny: Širší trhliny (≥ 0,3 mm), které mohou ohrozit konstrukční integritu nebo usnadnit vnikání vody
  • Síťové trhliny (asfalt): Vzájemně propojená síť trhlin z únavového zatížení
  • Podélné/příčné trhliny: Lineární trhliny ve vozovce rovnoběžné/kolmé ke směru dopravy
  • Odlupování (spalling): Odlamování povrchového betonu na úlomky nebo větší fragmenty
  • Delaminace: Oddělování vrstev betonu, zjistitelné poklepem, ale ne vždy vizuálně zřejmé
  • Výkvěty (efflorescence): Bílé krystalické usazeniny solí z vody migrující betonem
  • Koroze (zbarvení): Rezavé zabarvení indikující korozi ocelové výztuže
  • Odšupování (scaling): Olupování nebo odlupování povrchové malty odhalující kamenivo
  • Selhání těsnění spár: Degradace nebo oddělení materiálu těsnění spár
  • Zvětrávání/rozpadání: Povrchová eroze odhalující kamenivo na asfaltových površích
  • Poklesy (faulting): Vertikální posun na spárách vozovky
  • Neporušený povrch: Žádné vady, zdravý stav
Inspektor letištní dráhy zkoumající betonový povrch vozovky s vadami a trhlinami, držící tablet s výsledky AI analýzy

Matice záměn pro betonové vady

Částečná matice záměn zaměřená na nejčastěji zaměňované dvojice vad pro model inspekce betonové mostovky:

Skutečná \ PredikovanáVlásečnicová trhlinaKonstrukční trhlinaOdlupováníVýkvětyKorozeNeporušeno
Vlásečnicová trhlina820305401095
Konstrukční trhlina15440205155
Odlupování0102855200
Výkvěty25051456015
Koroze55153518010
Neporušeno650010151910

Analýza vzorců záměn

Výkvěty ↔ Koroze (60 + 35 = 95 záměn): Nejvýznamnější záměnná dvojice v klasifikaci betonových vad. Obě se projevují jako zabarvení povrchu — výkvěty jako bílé krystalické usazeniny, koroze jako rezavé skvrny. Když výkvěty obsahují nečistoty nebo když je koroze v rané fázi (rezavá, ale ještě bez vzoru), jsou obě vizuálně nerozlišitelné. Tato záměna má materiální důsledky: výkvěty indikují migraci vody (problém údržby), zatímco koroze indikuje aktivní korozi výztuže (konstrukční bezpečnostní problém). Záměna jednoho za druhé by mohla vést k dramaticky nesprávnému stanovení priorit údržby.

Vlásečnicová trhlina ↔ Neporušeno (95 + 65 = 160 záměn): Vlásečnicové trhliny blízko limitu rozlišení modelu (přibližně 0,2 mm při rozlišení snímku 0,5 mm/pixel) jsou často přehlíženy. 95 vlásečnicových trhlin bylo klasifikováno jako neporušeno (falešně negativní), což představuje zmeškané rané zhoršení. 65 neporušených povrchů bylo klasifikováno jako vlásečnicově popraskané (falešně pozitivní), což představuje falešné poplachy. Toto je klasický kompromis detekční senzitivity na hranici vnímání.

Odlupování ↔ Koroze (20 + 15 = 35 záměn): Odlupované oblasti odhalující zkorodovanou výztuž mají často rezavé zabarvení kolem okrajů odlupování, což vede k záměně mezi těmito dvěma třídami. V mnoha případech se obě vady vyskytují současně — odlupování způsobené podkladovou korozí — což činí úlohu klasifikace s jedním štítkem inherently nejednoznačnou.

Konstrukční trhlina ↔ Vlásečnicová trhlina (30 + 15 = 45 záměn): Trhliny blízko hranice vlásečnicová/konstrukční (přibližně 0,3 mm šířka) jsou zaměňovány na základě vnímané šířky. Bez přesné měřicí schopnosti v submilimetrovém rozsahu ve standardních inspekčních snímcích je tato záměna očekávatelná a může být přijatelná, pokud jsou oba typy trhlin označeny k inspekci.

Nápravná opatření řízená záměnami pro modely vad

Na základě vzorců záměn zahrnují specifické strategie nápravy:

  1. Výkvěty vs. Koroze: Přidat trénovací data zobrazující výkvěty s usazenými nečistotami (nažloutlý odstín) a ranou korozi bez viditelné rzi (nazelenalý odstín). Aplikovat barevnou augmentaci zdůrazňující tyto jemné spektrální rozdíly. Zvážit přidání blízkých infračervených nebo multispektrálních kanálů, které detekují rozdíly v chemickém složení.

  2. Vlásečnicová trhlina vs. Neporušeno: Zlepšit rozlišení snímání nebo nasadit super-rozlišení předzpracování. Aplikovat cílenou augmentaci simulující vlásečnicové trhliny na různých texturách povrchu. Zvážit odmítnutí hraničních predikcí a jejich označení k lidskému přezkoumání.

  3. Odlupování vs. Koroze: Trénink modelu by měl používat víceštítkovou anotaci, kde odlupování a koroze mohou koexistovat. Alternativně vytvořit hierarchický klasifikátor, který nejprve detekuje „oblast zhoršení“ a poté na druhé úrovni rozlišuje odlupování od koroze.

  4. Konstrukční vs. Vlásečnicová trhlina: Integrovat odhad šířky trhliny jako regresní hlavu namísto klasifikace. Použít spojitý odhad šířky k nastavení prahů závažnosti, které lze přizpůsobit podle inspekční normy.

Vizualizace a reportování

Efektivní vizualizace a reportování matice záměn je zásadní pro komunikaci výkonu modelu zainteresovaným stranám — od datových vědců přes manažery údržby letišť až po regulační orgány.

Standardní rozložení teplotní mapy

Standardní formát vizualizace matice záměn je teplotní mapa s následujícími konvencemi:

  • Řádky: Skutečné třídy (skutečné štítky), označené vlevo
  • Sloupce: Predikované třídy, označené nahoře
  • Diagonální buňky: Zvýrazněné odlišnou barvou (typicky zelenou nebo modrou)
  • Mimodiagonální buňky: Barevné na škále od bílé (nula) po červenou (vysoké hodnoty)
  • Hodnoty buněk: Anotované jako počty, procenta nebo obojí
  • Barevná škála: Legenda mapující barvy na hodnoty
  • Nadpis: Zahrnuje název datové sady a celkovou přesnost

Pro obrázky v publikační kvalitě se standardní přístup používá matplotlib s seaborn.heatmap v Pythonu:

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_true, y_pred, labels=class_names)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
            xticklabels=class_names, yticklabels=class_names,
            cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Predikovaná třída')
ax.set_ylabel('Skutečná třída')
ax.set_title(f'Matice záměn (celková přesnost: {accuracy:.2%})')
plt.tight_layout()

Možnosti normalizace

Volba normalizace významně ovlivňuje interpretaci:

Normalizace po řádcích (normalizace=‘true’): Každý řádek má součet 1,0 (100 %). Diagonální hodnoty ukazují recall na třídu. Hodnoty napříč řádky ukazují „když je skutečná třída X, jaký podíl byl predikován jako každá třída?“ Toto je nejběžnější normalizace pro diagnostickou analýzu.

Normalizace po sloupcích (normalizace=‘pred’): Každý sloupec má součet 1,0 (100 %). Diagonální hodnoty ukazují precision na třídu. Hodnoty po sloupcích ukazují „když model predikoval X, jaký podíl skutečně patřil do každé skutečné třídy?“ To je užitečné pro pochopení distribucí falešně pozitivních výsledků.

Bez normalizace: Zobrazují se hrubé počty. Nezbytné pro ověření velikostí vzorků, ale ztěžuje porovnání, když mají třídy různé četnosti.

Formát tří hodnot: Každá buňka zobrazuje tři hodnoty: hrubý počet, % v řádku a % ve sloupci. To poskytuje úplné informace v jediné vizualizaci, ale může být vizuálně přeplněné u velkých matic.

Šablony reportů

Pro reportování modelů inspekce infrastruktury doporučená šablona zahrnuje:

  1. Tabulka souhrnných statistik nahoře: celková přesnost, makro F1, vážené F1, Cohenovo Kappa, Matthewsův korelační koeficient
  2. Teplotní mapa úplné matice záměn (normalizovaná po řádcích s překryvem hrubých počtů): zobrazující všechny třídy
  3. Tabulka metrik na třídu níže: název třídy, podpora (počet), precision, recall, F1-skóre
  4. Souhrn záměn: Textový odstavec identifikující 3 nejčastěji zaměňované dvojice tříd a doporučená nápravná opatření
  5. Citlivost na práh: Pokud je relevantní, malá matice ukazující, jak se záměna mění při různých rozhodovacích prazích

Matice záměn napříč kontrolními body

Pro sledování vývoje modelu by matice záměn měly být generovány a logovány v pravidelných tréninkových kontrolních bodech (každých 10–20 epoch). Porovnávání matic napříč kontrolními body odhaluje:

  • Zvyšuje se diagonální hustota konzistentně (model se zlepšuje)?
  • Zlepšují se některé záměnné dvojice, zatímco jiné stagnují (potřeba cílené práce)?
  • Dochází k plató přesnosti na validační sadě, zatímco tréninková matice se dále zlepšuje (přeučení)?
  • Mění se vzorce záměn mezi třídami (model se učí různé příznaky)?

Platforma Arena a MLflow poskytují sledování matice záměn jako součást správy experimentů, automaticky generují a verzují matice pro každý tréninkový běh.

Vyhnutelná vs. nevyhnutelná záměna

Ne všechny záměny v matici jsou stejné. Doménoví experti by měli přezkoumat vzorce záměn a klasifikovat každou mimodiagonální dvojici jako:

Vyhnutelná záměna: Dvě třídy jsou pro lidského experta vizuálně odlišné a záměna modelu indikuje nedostatek v trénovacích datech, architektuře modelu nebo učení příznaků. Výkvěty vs. koroze na snímcích s jasnými barevnými rozdíly spadá do této kategorie.

Nevyhnutelná záměna: Dvě třídy jsou skutečně obtížně rozlišitelné i pro lidské experty, nebo rozlišení vyžaduje informace nedostupné ve vstupu (např. data o časovém vývoji, podpovrchové snímání). Vlásečnicová trhlina vs. povrchový škrábanec, kde obojí vypadá jako jemné lineární rysy, může být nevyhnutelně zaměňováno pouze z vizuálních snímků.

Nejednoznačná ground truth: Skutečná třída je sama o sobě nejistá kvůli neshodě mezi anotátory. Pokud dva lidští inspektoři nesouhlasí v 15 % případů, zda je povrch ve stupni „uspokojivý“ nebo „špatný“, nelze očekávat, že model tuto hranici shody překoná. Matice záměn by měla být interpretována relativně k základní linii lidské shody — model dosahující 90% shody s referenčním standardem může být vynikající, pokud je mezihodnotitelská spolehlivost lidí pouze 85 %.

Reportování regulačním orgánům

Pro modely inspekce infrastruktury používané v kontextu regulačního souladu — jako je certifikace letišť dle ICAO Annex 14 nebo správa vozovek dle FAA AC 150/5320-5D — slouží matice záměn jako klíčový validační artefakt. Regulační reportování by mělo zahrnovat:

  • Úplnou matici záměn na reprezentativní testovací datové sadě
  • Precision a recall na třídu pro všechny třídy vad nebo stavů
  • Matici záměn stratifikovanou podle podmínek prostředí (osvětlení, vlhkost povrchu, úhel snímání)
  • Srovnávací matici ukazující predikce modelu vs. hodnocení lidského inspektora
  • Matici záměn při více provozních prazích s odůvodněním výběru prahu
  • Vážený koeficient Kappa pro ordinální hodnocení stavu

Matice záměn, je-li správně vytvořena a interpretována, transformuje hodnocení modelu z jediného čísla přesnosti na bohatý diagnostický nástroj, který odhaluje úplnou chybovou strukturu klasifikačního systému. Pro aplikace inspekce infrastruktury, kde se náklady různých typů chyb dramaticky liší — zmeškaná konstrukční vada stojí mnohem více než falešný poplach u neporušené vozovky — toto granulární porozumění umožňuje odborníkům ladit, validovat a nasazovat modely, které splňují specifické požadavky na spolehlivost v oblasti bezpečnosti letectví.

Často kladené otázky

Vyhodnoťte své inspekční modely s přesností

TarmacView využívá analýzu matice záměn k validaci modelů umělé inteligence pro inspekci infrastruktury napříč úkoly klasifikace povrchů, stupňů kvality a vad. Zajistěte, aby vaše modely fungovaly spolehlivě s metrikami hodnocení na úrovni jednotlivých tříd odvozenými z komplexních matic záměn.

Zjistit více

Detekce trhlin na bázi AI pro inspekci infrastruktury

Detekce trhlin na bázi AI pro inspekci infrastruktury

Detekce trhlin na bázi AI využívá počítačové vidění — konvoluční neuronové sítě, vision transformery a modely sémantické segmentace — k automatické identifikaci...

36 min čtení
Computer Vision Deep Learning +8
Konvergence

Konvergence

Konvergence popisuje proces, při kterém se různé prvky, hodnoty nebo systémy přibližují ke společnému bodu nebo sjednocenému stavu, což je základní pojem v mate...

5 min čtení
Aviation Mathematics +3
Defect Gating — Kontextově uvědomělé filtrování predikcí vad

Defect Gating — Kontextově uvědomělé filtrování predikcí vad

Defect gating (braní vad) je inferenční strategie, která filtruje predikované štítky vad podle typu povrchu a strukturální domény, aby potlačila falešně pozitiv...

25 min čtení
Technology Defect Detection +3