+++ title = “Macierz pomyłek” description = “Macierz pomyłek zestawia przewidywania modelu z wartościami rzeczywistymi: wiersze to rzeczywiste klasy, kolumny to przewidywane klasy. Przekątna pokazuje poprawne przewidywania; elementy poza przekątną przedstawiają typy błędów. W modelach inspekcji infrastruktury macierze pomyłek ujawniają, które typy defektów lub klasy jakości są mylone — np. wykwity mylone z korozją. Obejmuje interpretację macierzy, klasyfikację wieloklasową oraz wyznaczanie precyzji i czułości dla każdej klasy.” keywords = [“macierz pomyłek”, “macierz błędów”, “macierz klasyfikacji”, “pomyłki wieloklasowe”, “pomyłki predykcyjne”, “błędy modelu”, “klasa rzeczywista”, “klasa przewidywana”, “interpretacja macierzy pomyłek”, “dokładność dla każdej klasy”]

shortDescription = “Macierz pomyłek to tabela porównująca przewidywania modelu z wartościami rzeczywistymi, ujawniająca poprawne klasyfikacje na przekątnej oraz typy błędów w komórkach poza przekątną w celu ewaluacji modeli klasyfikacyjnych.”

tags = [“Technologia”, “Uczenie Maszynowe”, “Głębokie Uczenie”, “Widzenie Komputerowe”, “Ewaluacja Modeli”] glossaryTitle = “Co to jest macierz pomyłek?” glossaryDescription = “Macierz pomyłek to specyficzny układ tabelaryczny umożliwiający wizualizację wydajności algorytmu klasyfikacyjnego poprzez porównanie przewidywanych etykiet klas z rzeczywistymi etykietami prawdy podstawowej. W macierzy wiersze reprezentują klasy rzeczywiste, a kolumny klasy przewidywane (lub odwrotnie), przy czym komórki na przekątnej wskazują poprawne przewidywania, a komórki poza przekątną wskazują błędy. Dla modeli AI inspekcji infrastruktury stosowanych w ocenie nawierzchni lotniskowych i mostów, macierze pomyłek są podstawowym narzędziem ewaluacyjnym ujawniającym, które typy defektów są często mylone — na przykład, czy model myli wykwity z korozją, lub błędnie klasyfikuje spękania siatkowe jako spękania podłużne. Na podstawie macierzy pomyłek praktycy wyznaczają wszystkie standardowe metryki klasyfikacji, w tym precyzję, czułość, swoistość, wynik F1 i ogólną dokładność dla każdej klasy osobno, umożliwiając ukierunkowane ulepszanie modelu.” showCTA = true ctaHeading = “Oceniaj Swoje Modele Inspekcyjne z Precyzją” ctaDescription = “TarmacView wykorzystuje analizę macierzy pomyłek do walidacji modeli AI inspekcji infrastruktury w zadaniach klasyfikacji typu nawierzchni, klasy jakości i rodzaju defektów. Zapewnij niezawodne działanie swoich modeli dzięki metrykom ewaluacyjnym dla każdej klasy wyprowadzanym z kompleksowych macierzy pomyłek.” ctaPrimaryText = “Skontaktuj się z nami” ctaPrimaryURL = “/contact/” ctaSecondaryText = “Umów prezentację” ctaSecondaryURL = “/demo/”

[[faq]] question = “Czym jest macierz pomyłek i jak jest zbudowana?” answer = “Macierz pomyłek to tabela krzyżowa rzeczywistych etykiet klas (prawda podstawowa) w zestawieniu z przewidywanymi etykietami klas przypisanymi przez model klasyfikacyjny. Wiersze zazwyczaj reprezentują klasy rzeczywiste, a kolumny klasy przewidywane. Każda komórka (i, j) zawiera liczbę przypadków należących do rzeczywistej klasy i, które zostały przewidziane jako klasa j. Komórki na przekątnej (i, i) reprezentują poprawne przewidywania, a komórki poza przekątną reprezentują błędy. Dla problemu klasyfikacji binarnej macierz ma wymiary 2×2 z komórkami dla prawdziwie pozytywnych, fałszywie pozytywnych, fałszywie negatywnych i prawdziwie negatywnych. Dla problemów wieloklasowych z K klasami macierz ma wymiary K×K, gdzie każda klasa ma swój własny wiersz i kolumnę.”

[[faq]] question = “Jak wykorzystuje się macierz pomyłek do ewaluacji modeli inspekcji infrastruktury?” answer = “W inspekcji infrastruktury modele AI wykonują trzy podstawowe zadania klasyfikacji: klasyfikacja typu nawierzchni (asfalt, beton, kompozyt, żwir), klasyfikacja klasy jakości (dobra, dostateczna, zła, awaryjna według standardów ICAO lub ASTM) oraz klasyfikacja defektów (typy spękań, wykruszenia, wietrzenie, degradacja spoin). Dla każdego zadania macierz pomyłek ujawnia dokładnie, gdzie model popełnia błędy. Dla klasyfikacji defektów macierz pomyłek może pokazać, że model często myli wykwity z wczesną korozją na betonowych elementach mostów lub myli spękania siatkowe ze spękaniami blokowymi na nawierzchniach asfaltowych. Analizując wzorce poza przekątną, twórcy modeli mogą zidentyfikować wizualnie podobne klasy, które wymagają dodatkowych danych treningowych, odrębnej inżynierii cech lub augmentacji specyficznej dla klasy w celu zmniejszenia pomyłek.”

[[faq]] question = “Jaka jest różnica między macierzą pomyłek dla klasyfikacji binarnej a wieloklasowej?” answer = “Dla klasyfikacji binarnej (dwie klasy, zazwyczaj pozytywna i negatywna), macierz pomyłek 2×2 ma cztery komórki: prawdziwie pozytywne (poprawne przewidywania pozytywne), fałszywie pozytywne (przypadki negatywne przewidziane jako pozytywne, błędy I rodzaju), fałszywie negatywne (przypadki pozytywne przewidziane jako negatywne, błędy II rodzaju) i prawdziwie negatywne (poprawne przewidywania negatywne). Dla klasyfikacji wieloklasowej z K klasami (K ≥ 3), macierz ma wymiary K×K. Każda klasa jest oceniana w podejściu jeden-kontra-reszta — dla konkretnej klasy i, liczba prawdziwie pozytywnych to komórka diagonalna (i, i), fałszywie pozytywne to suma kolumny i bez przekątnej, a fałszywie negatywne to suma wiersza i bez przekątnej. Macierze wieloklasowe są większe i oferują bogatszą analizę błędów, pokazując, które konkretne pary klas są najczęściej mylone.”

[[faq]] question = “Jak oblicza się precyzję i czułość dla każdej klasy na podstawie macierzy pomyłek?” answer = “Dla danej klasy i w macierzy pomyłek K×K: Precyzja dla klasy i = TP_i / (TP_i + FP_i), gdzie TP_i to komórka diagonalna (i, i), a FP_i to suma kolumny i minus TP_i. Czułość dla klasy i = TP_i / (TP_i + FN_i), gdzie FN_i to suma wiersza i minus TP_i. Na przykład, w 4-klasowej klasyfikacji typu nawierzchni z asfaltem, betonem, kompozytem i żwirem, precyzja dla „asfaltu” równa się liczbie poprawnie przewidzianych obrazów asfaltu podzielonej przez wszystkie obrazy przewidziane jako asfalt. Czułość równa się poprawnie przewidzianemu asfaltowi podzielonemu przez wszystkie rzeczywiste obrazy asfaltu. Wynik F1 to średnia harmoniczna precyzji i czułości: F1 = 2 × (Precyzja × Czułość) / (Precyzja + Czułość)."

[[faq]] question = “Co to znaczy, gdy macierz pomyłek jest znormalizowana?” answer = “Normalizacja przekształca surowe wartości liczników w macierzy pomyłek na proporcje lub procenty, ułatwiając porównanie klas o różnych liczebnościach próbek. Normalizacja wierszowa (normalize=‘true’ w scikit-learn) dzieli każdą komórkę przez sumę jej wiersza, pokazując dla każdej rzeczywistej klasy, jaka proporcja przypadków została przewidziana jako każda klasa. Ujawnia to czułość dla każdej klasy. Normalizacja kolumnowa (normalize=‘pred’) dzieli przez sumy kolumn, pokazując precyzję dla każdej klasy. Normalizacja jest niezbędna, gdy rozkłady klas są niezrównoważone — klasa z 10 000 przypadków i 90% dokładnością daje 9 000 poprawnych przewidywań, podczas gdy klasa ze 100 przypadkami i 90% dokładnością daje 90 poprawnych przewidywań. Bez normalizacji większa klasa wizualnie dominuje w macierzy i maskuje słabą wydajność na rzadkich, ale krytycznych klasach defektów.”

[[faq]] question = “Jak macierze pomyłek pomagają w klasyfikacji typu nawierzchni lotniskowych?” answer = “Dla klasyfikacji typu nawierzchni lotniskowej według standardów ICAO, macierz pomyłek ujawnia, czy model poprawnie rozróżnia między asfaltem (nawierzchnia elastyczna), betonem (nawierzchnia sztywna), kompozytem (asfalt na betonie) a żwirem/nawierzchnią nieutwardzoną. Typowe pomyłki obejmują: nawierzchnie kompozytowe klasyfikowane jako czysty asfalt, gdy warstwa asfaltu jest gruba, starzejący się beton klasyfikowany jako kompozyt, gdy tekstura powierzchni przypomina nadkład, oraz porowate warstwy tarcia (PFC) klasyfikowane nieprawidłowo ze względu na ich charakterystyczny wygląd. Macierz pomyłek pomaga zidentyfikować, które pary typów nawierzchni są najbardziej problematyczne, kierując dalszym zbieraniem danych lub udoskonalaniem modelu. Dla zgodności z ICAO, dokładna klasyfikacja typu nawierzchni jest kluczowa dla obliczeń osiągów statków powietrznych, w tym długości dobiegu, skuteczności hamowania i współczynników tarcia opon.”

[[faq]] question = “Jak można skutecznie wizualizować macierze pomyłek w raportach?” answer = “Efektywna wizualizacja macierzy pomyłek łączy kodowanie kolorami, adnotacje i normalizację. Standardowe podejście wykorzystuje mapę ciepła z rozbieżną skalą kolorów — zielony lub niebieski dla wysokich wartości na poprawnej przekątnej, czerwony lub ciepłe kolory dla błędów poza przekątną. Wartości komórek są nakładane jako adnotacje tekstowe, jako surowe liczby lub procenty w zależności od odbiorcy. Dla raportów technicznych komórki z trzema wartościami (liczba, procent wierszowy i procent kolumnowy) zapewniają pełną informację. Dla podsumowań wykonawczych macierz znormalizowana wierszowo z procentami i jedną skalą kolorów jest bardziej przystępna. Najlepsze praktyki obejmują: zapewnienie, że skala kolorów obejmuje pełny zakres wartości, czytelne oznaczenie wszystkich wierszy i kolumn, dodanie legendy skali kolorów oraz dołączenie ogólnej dokładności jako podpisu. Biblioteki Pythona, takie jak scikit-learn, matplotlib i seaborn, zapewniają wbudowane funkcje do generowania gotowych do publikacji wizualizacji macierzy pomyłek.”

[[faq]] question = “Jak wygląda macierz pomyłek dla modelu klasyfikacji defektów na infrastrukturze betonowej?” answer = “Dla klasyfikacji defektów infrastruktury betonowej typowa macierz pomyłek może obejmować klasy takie jak: spękania (z podtypami: włoskowate, umiarkowane, poważne), wykruszenia, rozwarstwienia, wykwity, plamy korozyjne, łuszczenie, degradacja spoin i beton zdrowy. Wymiary macierzy zależą od liczby klas defektów, które model został przeszkolony rozpoznawać. Każda komórka diagonalna pokazuje poprawne detekcje dla danego typu defektu, podczas gdy komórki poza przekątną ujawniają konkretne pomyłki — na przykład wykwity (białe krystaliczne osady) często mylone z wczesnymi plamami korozyjnymi (osady białe/rdzawe) lub rozwarstwienia mylone z wykruszeniami, gdy oba występują jako nieregularności powierzchni. Analiza tych wzorców pomyłek umożliwia ukierunkowaną augmentację: dodawanie większej liczby przykładów treningowych mylonych par, stosowanie transformacji kolorów w celu podkreślenia różnic chemiczno-barwnych lub dostosowanie wag klas w funkcji straty.”

[[faq]] question = “Jaki jest związek Kappy Cohena z macierzą pomyłek?” answer = “Kappa Cohena (κ) to metryka wyprowadzana z macierzy pomyłek, która mierzy zgodność między przewidywanymi a rzeczywistymi etykietami klas, uwzględniając zgodność, która wystąpiłaby przypadkowo. Wzór to κ = (Dokładność - p_e) / (1 - p_e), gdzie p_e to prawdopodobieństwo przypadkowej zgodności obliczone z sum wierszy i kolumn macierzy pomyłek. Wartości Kappy mieszczą się w zakresie od -1 (całkowity brak zgodności) do +1 (idealna zgodność), przy czym 0 oznacza zgodność nie lepszą niż przypadkowa. W inspekcji infrastruktury Kappa jest szczególnie cenna przy ocenie modeli na niezrównoważonych zbiorach danych — model osiągający 95% dokładności przez przewidywanie „beton zdrowy” dla każdego obrazu miałby niską Kappę, ponieważ przypadkowa zgodność jest wysoka. Kappa poniżej 0,40 oznacza słabą zgodność, 0,40-0,75 oznacza zgodność od dostatecznej do dobrej, a powyżej 0,75 oznacza doskonałą zgodność lepszą niż przypadkowa." +++

{

Miejsce pracy analityka danych przedstawiające wizualizację macierzy pomyłek w formie mapy ciepła na monitorze komputera z zieloną przekątną i czerwonymi komórkami poza przekątną

Definicja i struktura

Macierz pomyłek, znana również jako macierz błędów, to specyficzny układ tabelaryczny umożliwiający szczegółową wizualizację wydajności algorytmu klasyfikacyjnego. Jest to jedno z najbardziej podstawowych i informatywnych narzędzi w ewaluacji modeli uczenia maszynowego, zapewniające pełny obraz tego, gdzie model odnosi sukcesy, a co ważniejsze — gdzie ponosi porażki. Macierz krzyżowo zestawia rzeczywiste etykiety klas (prawdę podstawową) z przewidywanymi etykietami klas wygenerowanymi przez model, przy czym każda komórka zawiera liczbę przypadków należących do danej kombinacji.

Standardowa konwencja umieszcza rzeczywiste klasy w wierszach, a przewidywane klasy w kolumnach. Dla problemu klasyfikacji z K odrębnymi klasami macierz pomyłek ma wymiary K×K. Element na pozycji C[i][j] reprezentuje liczbę przypadków należących do rzeczywistej klasy i, które zostały przewidziane jako klasa j przez model. Elementy diagonalne C[i][i] reprezentują zatem poprawne klasyfikacje — przypadki, w których przewidywana klasa jest zgodna z klasą rzeczywistą. Wszystkie elementy poza przekątną reprezentują błędne klasyfikacje różnego typu i wagi.

Macierz pomyłek wzięła swoją nazwę od wglądu, jaki zapewnia w to, które klasy model ze sobą „myli". Model, który niezawodnie rozróżnia nawierzchnie asfaltowe i betonowe, ale często myli nawierzchnię kompozytową z asfaltem, będzie wykazywał wysokie wartości na przekątnych asfalt-asfalt i beton-beton, ale znaczącą koncentrację poza przekątną na przecięciu kompozyt-asfalt. Taki wzorzec mówi twórcy modelu dokładnie, na czym skupić wysiłki ulepszające.

Podstawy matematyczne macierzy pomyłek są zakorzenione w analizie tabel kontyngencji, metodzie statystycznej sięgającej wczesnych XX-wiecznych prac Karla Pearsona nad testami chi-kwadrat dla danych kategorycznych. W kontekście uczenia maszynowego macierz została sformalizowana jako standardowe narzędzie ewaluacyjne w latach 60. XX wieku wraz z rozwojem zautomatyzowanych systemów rozpoznawania wzorców. Obecnie każda główna platforma uczenia maszynowego obejmuje obliczanie macierzy pomyłek — scikit-learn udostępnia sklearn.metrics.confusion_matrix, TensorFlow oferuje tf.math.confusion_matrix, a PyTorch może obliczać macierze za pomocą torchmetrics.ConfusionMatrix. Implementacja scikit-learn jest najczęściej używana w pythonowych potokach inspekcji infrastruktury, przyjmując tablice prawdziwych i przewidywanych etykiet i zwracając macierz K×K z konfigurowalnymi opcjami normalizacji.

Binarna macierz pomyłek

Binarna macierz pomyłek jest najprostszą i najczęściej nauczaną formą, mającą zastosowanie, gdy problem klasyfikacji ma dokładnie dwie klasy — umownie oznaczane jako pozytywna i negatywna. W inspekcji infrastruktury problem binarny może brzmieć: „czy ten obraz nawierzchni zawiera spękanie?" (pozytywna = spękanie obecne) lub „czy ten element mostu jest zdrowy?" (pozytywna = defekt wykryty).

Dwuwymiarowa macierz pomyłek 2×2 zawiera dokładnie cztery komórki:

Przewidywana pozytywnaPrzewidywana negatywna
Rzeczywista pozytywnaPrawdziwie pozytywne (TP)Fałszywie negatywne (FN)
Rzeczywista negatywnaFałszywie pozytywne (FP)Prawdziwie negatywne (TN)

Prawdziwie pozytywne (TP) — Przypadki poprawnie zidentyfikowane jako należące do klasy pozytywnej. Dla modelu wykrywania spękań, TP to liczba obrazów zawierających spękania, które model poprawnie oznaczył jako spękane. Każdy prawdziwie pozytywny przypadek reprezentuje defekt poprawnie zidentyfikowany, umożliwiając terminowe działania konserwacyjne. Wysokie liczby TP wskazują na wysoką czułość — model wykrywa defekty, które ma znajdować.

Fałszywie pozytywne (FP) — Przypadki negatywne nieprawidłowo sklasyfikowane jako pozytywne. Nazywane są również błędami I rodzaju w statystycznym testowaniu hipotez. Fałszywie pozytywny w wykrywaniu spękań oznacza, że model oznaczył nienaruszoną nawierzchnię jako spękaną. Chociaż fałszywie pozytywne nie powodują zagrożeń dla bezpieczeństwa konstrukcji (żaden defekt nie pozostaje niewykryty), generują fałszywe alarmy, które marnują zasoby inspekcyjne — ekipy wysyłane do badania nieistniejących defektów, budżety konserwacyjne przeznaczane na niepotrzebne naprawy oraz ogólną erozję zaufania do systemu AI. W operacjach lotniskowych, gdzie zgodność z Załącznikiem 14 ICAO wymaga udokumentowanych wyników inspekcji, nadmierna liczba fałszywych pozytywnych obciąża proces raportowania.

Fałszywie negatywne (FN) — Przypadki pozytywne nieprawidłowo sklasyfikowane jako negatywne. Są to błędy II rodzaju i są powszechnie uważane za bardziej niebezpieczny typ błędu w inspekcji infrastruktury. Fałszywie negatywny oznacza, że prawdziwy defekt — spękanie, wykruszenie, ognisko korozji — pozostaje niewykryty. W przypadku nawierzchni lotniskowych poddawanych obciążeniom statków powietrznych, niewykryte spękanie może propagować się pod powtarzającym się obciążeniem kół, prowadząc do przyspieszonej degradacji nawierzchni i potencjalnego powstawania cudzych przedmiotów (FOD). Fałszywie negatywne reprezentują niezauważone defekty krytyczne dla bezpieczeństwa i muszą być minimalizowane, nawet kosztem akceptacji większej liczby fałszywych pozytywnych.

Prawdziwie negatywne (TN) — Przypadki poprawnie zidentyfikowane jako nienależące do klasy pozytywnej. Reprezentują one poprawnie zidentyfikowane obszary nienaruszonej nawierzchni. Chociaż prawdziwie negatywne nie przyczyniają się bezpośrednio do wykrywania defektów, są niezbędne do walidacji ogólnej dokładności modelu oraz do obliczania metryk takich jak swoistość (wskaźnik prawdziwie negatywnych).

Relacja między tymi czterema wartościami determinuje wszystkie pochodne metryki:

Dokładność = (TP + TN) / (TP + TN + FP + FN) — Proporcja wszystkich przewidywań, które są poprawne.

Precyzja (dodatnia wartość predykcyjna) = TP / (TP + FP) — Ze wszystkich przypadków przewidzianych jako pozytywne, jaka część rzeczywiście jest pozytywna. Wysoka precyzja oznacza mało fałszywych alarmów.

Czułość (współczynnik prawdziwie pozytywnych) = TP / (TP + FN) — Ze wszystkich rzeczywistych przypadków pozytywnych, jaką część model wykrył. Wysoka czułość oznacza mało pominiętych defektów.

Swoistość (współczynnik prawdziwie negatywnych) = TN / (TN + FP) — Ze wszystkich rzeczywistych przypadków negatywnych, jaka część została poprawnie zidentyfikowana jako negatywna.

Wynik F1 = 2 × (Precyzja × Czułość) / (Precyzja + Czułość) — Średnia harmoniczna precyzji i czułości, zapewniająca pojedynczą zbalansowaną metrykę.

Dla inspekcji infrastruktury kompromis między precyzją a czułością jest zarządzany poprzez próg decyzyjny modelu. Model wykrywania spękań może wyprowadzać wynik prawdopodobieństwa między 0 a 1 dla każdego obrazu. Ustawienie progu na 0,5 daje standardową równowagę precyzji i czułości. Obniżenie progu do 0,3 zwiększa czułość (mniej pominiętych spękań), ale zmniejsza precyzję (więcej fałszywych alarmów). Podniesienie progu do 0,8 poprawia precyzję, ale ryzykuje pominięcie subtelnych spękań. Optymalny próg zależy od kontekstu operacyjnego: dla krytycznych nawierzchni lotniskowych, gdzie pominięcie spękania może prowadzić do powstania FOD, odpowiedni jest niższy próg faworyzujący czułość. Dla rutynowych inspekcji wizualnych, gdzie fałszywe alarmy marnują ograniczone budżety konserwacyjne, wyższy próg faworyzujący precyzję może być preferowany.

Wieloklasowa macierz pomyłek

Gdy zadanie klasyfikacji obejmuje trzy lub więcej klas, macierz pomyłek rozszerza się do wymiarów K×K, gdzie K to liczba klas. Klasyfikacja wieloklasowa jest dominującym paradygmatem w AI inspekcji infrastruktury, gdzie modele muszą jednocześnie rozróżniać wiele typów nawierzchni, wiele kategorii defektów lub wiele klas jakości.

Przykład 3-klasowy dla klasyfikacji typu nawierzchni lotniskowych może obejmować klasy: Asfalt (A), Beton (C) i Kompozyt (O). Hipotetyczna macierz pomyłek dla 1000 obrazów walidacyjnych:

Rzeczywista \ PrzewidywanaAsfaltBetonKompozytRazem
Asfalt4201515450
Beton1028010300
Kompozyt3020200250
Razem4603152251000

Przekątna pokazuje poprawne przewidywania: 420 asfalt, 280 beton, 200 kompozyt — łącznie 900 poprawnych na 1000, co daje 90% ogólnej dokładności. Komórki poza przekątną ujawniają strukturę błędów: Asfalt był mylony z Betonem (15 przypadków) i Kompozytem (15 przypadków) mniej więcej równo. Beton był mylony z Asfaltem (10) i Kompozytem (10) równo. Kompozyt był najczęściej mylony z Asfaltem (30 przypadków) — prawie dwukrotnie więcej niż pomyłek z Betonem (20). Taki wzorzec mówi twórcy modelu, że nawierzchnie kompozytowe są najbardziej wymagającą klasą, szczególnie gdy wizualnie przypominają czysty asfalt.

Dla wieloklasowych macierzy pomyłek podejście jeden-kontra-reszta przekształca problem K-klasowy w K binarnych podproblemów do obliczania metryk. Dla danej klasy i:

  • TP(i) = C[i][i] (element diagonalny)
  • FP(i) = suma(C[:][i]) - C[i][i] (suma kolumny i minus przekątna)
  • FN(i) = suma(C[i][:]) - C[i][i] (suma wiersza i minus przekątna)
  • TN(i) = całkowita_liczba_próbek - TP(i) - FP(i) - FN(i)

Dla klasy Kompozyt w powyższym przykładzie:

  • TP = 200
  • FP = (15 + 10) = 25 (przewidywania Kompozytu z wierszy Asfalt i Beton)
  • FN = (30 + 20) = 50 (rzeczywiste Kompozyty przewidziane jako Asfalt lub Beton)
  • TN = 1000 - 200 - 25 - 50 = 725
  • Precyzja = 200 / (200 + 25) = 0,889
  • Czułość = 200 / (200 + 50) = 0,800
  • F1 = 2 × (0,889 × 0,800) / (0,889 + 0,800) = 0,842

Wieloklasowa macierz pomyłek skaluje się do dowolnej liczby klas. Dla modeli inspekcji infrastruktury z 10-15 typami defektów macierz staje się bogatym źródłem informacji, ujawniającym nie tylko, które klasy działają słabo, ale dokładnie które pary klas są problematyczne. To fundamentalnie bardziej informacyjne niż pojedyncza liczba dokładności.

Wyznaczanie precyzji, czułości i F1 dla każdej klasy

Macierz pomyłek jest źródłem, z którego wyprowadzane są wszystkie metryki klasyfikacji dla poszczególnych klas. Zrozumienie tego wyprowadzania umożliwia praktykom prawidłową interpretację wydajności modelu i identyfikację klas wymagających poprawy.

Wzory metryk dla poszczególnych klas

Dla każdej klasy i w problemie klasyfikacji K-klasowej:

Precyzja_i = C[i][i] / suma(C[:][i]) = TP / (TP + FP)

Precyzja odpowiada na pytanie: „Gdy model przewiduje klasę i, jak często ma rację?" Nazywana jest również dodatnią wartością predykcyjną. Dla klasyfikacji defektów wysoka precyzja w klasie „krytyczne spękanie konstrukcyjne" oznacza, że gdy model oznacza poważne spękanie, inspektorzy mogą ufać temu wynikowi.

Czułość_i = C[i][i] / suma(C[i][:]) = TP / (TP + FN)

Czułość odpowiada na pytanie: „Ze wszystkich rzeczywistych przypadków klasy i, ile model znalazł?" Nazywana jest również czułością lub wskaźnikiem prawdziwie pozytywnych. Dla klasyfikacji defektów wysoka czułość w klasie „wykruszenia" oznacza, że większość rzeczywistych wykruszeń jest wykrywana, minimalizując niezauważoną degradację.

F1_i = 2 × (Precyzja_i × Czułość_i) / (Precyzja_i + Czułość_i)

F1 to średnia harmoniczna, zawsze leżąca między precyzją a czułością. F1 jest preferowana nad średnią arytmetyczną, ponieważ karze skrajne niezrównoważenie — model z precyzją=1,0 i czułością=0,0 ma F1=0,0, poprawnie wskazując, że model jest bezużyteczny pomimo średniej arytmetycznej 0,5.

Uśrednianie makro, mikro i ważone

Do porównywania modeli we wszystkich klasach istnieją trzy metody uśredniania:

Średnia makro oblicza metrykę niezależnie dla każdej klasy i uśrednia je z równą wagą: Makro-Precyzja = (1/K) × suma(Precyzja_i). Traktuje to wszystkie klasy równo, niezależnie od ich częstości. Dla 3-klasowego przykładu nawierzchni: Makro-Precyzja = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Średnia makro jest odpowiednia, gdy wszystkie klasy są równie ważne — na przykład przy klasyfikacji typów uszkodzeń nawierzchni, gdzie nawet rzadkie defekty mają znaczenie dla bezpieczeństwa.

Średnia mikro agreguje liczby we wszystkich klasach przed obliczeniem metryki: Mikro-Precyzja = suma(TP_i) / suma(TP_i + FP_i). Dla przykładu: Mikro-Precyzja = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Warto zauważyć, że średnia mikro precyzji równa się dokładności dla klasyfikacji z jedną etykietą. Średnia mikro jest napędzana przez najczęstsze klasy i jest odpowiednia, gdy priorytetem jest ogólna poprawność.

Średnia ważona oblicza metrykę dla każdej klasy i uśrednia z wagą proporcjonalną do liczby rzeczywistych przypadków w klasie: Precyzja ważona = suma(Precyzja_i × n_i) / suma(n_i), gdzie n_i to rzeczywista liczba dla klasy i. Dla przykładu: Precyzja ważona = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Średnia ważona jest zalecanym domyślnym wyborem dla niezrównoważonych zbiorów danych, ponieważ uwzględnia częstość klas bez ukrywania słabej wydajności na klasach mniejszościowych.

Metoda uśrednianiaWzórNajlepsza dla
Makro(1/K) × Σ Metryka_iRówna ważność klas, rzadkie defekty mają znaczenie
MikroΣ TP / (Σ TP + Σ FP)Ogólna poprawność zbioru danych
WażonaΣ (Metryka_i × n_i) / Σ n_iNiezrównoważone klasy, praktyczny domyślny wybór

Współczynnik korelacji Matthewsa (MCC)

MCC jest wyprowadzany z macierzy pomyłek i zapewnia pojedynczą metrykę podsumowującą całą macierz w sposób odporny na niezrównoważenie klas. Dla klasyfikacji wieloklasowej MCC przyjmuje wartości od -1 do +1, gdzie +1 oznacza idealne przewidywanie, 0 oznacza przewidywanie losowe, a -1 oznacza całkowitą niezgodność. MCC definiuje się jako:

MCC = [suma(suma(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [suma(suma(C[p][q] * C[p][r]))] × [suma(suma(C[s][t] * C[u][t]))] )

gdzie sumy przebiegają po odpowiednich zakresach indeksów zgodnie z definicją Gorodkina (2004). MCC jest powszechnie uważany za najbardziej informatywną pojedynczą metrykę do oceny klasyfikatora, ponieważ wykorzystuje wszystkie cztery ćwiartki macierzy pomyłek (w przypadku binarnym) lub wszystkie K² komórek (w przypadku wieloklasowym), w przeciwieństwie do dokładności, która wykorzystuje tylko przekątną.

Ogólna dokładność z macierzy pomyłek

Ogólna dokładność to najbardziej intuicyjna metryka wyprowadzana z macierzy pomyłek: suma przekątnej (poprawne przewidywania) podzielona przez całkowitą liczbę próbek. Dla dowolnej macierzy pomyłek ogólną dokładność oblicza się jako:

Dokładność = Σ C[i][i] / Σ C[i][j] dla wszystkich i, j

Dokładność reprezentuje proporcję wszystkich przewidywań, które model wykonał poprawnie. Choć intuicyjna, dokładność ma krytyczne ograniczenia, które sama macierz pomyłek pomaga zdiagnozować.

Paradoks dokładności

Paradoks dokładności opisuje sytuacje, w których wysoka dokładność nie wskazuje na dobrą wydajność modelu z powodu niezrównoważenia klas. Rozważmy model uszkodzeń nawierzchni oceniany na zbiorze danych, gdzie 95% obrazów przedstawia nienaruszoną nawierzchnię (negatywna), a 5% pokazuje spękania (pozytywna). Trywialny model przewidujący „nienaruszona" dla każdego obrazu osiąga 95% dokładności — a jednak nie wykrywa żadnego spękania. Macierz pomyłek natychmiast ujawnia tę porażkę: model ma TP=0, FP=0, FN=500 (wszystkie spękania pominięte), TN=9500 (cała nienaruszona nawierzchnia poprawnie zidentyfikowana). Pomimo 95% ogólnej dokładności, czułość dla klasy spękań wynosi 0%.

Macierz pomyłek uwidacznia paradoks dokładności. Sama dokładność nie może rozróżnić między:

  • Zbalansowanym modelem, który wykrywa 95% spękań i oznacza 5% nienaruszonych powierzchni jako spękane
  • Zdegenerowanym modelem, który przewiduje „nienaruszona" dla wszystkiego

Dla inspekcji infrastruktury to rozróżnienie ma krytyczne znaczenie dla bezpieczeństwa. Załącznik 14 ICAO wymaga, aby inspekcje nawierzchni dróg startowych identyfikowały wszystkie defekty, które mogłyby zagrozić operacjom statków powietrznych. Model z 99% dokładnością, który pomija 100% rzadkiego, ale niebezpiecznego typu defektu (takiego jak głębokie spękanie konstrukcyjne w strefie przyziemienia pasa startowego) stanowi zagrożenie dla bezpieczeństwa, które sama dokładność by zamaskowała.

Dokładność dla poszczególnych klas

Na podstawie macierzy pomyłek praktycy mogą obliczyć dokładność dla poszczególnych klas (zwaną również czułością dla klasy pozytywnej w ustawieniach binarnych):

Dokładność_klasy_i = C[i][i] / suma(C[i][:])

Mówi to o proporcji rzeczywistych przypadków klasy i, które model poprawnie sklasyfikował. Dla niezrównoważonych zbiorów danych dokładność dla poszczególnych klas jest o wiele bardziej informacyjna niż ogólna dokładność. Użytecznym podejściem raportowym jest przedstawienie ogólnej dokładności wraz z minimalną dokładnością dla poszczególnych klas — klasa z najniższą indywidualną dokładnością staje się słabym punktem modelu wymagającym uwagi.

Zbalansowana dokładność

Zbalansowana dokładność rozwiązuje problem niezrównoważenia klas poprzez uśrednienie czułości we wszystkich klasach:

Zbalansowana dokładność = (1/K) × Σ (C[i][i] / suma(C[i][:]))

Dla przykładu 95% nienaruszona / 5% spękania z trywialnym modelem zawsze-przewidującym-nienaruszona: Zbalansowana dokładność = (Czułość_nienaruszona + Czułość_spękania) / 2 = (9500/9500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Zbalansowana dokładność poprawnie identyfikuje ten model jako nie lepszy niż losowy (0,50), podczas gdy ogólna dokładność (0,95) jest myląco wysoka.

Identyfikacja mylonych klas

Najpotężniejszą zdolnością diagnostyczną macierzy pomyłek jest możliwość ujawnienia, które konkretne klasy są z którymi mylone — wzorzec błędów poza przekątną. Informacja ta bezpośrednio kieruje strategiami ulepszania modelu.

Wzorce pomyłek

Typowe wzorce pomyłek w modelach inspekcji infrastruktury obejmują:

Pomyłki wewnątrzkategoryjne — Dwa wizualnie podobne typy defektów są często ze sobą mylone. Wykwity (białe krystaliczne osady soli na betonie) i wczesna korozja (rdzawe plamy) są często mylone, ponieważ oba objawiają się jako przebarwienia powierzchni. W nawierzchniach asfaltowych spękania siatkowe (połączone wielokąty od zmęczenia) są czasami mylone ze spękaniami blokowymi (prostokątne bloki od skurczu), gdy gęstość sieci spękań jest umiarkowana.

Pomyłki hierarchiczne — Model poprawnie identyfikuje ogólną kategorię, ale myli konkretny podtyp. Model może poprawnie wykryć, że powierzchnia jest „spękana", ale mylić „spękanie poprzeczne" z „spękaniem podłużnym" — oba to liniowe spękania różniące się jedynie orientacją względem osi nawierzchni lub kierunku ruchu.

Pomyłki międzykategoryjne — Stan powierzchni jest mylony z fundamentalnie innym stanem. Krawędzie cieni na nawierzchni mogą być mylone z krawędziami spękań ze względu na podobne gradienty kontrastu. Materiał wypełniający spoiny może być mylony z materiałem wypełniającym spękania. Ślady opon w strefach przyziemienia pasa startowego mogą być mylone z degradacją powierzchni.

Kwantyfikacja mylonych par

Frakcja pomyłek dla pary klas (i, j) wynosi:

Pomyłki(i → j) = C[i][j] / suma(C[i][:])

Mówi to, dla rzeczywistych przypadków klasy i, jaka proporcja została błędnie sklasyfikowana jako klasa j. Frakcja pomyłek 0,15 między kompozytem (rzeczywisty) a asfaltem (przewidywany) oznacza, że 15% nawierzchni kompozytowych jest mylonych z asfaltem — jest to główny tryb awarii dla tej klasy.

Podobnie znormalizowana macierz pomyłek z normalizacją wierszową ustawia każdy wiersz tak, by sumował się do 1,0, bezpośrednio pokazując proporcję każdej rzeczywistej klasy rozłożoną na przewidywane klasy. Jest to najczęstszy format wizualizacji dla wieloklasowych macierzy pomyłek, ponieważ sprawia, że wzorce pomyłek są natychmiast widoczne niezależnie od liczebności próbek w klasach.

Wizualizacja mapy ciepła

Znormalizowana macierz pomyłek jest zazwyczaj wyświetlana jako mapa ciepła przy użyciu rozbieżnego schematu kolorów. Przekątna (poprawne przewidywania) jest pokazana na zielono lub niebiesko, tworząc widoczny „grzbiet poprawności", który powinien być dominującą cechą wizualną. Komórki poza przekątną są pokazane na czerwono lub w ciepłych kolorach, z intensywnością proporcjonalną do frakcji pomyłek. To kodowanie wizualne umożliwia natychmiastową identyfikację:

  • Ciemne komórki diagonalne: Klasy z wysoką czułością (większość rzeczywistych przypadków poprawnie sklasyfikowana)
  • Jasne komórki diagonalne: Klasy z niską czułością wymagające poprawy
  • Czerwone gorące punkty poza przekątną: Konkretne mylone pary wymagające ukierunkowanego działania
  • Zaczerwienienie w całym wierszu: Klasa, która jest szeroko mylona z wieloma innymi, wskazując, że sama klasa może wymagać lepszej definicji lub więcej danych treningowych

Ulepszanie kierowane pomyłkami

Po zidentyfikowaniu mylonych par klas można zastosować następujące ukierunkowane strategie:

  1. Zbieranie danych: Pozyskanie większej liczby przykładów treningowych konkretnie mylonych par, zwłaszcza przypadków brzegowych, które podkreślają ich cechy wyróżniające
  2. Inżynieria cech: Dla modeli niebazujących na głębokim uczeniu, zaprojektowanie cech, które konkretnie dyskryminują między mylonymi klasami — dla wykwitów vs. korozji, cechy wychwytujące temperaturę barwową i ziarnistość tekstury
  3. Nacisk augmentacji: Zastosowanie transformacji podkreślających charakterystyczne cechy — dla spękań siatkowych vs. blokowych, augmentacja wzorców połączeń spękań
  4. Wagi klas: Zwiększenie wagi funkcji straty dla mylonych klas podczas treningu, aby surowiej karać błędne klasyfikacje
  5. Modyfikacja architektury: Dodanie mechanizmów uwagi skupiających się na konkretnych regionach obrazu najbardziej dyskryminujących między mylonymi klasami
  6. Klasyfikacja hierarchiczna: Jeśli pomyłki są hierarchiczne (poprawna kategoria, zły podtyp), rozważenie dwuetapowego klasyfikatora, który najpierw identyfikuje ogólną kategorię, a następnie rozróżnia podtypy

Macierz pomyłek dla klasyfikacji typu nawierzchni

Klasyfikacja typu nawierzchni jest podstawowym zadaniem w inspekcji infrastruktury. Dla nawierzchni lotniskowych, Międzynarodowa Organizacja Lotnictwa Cywilnego (ICAO) i Federalna Administracja Lotnictwa (FAA) wymagają dokładnej identyfikacji typu nawierzchni do obliczeń osiągów statków powietrznych.

Zadanie klasyfikacji

Typowy model klasyfikacji typu nawierzchni dla nawierzchni lotniskowych musi rozróżniać między:

  • Asfaltem (nawierzchnia elastyczna): Powierzchnie związane lepiszczem bitumicznym, charakteryzujące się ciemnym czarnobrązowym zabarwieniem, widoczną teksturą kruszywa i ciągłą powierzchnią bez spoin
  • Betonem (nawierzchnia sztywna): Powierzchnie z cementu portlandzkiego, charakteryzujące się jasnoszarym zabarwieniem, widocznymi szczelinami skurczowymi w regularnych odstępach i gładszą teksturą powierzchni
  • Kompozytem: Nadkład asfaltowy na podłożu betonowym, charakteryzujący się wyglądem asfaltu z widocznymi pod spodem wzorami spękań odbitych
  • Żwirem/nawierzchnią nieutwardzoną: Zagęszczone powierzchnie kruszywowe dla lotnictwa ogólnego, charakteryzujące się luźnym materiałem powierzchniowym, brązowym/beżowym zabarwieniem i brakiem oznakowania nawierzchni
  • Porowatą warstwą tarcia (PFC): Specjalistyczna otwartoziarnista powierzchnia asfaltowa do odprowadzania wody, charakteryzująca się grubą, porowatą teksturą i ciemniejszym wyglądem

Macierz pomyłek dla typów nawierzchni

Macierz pomyłek dla 4-klasowego modelu typów nawierzchni testowanego na 2000 obrazów walidacyjnych może wyglądać następująco:

Rzeczywista \ PrzewidywanaAsfaltBetonKompozytŻwir
Asfalt (n=600)5646246
Beton (n=500)10465205
Kompozyt (n=400)482831212
Żwir (n=500)5105480

Ta macierz ujawnia:

Asfalt (94,0% czułości): 24 z 600 obrazów asfaltu zostało błędnie sklasyfikowanych jako kompozyt — to największa pomyłka dla tej klasy. Występuje to, gdy nawierzchnie asfaltowe mają wzory spękań odbitych, które wizualnie przypominają nawierzchnię kompozytową (asfalt na betonie z odbiciem spękań). 6 błędnych klasyfikacji na beton może wystąpić na jasno utlenionym asfalcie przypominającym starzejący się beton.

Beton (93,0% czułości): Główna pomyłka to 20 obrazów błędnie sklasyfikowanych jako kompozyt — zazwyczaj powierzchnie betonowe z cienkimi łatami asfaltowymi lub pasami nadkładu, które tworzą wygląd kompozytowy.

Kompozyt (78,0% czułości): To jest klasa problematyczna. 48 z 400 obrazów kompozytu (12%) zostało sklasyfikowanych jako czysty asfalt. Dzieje się tak, gdy warstwa asfaltu jest wystarczająco gruba, by tekstura i spoiny betonu pod spodem nie były widoczne na zarejestrowanym obrazie. Kolejne 28 (7%) zostało sklasyfikowanych jako czysty beton — zazwyczaj gdy warstwa asfaltu zużyła się w obszarach ruchu, odsłaniając podłoże betonowe. Model ma trudności, ponieważ wygląd nawierzchni kompozytowej rozciąga się między czystym asfaltem a czystym betonem.

Żwir (96,0% czułości): Żwir jest najbardziej odrębną wizualnie klasą i osiąga najwyższą czułość.

Implikacje operacyjne

Dla zgodności z ICAO, pomyłka między nawierzchnią kompozytową a czystym asfaltem jest najbardziej znacząca operacyjnie. Obliczenia osiągów statków powietrznych — szczególnie długości startu i lądowania — zależą od typu nawierzchni. Pomylenie nawierzchni kompozytowej z czystym asfaltem może prowadzić do błędnych szacunków współczynnika hamowania, wpływając na marginesy bezpieczeństwa.

Ukierunkowane ulepszenia dla klasy kompozytowej obejmują: pozyskanie obrazów treningowych przy różnych wiekach nadkładu (nowy gruby nadkład vs. zużyty cienki nadkład), dodanie obrazów pokazujących wzory spękań odbitych specyficznych dla konstrukcji kompozytowej oraz trenowanie dedykowanego binarnego dyskryminatora między czystym asfaltem a nadkładem kompozytowym.

Macierz pomyłek dla klasyfikacji klasy jakości

Klasyfikacja klasy jakości przypisuje kategoryczną ocenę stanu powierzchniom infrastruktury. Dla nawierzchni lotniskowych powszechne systemy oceny obejmują wskaźnik stanu nawierzchni (PCI) według ASTM D5340 oraz Klasyfikację Stanu Nawierzchni Lotniskowej stosowaną w systemach zarządzania nawierzchniami lotniskowymi ICAO.

Zadanie klasyfikacji

Klasy jakości zazwyczaj opierają się na skali 4- lub 5-stopniowej:

KlasaZakres PCIOpisWskaźniki wizualne
Dobra86-100Niewielkie lub brak uszkodzeńMało spękań, brak wykruszeń, nienaruszone spoiny
Dostateczna71-85Umiarkowana degradacjaPewne spękania, drobne wykruszenia, lekkie wietrzenie
Zła56-70Znaczna degradacjaRozległe spękania, umiarkowane wykruszenia, widoczne wyługowanie
Poważna/Awaryjna0-55Poważna degradacjaRozległe połączone spękania, poważne wykruszenia, defekty konstrukcyjne

Macierz pomyłek dla klas jakości

Macierz pomyłek dla klasyfikacji klasy jakości na 1000 odcinków nawierzchni drogi startowej:

Rzeczywista \ PrzewidywanaDobraDostatecznaZłaAwaryjna
Dobra (n=350)3152870
Dostateczna (n=300)36237243
Zła (n=200)03015218
Awaryjna (n=150)0016134

Ta macierz ujawnia charakterystyczny wzorzec pomyłek w klasyfikacji porządkowej: błędy koncentrują się na sąsiednich klasach. Model rzadko myli klasę Dobrą z Awaryjną (0 przypadków) lub Awaryjną z Dobrą (0 przypadków), ponieważ te klasy są wizualnie bardzo różne. Jednak pomyłki między sąsiednimi klasami są częste:

Dobra ↔ Dostateczna (28 + 36 = 64 pomyłek): Te dwie klasy są najczęściej myloną parą, reprezentując przypadki graniczne, gdzie występują drobne spękania, ale ogólny stan jest blisko granicy Dobra-Dostateczna (PCI ≈ 85). 28 odcinków Dobrych sklasyfikowanych jako Dostateczne może mieć wczesne spękania włoskowate, które model interpretuje jako znaczące; 36 odcinków Dostatecznych sklasyfikowanych jako Dobre może mieć bardzo drobne spękania poniżej progu wykrywalności modelu.

Dostateczna ↔ Zła (24 + 30 = 54 pomyłek): Ocena umiarkowanej degradacji jest subiektywna nawet wśród ludzkich inspektorów. 24 odcinki Dostateczne sklasyfikowane jako Złe prawdopodobnie mają gęstość spękań bliską granicy Dostateczna-Zła; 30 odcinków Złych sklasyfikowanych jako Dostateczne może reprezentować przypadki, w których nasilenie spękań jest graniczne.

Zła ↔ Awaryjna (18 + 16 = 34 pomyłek): Na krańcu poważnym pomyłki między Złą (rozległe spękania) a Awaryjną (degradacja konstrukcyjna) są stosunkowo niskie, ponieważ nawierzchnia awaryjna wykazuje jakościowo inne uszkodzenia — wykruszenia, przesunięcia płyt i dezintegrację powierzchni wykraczającą poza zwykłe spękania.

Kierunkowość poza przekątną

Macierz jest asymetryczna: pomyłki Dobra→Dostateczna (28) są niższe niż Dostateczna→Dobra (36). Oznacza to, że model jest bardziej konserwatywny dla odcinków Dostatecznych (skłonny do obniżania klasy odcinków Dobrych do Dostatecznej) niż dla odcinków Dobrych (skłonny do podwyższania klasy Dostatecznych do Dobrej). Ta asymetria ma znaczenie dla planowania konserwacji — konserwatywne błędne klasyfikacje (ocenianie lepszej nawierzchni jako gorszej) są bezpieczniejsze operacyjnie, ponieważ prowadzą do wcześniejszych interwencji konserwacyjnych, a nie opóźnionych działań.

Kappa dla klasyfikacji porządkowej

Ważona Kappa Cohena jest szczególnie odpowiednia dla macierzy pomyłek klas jakości, ponieważ uwzględnia porządek klas. Błędy między sąsiednimi klasami (Dostateczna sklasyfikowana jako Zła) są karane mniej surowo niż błędy odległe (Dobra sklasyfikowana jako Awaryjna). Ważenie liniowe karze proporcjonalnie do odległości między klasami, podczas gdy ważenie kwadratowe karze kwadrat odległości między klasami — bardziej odpowiednie, gdy różnice między klasami mają nieliniowe implikacje dla bezpieczeństwa.

Dla powyższej macierzy ważona Kappa (liniowa) może wynosić około 0,78, wskazując na znaczną zgodność lepszą niż przypadkowa, podczas gdy nieważona Kappa byłaby niższa, około 0,72, ponieważ traktuje wszystkie błędy poza przekątną równo, niezależnie od ich wagi.

Macierz pomyłek dla klasyfikacji defektów

Klasyfikacja defektów jest najbardziej złożonym i krytycznym dla bezpieczeństwa zadaniem dla modeli AI inspekcji infrastruktury. Dla betonowych elementów mostów lub nawierzchni lotniskowych model może potrzebować jednoczesnego rozpoznawania 10-15 odrębnych typów defektów.

Zadanie klasyfikacji

Typowe klasy defektów dla inspekcji infrastruktury betonowej obejmują:

  • Spękania włoskowate: Bardzo drobne spękania (< 0,3 mm szerokości), często kosmetyczne, ale mogą wskazywać na wczesną degradację
  • Spękania konstrukcyjne: Szersze spękania (≥ 0,3 mm), które mogą naruszać integralność konstrukcji lub ułatwiać wnikanie wody
  • Spękania siatkowe (asfalt): Połączona sieć spękań od obciążenia zmęczeniowego
  • Spękania podłużne/poprzeczne: Liniowe spękania w nawierzchni równoległe/prostopadłe do kierunku ruchu
  • Wykruszenia: Odłamywanie się powierzchniowego betonu w postaci odprysków lub większych fragmentów
  • Rozwarstwienia: Oddzielanie się warstw betonu, wykrywalne przez opukiwanie, ale nie zawsze widoczne wizualnie
  • Wykwity: Białe krystaliczne osady soli z wody migrującej przez beton
  • Plamy korozyjne: Rdzawa zmiana barwy wskazująca na korozję stali zbrojeniowej
  • Łuszczenie: Złuszczanie się lub odrywanie zaprawy powierzchniowej odsłaniające kruszywo
  • Uszkodzenie wypełnienia spoin: Degradacja lub odspojenie materiału wypełniającego spoiny
  • Wietrzenie/wyługowanie: Erozja powierzchni odsłaniająca kruszywo w nawierzchniach asfaltowych
  • Przesunięcia płyt: Pionowe przemieszczenie w poprzek spoin nawierzchni
  • Powierzchnia nienaruszona: Brak defektów, stan zdrowy

{

Inspektor lotniskowy badający betonową nawierzchnię drogi startowej z defektami i spękaniami, trzymający tablet z wynikami analizy AI

Macierz pomyłek dla defektów betonu

Częściowa macierz pomyłek skupiająca się na najczęściej mylonych parach defektów dla modelu inspekcji betonowej płyty mostowej:

Rzeczywista \ PrzewidywanaSpękanie włoskowateSpękanie konstrukcyjneWykruszeniaWykwityPlamy korozyjneNienaruszona
Spękanie włoskowate820305401095
Spękanie konstrukcyjne15440205155
Wykruszenia0102855200
Wykwity25051456015
Plamy korozyjne55153518010
Nienaruszona650010151910

Analiza wzorców pomyłek

Wykwity ↔ Plamy korozyjne (60 + 35 = 95 pomyłek): Najistotniejsza para pomyłek w klasyfikacji defektów betonu. Oba objawiają się jako przebarwienia powierzchni — wykwity jako białe krystaliczne osady, plamy korozyjne jako rdzawe plamy. Gdy wykwity zawierają zabrudzenia lub gdy plamy korozyjne są we wczesnym stadium (rdzawe, ale jeszcze nie uformowane), oba są wizualnie nie do odróżnienia. Ta pomyłka ma istotne implikacje materiałowe: wykwity wskazują na migrację wody (problem konserwacyjny), podczas gdy plamy korozyjne wskazują na aktywną korozję zbrojenia (problem bezpieczeństwa konstrukcji). Pomylenie jednego z drugim może prowadzić do dramatycznie błędnego priorytetyzowania działań konserwacyjnych.

Spękanie włoskowate ↔ Nienaruszona (95 + 65 = 160 pomyłek): Spękania włoskowate blisko granicy rozdzielczości modelu (około 0,2 mm przy rozdzielczości obrazowania 0,5 mm/piksel) są często pomijane. 95 spękań włoskowatych zostało sklasyfikowanych jako nienaruszone (fałszywie negatywne), co stanowi pominiętą wczesną degradację. 65 nienaruszonych powierzchni zostało sklasyfikowanych jako spękane włoskowato (fałszywie pozytywne), co stanowi fałszywe alarmy. Jest to klasyczny kompromis czułości detekcji na granicy percepcji.

Wykruszenia ↔ Plamy korozyjne (20 + 15 = 35 pomyłek): Obszary wykruszeń odsłaniające skorodowane pręty zbrojeniowe często mają rdzawe plamy wokół krawędzi wykruszeń, prowadząc do pomyłek między tymi dwiema klasami. W wielu przypadkach oba defekty współistnieją — wykruszenie spowodowane korozją podłoża — co sprawia, że zadanie klasyfikacji z pojedynczą etykietą jest z natury niejednoznaczne.

Spękanie konstrukcyjne ↔ Spękanie włoskowate (30 + 15 = 45 pomyłek): Spękania w pobliżu granicy włoskowate-konstrukcyjne (około 0,3 mm szerokości) są mylone na podstawie postrzeganej szerokości. Bez precyzyjnej zdolności pomiaru submilimetrowego w standardowych obrazach inspekcyjnych ta pomyłka jest oczekiwana i może być akceptowalna, jeśli oba typy spękań są oznaczane do inspekcji.

Remediacja kierowana pomyłkami dla modeli defektów

Na podstawie wzorców pomyłek konkretne strategie remediacji obejmują:

  1. Wykwity vs. Plamy korozyjne: Dodanie danych treningowych pokazujących wykwity z wbudowanym brudem (żółtawy odcień) oraz wczesną korozję bez widocznej rdzy (zielonkawy odcień). Zastosowanie augmentacji kolorów podkreślającej te subtelne różnice spektralne. Rozważenie dodania obrazowania w bliskiej podczerwieni wykrywającego różnice w składzie chemicznym.

  2. Spękanie włoskowate vs. Nienaruszona: Poprawa rozdzielczości obrazowania lub zastosowanie preprocessingowej superrozdzielczości. Zastosowanie ukierunkowanej augmentacji symulującej spękania włoskowate na różnych teksturach powierzchni. Rozważenie odrzucania przewidywań granicznych i oznaczania ich do przeglądu przez człowieka.

  3. Wykruszenia vs. Plamy korozyjne: Trenowanie modelu powinno wykorzystywać adnotacje wieloetykietowe, gdzie wykruszenia i korozja mogą współistnieć. Alternatywnie, stworzenie hierarchicznego klasyfikatora, który najpierw wykrywa „obszar degradacji", a następnie rozróżnia wykruszenia od plam na drugim poziomie.

  4. Spękanie konstrukcyjne vs. Włoskowate: Integracja estymacji szerokości spękania jako głowicy regresyjnej zamiast klasyfikacji. Wykorzystanie ciągłej estymacji szerokości do ustawienia progów nasilenia, które można dostroić do norm inspekcyjnych.

Profesjonalista w Dziedzinie Konserwacji Lotnisk lub Lotnictwa?

Budujemy sieć partnerów, aby zrewolucjonizować konserwację lotnisk dzięki najnowocześniejszej technologii.

Dowiedz się więcej

Defect Gating — Kontekstowe filtrowanie prognoz wad konstrukcyjnych

Defect Gating — Kontekstowe filtrowanie prognoz wad konstrukcyjnych

Defect gating to strategia wnioskowania, która filtruje przewidywane etykiety wad w zależności od rodzaju nawierzchni i domeny strukturalnej, tłumiąc fałszywie ...

25 min czytania
Technology Defect Detection +3
Wykrywanie pęknięć za pomocą AI w inspekcji infrastruktury

Wykrywanie pęknięć za pomocą AI w inspekcji infrastruktury

Wykrywanie pęknięć oparte na AI wykorzystuje widzenie komputerowe — konwolucyjne sieci neuronowe, transformery wizyjne i modele segmentacji semantycznej — do au...

37 min czytania
Computer Vision Deep Learning +8
Precyzja, czułość i wynik F1 w wykrywaniu defektów

Precyzja, czułość i wynik F1 w wykrywaniu defektów

Precyzja, czułość i wynik F1 to metryki klasyfikacji służące do oceny wydajności modeli AI i uczenia maszynowego w wykrywaniu defektów nawierzchni i infrastrukt...

AI Machine Learning +3