Główna » jak » Jak (i ​​dlaczego) używać funkcji Outliers w Excelu

    Jak (i ​​dlaczego) używać funkcji Outliers w Excelu

    Odstęp jest wartością znacznie wyższą lub niższą niż większość wartości w danych. Podczas korzystania z programu Excel do analizy danych, wartości odstające mogą skosić wyniki. Na przykład średnia średnia z zestawu danych może rzeczywiście odzwierciedlać Twoje wartości. Excel udostępnia kilka przydatnych funkcji pomagających w zarządzaniu wartościami odstającymi, więc spójrzmy.

    Szybki przykład

    Na poniższym obrazku wartości odstające są dość łatwe do wykrycia - wartość dwóch przypisanych do Erica i wartość 173 przypisanych do Ryana. W takim zestawie danych łatwo jest wykryć i odnieść się do tych wartości odstających ręcznie.

    W większym zestawie danych tak nie będzie. Możliwość zidentyfikowania wartości odstających i usunięcia ich z obliczeń statystycznych jest ważna - i właśnie tego będziemy szukać w tym artykule.

    Jak znaleźć wartości odstające w danych

    Aby znaleźć wartości odstające w zbiorze danych, używamy następujących kroków:

    1. Obliczyć pierwszy i trzeci kwartyl (będziemy mówić o tym, co jest w tym trochę).
    2. Oceń zakres międzykwartylowy (wyjaśnimy to nieco dalej).
    3. Zwróć górną i dolną granicę naszego zakresu danych.
    4. Użyj tych granic, aby zidentyfikować odległe punkty danych.

    Zakres komórek po prawej stronie zestawu danych, pokazany na poniższym obrazku, zostanie wykorzystany do zapisania tych wartości.

    Zacznijmy.

    Krok pierwszy: Oblicz kwartyle

    Jeśli podzielisz dane na ćwiartki, każdy z tych zestawów nazywany jest kwartylem. Najniższe 25% liczb z przedziału stanowi pierwszy kwartyl, następne 25% drugi kwartyl, i tak dalej. Najpierw robimy ten krok, ponieważ najszerzej stosowaną definicją odstający jest punkt danych, który ma więcej niż 1,5 przedziałów kwartylnych (IQR) poniżej pierwszego kwartyla i 1,5 odstępu międzykwartylnego powyżej trzeciego kwartylu. Aby określić te wartości, musimy najpierw ustalić, czym są kwartyle.

    Program Excel udostępnia funkcję QUARTILE do obliczania kwartyli. Wymaga dwóch informacji: tablicy i kwarty.

    = KWARTYL (tablica, kwarta)

    The szyk jest zakresem wartości, które oceniasz. I kwarta to liczba reprezentująca kwartyl, który chcesz zwrócić (np. 1 dla 1ul kwartyl, 2 na drugi kwartyl i tak dalej).

    Uwaga: W programie Excel 2010 firma Microsoft opublikowała funkcje QUARTILE.INC i QUARTILE.EXC jako ulepszenia funkcji QUARTILE. QUARTILE jest bardziej kompatybilny z poprzednimi wersjami podczas pracy z wieloma wersjami Excela.

    Powróćmy do naszej przykładowej tabeli.

    Aby obliczyć 1ul Kwartyle możemy użyć następującej formuły w komórce F2.

    = KWARTALNY (B2: B14,1)

    Po wprowadzeniu formuły program Excel udostępnia listę opcji argumentu kwarta.

    Aby obliczyć 3r & D Kwartał, możemy wprowadzić formułę podobną do poprzedniej w komórce F3, ale używając trzy zamiast jednego.

    = KWARTALNY (B2: B14,3)

    Teraz mamy dane kwartylowe wyświetlane w komórkach.

    Krok drugi: oceń zakres międzykwartylowy

    Odstęp międzykwartylowy (lub IQR) jest środkowym 50% wartości w danych. Jest on obliczany jako różnica między pierwszą wartością kwartylową a trzecią wartością kwartylową.

    Zamierzamy użyć prostej formuły w komórce F4, która odejmuje 1ul kwartyl od 3r & D kwartyl:

    = F3-F2

    Teraz możemy zobaczyć nasz rozstęp międzykwartylowy.

    Krok trzeci: Zwróć dolną i górną granicę

    Dolne i górne ograniczenia są najmniejszymi i największymi wartościami zakresu danych, które chcemy wykorzystać. Wszelkie wartości mniejsze lub większe od tych wartości związanych są wartościami odstającymi.

    Obliczymy granicę dolnego ograniczenia w komórce F5, mnożąc wartość IQR przez 1,5, a następnie odejmując ją od punktu danych Q1:

    = F2- (1,5 * F4)

    Uwaga: Nawiasy w tym wzorze nie są konieczne, ponieważ część mnożenia obliczy przed częścią odejmującą, ale sprawi, że formuła będzie łatwiejsza do odczytania.

    Aby obliczyć górną granicę w komórce F6, pomnożymy IQR ponownie o 1,5, ale tym razem Dodaj do punktu danych Q3:

    = F3 + (1,5 * F4)

    Krok czwarty: Zidentyfikuj wartości odstające

    Teraz, gdy mamy skonfigurowane wszystkie nasze podstawowe dane, nadszedł czas, aby zidentyfikować nasze odległe punkty danych - te, które są niższe niż dolna wartość graniczna lub wyższa niż górna wartość graniczna.

    Użyjemy funkcji OR do wykonania tego testu logicznego i pokażemy wartości, które spełniają te kryteria, wprowadzając następującą formułę do komórki C2:

    = OR (B2 $ F 6 $)

    Następnie skopiujemy tę wartość do naszych komórek C3-C14. Wartość PRAWDA wskazuje na odstąpienie, a jak widzisz, mamy dwa w naszych danych.

    Ignorowanie wartości odstających podczas obliczania średniej średniej

    Za pomocą funkcji QUARTILE obliczmy IQR i pracujemy z najczęściej używaną definicją odstępu. Jednak przy obliczaniu średniej średniej dla zakresu wartości i ignorowaniu wartości odstających istnieje szybsza i łatwiejsza funkcja. Technika ta nie pozwoli zidentyfikować odstający jak poprzednio, ale pozwoli nam być elastycznym z tym, co moglibyśmy uznać za naszą odstającą część.

    Funkcja, której potrzebujemy, nazywa się TRIMMEAN i poniżej możesz zobaczyć jej składnię:

    = TRIMMEAN (tablica, procent)

    The szyk jest zakresem wartości, które chcesz uśrednić. The procent to procent punktów danych, które należy wykluczyć z góry i dołu zbioru danych (można wprowadzić go jako wartość procentową lub dziesiętną).

    W poniższym przykładzie wprowadziliśmy poniższy wzór do komórki D3, aby obliczyć średnią i wykluczyć 20% wartości odstających.

    = TRIMMEAN (B2: B14, 20%)


    Istnieją dwie różne funkcje obsługi wartości odstających. Niezależnie od tego, czy chcesz je zidentyfikować dla niektórych potrzeb raportowania, czy wykluczyć je z obliczeń, takich jak średnie, program Excel ma funkcję dopasowaną do Twoich potrzeb.