வெளியீட்டாளர்களைக் கணக்கிடுங்கள்

நூலாசிரியர்: Charles Brown
உருவாக்கிய தேதி: 8 பிப்ரவரி 2021
புதுப்பிப்பு தேதி: 1 ஜூலை 2024
Anonim
noc18-me62 Lec 45-Chi square distribution,and Data outlier detection
காணொளி: noc18-me62 Lec 45-Chi square distribution,and Data outlier detection

உள்ளடக்கம்

வெளிநாட்டவர் அல்லது வெளிநாட்டவர் புள்ளிவிவரங்களில் ஒரு தரவு புள்ளி என்பது ஒரு மாதிரியின் மற்ற தரவு புள்ளிகளிலிருந்து கணிசமாக வேறுபடுகிறது. பெரும்பாலும், வெளியீட்டாளர்கள் புள்ளிவிவரங்களுக்கான அளவீடுகளில் உள்ள முரண்பாடுகள் அல்லது பிழைகளை சுட்டிக்காட்டுகின்றனர், அதன் பிறகு அவர்கள் தரவு தொகுப்பிலிருந்து வெளிநாட்டவரை அகற்ற முடியும். தரவு தொகுப்பிலிருந்து வெளியீட்டாளர்களை அகற்ற அவர்கள் உண்மையில் தேர்வுசெய்தால், அது ஆய்வில் இருந்து எடுக்கப்பட்ட முடிவுகளில் குறிப்பிடத்தக்க மாற்றங்களை உருவாக்கக்கூடும். இதனால்தான் நீங்கள் புள்ளிவிவர தரவை சரியாக விளக்க விரும்பினால் வெளிநாட்டவர்களைக் கணக்கிட்டு தீர்மானிக்க வேண்டியது அவசியம்.

அடியெடுத்து வைக்க

  1. சாத்தியமான வெளியீட்டாளர்களை எவ்வாறு கண்டறிவது என்பதை அறிக. ஒரு குறிப்பிட்ட தரவு தொகுப்பிலிருந்து முரண்பாடான மதிப்புகளை அகற்றலாமா என்பதை நாங்கள் தீர்மானிப்பதற்கு முன், தரவுத் தொகுப்பில் சாத்தியமான வெளியீட்டாளர்களை முதலில் அடையாளம் காண வேண்டும். பொதுவாக, தொகுப்பாளர்கள் மற்ற மதிப்புகளை உருவாக்கும் போக்கிலிருந்து கணிசமாக விலகும் தரவு புள்ளிகள் - வேறுவிதமாகக் கூறினால், அவை வெளியே சுட மற்ற மதிப்புகள். அட்டவணையில் மற்றும் (குறிப்பாக) வரைபடங்களில் இதை அடையாளம் காண்பது பொதுவாக எளிதானது. தரவு தொகுப்பு பார்வைக்கு வரைபடமாக்கப்பட்டால், வெளியீட்டாளர்கள் மற்ற மதிப்புகளிலிருந்து "வெகு தொலைவில்" இருப்பார்கள். எடுத்துக்காட்டாக, தரவுத் தொகுப்பில் உள்ள பெரும்பாலான புள்ளிகள் ஒரு நேர் கோட்டை உருவாக்கினால், வெளிநாட்டவர்கள் இந்த வரிக்கு இணங்க மாட்டார்கள்.
    • ஒரு அறையில் 12 வெவ்வேறு பொருட்களின் வெப்பநிலையைக் காட்டும் தரவுத் தொகுப்பைப் பார்ப்போம். 11 பொருட்களின் வெப்பநிலை 21 டிகிரி செல்சியஸ் வெப்பநிலையில் சில டிகிரி ஏற்ற இறக்கத்துடன் இருந்தால், ஒரு பொருள், ஒரு அடுப்பு, 150 ° C வெப்பநிலையைக் கொண்டிருந்தால், அடுப்பு அநேகமாக ஒரு வெளிநாட்டவர் என்பதை நீங்கள் ஒரு பார்வையில் காணலாம்.
  2. எல்லா தரவு புள்ளிகளையும் மிகக் குறைந்த முதல் மிக உயர்ந்த வகையில் வரிசைப்படுத்துங்கள். தரவு தொகுப்பின் சராசரி மதிப்பை (அல்லது நடுத்தர மதிப்பை) கண்டுபிடிப்பதே வெளியீட்டாளர்களைக் கணக்கிடுவதற்கான முதல் படி. தொகுப்பில் உள்ள மதிப்புகள் மிகக் குறைந்த முதல் மிக உயர்ந்த வரிசையில் இருந்தால் இந்த பணி மிகவும் எளிதாகிறது. எனவே தொடர்வதற்கு முன், உங்கள் தரவுத்தொகுப்பில் உள்ள மதிப்புகளை இவ்வாறு வரிசைப்படுத்தவும்.
    • மேலே உள்ள உதாரணத்துடன் தொடரலாம். ஒரு அறையில் வெவ்வேறு பொருட்களின் டிகிரி பாரன்ஹீட்டில் வெப்பநிலையைக் காட்டும் எங்கள் தரவு தொகுப்பு இங்கே: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. தொகுப்பில் உள்ள மதிப்புகளை மிகக் குறைந்த அளவிலிருந்து மிக உயர்ந்ததாக வரிசைப்படுத்தினால், இது எங்கள் புதிய தொகுப்பாகும்: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. தரவு தொகுப்பின் சராசரியைக் கணக்கிடுங்கள். தரவுத்தொகுப்பின் சராசரி என்பது தரவுகளின் பாதி அதற்கு மேலேயும், பாதி தரவு அதற்குக் கீழேயும் இருக்கும் தரவு புள்ளியாகும் - இது தரவுத்தொகுப்பின் "மையம்" ஆகும். தரவுத் தொகுப்பில் ஒற்றைப்படை புள்ளிகள் இருந்தால், சராசரி கண்டுபிடிக்க எளிதானது - சராசரி என்பது கீழே உள்ள பல புள்ளிகளைக் கொண்ட புள்ளி. சமமான புள்ளிகள் இருந்தால், ஒரு மையம் இல்லாததால், சராசரியைக் கண்டுபிடிக்க இரண்டு மைய புள்ளிகளின் சராசரியை நீங்கள் எடுக்க வேண்டும். வெளியீட்டாளர்களைக் கணக்கிடும்போது, ​​சராசரி பொதுவாக மாறி Q2 ஆல் குறிப்பிடப்படுகிறது - ஏனெனில் இது முதல் மற்றும் மூன்றாவது காலாண்டுகளான Q1 மற்றும் Q3 க்கு இடையில் உள்ளது. இந்த மாறிகள் பின்னர் தீர்மானிப்போம்.
    • சம எண்ணிக்கையிலான புள்ளிகளுடன் தரவுத்தொகுப்புகளால் குழப்பமடைய வேண்டாம் - இரண்டு நடுத்தர புள்ளிகளின் சராசரி பெரும்பாலும் தரவுத்தொகுப்பில் இல்லாத எண்ணாகும் - இது பரவாயில்லை. இருப்பினும், இரண்டு நடுத்தர புள்ளிகளும் ஒரே மாதிரியாக இருந்தால், சராசரி நிச்சயமாக இந்த எண்ணாக இருக்கும் - இதுவும் இதுதான் சரி.
    • எங்கள் எடுத்துக்காட்டில் நமக்கு 12 புள்ளிகள் உள்ளன. நடுத்தர இரண்டு சொற்கள் முறையே 6 மற்றும் 7 - 70 மற்றும் 71 புள்ளிகள் ஆகும். எனவே எங்கள் தரவு தொகுப்பின் சராசரி இந்த இரண்டு புள்ளிகளின் சராசரி: ((70 + 71) / 2) =70,5.
  4. முதல் காலாண்டைக் கணக்கிடுங்கள். மாறி Q1 உடன் நாம் குறிக்கும் இந்த புள்ளி, 25 சதவிகிதம் (அல்லது கால்) அவதானிப்புகளைக் கொண்டிருக்கும் தரவு புள்ளியாகும். வேறு வார்த்தைகளில் கூறுவதானால், இது உங்கள் தரவு தொகுப்பில் உள்ள அனைத்து புள்ளிகளின் மையமாகும் கீழே சராசரி. சராசரிக்குக் கீழே சம எண்ணிக்கையிலான மதிப்புகள் இருந்தால், Q1 ஐக் கண்டுபிடிக்க இரண்டு நடுத்தர மதிப்புகளின் சராசரியை நீங்கள் மீண்டும் எடுக்க வேண்டும், ஏனெனில் சராசரியை நீங்களே தீர்மானிக்க நீங்கள் செய்திருக்கலாம்.
    • எங்கள் எடுத்துக்காட்டில், ஆறு புள்ளிகள் சராசரிக்கு மேலேயும், அதற்கு கீழே ஆறு புள்ளிகள் உள்ளன. எனவே முதல் காலாண்டைக் கண்டுபிடிக்க நாம் கீழே உள்ள ஆறு புள்ளிகளில் உள்ள இரண்டு நடுத்தர புள்ளிகளின் சராசரியை எடுக்க வேண்டும். கீழ் ஆறில் 3 மற்றும் 4 புள்ளிகள் இரண்டும் 70 ஆகும், எனவே அவற்றின் சராசரி ((70 + 70) / 2) =70. எனவே Q1 க்கான எங்கள் மதிப்பு 70 ஆகும்.
  5. மூன்றாவது காலாண்டில் கணக்கிடுங்கள். மாறி Q3 உடன் நாம் குறிக்கும் இந்த புள்ளி, தரவு புள்ளி 25 சதவீத தரவு உள்ளது. Q3 ஐக் கண்டுபிடிப்பது நடைமுறையில் Q1 ஐக் கண்டுபிடிப்பதைப் போன்றது, இந்த விஷயத்தில் புள்ளிகளைப் பார்ப்பதைத் தவிர மேலே சராசரி.
    • மேலே உள்ள எடுத்துக்காட்டுடன் தொடர்ந்தால், சராசரிக்கு மேலே உள்ள ஆறு புள்ளிகளின் இரண்டு நடுத்தர புள்ளிகள் 71 மற்றும் 72 என்பதைக் காண்கிறோம். இந்த இரண்டு புள்ளிகளின் சராசரி ((71 + 72) / 2) =71,5. எனவே Q3 க்கான எங்கள் மதிப்பு 71.5 ஆகும்.
  6. இடைநிலை வரம்பைக் கண்டறியவும். இப்போது நாம் Q1 மற்றும் Q3 ஐ தீர்மானித்திருக்கிறோம், இந்த இரண்டு மாறிகள் இடையே உள்ள தூரத்தை நாம் கணக்கிட வேண்டும். Q1 இலிருந்து Q1 ஐக் கழிப்பதன் மூலம் Q1 க்கும் Q3 க்கும் இடையிலான தூரத்தைக் காணலாம். உங்கள் தரவு தொகுப்பில் விலகாத புள்ளிகளுக்கான எல்லைகளை தீர்மானிக்க இடைநிலை வரம்பிற்கு நீங்கள் பெறும் மதிப்பு முக்கியமானது.
    • எங்கள் எடுத்துக்காட்டில், Q1 மற்றும் Q3 க்கான மதிப்புகள் முறையே 70 மற்றும் 71.5 ஆகும். இடைநிலை வரம்பைக் கண்டுபிடிக்க, நாங்கள் Q3 - Q1: 71.5 - 70 = ஐக் கணக்கிடுகிறோம்1,5.
    • Q1, Q3 அல்லது இரண்டு எண்களும் எதிர்மறையாக இருந்தாலும் இது செயல்படும். எடுத்துக்காட்டாக, Q1 க்கான எங்கள் மதிப்பு -70 ஆக இருந்தால், இடைநிலை வரம்பு 71.5 - (-70) = 141.5 ஆக இருக்கும், இது சரியானது.
  7. தரவுத்தொகுப்பின் "உள் வரம்புகள்" கண்டுபிடிக்கவும். வெளிநாட்டவர்கள் பல எண் வரம்புகளுக்குள் வருகிறார்களா என்பதை தீர்மானிப்பதன் மூலம் நீங்கள் அவர்களை அடையாளம் காணலாம்; "உள் வரம்புகள்" மற்றும் "வெளி வரம்புகள்" என்று அழைக்கப்படுபவை. தரவுத்தொகுப்பின் உள் வரம்புகளுக்கு வெளியே வரும் ஒரு புள்ளி ஒன்று என வகைப்படுத்தப்படுகிறது லேசான வெளிப்புறம், மற்றும் வெளி வரம்புகளுக்கு வெளியே ஒரு புள்ளி ஒன்று என வகைப்படுத்தப்படுகிறது தீவிர வெளிப்புறம். உங்கள் தரவுத் தொகுப்பின் உள் எல்லைகளைக் கண்டறிய, முதலில் இடைநிலை வரம்பை 1.5 ஆல் பெருக்கவும். முடிவை Q3 இல் சேர்த்து Q1 இலிருந்து கழிக்கவும். இரண்டு முடிவுகள் உங்கள் தரவு தொகுப்பின் உள் வரம்புகள்.
    • எங்கள் எடுத்துக்காட்டில், இடைநிலை வரம்பு (71.5 - 70), அல்லது 1.5 ஆகும். 2.25 ஐப் பெற இதை 1.5 ஆல் பெருக்கவும். இந்த எண்ணை Q3 இல் சேர்த்து, உள் எல்லைகளை பின்வருமாறு கண்டுபிடிக்க Q1 இலிருந்து கழிக்கிறோம்:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • எனவே உள் எல்லைகள் 67.75 மற்றும் 73.75.
    • எங்கள் தரவு தொகுப்பில், அடுப்பு வெப்பநிலை - 300 டிகிரி பாரன்ஹீட் - இந்த வரம்பிற்கு வெளியே உள்ளது. எனவே இது ஒரு லேசான வெளிநாட்டவராக இருக்கலாம். எவ்வாறாயினும், இந்த வெப்பநிலை ஒரு தீவிரமான வெளிப்புறமா என்பதை நாங்கள் இன்னும் தீர்மானிக்கவில்லை, எனவே இன்னும் முடிவுகளுக்கு செல்ல வேண்டாம்.
  8. தரவுத்தொகுப்பின் "வெளி வரம்புகளை" கண்டறியவும். உள் வரம்புகளைப் போலவே நீங்கள் இதைச் செய்கிறீர்கள், ஒரே வித்தியாசத்துடன் நீங்கள் இடைநிலை தூரத்தை 1.5 க்கு பதிலாக 3 ஆல் பெருக்குகிறீர்கள். நீங்கள் முடிவை Q3 இல் சேர்த்து, வெளிப்புற வரம்பு மதிப்புகளைக் கண்டறிய Q1 இலிருந்து கழிக்கவும்.
    • எங்கள் எடுத்துக்காட்டில், (1.5 * 3) அல்லது 4.5 ஐப் பெற இடைநிலை தூரத்தை 3 ஆல் பெருக்குகிறோம். உள் வரம்புகளைப் போலவே வெளிப்புற வரம்புகளையும் இப்போது நாம் காணலாம்:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • எனவே வெளி வரம்புகள் 65.5 மற்றும் 76.
    • வெளிப்புற எல்லைகளுக்கு வெளியே இருக்கும் தரவு புள்ளிகள் தீவிர வெளியீட்டாளர்களாக கருதப்படுகின்றன. எங்கள் எடுத்துக்காட்டில், அடுப்பு வெப்பநிலை, 300 டிகிரி பாரன்ஹீட், வெளிப்புற எல்லைகளுக்கு அப்பாற்பட்டது. எனவே அடுப்பு வெப்பநிலை நிச்சயமாக ஒரு தீவிர வெளிநாட்டவர்.
  9. நீங்கள் வெளிநாட்டவர்களை "வெளியேற்ற வேண்டும்" என்பதை தீர்மானிக்க ஒரு தரமான மதிப்பீட்டைப் பயன்படுத்தவும். மேலேயுள்ள முறையின் மூலம் சில புள்ளிகள் லேசான வெளிநாட்டவர்கள், தீவிர வெளியீட்டாளர்கள் அல்லது வெளிநாட்டவர்கள் இல்லையா என்பதை நீங்கள் தீர்மானிக்க முடியும். ஆனால் எந்த தவறும் செய்யாதீர்கள் - ஒரு புள்ளியை ஒரு வெளிநாட்டவர் என்று அங்கீகரிப்பது அதை ஒன்றாகும் வேட்பாளர் தரவுத்தொகுப்பிலிருந்து அகற்றப்பட வேண்டும், உடனடியாக அகற்றப்படும் ஒரு புள்ளி அல்ல வேண்டும் மாறவும். தி காரணம் தொகுப்பாளரின் மீதமுள்ள புள்ளிகளிலிருந்து ஒரு வெளிநாட்டவர் ஏன் வேறுபடுகிறார் என்பது வெளிநாட்டவர் அகற்றப்பட வேண்டுமா என்பதை தீர்மானிப்பதில் முக்கியமானது. பொதுவாக, சில பிழையால் ஏற்படும் வெளியீட்டாளர்கள் - அளவீடுகளில் பிழை, பதிவுகளில் அல்லது சோதனை வடிவமைப்பில், எடுத்துக்காட்டாக - அகற்றப்படும். இதற்கு நேர்மாறாக, பிழைகள் ஏற்படாத மற்றும் புதிய, கணிக்கப்படாத தகவல்கள் அல்லது போக்குகளை வெளிப்படுத்தும் வெளிநாட்டவர்கள் வழக்கமாக மாறுகிறார்கள் இல்லை நீக்கப்பட்டது.
    • கருத்தில் கொள்ள வேண்டிய மற்றொரு அளவுகோல் என்னவென்றால், தரவின் தொகுப்பின் சராசரியை வெளிநாட்டவர்கள் பாதிக்கிறார்களா அல்லது தவறாக வழிநடத்துகிறார்களா என்பதுதான். உங்கள் தரவு தொகுப்பின் சராசரியிலிருந்து முடிவுகளை எடுக்க நீங்கள் திட்டமிட்டால் இது மிகவும் முக்கியமானது.
    • எங்கள் உதாரணத்தை தீர்ப்போம். முதல் மிக உயர்ந்தது இயற்கையின் சில எதிர்பாராத சக்தியின் காரணமாக உலை 300 ° F வெப்பநிலையை எட்டியது சாத்தியமில்லை, எங்கள் எடுத்துக்காட்டில், உலை தற்செயலாக இயக்கப்பட்டிருப்பதாக கிட்டத்தட்ட 100% உறுதியுடன் முடிக்க முடியும், இதனால் அசாதாரணமாக அதிக வெப்பநிலை வாசிப்பு ஏற்படுகிறது. கூடுதலாக, நாங்கள் வெளிநாட்டவரை அகற்றவில்லை என்றால், எங்கள் தரவு தொகுப்பின் சராசரி (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 to எஃப், சராசரி போது இல்லாமல் வெளிநாட்டவர் (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F.
      • வெளிநாட்டவர் மனித பிழையால் ஏற்பட்டதால், சராசரி அறை வெப்பநிலை 32 ° C க்கு அருகில் இருந்தது என்று சொல்வது தவறானது என்பதால், நாங்கள் எங்கள் வெளிநாட்டவரைப் பயன்படுத்த தேர்வு செய்ய வேண்டும். அகற்று.
  10. (சில நேரங்களில்) வெளியீட்டாளர்களைத் தக்கவைத்துக்கொள்வதன் முக்கியத்துவத்தைப் புரிந்து கொள்ளுங்கள். சில வெளியீட்டாளர்கள் தரவுத்தொகுப்பிலிருந்து அகற்றப்பட வேண்டும், ஏனெனில் அவை பிழைகளின் விளைவாகவோ அல்லது முடிவுகளை தவறான வழியில் திசை திருப்புவதாலோ, மற்ற வெளியீட்டாளர்கள் பாதுகாக்கப்பட வேண்டும். எடுத்துக்காட்டாக, ஒரு வெளிநாட்டவர் சரியாகப் பெறப்பட்டிருந்தால் (எனவே பிழையின் விளைவாக அல்ல) மற்றும் / அல்லது அளவிட வேண்டிய நிகழ்வு குறித்த புதிய நுண்ணறிவை வெளிநாட்டவர் வழங்கினால், அது உடனடியாக அகற்றப்படக்கூடாது. விஞ்ஞானிகளுடன் சோதனைகள் குறிப்பாக உணர்திறன் வாய்ந்த சூழ்நிலைகள் - வெளிநாட்டவரை தவறாக நீக்குவது என்பது ஒரு புதிய போக்கு அல்லது கண்டுபிடிப்பு பற்றிய முக்கியமான தகவல்களை எறிந்துவிடுவதாகும்.
    • எடுத்துக்காட்டாக, ஒரு மீன் பண்ணையில் மீன் பெரிதாக வளர ஒரு புதிய மருந்தை நாங்கள் வடிவமைக்கிறோம் என்று கற்பனை செய்து பாருங்கள். எங்கள் பழைய தரவு தொகுப்பை ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) பயன்படுத்துவோம், ஒவ்வொரு புள்ளியும் இப்போது ஒரு மீனின் வெகுஜனத்தை (கிராம்) குறிக்கிறது ) பிறப்பிலிருந்து மற்றொரு பரிசோதனை மருந்துடன் சிகிச்சையின் பின்னர். வேறு வார்த்தைகளில் கூறுவதானால், முதல் மருந்து ஒரு மீனுக்கு 71 கிராம் வெகுஜனத்தையும், இரண்டாவது மீனுக்கு 70 கிராம் வெகுஜனத்தையும் கொடுத்தது. இந்த சூழ்நிலையில், 300 இன்னும் ஒரு பெரிய வெளிநாட்டவர், ஆனால் இப்போது அதை அகற்றக்கூடாது. ஏனெனில், வெளிநாட்டவர் ஒரு பிழையின் விளைவாக இல்லை என்று நாம் கருதினால், அது எங்கள் சோதனையில் ஒரு பெரிய வெற்றியைக் குறிக்கிறது. 300 கிராம் மீனை உற்பத்தி செய்யும் மருந்து வேறு எந்த மருந்தையும் விட சிறப்பாக செயல்பட்டது, எனவே இதுதான் பெரும்பாலானவை அதற்கு பதிலாக எங்கள் தொகுப்பில் முக்கியமான தரவு புள்ளி குறைந்தது முக்கியமான தரவு புள்ளி.

உதவிக்குறிப்புகள்

  • நீங்கள் வெளியீட்டாளர்களைக் கண்டால், தரவுத்தொகுப்பிலிருந்து அவற்றை அகற்றுவதற்கு முன் அவற்றை விளக்க முயற்சிக்கவும்; அவை விநியோகத்தில் அளவீட்டு பிழைகள் அல்லது விலகல்களைக் குறிக்கலாம்.

தேவைகள்

  • கால்குலேட்டர்