Data Preprocessing 筆記整理 - ft. Pandas, Numpy, Scipy, Matplotlib

1102 機器學習

這篇文章是學習時整理的一些筆記，讓自己複習時方便，文章內容為上課之內容整理

常用於資料分析的函式庫

- 進行基本陣列處理與數值運算的函式庫
- 除了能做到進階且複雜的運算之外，處理速度比Python裡的一般運算快

- 將Numpy的功能更近一步強化的函式庫
- 能進行統計與訊號運算

- 藉由DataFrame形式來對各種資料進行加工的函式庫

- 用於將資料視覺化的函式庫

法一

直接import整個模組，不過若是需要使用到某個功能，則需模組.功能名稱.功能名稱…

1
2
3

import numpy as np

numpy.random.seed(0)  ##使用numpy內random的設定亂數種子功能

法二

從模組內直接import某個功能，則呼叫時前面就可以省略模組名稱，若是需要常常用到的功能，使用這個方式會比較省功夫拉～

1
2
3

from numpy import random

random.seed(0) ##使用numpy內random的設定亂數種子功能

處理資料就像處理食材一樣，清洗是絕對不可以省略的步驟，而錯誤的資料縱使有再厲害的分析方法必然不能產生正確的結果。

首先先決定好最終想要看到什麼，是想要看到「男性女性」、「男女」、還是「MF」，接者就要將詞語全數代換，最後無法分辨或是格式錯誤的資料列為null（再差至少也要是空白，而不是半形空格、全形空格、未填寫等等）

對於異常值補值是該刪除該筆資料還是以平均填補沒有一定的定義，須由分析師或是決策者來判斷，而不同的運用手法會產生很大的偏差，可能導致錯誤的決策，所以需要謹慎處理
檢測出異常的方法包括繪製箱形圖、使用常態分佈分析方法等等

資料標註工具： labelbox, labelimg

若要看整個資料前處理的範例可以到這裡的多元線性回歸章節觀看喔！