68 dòng code Python hay sử dụng xử lý dữ liệu trong Pandas

Nguồn bài viết: Click here

Để sử dụng được các đoạn code trong bài này, chúng ta có phần import như sau


import pandasas pd
import numpyas np

và chúng ta có các đối tượng với tên ngắn gọn như sau:

df – Đối tượng DataFrame trong Pandas

s – Đối tượng Series trong Pandas

Cách đọc dữ liệu trong Pandas Python

Các câu lệnh trong phần này giúp bạn có thể load hay import dữ liệu từ nhiều nguồn và nhiều dạng dữ liệu khác nhau

Cách đọc dữ liệu từ một file CSV


pd.read_csv(filename)

Cách đọc dữ liệu từ một file TSV


pd.read_table(filename)

Cách đọc dữ liệu từ một file Excel


pd.read_excel(filename)

Cách đọc dữ liệu từ một cơ sở dữ liệu SQL


pd.read_sql(query, connection_object)

Cách đọc dữ liệu từ nguồn JSON (file, string hoặc URL)


pd.read_json(json_string)

Cách đọc dữ liệu từ nguồn HTML (file, string hoặc URL)


pd.read_html(url)

Cách đọc dữ liệu từ Clipboard


pd.read_clipboard()

Nội dung của Clipboard sẽ được chuyển tới read_table()

Cách đọc dữ liệu từ kiểu từ điển trong Python


pd.DataFrame(dict)

Cách xuất dữ liệu từ Pandas DataFrame

Trong phần này, chúng ta sẽ tổng hợp một số cách xuất dữ liệu từ Pandas DataFrame ra một số nguồn thông dụng

Cách xuất dữ liệu từ DataFrame ra file CSV


df.to_csv(filename)

Cách xuất dữ liệu từ DataFrame ra file Excel


df.to_excel(filename)

Cách xuất dữ liệu từ DataFrame ra SQL


df.to_sql(table_name, connection_object)

Cách xuất dữ liệu từ DataFrame ra JSON


df.to_json(filename)

Cách tạo ra dữ liệu test

Những dòng code trong phần này sẽ giúp bạn tạo ra dữ liệu test với sự giúp đỡ của thư viện Numpy

Cách tạo bảng dữ liệu test với Numpy và Pandas

Đoạn code này sẽ tạo ra một bảng gồm 23 dòng và 4 cột, được điền vào những giá trị ngẫu nhiên từ Numpy


pd.DataFrame(np.random.rand(23,4))

Cách tạo ra series từ một list


pd.Series(my_list)

Cách thêm index là cột ngày tháng


df.index = pd.date_range(
                     '1999/1/31',
                     periods=df.shape[0])

Cách xem và kiểm tra dữ liệu

Những câu lệnh trong phần này sẽ giúp bạn kiểm tra DataFrame hoặc Series trong Panda theo một vị trí cụ thể.

Cách xem n dòng đầu tiên của DataFrame


df.head(n)

Cách xem n dòng cuối cùng của DataFrame


df.tail(n)

Cách lấy số dòng số cột của DataFrame


df.shape

Cách lấy số dòng số cột của DataFrame


df.shape

Xem thông tin về Index, kiểu dữ liệu và dung lượng của DataFrame


df.info()

Tổng kết thông tin thống kê cho các cột có kiểu dữ liệu là số


df.describe()

Xem giá trị duy nhất và đếm số giá trị này, đếm cả trường hợp NA

Lưu ý Áp dụng cho đối tượng Series


s.value_counts(dropna=False)

Tổng kết giá trị duy nhất và đếm cho tất cả các cột


df.apply(pd.Series.value_counts)

Trích xuất một phần dữ liệu trong Pandas DataFrame

Những câu lệnh trong phần này sẽ giúp bạn trích xuất dữ liệu từ DataFrame hoặc Series trong Pandas

Trả về một cột của DataFrame dưới dạng Series

Trả về cột có label là col như một Series


df[col]

Trả về các cột trong danh sách dưới dạng một DataFrame mới


df[[Col1, Col2]]

Chọn dữ liệu theo vị trí


s.iloc[0]

Chọn dữ liệu theo index


s.loc['index_one']

Chọn dữ liệu ở dòng đầu tiên


df.iloc[0,:]

Chọn dữ liệu ở dòng đầu tiên, ô thứ nhất của DataFrame


df.iloc[0,0]

Cách làm sạch dữ liệu trong Pandas DataFrame

Các đoạn code trong phần này sẽ giúp bạn xử lý và làm sạch dữ liệu

Đổi tên các cột trong DataFrame theo thứ tự


df.columns = ['a','b','c']

Kiểm tra dữ liệu với giá trị null


pd.isnull()

Kiểm tra dữ liệu với giá trị khác null


pd.notnull()

Cách bỏ toàn bộ dòng có dữ liệu null


df.dropna()

Cách bỏ toàn bộ cột có dữ liệu null


df.dropna(axis=1)

Cách bỏ các dòng có nhiều hơn n giá trị null


df.dropna(axis=1, thresh=n)

Cách thay toàn bộ giá trị null bằng giá trị x


df.fillna(x)

Cách thay toàn bộ giá trị null bằng giá trị khác

Thay giá trị null trong Series bởi giá trị mean của các giá trị trong Series (mean có thể thay được bởi các hàm khác trong module statistics của Python)


s.fillna(s.mean())

Cách chuyển đổi kiểu dữ liệu của Series sang Float


s.astype(float)

Cách thay giá trị này bởi giá trị khác

Thay tất cả các giá trị bằng 1 bởi one


s.replace(1,'one')

Cách thay nhiều giá trị cùng lúc


s.replace([1,3],['one','three'])

Cách đổi tên cột hàng loạt bằng lambda


df.rename(columns=lambda x: x + 1)

Cách đổi tên cột cụ thể trong DataFrame


df.rename(columns={'old_name': 'new_ name'})

Cách đổi index trong DataFrame


df.set_index('column_one')

Cách đổi index hàng loạt trong DataFrame


df.rename(index=lambda x: x + 1)

Cách lọc, sắp xếp, nhóm dữ liệu trong Pandas DataFrame

Các câu lệnh trong phần này sẽ giúp bạn thực hiện các thao tác lọc, sắp xếp hay nhóm dữ liệu trong DataFrame một cách dễ dàng

Lọc dữ liệu theo điều kiện

Lọc ra các dòng thỏa mãn điều kiện col lớn hơn 5


df[ df[col] > 5 ]

Lọc ra các dòng thỏa mãn điều kiện: có giá trị cột col trong khoảng 100 đến 200


df[ df[col] > 100 & df[col] < 200 ]

Sắp xếp dữ liệu

Sắp xếp dữ liệu trong cột col1 theo chiều thuận (ascending)


df.sort_values(col1)

Sắp xếp dữ liệu trong cột col2 theo chiều nghịch (descending)


df.sort_values(col2, ascending=False)

Sắp xếp col1 theo chiều thuận và col2 theo chiều nghịch


df.sort_values([col1,col2],ascending=[True,False])

Nhóm dữ liệu, pivot dữ liệu với groupby

Pivot dữ liệu theo col1


df.groupby(col1)

Pivot dữ liệu theo nhiều cột col1, col2

Pivot dữ liệu với pivot_table trong DataFrame

Tạo một Pivot Table, nhóm dữ liệu theo cột col1, tính mean của col2, col3


df.pivot_table(index=col1,values=[col2,col3],aggfunc=mean)

Tính mean của tất cả các cột


df.apply(np.mean)

Tính max mỗi dòng

Áp dụng hàm np.max() cho mỗi dòng dữ liệu


df.apply(np.max,axis=1)

Nối dữ liệu, gộp dữ liệu bằng Pandas DataFrame

Nối dữ liệu DataFrame theo chiều dọc

Nối các dòng của df1 xuống dưới df2 (Số lượng các cột trong 2 DataFrames này phải giống nhau)


df1.append(df2)

Nối dữ liệu DataFrame theo chiều ngang

Nối các cột của df1 sang phải các cột của df2 (Số lượng các dòng trong 2 DataFrames này phải giống nhau)


pd.concat([df1, df2],axis=1)

Join dữ liệu 2 DataFrames theo kiểu SQL


df1.join(df2,on=col1,how='inner')

Join 2 DataFrame df1 và df2 theo cột chung col1, kiểu Join là 'inner'. Ngoài ra còn hỗ trợ các kiểu join: 'left', 'right', 'outer'

Thống kê dữ liệu bằng Pandas DataFrame

Thống kê dữ liệu cho các cột số


df.describe()

Tính mean cho tất cả các cột


df.mean()

Tính correlation giữa các cột


df.corr()

Đếm số giá trị không null cho các cột


df.count()

Tìm giá trị lớn nhất cho mỗi cột


df.max()

Tìm giá trị nhỏ nhất cho mỗi cột


df.min()

Tìm giá trị median cho mỗi cột


df.median()

Tìm giá trị độ lệch tiêu chuẩn cho mỗi cột


df.std()