Tìm hiểu các kỹ thuật làm sạch dữ liệu cần thiết trong Excel, bao gồm xóa dữ liệu trùng lặp, xử lý các giá trị bị thiếu và duy trì định dạng nhất quán.
Trong bài hướng dẫn này, bạn sẽ học cách làm sạch dữ liệu trong Excel và chuẩn bị cho việc phân tích. Chúng ta sẽ tìm hiểu các kỹ thuật cần thiết như xóa dữ liệu trùng lặp, xử lý các giá trị bị thiếu và chuẩn hóa định dạng. Khi hoàn thành, bạn sẽ được trang bị những kỹ năng thực tế để đảm bảo bộ dữ liệu của mình chính xác và sẵn sàng cho việc phân tích sâu hơn.
Các thành phần của dữ liệu sạch là gì?
Để đảm bảo chất lượng dữ liệu cao cần có một số thành phần chính, bao gồm tính chính xác, tính đầy đủ, tính nhất quán, tính đồng nhất và tính hợp lệ. Những thành phần này rất cần thiết cho việc phân tích và ra quyết định đáng tin cậy. Hãy cùng xem xét từng thành phần.
- Tính chính xác (Accuracy): Dữ liệu của bạn hiển thị chính xác các giá trị trong thế giới thực mà nó đại diện. Nó đảm bảo rằng thông tin được hiển thị là chính xác và không có lỗi, phản ánh đúng tình trạng thực của dữ liệu. Ví dụ, dữ liệu chính xác sẽ có: Thông tin chính xác và không lỗi, giá trị số học đúng, dữ liệu văn bản không lỗi chính tả và ngày tháng chính xác.
- Tính đầy đủ (Completeness): Dữ liệu đầy đủ chứa tất cả thông tin cần thiết cho việc phân tích. Nếu dữ liệu của bạn không đầy đủ và thiếu các chi tiết quan trọng, điều này có thể làm sai lệch kết quả. Hãy đảm bảo điền vào các khoảng trống hoặc tính đến các giá trị bị thiếu trong phân tích của bạn. Để giải quyết vấn đề dữ liệu bị thiếu, hãy đảm bảo: Nhập giá trị dựa trên các quan sát khác, thay thế các giá trị bị thiếu bằng các giá trị giữ chỗ và loại bỏ các bản ghi không đầy đủ.
- Tính nhất quán (Consistency): Dữ liệu duy trì sự đồng đều qua các bộ dữ liệu và khoảng thời gian khác nhau. Dữ liệu sạch sẽ chứa các định dạng và đơn vị đo lường giống nhau xuyên suốt.
- Tính đồng nhất (Uniformity): Tính đồng nhất hay tiêu chuẩn hóa có nghĩa là tất cả dữ liệu sẽ thể hiện một định dạng và cấu trúc mạch lạc — nó phải thuộc cùng một kiểu dữ liệu hoặc một danh mục. Điều này sẽ bao gồm việc sử dụng cùng một đơn vị đo lường hoặc định dạng ngày tháng và gán nhãn chúng theo danh mục.
- Tính hợp lệ (Validity): Các giá trị dữ liệu nằm trong phạm vi chấp nhận được đã xác định trước và tuân thủ các mẫu dự kiến. Ví dụ, nếu một mục nhập tuổi hợp lệ phải nằm trong khoảng từ 0 đến 120 tuổi, các quy tắc và kiểm tra xác thực sẽ được áp dụng để đảm bảo dữ liệu đáp ứng tiêu chí này. Điều này ngăn chặn các giá trị ngoại lệ và các mục nhập sai lệch làm sai lệch kết quả.
Cách làm sạch dữ liệu trong Excel
Làm sạch dữ liệu trong Excel có nghĩa là tinh chỉnh dữ liệu thô. Không giống như xác thực dữ liệu (data validation), là một tính năng cụ thể trong thanh công cụ của Excel, làm sạch dữ liệu là một thuật ngữ chung hơn bao gồm một loạt các công cụ và kỹ thuật rộng lớn hơn. Trong phần sau, chúng ta sẽ đề cập đến từng ý tưởng sau:
- Làm sạch cơ bản: Giải quyết các vấn đề phổ biến như khoảng trắng thừa, ô trống và lỗi chính tả để đảm bảo một bộ dữ liệu sạch và nhất quán.
- Xử lý lỗi và xác thực: Tập trung vào việc xác định và sửa lỗi, đồng thời đảm bảo dữ liệu duy trì tính toàn vẹn bằng cách loại bỏ các bản ghi trùng lặp.
- Thao tác với văn bản: Thao tác và định dạng dữ liệu văn bản để đảm bảo nó đáp ứng yêu cầu của bạn, bao gồm việc nối chuỗi và thay đổi kiểu chữ.
- Chuyển đổi dữ liệu: Sử dụng các kỹ thuật để sắp xếp lại và định hình lại dữ liệu của bạn để phân tích tốt hơn, bao gồm phân tách văn bản và sử dụng các công cụ như Flash Fill.
- Sửa lỗi số và ngày tháng: Sửa và chuẩn hóa dữ liệu số và ngày tháng để đảm bảo chúng chính xác và được định dạng nhất quán.
- Quản lý dữ liệu nâng cao: Bao gồm việc đối chiếu và kết hợp các bộ dữ liệu để tạo ra một bộ dữ liệu toàn diện và gắn kết cho việc phân tích.
Làm sạch dữ liệu cơ bản trong Excel
Hãy xem xét việc làm sạch cơ bản, bao gồm việc giải quyết các vấn đề phổ biến như loại bỏ khoảng trắng thừa.
Loại bỏ khoảng trắng thừa
Các khoảng trắng ở cuối có thể gây phiền nhiễu hoặc có vấn đề vì chúng có thể dẫn đến sự không nhất quán trong phân tích dữ liệu và các vấn đề về định dạng.
Có hai cách chính để loại bỏ khoảng trắng thừa trong Excel. Hãy xem xét cả hai.
1. Sử dụng tính năng Tìm và Thay thế (Find and Replace)
- Chọn phạm vi ô mà bạn muốn loại bỏ khoảng trắng thừa.
- Sử dụng phím tắt
Ctrl + Hđể mở hộp thoại Tìm và Thay thế.
- Trong ô
Find what, nhấn phím cách hai lần để nhập hai khoảng trắng.
- Trong ô
Replace with, nhấn phím cách một lần để nhập một khoảng trắng.
- Nhấp vào
Replace All.
- Lặp lại quy trình cho đến khi không còn tìm thấy khoảng trắng kép nào.
2. Sử dụng hàm TRIM
- Tạo một cột mới cho dữ liệu đã được làm sạch.
- Nhập công thức
=TRIM(ô_có_khoảng_trắng_thừa)vào ô đầu tiên của cột mới.
- Nhấp đúp vào góc dưới bên phải của ô để áp dụng công thức cho các hàng còn lại.
- Sao chép dữ liệu đã làm sạch và dán dưới dạng giá trị (paste as values) để loại bỏ công thức.
Chọn và xử lý tất cả các ô trống
Các ô trống có thể gây ra sự cố bằng cách làm hỏng công thức, dẫn đến lỗi trong tính toán và tạo ra kết quả phân tích không chính xác. Dưới đây là cách xử lý vấn đề này.
- Bôi đen phạm vi ô mà bạn muốn tìm và xử lý các ô trống.
- Nhấn
Ctrl + Gđể mở hộp thoạiGo To.
- Nhấp vào nút “Special…”. Thao tác này sẽ mở hộp thoại
Go To Special.
- Chọn tùy chọn
Blanksvà nhấpOK. Bây giờ, bạn sẽ thấy tất cả các ô trống trong phạm vi đã chọn được chọn.
- Bây giờ bạn có thể nhập một giá trị hoặc công thức. Nhấn
Ctrl + Enter.
Kiểm tra chính tả (Spell checking)
Các từ bị viết sai chính tả có thể làm cho dữ liệu trông thiếu chuyên nghiệp và khó hiểu, vì vậy việc sửa chúng là rất quan trọng.
- Kiểm tra toàn bộ trang tính hoặc một phạm vi cụ thể.
- Chuyển đến tab
Reviewtrên thanh Ribbon.
- Nhấp vào nút
Spellingtrong nhómProofing.
- Hộp thoại
Spellingsẽ mở ra, hiển thị từ sai chính tả đầu tiên được phát hiện và các đề xuất sửa lỗi.
- Xem xét và sửa các từ sai chính tả khi cần thiết.
Xử lý lỗi và xác thực trong Excel
Hãy xem xét việc xử lý lỗi, bao gồm việc giải quyết các vấn đề phổ biến như tô sáng các lỗi hoặc loại bỏ các bản ghi trùng lặp.
Tô sáng lỗi
Lỗi trong dữ liệu của bạn có thể dẫn đến kết quả không chính xác và quyết định kém, vì vậy việc xác định và giải quyết chúng là rất quan trọng.
- Chọn phạm vi ô bạn muốn kiểm tra lỗi.
- Chuyển đến tab
Hometrên thanh Ribbon.
- Trong nhóm
Styles, nhấp vàoConditional Formatting.
- Chọn
New Ruletừ menu thả xuống.
- Chọn
Use a formula to determine which cells to format.
- Nhập công thức
=ISERROR(ô)vào trườngFormat values where this formula is true.
- Nhấp vào nút
Format…để chọn các tùy chọn định dạng mong muốn của bạn.
- Nhấp
OKsau khi chọn các tùy chọn định dạng của bạn.
- Nhấp
OKmột lần nữa trong hộp thoạiNew Formatting Ruleđể áp dụng quy tắc.
Xóa dữ liệu trùng lặp (Remove duplicates)
Các mục nhập trùng lặp có thể làm sai lệch phân tích và thông tin chi tiết, vì vậy việc loại bỏ chúng đảm bảo tính chính xác của dữ liệu.
- Chọn trang tính hoặc phạm vi ô mà bạn muốn xóa dữ liệu trùng lặp.
- Chuyển đến tab
Datatrên thanh Ribbon.
- Nhấp vào
Remove Duplicatestrong nhómData Tools.
- Trong hộp thoại
Remove Duplicates, chỉ định cột nào cần kiểm tra dữ liệu trùng lặp.
- Nhấp
OK. Excel sẽ hiển thị một thông báo cho biết số lượng giá trị trùng lặp đã được xóa.
Xóa các hàng trùng lặp
Các hàng trùng lặp có thể làm lộn xộn dữ liệu của bạn và ảnh hưởng đến độ tin cậy của phân tích. Dưới đây là cách quản lý điều này.
- Chọn phạm vi mà bạn muốn xóa các hàng trùng lặp.
- Chuyển đến tab
Datatrên thanh Ribbon và nhấp vàoAdvancedtrong nhómSort & Filter.
- Trong hộp thoại
Advanced Filter, chọnCopy to another location.
- Đặt
List rangethành phạm vi đã chọn của bạn.
- Đặt trường
Copy tothành ô mà bạn muốn sao chép các hàng duy nhất đến.
- Đánh dấu vào ô
Unique records onlyrồi nhấpOK.
Các thao tác với văn bản trong Excel
Hãy xem xét các thao tác với văn bản như nối chuỗi.
Nối chuỗi (Concatenate)
Kết hợp nhiều chuỗi văn bản vào một ô có thể giúp tạo ra dữ liệu có ý nghĩa và được tổ chức tốt hơn bằng cách hợp nhất thông tin từ các nguồn khác nhau thành một định dạng duy nhất, gắn kết.
- Chọn ô mà bạn muốn kết quả nối chuỗi xuất hiện.
- Nhập
=CONCATENATE().
- Chọn các ô bạn muốn nối, được phân tách bằng dấu phẩy hoặc toán tử
&.
- Nhấn
Enterđể xem kết quả.
Thay đổi kiểu chữ của văn bản
Việc thống nhất kiểu chữ của văn bản có thể cải thiện khả năng đọc và duy trì tính nhất quán trong dữ liệu của bạn.
- Tạo một cột mới cho văn bản đã được chuyển đổi.
- Nhập công thức vào một ô:
=UPPER()(IN HOA),=LOWER()(in thường) hoặc=PROPER()(Viết Hoa Chữ Cái Đầu).
- Nhấn
Enterđể áp dụng công thức.
- Kéo tay cầm điền (fill handle) để áp dụng công thức cho các ô khác nếu cần.
Loại bỏ các ký tự không in được khỏi văn bản
Các ký tự không in được như tab, ngắt dòng và các ký tự đặc biệt có thể gây ra sự cố bằng cách làm gián đoạn quá trình xử lý dữ liệu, gây khó khăn cho việc phân tích hoặc trực quan hóa dữ liệu một cách chính xác.
- Xác định các ký tự không in được bạn cần loại bỏ.
- Chọn ô chứa văn bản có ký tự không in được.
- Trong một ô mới, sử dụng hàm sau:
=CLEAN(văn_bản).
- Để loại bỏ khoảng trắng thừa và các ký tự không in được, hãy sử dụng:
=TRIM(CLEAN(văn_bản)).
- Sao chép và dán văn bản đã làm sạch để thay thế bản gốc.
Chuyển đổi dữ liệu trong Excel
Các kỹ thuật chuyển đổi dữ liệu được sử dụng để sắp xếp lại và định hình lại dữ liệu của bạn để phân tích tốt hơn, bao gồm phân tách văn bản và sử dụng các công cụ như Flash Fill.
Phân tách dữ liệu từ văn bản sang cột (Text to Columns)
Tách dữ liệu văn bản thành các cột riêng lẻ giúp dễ dàng phân tích các thành phần cụ thể và đảm bảo rằng mỗi mẩu thông tin được phân loại riêng biệt. Đây là thao tác ngược lại với việc nối chuỗi và hữu ích để chia nhỏ dữ liệu phức tạp thành các phần có thể quản lý được.
- Chọn dữ liệu bạn muốn tách.
- Chuyển đến tab
Datavà nhấp vàoText to Columns.
- Chọn
Delimited(phân tách bởi ký tự) hoặcFixed width(chiều rộng cố định) và nhấpNext.
- Đối với
Delimited, chọn các ký tự phân tách mà dữ liệu của bạn sử dụng và nhấpNext.
- Đối với
Fixed width, đặt các điểm ngắt cột trong cửa sổData Previewvà nhấpNext.
- Chọn định dạng dữ liệu cho mỗi cột.
- Nhấp
Finish.
Flash Fill (Điền nhanh)
Flash Fill tự động điền các giá trị dựa trên các mẫu mà nó phát hiện trong dữ liệu của bạn.
- Nhập dữ liệu theo một mẫu vào một ô bên cạnh dữ liệu hiện có của bạn.
- Cung cấp một ví dụ khác trong ô tiếp theo để giúp Excel phát hiện mẫu.
- Chọn ô có ví dụ.
- Chuyển đến tab
Datatrên thanh Ribbon.
- Nhấp vào
Flash Filltrong nhómData Tools.
- Excel sẽ tự động điền các ô còn lại dựa trên mẫu đã phát hiện.
Gộp và tách cột
Việc gộp và tách cột giúp tổ chức dữ liệu theo cách phù hợp nhất với nhu cầu phân tích của bạn.
Để gộp ô:
- Chuyển đến tab
Home, và nhấp vào menu thả xuốngMerge & Centertrong nhómAlignment.
- Chọn tùy chọn gộp ưa thích của bạn.
Để tách cột:
- Chuyển đến tab
Datavà nhấp vàoText to Columnstrong nhómData Tools.
- Chọn
delimitedhoặcfixed widthdựa trên nhu cầu dữ liệu của bạn.
- Chọn nơi đến cho dữ liệu đã tách và nhấp
Finish.
Chuyển đổi và sắp xếp lại các cột và hàng (Transpose)
Sắp xếp lại dữ liệu có thể giúp trình bày nó ở định dạng logic và dễ tiếp cận hơn.
Để chuyển đổi hàng thành cột và ngược lại:
- Bôi đen dữ liệu bạn muốn chuyển đổi (bao gồm cả tiêu đề nếu cần).
- Nhấp chuột phải vào vùng chọn và chọn
Copyhoặc nhấnCtrl+C.
- Chọn ô mà dữ liệu đã chuyển đổi sẽ bắt đầu.
- Nhấp chuột phải vào ô đích, chọn
Paste Specialvà sau đó chọnTranspose.
Để sắp xếp lại các cột/hàng:
- Nhấp vào tiêu đề cột để chọn toàn bộ cột bạn muốn di chuyển.
- Nhấp chuột phải và chọn
Cuthoặc nhấnCtrl+X.
- Chọn cột nơi bạn muốn di chuyển cột đã cắt đến, nhấp chuột phải vào tiêu đề cột và chọn
Insert Cut Cells.
- Tương tự đối với hàng, chọn và cắt hàng bạn muốn chuyển đến một hàng khác và dán nó vào đó.
Sửa lỗi số và ngày tháng trong Excel
Việc này bao gồm việc sửa và chuẩn hóa dữ liệu số và ngày tháng để đảm bảo chúng chính xác và được định dạng nhất quán.
Sửa số và định dạng số
Các định dạng số không chính xác có thể gây ra sự cố bằng cách dẫn đến hiểu sai và lỗi tính toán, cũng như các vấn đề về sắp xếp và so sánh dữ liệu.
- Chọn các ô chứa các số bạn cần sửa.
- Chuyển đến tab
Home, nhấp vào menu thả xuốngNumbertrong nhómNumbervà chọn định dạng số thích hợp (ví dụ: General, Number, Currency).
Sửa ngày tháng và thời gian
Ngày tháng được định dạng đúng là rất quan trọng cho việc phân tích và báo cáo dựa trên thời gian chính xác.
- Bôi đen các ô chứa ngày tháng.
- Chuyển đến tab
Home.
- Nhấp vào menu thả xuống
Number Formatvà chọnShort DatehoặcLong Date.
Quản lý dữ liệu nâng cao trong Excel
Quản lý dữ liệu nâng cao bao gồm việc đối chiếu và kết hợp các bộ dữ liệu để tạo ra một bộ dữ liệu toàn diện và gắn kết cho việc phân tích.
Đối chiếu dữ liệu bảng bằng cách nối hoặc khớp (Joining or Matching)
Việc nối hoặc khớp dữ liệu từ các bảng khác nhau đảm bảo phân tích toàn diện và gắn kết.
Sử dụng VLOOKUP để khớp dữ liệu:
- Đảm bảo cả hai bảng đều có thể truy cập trên cùng một trang tính.
- Chọn ô mà bạn muốn hiển thị dữ liệu đã khớp.
- Sử dụng hàm sau:
=VLOOKUP(giá_trị_tìm_kiếm, vùng_bảng, số_thứ_tự_cột, FALSE)
- Kéo tay cầm điền để sao chép công thức cho các ô khác khi cần.
Sử dụng INDEX và MATCH để linh hoạt hơn:
- Chọn ô mà bạn muốn hiển thị dữ liệu đã khớp.
- Sử dụng sự kết hợp của các hàm này:
=INDEX(vùng_kết_quả, MATCH(giá_trị_tìm_kiếm, vùng_tìm_kiếm, 0))
- Kéo tay cầm điền để sao chép công thức cho các ô khác khi cần.
Lời kết
Có nhiều chức năng làm sạch dữ liệu trong Excel cho phép bạn làm sạch và xác thực dữ liệu để đáp ứng các tiêu chuẩn đã đặt ra. Những chức năng này có thể giúp bạn giảm thiểu sai sót và cải thiện chất lượng của bộ dữ liệu.
Cho dù bạn đang sàng lọc dữ liệu để loại bỏ các trường trùng lặp hay chuẩn hóa định dạng của các mục nhập dữ liệu, Excel đều có tất cả các công cụ bạn cần để làm cho quá trình này dễ dàng hơn.
