Khai Phá Dữ Liệu Là Gì

     

Về cơ bản, khai thác dữ liệu là về xử lý dữ liệu và nhận biết các chủng loại và các xu hướng trong tin tức đó để chúng ta cũng có thể quyết định hoặc tấn công giá. Các nguyên tắc khai phá dữ liệu đã được sử dụng nhiều năm rồi, tuy vậy với sự thành lập của big data (dữ liệu lớn), nó lại càng thông dụng hơn.

Bạn đang xem: Khai phá dữ liệu là gì

Big data gây nên một sự bùng phát về áp dụng nhiều kỹ thuật khai phá dữ liệu hơn, một trong những phần vì kích thước thông tin lớn hơn không hề ít và vì tin tức có xu hướng phong phú và mở rộng hơn về chính bản chất và nội dung của nó. Với những tập hợp tài liệu lớn, để nhận thấy số liệu thống kê tương đối đơn giản dễ dàng và tiện lợi trong hệ thống vẫn không đủ. Cùng với 30 hoặc 40 triệu phiên bản ghi thông tin người tiêu dùng chi tiết, bài toán biết rằng 2 triệu khách hàng trong số đó sinh sống trong một vị trí vẫn chưa đủ. Bạn có nhu cầu biết liệu 2 triệu quý khách hàng đó bao gồm thuộc về một tổ tuổi ví dụ không cùng bạn có muốn biết các khoản thu nhập trung bình của họ để bạn cũng có thể tập trung vào các yêu cầu của khách hàng của chính mình tốt hơn.

Những nhu cầu hướng kinh doanh này đã chuyển đổi cách lấy ra và những thống kê dữ liệu đơn giản dễ dàng sang việc khai phá dữ liệu phức tạp hơn. Vấn đề kinh doanh nhắm tới việc lưu ý dữ liệu sẽ giúp xây dựng một mô hình để mô tả những thông tin nhưng cuối cuộc đã dẫn đến sự việc tạo ra báo cáo kết quả. Hình tiếp sau đây phác thảo quá trình này.

*

Quá trình phân tích dữ liệu, tìm hiểu dữ liệu cùng xây dựng mô hình dữ liệu hay lặp lại khi chúng ta tập trung vào và nhận biết các thông tin không giống nhau để bạn có thể trích ra. Chúng ta cũng yêu cầu hiểu cách thiết lập cấu hình quan hệ, ánh xạ, kết hợp và phân cụm tin tức đó với tài liệu khác để tạo ra kết quả. Vượt trình phân biệt dữ liệu nguồn và các định dạng nguồn, rồi ánh xạ thông tin đó tới hiệu quả đã đến của shop chúng tôi có thể biến hóa sau khi chúng ta phát hiện ra các yếu tố và những khía cạnh khác biệt của dữ liệu.

Các công cụ khai thác dữ liệu

Khai phá dữ liệu không hẳn là tất cả về những công núm hay ứng dụng cơ sở dữ liệu mà ai đang sử dụng. Chúng ta cũng có thể thực hiện khai phá dữ liệu bằng các hệ thống cơ sở dữ liệu thông thường và những công cụ đơn giản, bao hàm việc tạo và viết phần mềm riêng của chúng ta hoặc sử dụng các gói ứng dụng bán không tính cửa hàng. Khai phá dữ liệu tinh vi được hưởng thụ từ kinh nghiệm trong thừa khứ và các thuật toán đã định nghĩa với ứng dụng và các gói ứng dụng hiện có, với những công rứa nhất định để thu được một mối quan hệ hoặc uy tín lớn hơn bằng những kỹ thuật không giống nhau.

Gần đây các tập hợp dữ liệu rất lớn và vấn đề xử lý tài liệu theo nhiều và bài bản lớn có thể được cho phép khai phá tài liệu để sắp xếp và lập báo cáo về các nhóm và các mối đối sánh tương quan của dữ liệu phức tạp hơn. Hiện nay đã gồm sẵn tương đối nhiều công ráng và hệ thống hoàn toàn mới, có các khối hệ thống lưu trữ với xử lý tài liệu kết hợp.Bạn rất có thể khai phá dữ liệu với nhiều tập hợp tài liệu khác nhau, gồm những cơ sở dữ liệu SQL truyền thống, dữ liệu văn phiên bản thô, những kho khóa/giá trị và các cơ sở tài liệu tài liệu. Các cơ sở tài liệu có phân cụm, như Hadoop, Cassandra, CouchDB cùng Couchbase Server, lưu trữ và cung cấp quyền truy vấn vào dữ liệu theo phương pháp không tương xứng với kết cấu bảng truyền thống.

Đặc biệt, định dạng lưu trữ cơ sở dữ liệu tài liệu linh hoạt rộng lại tạo ra một trung tâm và sự tinh vi khác về cách xử trí thông tin. Các cơ sở dữ liệu SQL áp để các cấu tạo chặt chẽ và cứng rắn vào lược đồ, tạo nên việc tróc nã vấn bọn chúng và phân tích tài liệu trở nên dễ dàng và đơn giản theo quan tiền điểm nắm rõ định dạng và cấu tạo thông tin.

Các cơ sở dữ liệu tài liệu, bao gồm một tiêu chuẩn chẳng hạn như cấu tạo thực thi JSON hoặc những tệp có cấu trúc đọc được bằng máy tính nào đó, cũng dễ cách xử trí hơn, mặc dù chúng có thể làm tăng thêm sự phức tạp do cấu tạo khác nhau với hay gắng đổi. Ví dụ, với việc xử lý dữ liệu trọn vẹn thô của Hadoop, hoàn toàn có thể phức tạp để nhận thấy và trích ra nội dung trước khi bạn bước đầu xử lý và đối sánh tương quan với nó.

Các nghệ thuật chính

Một số nghệ thuật cốt lõi, được thực hiện trong khai phá dữ liệu, biểu thị kiểu vận động khai phá và hoạt động phục hồi dữ liệu. Thật rủi ro là các công ty với các giải pháp khác nhau không phải lúc nào thì cũng dùng chung các thuật ngữ. Chính những thuật ngữ này rất có thể làm tạo thêm sự mơ hồ với sự phức tạp.

Hãy coi xét một số kỹ thuật bao gồm và ví dụ về cách sử dụng những công cụ khác biệt để dựng lên việc khai phá dữ liệu.

Sự kết hợp

Sự phối kết hợp (hay mối quan hệ) có lẽ là kỹ thuật khai thác dữ liệu được nghe biết nhiều hơn, phần lớn quen ở trong và 1-1 giản. Ở đây, bạn tiến hành một sự tương quan đơn giản dễ dàng giữa hai hoặc những mục, thường thuộc kiểu để nhận thấy các mẫu. Ví dụ, khi theo dõi thói quen mua sắm và chọn lựa của bạn dân, bạn cũng có thể nhận hiểu được một khách hàng luôn tải kem lúc họ sở hữu dâu tây, nên bạn có thể đề xuất rằng lần tới khi họ thiết lập dâu tây, họ cũng có thể muốn tải kem.

Việc xây dựng những công cụ khai thác dữ liệu dựa vào sự phối hợp hay mối quan hệ hoàn toàn có thể thực hiện dễ dàng và đơn giản bằng những công cụ khác nhau. Ví dụ, vào InfoSphere Warehouse một trình hướng dẫn giới thiệu các thông số kỹ thuật của một luồng tin tức được sử dụng kết hợp bằng cách xem xét tin tức nguồn đầu vào của đại lý dữ liệu, thông tin về cơ sở ra ra quyết định và thông tin đầu ra của bạn. Hình 2 cho biết thêm một lấy ví dụ như của cơ sở tài liệu ví dụ mẫu.

*

Sự phân loại

Bạn hoàn toàn có thể sử dụng sự phân loại để thành lập một phát minh về thứ hạng khách hàng, kiểu sản phẩm hoặc dạng hình đối tượng bằng cách mô tả nhiều thuộc tính để nhận thấy một lớp nuốm thể. Ví dụ, bạn cũng có thể dễ dàng phân loại những xe ô tô thành những kiểu xe khác biệt (xe mui kín, 4x4, xe có thể bỏ mui) bằng cách xác định các thuộc tính khác nhau (số khu vực ngồi, làm ra xe, các bánh xe điều khiển). Cùng với một cái xe mới, chúng ta cũng có thể đặt nó vào một lớp cầm thể bằng cách so sánh các thuộc tính với khái niệm đã biết của bọn chúng tôi. Chúng ta có thể áp dụng các nguyên tắc tương tự ấy cho các khách hàng, ví dụ bằng cách phân loại khách hàng theo độ tuổi cùng nhóm làng hội.

Hơn nữa, bạn có thể sử dụng vấn đề phân các loại như một mối cung cấp cấp, hoặc như là hiệu quả của các kỹ thuật khác. Ví dụ, bạn có thể sử dụng các cây quyết định để xác định một biện pháp phân loại. Câu hỏi phân cụm sẽ có thể chấp nhận được bạn sử dụng các thuộc tính bình thường theo các cách phân loại khác nhau để nhận biết các cụm.

Việc phân nhiều (Clustering)

Bằng biện pháp xem xét một hay các thuộc tính hoặc những lớp, chúng ta có thể nhóm những phần dữ liệu riêng lẻ cùng nhau để chế tạo thành một ý kiến cấu trúc. Ở mức đối kháng giản, việc phân nhiều đang sử dụng một hoặc các thuộc tính làm cơ sở cho bạn để nhận ra một team các tác dụng tương quan. Câu hỏi phân các giúp để nhận thấy các thông tin không giống nhau vì nó đối sánh tương quan với những ví dụ khác, nên chúng ta cũng có thể thấy nơi đâu có đông đảo điểm tương đồng và những phạm vi phù hợp.

Xem thêm: Trách Nhiệm Xã Hội Là Gì - Trách Nhiệm Xã Hội Của Doanh Nghiệp

Việc phân cụm hoàn toàn có thể làm theo nhì cách. Chúng ta có thể giả sử rằng bao gồm một cụm ở 1 điểm khăng khăng và tiếp đến sử dụng các tiêu chuẩn nhận dạng của chúng tôi để coi liệu bạn có đúng không. Đồ thị trong Hình 3 là 1 trong những ví dụ hay. Trong ví dụ này, một ví dụ mẫu mã về dữ liệu kinh doanh so sánh tuổi của chúng ta với quy mô phân phối hàng. Thật hợp lý và phải chăng khi thấy rằng những người ở độ tuổi hai mươi (trước lúc kết hôn cùng còn nhỏ), ở độ tuổi năm mươi và sáu mươi (khi không hề con cái ở nhà), có rất nhiều tiền tiêu hơn.

*

Trong lấy ví dụ này, bạn có thể nhận ra nhì cụm, một cụm xung quanh nhóm 2 nghìn Đô la Mỹ/ 20-30 tuổi cùng một các ở team 7.000-8.000 Đô la Mỹ/ 50-65 tuổi. Vào trường vừa lòng này, shop chúng tôi đã đưa thuyết hai nhiều và đã minh chứng giả thuyết của shop chúng tôi bằng một đồ thị đơn giản và dễ dàng mà shop chúng tôi có thể chế tác ra bằng cách sử dụng bất kỳ phần mềm vật dụng họa tương thích nào để có được tầm nhìn nhanh chóng. Những quyết định phức tạp hơn rất cần được có một gói phần mềm phân tích đầy đủ, nhất là nếu bạn có nhu cầu các quyết định auto dựa vào thông tin ở bên cạnh gần nhất.

Việc vẽ vật dụng thị phân cụm theo cách này là 1 trong ví dụ đơn giản và dễ dàng về loại gọi là nhận biết sự kề bên gần nhất. Chúng ta có thể nhận ra các người tiêu dùng riêng lẻ bằng sự thân cận theo nghĩa đen của họ với nhau trên đồ thị. Có tương đối nhiều khả năng là các khách hàng trong thuộc một cụm cũng sử dụng chung những thuộc tính khác và bạn cũng có thể sử dụng sự ước ao đợi đó sẽ giúp hướng dẫn, phân một số loại và còn nếu như không thì phân tích những người dân khác trong tập hợp tài liệu của bạn.

Bạn cũng hoàn toàn có thể áp dụng bài toán phân các theo quan điểm ngược lại; phụ thuộc một số trực thuộc tính đầu vào, chúng ta có thể nhận ra những tạo phẩm không giống nhau. Ví dụ, một nghiên cứu cách đây không lâu về những số pin 4-chữ số đã tìm ra các cụm giữa những chữ số vào phạm vi 1-12 cùng 1-31 cho các cặp trước tiên và vật dụng hai. Bằng phương pháp vẽ những cặp này, bạn cũng có thể nhận ra và xác minh các cụm liên quan đến ngày tháng (các ngày sinh nhật, các ngày kỷ niệm).

Dự báo

Dự báo là một chủ đề rộng với đi từ dự báo về lỗi của những thành phần hay trang bị móc mang lại việc phân biệt sự gian lậu và thậm chí là là cả dự báo về lợi nhuận của chúng ta nữa. Được sử dụng kết phù hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm có bài toán phân tích các xu hướng, phân loại, so khớp mẫu và côn trùng quan hệ. Bằng phương pháp phân tích những sự kiện hoặc các cá thể trong quá khứ, chúng ta có thể đưa ra một đoán trước về một sự kiện.

Khi sử dụng nghĩa vụ và quyền lợi thẻ tín dụng, chẳng hạn, bạn cũng có thể kết hợp đối chiếu cây quyết định của những giao dịch trơ trọi trong vượt khứ với câu hỏi phân một số loại và những sự so khớp mẫu lịch sử dân tộc để nhận biết liệu một thanh toán giao dịch có ăn lận hay không. Rất có thể là việc thực hiện một sự so khớp giữa các việc mua vé các chuyến bay đến Mỹ và những giao dịch trên Mỹ cho thấy giao chất dịch này hợp lệ.

Các mẫu mã tuần tự

Thường được áp dụng trên các dữ liệu dài hạn, những mẫu tuần tự là 1 trong phương pháp hữu ích để phân biệt các xu thế hay các sự mở ra thường xuyên của những sự kiện tương tự. Ví dụ, với dữ liệu khách hàng, bạn cũng có thể nhận ra rằng các quý khách cùng nhau mua một tủ đồ riêng lẻ về các sản phẩm tại nhiều thời điểm khác nhau trong năm. Trong một vận dụng giỏ hàng, chúng ta cũng có thể sử dụng thông tin này để auto đề xuất rằng một số mặt hàng nào này được thêm vào trong 1 giỏ sản phẩm dựa trên gia tốc và lịch sử dân tộc mua hàng trong vượt khứ của những khách hàng.

Các cây quyết định

Liên quan đến số đông các kỹ thuật khác (chủ yếu là phân các loại và dự báo), cây quyết định rất có thể được sử dụng hay như là một trong những phần trong các tiêu chí lựa lựa chọn hoặc để hỗ trợ việc sử dụng và lựa chọn dữ liệu cụ thể phía bên trong cấu trúc tổng thể. Trong cây quyết định, bạn bước đầu bằng một thắc mắc đơn giản có hai câu vấn đáp (hoặc song khi có không ít câu trả lời hơn). Từng câu vấn đáp lại dẫn cho thêm một câu hỏi nữa sẽ giúp phân nhiều loại hay nhận ra dữ liệu sao cho có thể phân loại tài liệu hoặc sao cho rất có thể thực hiện dự báo trên cơ sở mỗi câu trả lời.

*

Các cây đưa ra quyết định thường được thực hiện cùng cùng với các khối hệ thống phân loại tương quan đến tin tức có thứ hạng thuộc tính và với các hệ thống dự báo, nơi những dự báo không giống nhau rất có thể dựa trên ghê nghiệm lịch sử hào hùng trong quá khứ sẽ giúp hướng dẫn kết cấu của cây quyết định và kết quả đầu ra.

Các tổ hợp

Trong thực tế, thật hiếm khi các bạn sẽ sử dụng một kỹ thuật trong những những kỹ thuật riêng biệt này. Việc phân một số loại và phân nhiều là số đông kỹ thuật tương tự nhau. Nhờ thực hiện việc phân các để nhận thấy các thông tin ở bên cạnh gần nhất, bạn cũng có thể tiếp tục tinh chỉnh việc phân các loại của mình. Thông thường, cửa hàng chúng tôi sử dụng các cây quyết định sẽ giúp đỡ xây dựng và nhận thấy các một số loại mà cửa hàng chúng tôi có thể theo dõi bọn chúng trong một thời hạn dài để nhận biết các trình trường đoản cú và các mẫu.

Xử lý (bộ nhớ) lâu năm hạn

Trong toàn bộ các cách thức cốt lõi, hay có lý do để lưu lại thông tin và tìm hiểu từ thông tin. Trong một trong những kỹ thuật, việc này trọn vẹn rõ ràng. Ví dụ, với việc mày mò các mẫu tuần tự với dự báo, các bạn xem xét lại dữ liệu từ nhiều nguồn và các cá thể thông tin để xây dựng một mẫu.

Trong một vài kỹ thuật khác, quá trình này hoàn toàn có thể rõ ràng hơn. Những cây quyết định ít lúc được xây dựng một lần với không khi nào được coi nhẹ. Khi nhận thấy thông tin mới, những sự khiếu nại và các điểm dữ liệu, có thể cần xây dựng thêm những nhánh hoặc thậm chí tổng thể các cây mới, để đấu tranh với những thông tin ngã sung.

Bạn có thể tự động hóa hoá một vài bước của quá trình này. Ví dụ, việc xây dựng một quy mô dự báo để nhận thấy sự gian lận thẻ tín dụng thanh toán là thành lập các tỷ lệ để bạn có thể sử dụng cho giao dịch hiện tại với sau đó cập nhật mô hình kia với những giao dịch bắt đầu (đã được phê duyệt). Rồi thông tin này được đánh dấu sao cho hoàn toàn có thể đưa ra ra quyết định một cách mau lẹ trong lần tới.

Xem thêm: Câu Giả Định Tiếng Anh Là Gì ? Tìm Hiểu Cách Dùng Và Cấu Trúc Thể Giả Định

Kết luận

Việc khai thác dữ liệu còn hơn việc chạy một trong những truy vấn phức tạp trên dữ liệu mà chúng ta đã lưu giữ trong cơ sở tài liệu của mình. Các bạn phải làm việc với tài liệu của mình, định hình lại nó hoặc cấu tạo lại nó, bất kể bạn có đang thực hiện SQL, cơ sở dữ liệu dựa trên tài liệu như Hadoop hoặc những tệp phẳng dễ dàng và đơn giản hay không. Việc nhận thấy định dạng tin tức mà bạn rất cần được dựa trên chuyên môn và vấn đề phân tích mà bạn muốn làm. Sau khi bạn có thông tin theo format mà các bạn cần, bạn có thể áp dụng những kỹ thuật không giống (riêng lẻ hay phối kết hợp lại với nhau) không phân biệt cấu tạo dữ liệu cơ bản hay tập hợp tài liệu cần thiết.