Skip to content

Latest commit

 

History

History
62 lines (52 loc) · 4.8 KB

GhiChu_28-03-2022.md

File metadata and controls

62 lines (52 loc) · 4.8 KB

AI bao trùm (Machine Learning, Data Mining)

  • Machine Learning: (Alogrithm)
  • Data Mining: Draw (Rule,Knowledd) from BigData

Các bước trong Khai phá dữ liệu

  • Collection Data -> Prepare Data (PCA) -> Data Mining (Classification) -> Model -> Model Prediction

Phân lớp -> Tạo model

  • Khác phân cụm
  • Bước chuẩn bị data dữ liệu trước đó là rất quan trọng
  • Là học đi học lại 1 bộ dữ liệu có sẵn (đã xảy ra trong quá khứ)
  • Data Driven = Learn from Data
  • Cần dữ liệu chất lượng cao

Lableling Dataset

  • Feautures đầu tiên hoặc cuối cùng thường là phân loại theo lớp hoặc loại của dữ liệu ấy (Ví dụ loại nghề nghiệp)
  • Ví dụ Lableing nam, nữ cho từng tấm hình (Dữ liệu dạng hình ảnh)
  • Training dataset là dataset chỉ dùng cho huấn luyện , nó có cột label ở cuối cùng
  • Dataset bình thường có thể không có cột label

Model:

  • Là kết quả sau khi huấn luyện được
  • Có tên là bộ phân lớp (Classifier)
  • Kết quả của phân lớp là kết quả của quá trình huấn luyện từ công thức toán ban đầu (công thức nó sẽ được uốn nắn theo phương trình, công thức toán nào đó phụ thuộc vào dữ liệu )
  • Ví dụ để nhận dạng ngôi nhà nó sẽ trích xuất thông tin từ các cạnh (edge) (phải lấy dữ liệu là hình rất nhiều ngôi nhà khác nhau) để model này càng ngày càng nhận biết cạnh của ngôi nhà như là hình dáng của ngôi nhà

Lưu ý cần 1 tập huyến luyện, mỗi 1 sample cần gán nhãn cụ thể Ngoài training dataset chọn 1 phương pháp phân lớp (giải thuật nào đó có công thức) Công thức đó sẽ được điều chỉnh tham số trong quá trình huấn luyện tạo ra 1 công thức cuối cùng là mô hình phân lớp (Model) Model là 1 công thức toán, mà công thức toán đó được điều chỉnh thông qua quá trình huấn luyện, học xong. Kết quả cuối cùng nó tạo ra 1 tập model, dự đoán sample mới (sample mà nó không có trong tập huấn luyện nhan) thuộc lớp nào Chụp hình, gán nhãn cho các hình có cùng ý nghĩa (ví dụ chữ cái), tạo ra 26 chữ cái tương đương 26 lớp Đưa 1 chữ a mới chưa có trong tập huấn luyện vào, nó sẽ tự hiểu 80% chữ a mới đó thuộc lớp a Mỗi 1 giải thuật phân lớp có 1 công thức toán học Classification Alogritham là mô hình phân lớp (Model) có tác dụng là nhận biết dữ liệu sample mới không thuộc Class là label, 1 sample thuộc 1 lable/class nào đó Classifier Model là Mode, là 1 công thức toán học sau một quá trình điều chỉnh tham số rất là lâu (Có tên là training proccess) Classification là phân lớp: là các thuật toán được học trên bộ dữ liệu huấn luyện tạo Model, mà Model đó dùng để dự đoán các dữ liệu mới mà nó chưa thấy bao giờ (), dự đoán ở đây là dự đoán cái nhãn của dữ liệu đó

  • Phân chia tuyến tính là kẻ đường thẳng chia làm 2 khu vực để phân lớp (Dữ liệu có thể phân lớp 1 cách tuyến tính)

  • Phương trình tuyến tính là 1 đường thẳng: ví dụ vận tốc càng tăng thì thời gian đi càng giảm

  • Trên là binary Classification (Phân thành 2 lớp 0 và 1)

  • Phân những lớp khác nhau bằng nhiều đường thẳng (cũng xêm tuyến tính) gọi là Multi classification

{ (Level 1) : Dùng / Sử dụng (Level 2) : Dùng, nhưng qua có tùy chỉnh chỉnh sửa nó, cần học cách làm ra ví dụ nó là quần áo mà cái mà mình học là nó có sẵn rồi nhan (Existing) (Thạc sĩ) (Level 3) : Đề xuất cách làm mới (new proposals) tương đương công trình nghiên cứu khoa học (Tiến sĩ) }

SVM

Siêu phẳng là gì?

  1. Là 1 trong những giải thuật phân lớp, phân 1 lớp, 2 lớp hoặc nhiều lớp
  2. Là 1 giải thuật học máy dựa trên những vector hỗ trợ
  3. Đi tìm phương trình vẽ ra đuòng w thẳng nó nằm gần những vector hỗ trợ
  4. Vector là gì? là một chấm trong không gian 1 chiều, 2 chiều, hoặc nhiều chiều chỉ là một chấm nó là vô hướng
  5. Đường thẳng kẻ từ origin đến điểm đó là một vector có chiều
  6. Supervised learning method là học dựa trên bộ dữ liệu huấn luyện mà cái nhãn của dữ liệu sample đó nó có sẵn.
  7. Unsupervised learning method là học dựa trên bộ dữ liệu huấn luyện mà không có nhãn