Machine Learning là gì? Hiểu về khái niệm cốt lõi của Machine Learning qua việc môi giới đất

Trước giờ Machine Learning thường được nhắc tới như là một từ "ma thuật" biến máy móc đột nhiên có trí thông minh của con người. Trong bài viết này mình muốn cung cấp cho các bạn góc nhìn mới về Machine Learning. Những gì thực sự đứng sau từ khóa "ma thuật" này?


Machine Learning là một chương trình có khả năng tìm ra một quy luật chung giữa các thông tin mà chúng nhận được với kết quả mong đợi. Nói cách khác, đó là một chương trình giúp ta nhận ra cấu trúc trong dữ liệu

Để mình lấy một ví dụ đơn giản. Sau khi lục lọi thu thập thông tin (thật ra là lấy trên mạng), mình đã tổng hợp được một biểu đồ biểu diễn mối quan hệ giữa giá đất với diện tích của mảnh đất đó.

Với trục dọc biểu thị giá và trục ngang biểu thị diện tích 
 Những dấu X là dữ liệu thực tế đã thu thập được. Khá là nhiều điểm đã được biết trước. Ví dụ như nếu chúng ta có một mảnh đất diện tích 1000 ${m^2}$ thì có vẻ như ta sẽ có thể bán nó với giá xấp xỉ 300$
Nhưng đối với những thông tin chúng ta chưa thu thập thì sao? Nếu ta có một mảnh đất 250 $m^2$ thì giá của nó sẽ như thế nào? Ta không thể nào biết được vì ta không có dữ liệu về mảnh đất này. Thật là bất tiện khi bây giờ ta phải xách giỏ ra ngoài và tìm mảnh đất này Nếu ta là nhà môi giới đất thì chẳng lẽ chúng ta phải tìm vô hạn dữ liệu (vì có vô hạn diện tích đất) về các mảnh đất và giá của chúng sao? Thôi tui bỏ việc!!!
Chờ đã... Nếu nhìn vào biểu đồ trên, tôi có thể nhận thấy rằng các điểm trên biểu đồ đang nằm một cách có quy luật. Chúng tạo thành một nửa hình parabol. Như thế này.
Xin lỗi, mình biết mình vẽ xấu
Vậy là dựa vào đường màu xanh lá đó, có thể đoán được rằng mảnh đất 250 $m^2$ của ta sẽ rơi vào khoảng 80$
Không những thế, nếu ta lập một hàm $f(x)$ để biểu thị đường màu xanh lá đó với $x$ là diện tích đất và $f(x)$ là số tiền của mảnh đất đó thì ta có thể đưa ra giá tiền cho bất kỳ mảnh đất nào.

Đó chính là khái niệm cốt lõi của Machine Learning, một chương trình có thể "nhìn" thấy mối quan hệ giữa các dữ liệu đã có. Từ đó, xây dựng lên một mô hình biểu diễn mối quan hệ đó. Vì mục tiêu của bài viết này không đi quá sâu vào yếu tố kỹ thuật nên mình sẽ nói về cách chúng ta có thể dựng lên mô hình này trong bài viết tương lai.

Những ứng dụng Machine Learning thực tế cũng tuân thủ quy tắc trên. Một ứng dụng phân loại thư spam sẽ cố gắng "nhìn" vào những lá thư được thu thập trước đó và ... ok...ok... vậy là những lá thư có từ abc sẽ dễ là thư spam, từ xyz này nếu đi kèm với từ mno cũng là thư spam. Hay hệ thống đề xuất của facebook sẽ biết rằng người hay thích ảnh mèo sẽ hứng thú với bài viết có từ "mèo","meow" , ...

Tất nhiên là trong thế giới thực, diện tích mảnh đất không hoàn toàn quyết định giá cả của nó. Một mảnh đất nhỏ ở quận 1 TP.HCM có thể có ngang giá với mảnh đất to hơn nó ở Q. Thủ Đức. Chúng ta gọi những dữ liệu giúp ta xác định giá đất này (diện tích, vị trí, khu dân cư,...) là những feature. Chọn những feature quan trọng là một yếu tố để xây dựng mô hình thành công (rõ ràng là chúng ta không cần biết chủ đất là nam hay nữ để xác định giá đất....hay có nhỉ?)

Một điểm cốt lõi khác là chúng ta cần phải có đủ dữ liệu để "nhìn". Càng nhiều dữ liệu với các trường hợp và hoàn cảnh khác nhau. Mô hình của chúng ta càng nhìn được bức tranh toàn cảnh và trở nên hoàn thiện hơn.

Kết

Machine Learning là một lĩnh vực mới và hoàn toàn thú vị. Nhưng không có phép thuật nào ở đây cả. Tất cả đều xây dựng xung quanh một khái niệm cốt lõi. Trong tương lai mình dự định sẽ viết những bài tiến sâu vào mặt kỹ thuật của Machine Learning hơn và trình bày một cách đơn giản cho các bạn. Ví dụ như cách xây dựng mô hình Machine Learning bằng các thuật toán như Linear Regression, Logistic Regression, SVM,...

Nếu các bạn thấy bổ ích hãy thích và theo dõi trang facebook của mình đồng thời chia sẻ bài viết của mình để nhiều người có thể tiếp cận hơn nhé.

Nhận xét

Đăng nhận xét

Bài đăng phổ biến từ blog này

Phép phân tích ma trận A=LU

Độc lập tuyến tính và phụ thuộc tuyến tính

Thuật toán tính lũy thừa nhanh. Giải thích một cách đơn giản