KAGGLE LÀ GÌ

Kaggle là 1 trong những xã hội tuyệt đối của không ít nhà công nghệ tài liệu. Cá nhân tôi cũng có thể có một thời hạn kinh nghiệm và tsay đắm gia các cuộc thi trên này. Tôi học tập được tự những người nghịch làm việc kaggle về các kinh nghiệm và phương pháp giải pháp xử lý nhiều hơn nữa toàn bộ hầu như gì tôi học tập được trước đó. Tuy nhiên, sau một thời gian, tôi đưa ra quyết định dành chút ít thời gian trên kaggle hơn nỗ lực bởi vì tđê mê gia sâu vào các cuộc thi như trước.

Bạn đang xem: Kaggle là gì

Có một vài nguyên nhân để tôi đưa ra ra quyết định này.

Tiêu chí 1-1 giản

Các các bạn hẳn đang rất gần gũi cùng với hàm phương châm vào machine learning. Các cuộc thi trên kaggle cũng chỉ bao gồm một phương châm độc nhất sẽ là tối thiểu hóa cực hiếm của loss function.


*

*

Việc tối tphát âm hàm mục tiêu là đúng, mà lại không đầy đủ. Trong thực tiễn ngoại trừ quyên tâm cho tới năng lực dự đoán của quy mô, bọn họ còn phải quan tâm cho tới tài năng triển khai quy mô đó, khả năng tương thích với hệ thống ngày nay, thời gian tính toán, kỹ năng giải thích… Những tiêu chuẩn này trọn vẹn không được gửi vào tiêu chí của những cuộc thi bên trên kaggle.

Hãy đem ví dụ về thuật toán gợi ý giành chiến thắng trong cuộc thi nhưng mà Netflix tổ chức triển khai.

A year into the competition, the Korbell team won the first Progress Prize with an 8.43% improvement. They reported more than 2000 hours of work in order to come up with the final combination of 107 algorithms that gave sầu them this prize.

Well, đấy là một thuật toán thù giỏi, dẫu vậy hãy tưởng tượng các bạn sẽ áp dụng thuật toán này ra làm sao mang lại con số rating, user càng ngày càng tăng? Nó quá tinh vi để đưa vào ứng dụng.

Tập luyện vào engineering

Điều này còn có một trong những phần lý do bởi sự dễ dàng và đơn giản của tiêu chí bên trên. Các phương pháp chiến thắng cuộc thi bên trên kaggle dần dần trnghỉ ngơi đề xuất tương đối tiêu cực: hầu hết feature, những mã sản phẩm, ensemble chúng lại. Nếu vấn đề đó ko khiến cho bạn tăng trang bị hạng? Sử dụng năng lượng tính tân oán nhằm sử dụng các feature rộng, nhiều Model rộng. Điều này không không giống gì chúng ta cố gắng kiến thiết một blackbox đẩy đà cùng cầu mong bọn chúng mang lại hiệu quả xuất sắc.

Hãy rước ví dụ về cuộc thi home page credit.

Xem thêm: Proof Of Stake Là Gì ? Proof Of Stake (Pos) Là Gì


*

*

Với cá nhân tôi, một fan từng có tác dụng vào nghành nghề dịch vụ bank — tài bao gồm, tôi kì vọng có tương đối nhiều kernel đem đến insight thú vui về hành động vay với đầu tư chi tiêu của khách hàng vậy vị pipeline với hàng loạt feature và mô hình như trên.

Với riêng cuộc thi của home credit, cá nhân tôi thấy rằng roc-auc = 0.81 là tốt nhất có thể cùng không có công dụng cao hơn nữa. Các phương pháp nhỏng tăng lên feature, thêm tế bào hình… để kì vọng tăng thêm 0.1 điều nữa chỉ với cầu may mắn.

Lý vì chưng là gì? Tôi sẽ debug quy mô với so sánh tài liệu, mang lại một ngưỡng bạn sẽ cần yếu biệt lập được về khía cạnh dữ liệu sự không giống nhau của một khoản vay default với non-default. Với các features ngày nay, mô hình cũng không thật chắc hẳn rằng về dự đoán thù vào câu hỏi phân nhiều loại. Vì vậy, những cố gắng nỗ lực quan trọng đề xuất triệu tập vào Việc thu thập thêm những features mạnh bạo cố vị tăng mức độ phức hợp của quy mô. Nhà kỹ thuật dữ liệu, lúc ấy, phải phụ thuộc vào sự đặc biệt quan trọng của biến đổi số đối với unique phân nhiều loại của mô hình nhằm nhắc nhở về đều thông tin yêu cầu tích lũy thêm.

Thuật tân oán trên kaggle ko mới

Thực ra đầy đủ thuật toán thù new đã Thành lập sinh hoạt đều bài xích báo công nghệ. Kaggle chỉ với chỗ vận dụng và kiểm hội chứng xem những thuật toán này có bổ ích ko trong thực tiễn.

Vì vậy, bây chừ tôi sử dụng rộng rãi cùng với một vài giải pháp tiếp cận công dụng mà bản thân biết đối với từng bài toán và chỉ còn coi kaggle là khu vực xem thêm các kỹ năng thực hành bổ sung cập nhật. Một số bài xích tân oán cùng thuật tân oán cơ mà tôi cho rằng buộc phải sử dụng:

Đối với bài toán phân một số loại cùng với input là tabular data: tree bagging với tree boosting. Nếu bạn có nhu cầu quy mô hoàn toàn có thể diễn giải, hãy chọn tree bagging. Nếu ao ước quality dự đoán thù, tree boosting là chọn lọc hợp lý và phải chăng.Bài toán hồi quy cùng với input đầu vào là tabular data: fully connected net hoặc tree boosting vẫn làm cho cực tốt.Bài toán dự đoạn chuỗi thời gian: RNN rất có thể cách xử lý được vụ việc.Đối với bài xích tân oán phân các loại vnạp năng lượng bạn dạng, hình ảnh: transfer learning đã đem lại hiệu quả cực tốt.

Thắng một cuộc thi trên kaggle không giúp ích nhiều mang đến công việc của tôi


*

Source: From the paper “Hidden Technical Debt in Machine Learning System” by D. Sculley et al

Nhỏng bạn thấy làm việc hình bên trên, hành trình của dữ liệu trường đoản cú lúc sinh ra cho tới khi đã có được một insight có ích phải tương đối nhiều công đoạn với sức lực lao động. Khi đã chiếm lĩnh một cỗ tài liệu sạch đẹp thì bài toán training quy mô để sở hữu được dự đoán thù đầy đủ xuất sắc thuở đầu (theo cá thể tôi) là không thực sự cực nhọc. Việc chiến hạ một cuộc thi trên kaggle chỉ chứng minh rằng tôi giải quyết được một trong những phần hết sức nhỏ trong quá trình trên. Vì vậy nó không hỗ trợ ích quá nhiều mang đến công việc của mình.

Hãy dành thời gian đến hầu hết thứ đặc biệt quan trọng khác


Người có tác dụng về dữ liệu quanh đó hiểu biết về cơ chế, ngôn từ lập trình sẵn xuất xắc thuật toán machine learning còn nên giỏi không hề ít kỹ năng mượt khác ví như đọc biết về ngành, năng lực tiếp xúc, khả năng diễn tả, tài năng đặt thắc mắc, khả năng phân tích vấn đề…

Vì vậy, hãy chắc chắn rằng rằng bạn dành thời gian nhằm nâng cao tất cả các tài năng quan trọng gắng vày vượt tập trung vào chính sách, ngôn ngữ giỏi thuật toán thù.

Sau tất cả

Kaggle vẫn rất tuyệt!

Những gì tôi học tập được về data science từ bỏ kaggle là không ít. Tuy nhiên các cuộc thi bên trên kaggle chỉ phản ánh một phần khôn cùng nhỏ tuổi hầu hết gì vào thực tiễn quá trình của rất nhiều người làm về dữ liệu. Vì vậy, hãy dành thời hạn cùng sự quan tâm phải chăng trên kaggle để có thời gian hoàn thành tốt toàn bộ kỹ năng của bản thân.