Regularization là gì

  -  
Chúng ta đang hoàn tất phần đông hiểu biết về overfitting và giới thiệu một thuật toán supervised learning tác dụng hơn ERM để cản lại overfitting. Nhưng trước khi đó ta cùng ôn lại đầy đủ gì đang học tại đoạn trước bằng một số câu hỏi ngắn như sau:

Q1 : Overfitting là gì?

A1 : Là khi model không có tác dụng tổng quát mắng từ hồ hết gì sẽ học được: độ sai sót trên training mix nhỏ, trên test set to.Bạn đã xem: Regularization là gì

Q2 : vì sao overfitting lại có hại?

A2 : Vì dữ liệu lúc nào cũng chứa noise. Noise làm cho model tìm được phức tạp trên mức cho phép cần thiết.

Bạn đang xem: Regularization là gì

Q3 : làm sao để biết được model có bị overfitting giỏi không?

A3 : theo dõi learning curve.

Q4 : làm thế nào để không trở nên overfitting?

A4 : nếu như bạn đang nói đến chuyện làm sao để LDtrainmathcalL_D_trainLDtrain​​ trùng với LDmathcalL_mathcalDLD​ thì câu trả lời là không thể, trừ phi bao gồm vô hạn dữ liệu. Đây không phải là một câu hỏi đúng vì overfitting là 1 trong khái niệm tương đối, tùy theo "cảm giác" của bạn. "Làm sao để bớt thiểu overfitting?" new là câu hỏi đúng!

Như họ đã biết, noise không phải là vì sao trực tiếp gây ra overfitting. Vậy hầu như yếu tố nào tạo ra overfitting? Overfitting là thành phầm của sự cùng hưởng giữa những yếu tố sau:

Sử dụng ERM có tác dụng objective function. Vị objective function và evaluation function rất có thể rất khác nhau, về tối ưu objective function chưa hẳn sẽ tối ưu evaluation function.

Giới hạn về dữ liệu: khi gồm thêm các cặp observation-label, phân minh ta có thêm tin tức về quan hệ giữa chúng. Rõ ràng hơn, ta thấy rằng, mang sử sử dụng cùng một loss function lúc train và test, LDtrainmathcalL_D_trainLDtrain​​ sẽ quy tụ về LDmathcalL_mathcalDLD​ lúc số lượng phần tử của DtrainD_trainDtrain​ tiến mang lại vô cùng. Khi hai đại lượng này trùng nhau thì overfitting hoàn toàn biến mất. Bởi thế, càng có rất nhiều dữ liệu giảng dạy thì càng không nhiều bị overfitting.

Model quá "mạnh": một mã sản phẩm quá mạnh là lúc nó có tác dụng mô phỏng tương đối nhiều mối quan liêu hệ tinh vi giữa observation với label (cũng tức là mô phỏng được tương đối nhiều dạng hàm số). Ví dụ nếu fwf_wfw​ là 1 trong những đa thức bậc một, nó hoàn toàn có thể mô phỏng tất cả các nhiều thức bậc một (có dạng y=fw(x)=w1x+w2y = f_w(x) = w_1x + w_2y=fw​(x)=w1​x+w2​). Mặc dù có vô số đa thức bậc một, cơ mà mà đây được xem như như một mã sản phẩm "yếu" chính vì quan hệ con đường tính được xem như như một quan hệ rất đối kháng giản. Deep neural network được xem như là những model mạnh cũng chính vì chúng mô bỏng được phần đa quan hệ phi tuyến đường tính. Độ mạnh khỏe của model còn phụ thuộc vào cấu tạo và con số parameter. Vì thực chất machine learning là cầu lượng hàm số, sử dụng một tập model mạnh hơn, thậm chí có khả năng mô phỏng tất cả dạng hàm số tưởng như là một ý hay. Nhưng thực tiễn đây lại là 1 trong ý tưởng này siêu tồi. Bởi sao?

Giả sử bao gồm một cuộc thi trong đó ta yêu mong mỗi thí sinh bắt buộc vẽ được một mặt đường đi trải qua nhiều nhất các điểm cho trước. Thí sinh tham dự có 2 người: một tín đồ là họa sĩ, anh ta hết sức khéo tay và rất có thể vẽ tất cả các loại đường cong thẳng; người còn lại là một chàng trai vụng về với cây thước kẻ, anh ta chỉ rất có thể vẽ mặt đường thẳng. đương nhiên là anh họa sĩ sẽ chiến hạ trong trò chơi này.

Nhưng hãy xem xét sự phản xạ của nhì thí sinh trong trường hợp sau đây: ta cho đề bài thuở đầu là những điểm bên trên một mặt đường thẳng; sau khoản thời gian hai bạn vẽ xong, ta chỉ di chuyển một điểm lệch thoát khỏi đường thẳng một quãng nhỏ. Minh bạch là ban đầu cả hai tín đồ đều vẽ được một con đường thẳng đi qua tất cả các điểm. Nhưng sau khoản thời gian một điểm bị dịch chuyển, anh họa sỹ sẽ vẽ ra một đường trọn vẹn khác với đường thẳng thuở đầu để cố đi qua mọi điểm. Ngược lại, anh vụng về về thì vẫn vẫn không thay đổi đáp áp do đó là đáp án rất tốt anh rất có thể vẽ. Điều ta thấy được tại chỗ này đó là anh họa sĩ, bởi quá tài hoa, nên anh cực kỳ nhạy cảm với đông đảo thay đổi nhỏ tuổi trong các điểm dữ liệu. Còn anh dềnh dàng về, vì năng lượng của anh gồm hạn, yêu cầu thường anh đang ít bị tác động hơn.

Nếu như trên đây không phải là một trong cuộc thi vẽ trải qua không ít điểm mà là một trong những bài toán machine learning, chắc rằng anh họa sỹ đã thua kém rồi. Bởi vì điểm bị dịch chuyển có thể là do ảnh hưởng tác động của noise nhằm hòng xí gạt anh. Anh họa sĩ thay mặt cho một tập mã sản phẩm cực mạnh, có công dụng mô phỏng mọi hàm số. Một tập mã sản phẩm mạnh bởi thế rất mẫn cảm với noise và dễ ợt bị overfitting.


*

Các yếu tố gây ra overfitting buộc phải phối phù hợp với nhau thì mới có thể đủ đk cho nó xuất hiện. Ta xem xét hai tình huống thường gặp mặt sau:

Có các dữ liệu: ta có thể vô tứ dùng ERM, tập model mạnh mà không ngại về overfitting. Đây đó là lý bởi vì mà trái đất hân hoan khi Big Data xuất hiện.

Mình cũng xin để dành ra vài chiếc để nói về hiện tượng "cuồng" deep learning và vận dụng deep learning lên mọi bài xích toán. Các mã sản phẩm của deep learning là những neural network cực khỏe mạnh nên cần rất nhiều dữ liệu để không trở nên overfitting. Đó là lý do mà mặc dù các mã sản phẩm deep learning này sẽ không mới, thậm chí là đông đảo model thứ nhất của machine learning, nhưng phải chờ mang lại kỷ nguyên Big Data hiện tại chúng bắt đầu phát huy sức mạnh. Còn nếu như không am hiểu về overfitting và vận dụng deep learning không có tội vạ lên gần như tập tài liệu chỉ bao gồm vài trăm cặp dữ liệu thì thường đạt đượt công dụng không cao. Khi gặp mặt những điều kiện dữ liệu eo hẹp và chật như vậy, nên bắt đầu từ đều model đơn giản như linear model trước. Vào machine learning gồm một định lý nổi tiếng gọi là "no miễn phí lunch" nói rằng không có một mã sản phẩm nào cực tốt cho toàn bộ các nhiều loại dữ liệu. Vì thế, tùy vào bài toán, vào đặc thù và con số dữ liệu sẵn có, ta mới xác minh được model phù hợp.

Xem thêm: VàNg Non Là Gì? Vàng Non Là Gì Có Bị Xỉn Màu Không

Trong bài bác trước, ta đã biết được một phương pháp để giảm thiểu overfitting, early stopping. Tía yếu tố gây nên overfitting cũng gợi ý cho họ những phương pháp khác để khắc phục vụ việc này. Trong đó, yếu tố máy hai đưa ra giải pháp đơn giản nhất: tăng size tập huấn luyện. Sau đây, mình sẽ reviews một phương pháp nhằm loại bỏ đi yếu tố trước tiên và đồ vật ba, được điện thoại tư vấn là regularization. Phổ cập nhất, phương thức này vẫn thêm vào ERM objective function một regularizer nhằm hạn chế sức mạnh của model.

Giả sử rằng đã lỡ tay lựa chọn một model quá mạnh. Thì không đề nghị phải chuyển đổi dạng model, ta vẫn hoàn toàn có thể hạn chế sức khỏe của nó đi bằng cách giới hạn parameter space (không gian của tham số) của model. Xét nhị tập mã sản phẩm A=fw:w∈XA = f_w : w in XA=fw​:w∈X cùng B=fw′:w′∈YB = f_w' : w' in YB=fw′​:w′∈Y chỉ khác nhau về parameter space thôi (ký hiệu S=s:cS = s : cS=s:c phát âm là "tập SSS có các thành phần sss sao cho điều khiếu nại ccc thỏa mãn). XXX hoặc YYY được hotline là không gian tham số của tập mã sản phẩm AAA hoặc BBB. Vào trường thích hợp này, nếu X⊂YX subset YX⊂Y (X là tập bé của Y) thì ví dụ tập model BBB màn trình diễn được đầy đủ hàm số tập mã sản phẩm AAA trình diễn được, có nghĩa là BBB mạnh mẽ hơn AAA.

Nếu parameter www là một vector số thực có ddd chiều, tập hợp những giá trị www rất có thể nhận, hay còn được gọi là parameter space của www, là tập toàn bộ các vector gồm ddd chiều số thực, ký kết hiệu là RdmathbbR^dRd. Trong không gian này, mỗi chiều của www hầu hết được thoải mái bay nhảy trong vòng (−∞,∞)(-infty,infty)(−∞,∞). Muốn thu nhỏ lại không gian này, ta đề xuất một nguyên tắc để thu thon miền quý giá của mỗi chiều.

Để làm cho được điều đó, ý tưởng ở đó là định nghĩa một đại lượng để tổng quan được "độ lớn" của vector www. Đại lượng này sẽ được dùng có tác dụng regularizer, ký hiệu là R(w)R(w)R(w) như ta đã biết, là một hàm số phụ thuộc vào vào www. Nó sẽ được gắn phân phối ERM objective function cùng được buổi tối thiểu hóa cùng lúc với average loss. Objective function của chúng ta được có mang lại như sau:

LDtrain(fw)=LDtrainERM+λR(w)mathcalL_D_train(f_w) = mathcalL_D_train^ERM + lambda R(w)LDtrain​​(fw​)=LDtrain​ERM​+λR(w)

Tối thiểu hóa objective function này được call là nguyên tắc regularized loss minimization (RLM). Chăm chú đối cùng với RLM, không duy nhất thiết là LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ bắt buộc đạt giá chỉ trị buổi tối thiểu làm cho objective function trở cần tối thiểu. Trường hợp một mã sản phẩm tối thiểu hóa LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ nhưng lại khiến cho RRR đạt giá chỉ trị phệ thì vẫn có thời cơ để lựa chọn một model khác, dù cho có LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ to hơn nhưng lại đến giá trị của RRR bé dại hơn nhiều. Nói bí quyết khác, ta hoàn toàn có thể lựa chọn được một model đơn giản, dù nó không dự đoán tuyệt đối tập huấn luyện. RLM vẫn đưa model đi gần mang đến Occam's razor hết mức tất cả thể, đồng ý hy sinh độ đúng đắn trên tập đào tạo và giảng dạy để sút độ phức tạp của model.

Hằng số λlambdaλ vào hàm kim chỉ nam được điện thoại tư vấn là rgularization constant, là một trong những hyperparameter của model. Sự mở ra của λlambdaλ vào hàm phương châm làm mang đến vai trò của LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ cùng RRR trở phải bất đối xứng: ví như ta tăng LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ lên 111 đơn vị chức năng thì hàm kim chỉ nam tăng lên 111 đối chọi vị; trong lúc đó ví như tăng RRR lên 111 đơn vị chức năng thì hàm phương châm tăng lên thêm λlambdaλ 1-1 vị. Tức là 111 đơn vị của LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ có giá trị bằng 1/λ1 / lambda1/λ đơn vị chức năng của RRR. Thông thường, ta thường đặt λlambdaλ khôn xiết nhỏ, lấy ví dụ λ=10−4lambda = 10^-4λ=10−4. Thời điểm này, 111 đơn vị chức năng của LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ bởi đến 10410^4104 đơn vị chức năng của RRR. Điều này biểu lộ rằng ta ý muốn ưu tiên vào về tối thiểu hóa LDtrainERMmathcalL_D_train^ERMLDtrain​ERM​ hơn là RRR.

​R(w)R(w)R(w) thường chạm chán nhất là norm của vector. Có khá nhiều loại norm, bản thân sẽ giới thiệu hai một số loại norm phổ cập nhất.

1-norm (L1-norm): R(w)=∣∣w∣∣1=∑i=1d∣wi∣R(w) = ||w||_1 = sum_i = 1^d |w_i|R(w)=∣∣w∣∣1​=∑i=1d​∣wi​∣​

tức là tổng của trị hoàn hảo của các thành phần. 1-norm quan trọng đặc biệt ở chỗ là, khi chuyển vào hàm mục tiêu, nó vẫn thường cho ra mã sản phẩm thưa, có nghĩa là model gồm parameter chứa được nhiều chiều bằng 0. Mã sản phẩm thưa rất hữu dụng thế trong đo lường và tính toán và tàng trữ vì ta chỉ việc làm câu hỏi trên các chiều không giống 0.

Xem thêm: Tro Choi Bay Chim Noi Gian, Tải Game Angry Bird S, Game Nhung Chu Chim Noi Gian

squared 2-norm (L2-norm): R(w)=∣∣w∣∣22=∑i=1dwi2R(w) = ||w||_2^2 = sum_i = 1^d w_i^2R(w)=∣∣w∣∣22​=∑i=1d​wi2​​

cũng còn biết đến với cái tên weight decay, đó là bình phương độ nhiều năm của vector www. Chính vì ta đề nghị bình phương là sẽ giúp cho bài toán tính đạo hàm được dễ dàng hơn khi về tối ưu hàm mục tiêu. Lưu giữ ý, phía trên không thực thụ là norm, căn bậc nhì của nó mới là norm.