《唐人街探案3》票房如何，有監督機器學習算法告訴你！

來源：北大青鳥總部 2021年02月07日 10:07

摘要：《唐人街探案3》票房如何，有監督機器學習算法告訴你！

在人工智能的眾多應用方向中，最重要的方向之一便是機器學習，在機器學習中又分為有監督學習、無監督學習、深度學習等，今天我們要介紹的便是有監督機器學習。

有監督機器學習指的是通過有標記的訓練樣本集去進行學習訓練，獲得一個最優模型，此后同類的數據可按照此模型進行輸入，根據輸出的結果進行預測、分類，在像人一樣進行思考的道路上實現第一步。常見的有監督學習算法包含線性回歸算法、決策樹、支持向量機、KNN。

那這些算法具體又是怎么樣呢？我們一起來看看吧。為了幫助大家更好的理解、吸收，我們以預測《唐人街探案3》電影票房為例進行講解～

KNN，即KNearestNeighbors，K個最近的鄰居，指的是當預測集中來了一個新的數據時，我們看這個數據距離它最近的K個點分別是什么，從而判斷新數據是什么類別。春節檔馬上上映電影《唐探3》（下圖中的小綠點），我們要預測它的票房，這時候可以獲取同類電影、同類導演、演員、上映時間、上映時長的電影數據，計算《唐探3》到這些電影（下圖中的小紅點、小藍角）之間的距離，看看前K個的值，如果前K個值中大部分是5億～10一，少部分是低于5億，少部分是高于10億，那么預測《唐探3》票房在5-10億是最可能的。

在KNN算法中，K的值是很重要的，K過小或過大，都會對結果有影響，因此在實際操作中，也需要通過不斷的實踐，找到最合適的K值。KNN算法的好處是簡單、模型訓練時間快、預測效果好，缺點是耗內存、速度慢、對不相關的數據規模敏感，因為存儲了大量的數據、每個數據逐次計算。當數據量較大時，可以選擇使用KNN算法。

線性回歸算法，即LinearRegression，線性指的是直線型關系，兩個變量之間的關系是一次函數（如y=a*x+b），通過對大量數據進行處理，找到符合數據之間的規律關系，從而對新的值輸入時進行結果預測，比較常見的是股價預測、電影票房預測等場景。

以預測春節檔馬上上映的《唐人街探案3》票房為例，已知數據有電影上映時間、價格、拍攝國家、電影類型、觀影時長、演員陣容、上映電影院數量、上映時長、宣傳平臺、宣傳時長、電影票房等數據，基于基準數據，我們可以計算出電影票房與電影之間的關系（y=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+...+b），再將《唐探3》的對應數據帶入之后，大概就能得到預估票房了。

在線性回歸算法中，還有一個重要的模型便是損失函數，即用來估量預測值與真實值之間的不一致程度，損失函數越小，模型效果越好，我們可以通過損失函數來調優線性回歸模型。

決策樹算法，是與線性算法相對的，在決策樹中是一個類似N叉樹的樹形結構，每一個數內部節點代表對特征的一個測試，樹的分支代表測試結果，最高層就是根節點。在決策樹模型的生成中，一般包含特征選擇、決策樹生成、決策樹修剪三部分，在特征選擇中，一般對實例的某一特征進行測試。在構造決策樹時，首先把所有的訓練數據都放在根節點，選擇一個最優特征，按特征把訓練數據分割成子集，如果子集可以被正確分類，則繼續構造葉子節點，根據測試結果把實例分配到子節點，每個子節點都對該特征的一個取值，不斷的進行測試分配，直到所有子集都分配到葉子節點。

我們還是以《唐人街探案3》為例，我們拿到了所有電影的票房數據，并且設定了電影票房的相關屬性，包括電影類型、上映時間、拍攝成本、導演水平、演員評價等，通過決策樹模型來訓練電影票房與對應屬性的關系，得到如下決策樹模型，我們再把《唐探3》的相關電影屬性進行代入，預測電影票房。