隨機決策森林的原理與應用

成員


念家興

陳珮慈

簡婕婷

呂婉瑜

黃鈺筑

鄭雅馨

介紹


在人工智慧蓬勃發展的現代生活中,大數據已成為資訊科學中重要的一環,而我們選擇其領域中的隨機森林與決策樹作為我們的專題,在之前的課程中我們曾經接觸過類似決策樹的二元分類樹,那時還不知隨機森林的部分,因此我們想要更深入探討隨機森林。

Decision Tree

決策樹是由許多的節點所組成的,顧名思義就是用於決策的樹,它的特點是每個決策階段都很明確,不是YES就是NO,並且分支出許多枝葉到最終節點,最後形成一棵決策樹。

Random Forest

隨機森林則是由許多棵決策樹組合而成,其中森林裡的每一棵決策樹之間是沒有關聯的,但集結起來就會變得很強大,最後再用這些樹去投票選出結果。

比起選擇決策樹,我們選擇隨機森林作為分類的方法是因為它的準確度較高,加上單一棵的決策樹沒有經過剪枝就會造成很多變數,形成過度配置的現象。

因此隨機森林成為我們專題的研究主軸,然而單靠準確度是無法得知隨機森林主要表達的結果,所以我們透過d3繪圖工具來呈現分類的指標以及特徵值,讓大眾了解到隨機森林的分類原理。

成果


首先要對原始資料進行隨機抽樣,在這過程中會形成多個訓練集,而每個訓練集都能構造成一顆決策樹,最後我們利用隨機森林分類器將這些決策樹進行整合,得到最終預測出來的結果。

每個特徵在隨機森林當中佔了多少的份量,如下圖可以明顯看出哪些是最重要的特徵。

結論


在這次專題中,我們學習到如何去分析一群數據,並且進一步研究出成果,這中間雖然有遇到一些困難的地方,比如說:資料的收集、程式操作的瓶頸…等等的問題。盡管困難很多,但在老師的指導下我們互相討論,一步步找到解決的方法,並且我們分工合作在各自的崗位中努力完成研究。在科技時代中我們利用隨機森林去分析出最好的結果,讓我們對於一個事件的預測準確度加深。

影片介紹