AI Intro

AI (Artificial Intelligence)是人工智慧的縮寫,藉由電腦模仿人類智慧執行任務的機器或系統,AI能夠根據蒐集的資料不斷地進行調整和進化,再藉此訓練電腦或系統,比如遊戲外掛程式自動打遊戲寶物、人臉辨識系統識別就不需要輸入密碼、自動駕駛的運行能夠辨識車輛、行人、自行車…等等,因此藉由對AI的訓練,我們能知道下一步該怎麼走,世界上有名的AlphaGo就是利用AI訓練機器的一個例子。

簡述AI涵蓋

Machine Learning Intro

機器學習 (Machine Learning)是在AI裡面的一大部分,如果要讓電腦發展到AI的模樣,就需要先學會機器學習。

機器學習理論主要是設計和分析一些讓電腦可以自動「學習」的演算法,而這種演算法是從獲取的資料中自動分析獲得規律,並利用規律對未知資料進行預測。這種學習技術的進步應用相當廣泛,例如推薦引擎、定向廣告、需求預測、垃圾郵件過濾、醫學診斷、自然語言處理、搜索引擎、詐騙偵測、證券分析、視覺辨識、語音識別、手寫識別..等等。
——-引述 hadoopspark:機器學習

機器學習可分為: 監督式學習(Supervised Learning)、非監督式學習(Unsupervised Learning)、增強式學習(Unsupervised Learning)。
機器學習的分類

下列介紹:1.迴歸 2.分類 3.分群

1. 迴歸分析 (Regression)

為數值資料(Numerical Data)

迴歸分析是一種預測建模技術,它可以被用來研究應變數(目標)和自變數(預測)之間的關係,通過迴歸分析可以由給出的自變數估計應變數的條件期望,在應用上常被用預測建模、時間序列建模和查找變數間關係等應用。舉個例子,透過迴歸分析,我們能得出機器參數設定和發生不良品次數之間的關係。

常用的迴歸分析包括:線性迴歸、Logistic迴歸、多項式迴歸、逐步迴歸、Ridge、Lasso、Elastic Net等。

2. 分類 (Classification)

為類別資料(Categorical Data)

在機器學習和統計中,分類是基於包含其類別成員資格已知的觀察(或例項)的訓練資料集來識別新觀察所屬的一組類別(子群體)中的哪一個的問題。例如,將給定的電子郵件分配給“垃圾郵件”或“非垃圾郵件”類。

常用的分類演算法包括樸素貝葉斯、邏輯迴歸、決策樹、隨機森林、支援向量機等。

分類分析演算法的選取:
1.文字分類時用到最多的是樸素貝葉斯
2.訓練集比較小,那麼選擇高偏差且低方差的分類演算法效果逢高,如樸素貝葉斯、支援向量機、這些演算法不容易過擬合
3.訓練集比較大,選取何種方法都不會顯著影響準去度
4.省時好操作選著用支援向量機,不要使用神經網路
5.重視演算法準確度,那麼選擇演算法精度高的演算法,例如支援向量機、隨機森
6.想得到有關預測結果的概率資訊,使用邏輯迴歸
7.需要清洗的決策規則,使用決策樹

3. 分群 (Clustering)

可稱為群集分析,精簡資料的方法,依據樣本之間的共同屬性,將比較相似的樣本聚集在一起,形成集群(cluster)。其目標是將樣本分為不同的數個組,以使各組內的同質性最大化,以及各組之間的異質性最大化。

常用的分類演算法包括:K-means

引用

  1. hadoopspark