本書特色

人工智能已然成為了本時代的新動力——它正在革新世界各地的工業,并從根本上改變我們工作的方式。隨著技術體系越來越復雜,應用場景日益廣泛,開發門檻也越來越高。在這種情況下,需要一本關于機器學習的專業圖書,不僅講解關于整體知識體系的理論基礎,也可以提供基于人工智能研發實戰平臺環境的操作指導。

《機器學習實戰:基于Sophon平臺的機器學習理論與實踐》在講解AI的算法原理的基礎上,還指導針對真實業務問題,如何快速搭建模型,構建機器學習的行業應用。

1. 緊接地氣:本書由星環科技人工智能平臺研發團隊合著,凝聚了來自算法專家及一線軟件工程專家的實戰經驗。相比于國內學術人員的教材或國外譯注,本教材案例來自本土真實的業界實踐,更加貼合國內機器學習產業的需求。

2. 注重實踐:與基于Python等特定語言的機器學習入門教材不同,本書不拘泥于具體功能的代碼實現,更關注技術大方向與業務落地的有機結合。

3. 新手友好:對于機器學習的各環節,本教材采用交互式的平臺Sophon進行落地,各環節高度可視化。對于有基礎的編程愛好者,可以擴展視野,看看平臺帶來的效率提升,并無縫遷移文本代碼至新平臺;對于零基礎的讀者,可以快速搭建并跑通完整的機器學習流程,提升入門機器學習的自信心。

針對各種類型的機器學習問題,基于星環自研的人工智能平臺(Sophon)環境,結合真實案例,依照數據、分析、建模的演進歷程以及系統化闡述并進行實戰講解。

通過原理講解與實例分析,讀者既能了解人工智能相關的算法原理,也能了解人工智能一些可落地的具體應用場景。此外,本書還適合作為Sophon平臺工具的使用手冊,供平臺用戶參考。

本書既適合作為高等院校計算機、軟件工程、人工智能等相關專業的教學用書,同時也可供從事機器學習相關領域的工程技術人員閱讀和參考,幫助掌握機器學習相關的算法原理,并能通過專業工具平臺快速搭建各類模型,構建機器學習的行業應用。

星環科技作為國內大數據和人工智能平臺的領航者,專注于企業級容量云計算、大數據和人工智能核心平臺的自主研發。星環科技Sophon集合基礎算法、實體畫像、視頻分析、知識圖譜、云服務、邊緣計算和管理組件等多個模塊的能量,可以讓用戶快速完成從特征工程、模型訓練再到模型上線應用的機器學習全生命周期的開發工作。

關于星環科技

星環科技人工智能平臺團隊由五十多位優秀的研發工程師和算法工程師組成,逾八成具有國內外名校碩士及以上學歷。其中研發子團隊的工作重心為一站式人工智能建模平臺Sophon;算法子團隊則負責基礎算法的研發及改進,并在數據挖掘、傳統機器學習、計算機視覺、自然語言處理、知識圖譜等領域進行前瞻性研究以及項目實施落地。

星環科技人工智能平臺團隊一直致力于“把中國人自主研發的領先創新技術賦能全世界各行各業,促進社會可持續發展,通過科技讓人類的生活更美好”。目前產品應用已覆蓋金融、安防、電力、交通、教育等數十個行業和領域,申請專利近三十個。

下面,我們將用一個商戶反欺詐的例子,串起本書的主要章節內容。

01案例背景

隨著移動支付的推廣,傳統的POS機刷卡已經逐步被新興二維碼POS機刷碼所取代。同時,傳統的線下商鋪刷卡套現也逐步演化為網絡購物套現、個人POS機套現、微商及線上商鋪套現等多種方式。

POS刷卡刷碼的流程如下圖所示:

銀行或第三方支付平臺首先向商家推廣POS機,然后持有銀行卡的消費者就可以在相應商鋪使用POS機刷卡消費,或者也可以將銀行卡與支付平臺綁定,再在商鋪使用POS機刷碼消費。這一過程中很有可能產生套現欺詐行為,而我們可以使用機器學習方法對商戶與消費者間交易行為建模,通過模型自動檢測異常商戶。

處理這類案例時,我們會先將抽象的業務目標轉化為機器可理解的問題,根據我們手中的數據和業務目標構想模型。整個機器學習的過程包含數據預處理及探索性分析、特征提取及選擇、模型構建及訓練和模型評估。問題建模的流程如下圖所示:

02數據預處理與探索性分析

這一過程包含箱線圖、條形圖和數據分布特征研究等初步的數據探索、數據的歸一化處理、類別特征數據的獨熱編碼或高勢集特征編碼處理、時間特征數據的連續性變換或時間窗口提取處理等操作,為后續模型的構建及模型收斂速度和精度的提升做了鋪墊。

03特征提取及選擇

在POS套現的案例中,我們將構建四種特征,其構建流程如下:

1. 將消費者和商家的靜態屬性信息作為靜態特征;

2. 將商家與消費者之間的動態交易記錄作為交易特征,同時加入了商戶的平均交易額度等商戶深度數據;

3. 分析得到消費者和商家交易圖的模式結構特性、傳播特征、聚類特征等圖結構特征;

使用圖嵌入算法和異常檢測算法 LOF得到用嵌入特征表示的深度圖特征

若數據存在于多個表格中,則可以運用DFS(深度特征融合)進行數據表關聯,特征基元以及自動特征搜索與組合(Sophon中提供了自動多表擴展算子的接口供建模使用)。自動特征構建出的特征則可以使用不同類型的評價指標(如LRLogLossMetric、SquaredLossMetric和EntropyBasedMetric)進行評價,再使用一些局部最優方法進行選擇(Sophon中的AutoML模塊專門提供了自動特征構建算子供使用)。

04模型構建及訓練

1. 分類模型:將銀行業務人員預先指定的異常商戶標簽作為分類目標,訓練一個分類模型(如邏輯回歸模型),再根據模型結果判定新商戶是否異常;

2. 回歸模型:將異常商戶標簽經交易網絡傳播后的異常值作為擬合目標,訓練一個回歸模型(如線性回歸模型),再根據模型結果預測商戶未來出現套現異常的等級;

3. 圖計算模型:計算圖結構及圖特征,輔助對交易行為進行可視化圖分析

當我們擔心單一的分類/回歸模型性能無法滿足需求時,可以使用集成學習,將XGBoost回歸、決策樹回歸/SVM、多層感知機和梯度提升樹等各類模型進行簡單平均/投票融合,集合成一個強學習器,從而得到一個具有比單獨學習算法更好預測性能的結果。而當算法性能受到諸如訓練過程和正則化方法等選擇的設計決策影響時,則可以選擇使用自動建模。

另外,可視化圖分析能夠提供大量信息。如圖所示:AB 兩個詐騙商鋪的顧客中大多使用非信用卡交易,而其共同消費者(疑似欺詐團伙)卻大都使用信用卡交易,很可能在實施信用卡套現等詐騙行為。結合商戶信息的查詢結果:這兩個店鋪物理距離相距超過 30 公里,且這幾個消費者短時間內同時在這兩家發生了消費,也佐證了可視化圖提供的信息。

05模型評估

以判定商戶是否異常的分類模型為例,我們選擇混淆矩陣、ROC曲線與PR曲線進行模型評估。

混淆矩陣結果

ROC曲線結果

PR曲線結果

從圖中可以看到,在使用了前面所述特征進行模型訓練使得測試集上模型的精度和召回率分別達到 0.925 和 0.7,基本能夠滿足商戶異常監測場景的需要。

從以上分析案例可以看到,Sophon的各個算法算子和可視化分析工具,能夠幫助有數據分析需求的業務人員更好地上手使用機器學習對相關業務案例進行分析,同時也使得整個模型搭建流程和結果展示更加清晰,幫助業務人員更好地研究場景問題,助力業務目標的達成。

此外,我們還可以借助自然語言處理和計算機視覺技術,將更多關于商戶和消費者的非結構化信息納入模型,形成更綜合化的分析體系。更多主題將在后續的獨立文章中呈現,敬請期待。

內容提前知

本書內容覆蓋了機器學習領域從理論到實踐的多個主題,總共分為10章。 

第一章 機器學習導論

介紹機器學習的背景、定義和任務類型,構建機器學習應用的步驟,以及開發機器學習工作流的方式。

第二章 數據預處理與特征工程

詳細介紹數據預處理和特征工程技術,并輔以實例進行驗證。

第三~六章

介紹回歸模型、分類模型、模型融合和聚類模型,這些內容是機器學習理論和實踐中的傳統重點。其中不僅介紹各種常見數據類型的處理方法,還針對刪失數據進行了專門的綜述和實踐。

第七章 圖計算

介紹機器學習領域較難的圖計算話題,并從工業界視角解讀如何將圖計算落地。 

第八章 自動機器學習

針對特征工程、建模過程中大量調參的場景介紹自動機器學習的理論和應用,并細致比較和測試了各種自動特征工程算法在不同數據上的表現。

第九章 自然語言處理

介紹自然語言處理(詞向量、序列標注、關鍵詞抽取、自動摘要和情感分析)技術,使用新聞文本數據搭建文本分類的流程。

第十章 計算機視覺

介紹計算機視覺中圖像分類和目標檢測的應用以及車輛檢測的落地案例。

未經允許不得轉載:存儲在線-存儲專業媒體 » 好書推薦:從入門到實戰,解鎖機器學習,星環科技人工智能秘籍問世
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走