“台大林智仁教授談大數據分析的挑戰與機會” 與新的 1 篇文章 - Inside 網路趨勢行銷與開發 |
![]() |
Posted: 01 Sep 2014 03:34 AM PDT 大數據、資料科學、機器學習等一直都是近期非常熱門的詞彙,許多訊息都告訴我們,「資料」在未來只會變得越來越重要,涉入我們生活的程度越來越深,小的有我們上網時看見的廣告,大到防疫、氣候變遷等議題都會有關係。 台灣第一次的資料科學愛好者年會於週末在中央研究院舉行,吸引八百人參與,門票更是在 90 分鐘內就售罄,除了主題演講之外,還搭配舉行了 g0v 的黑客松以及 R 語言的教學課程。 而本次年會的第一場演講,就是台大林智仁教授的「Big-data analytics: challenges and opportunities」: 談到大數據,相信不少人都聽過知名的行為經濟學教授 Dan Ariely 的名言: Post by Dan Ariely.
林教授的演講主題是他個人針對大數據分析的技術,其發展與挑戰的一些看法。 從資料探勘(Data Mining)到大數據(Big Data)資料探勘是在 90 年代出起興起的名詞,後來經過了十幾二十年的發展,在今日要做資料探勘,無論是方法(methods)還是工具(tools)都已經相當豐富且有完善的整合,但是,要從資料當中去挖掘有用的資訊,並不是那麼容易的事,因為我們對資料、人工智慧等等的了解,還有很長的路要走。 林教授坦言,對他這樣的學校老師來說,前兩項,也就是方法和工具,是他比較熟悉的領域,業界的人對於實際應用應該更有經驗。 何謂大數據?何謂大數據?跟以前資料探勘的「資料」有和不同?對林教授來說,大數據跟資料探勘之間最明顯的差別可以說就是資料量,用一個簡單的概念來講,「大數據」就是一台機器存放不下的資料量。 兩大差異林教授進一步說明資料探勘與大數據的重要差別有兩個,一個是比較負面的,另一個則是正面的:
而林教授想要討論的是第一點差異。 分散式資料分析的好處可以同時讀取資料。舉例來說,如果要一次讀取硬碟中 TB 等級的資料,速度上會比較慢,但假設這些資料是平均分散在 100 台機器當中,那麼讀取的速度就會是 1/100。當然,要讓資料分散在 100 台機器中,準備好讀取,那又是另外一個問題了。 另外一個好處是容錯,資料重複儲存在個別機器中,如果有一台出問題,其他的不會受影響。另一個好處則是工作流程不容易被打斷,但相對的也會變得更複雜、機器之間的溝通與同步會很令人頭疼。 只是我們真的有必要做分散式的資料分析嗎?林教授引用紐約大學教授、主持 Facebook 人工智慧實驗室的 Yann LeCun 在今年出受訪時講的:
許多在一台機器上很容易的事,在分散式系統上會變得很難很複雜。舉例來說,以前在單一機器上做 subsampling 很容易,但是在分散式的系統反而困難。 挑戰過去資料探勘的工具在設計之初,是針對單一機器的環境,而非今日的分散式系統。過去,隨時存取資料不是什麼困難的事。林教授將現今大數據分析所面臨的挑戰整理如下:
林教授明白的指出今日大數據分析依然是在早期的階段,因此他想要提出的問題就是: 我們的機會是什麼? 要針對大數據分析開發工具,大致上來說有兩條路可以走:一是從過去單一機器上開發工具和方法的脈絡上借鏡,另一個極端則是忘掉原本在單一機器上的東西,從頭開發。林教授說自己相信有個介於兩種方向中間的作法,不過他也說:
林教授告訴我們,像 R 這樣的工具,並不是一夕之間就出現的,而是經過十年、二十年的發展。 我們平常用試算表軟體或是統計軟體做計算時(例如將多個數值加總後平均),很少去關心軟體背後運作的方式。他 林教授在這邊用了一個計算矩陣相乘的一段程式碼做了很清晰的說明:如果我們用 C 語言寫一個三層的 for loop 來處理 3000X3000 的矩陣相乘,在有做最佳化的情況下,大約要花三分 24 秒,但是如果用 MATLAB 呢?就算已經設定成單核模式(也就是比較慢的模式),也只要四秒。
林教授指出,現在我們面對大數據,就好像 80 年代自己寫程式(而非用工具)來計算矩陣相乘一樣。他認為,如果要在未來取得分散性的數據分析方面有技術上突破性的進展,那麼必須要同時用上演算法和系統的優勢才行。
可惜的是,林教授在教學中發現,學習資料探勘或機器學習的學生們,對於系統都不是很瞭解,事實上在單一機器上也的確不太需要了解。但是這樣的情況到了分散式的數據分析上就完全是另外一回事。 為此,林教授舉了早期電腦產業的發展情形為例,當初產業沒有分的那麼細,產業裡的工作者和研究人員,對於大部分的領域都一定程度的了解。但是今日的電腦科學就像醫學一樣,專業上已經分類分到很細緻的程度,也因此會出現這樣精通兩大領域人才稀少的情形。 現在發展大數據方法跟工具,有點像是我們在寫一組程式,但底下的 OS 跟 compiler 還一直在改。 以 CTR(點擊率)預測為例關於大數據分析真正的成功應用,林教授認為目前其實沒有夠多的案例。不過他還是以業界常見的點擊率預測舉例。點擊率(Click-through Rate,CTR)就是將點擊數除以曝光(impression),林教授說像這樣的 binary classification(二元分類,因為只有「點擊」與「沒有點擊」),要一直反覆訓練機器(演算法),建立起模型去預測使用者會點擊的廣告,然後送出那樣的廣告,接著再看使用者有沒有點廣告,然後再將這個結果送回去訓練機器,提高使用者點擊廣告的機率。頻繁的調校演算法在 CTR 預測系統裡面很常見,也一定是分散式的。 通用工具(general tool)就在不遠處一般而言,在分散式的環境下我們會想要減少機器的溝通與資料的存取。過去單一機器的作法 A 比作法 B 好,在分散式的環境下很可能結果會倒過來。例如 batch learning 與 online learning,後者在單一機器的作法可能不如前者,但是在談到大數據分析,結果則相反。另一個例子是同步(synchronous)和異步(asychronous)的演算法,林教授認為說不定後者更適合用於大數據分析。 數據分析只是整個大數據應用的一小部分在做資料分析時,從最初的 raw data(原始數據)到最終的應用,中間有很多環節,以往在單一機器上都是聚焦在分析上,但是在分散式的環境中,很可能在進行分析之前就會遭遇困難。 他以 Spark 框架的開發為例,就是因為人們了解到 mapreduce 沒辦法支援分散式的環境下的資歷探勘和機器學習。 現今許多大數據的應用會需要針對演算法做特殊設定,但是他相信未來出現通用性的工具是可能的。
就像前面提到 Yann LeCun 的說法,其實很多時候我們不一定會需要事事都用上大數據分析。 開源的發展對大數據分析很重要最後,林教授談到開源社群對大數據發展的重要性。事實上,具有強大競爭力的公司,再開源社群的貢獻度往往也是名列前茅。林教授鼓勵台灣的公司應該積極參與,而且企業又比學校更適合做這件事,因為有在開發實際的產品。他舉例,某公司用開源專案 Y 做 X 產品,但 Y 不夠好,所以投入資源開發 Y,最後整個社群都獲益。 就像資料科學愛好者年會所說的:
這次年會的議題涵蓋資料視覺化、醫療、天氣/氣候、廣告、來電分析、動物研究、公益活動、政府開放資料⋯⋯ 範圍相當廣,主辦單位希望明年可以增加更多的主題,例如遊戲或金融領域等等。 如果各位讀者對週末的演講或是 R 語言的教學內容感興趣,可以到台灣資料科學愛好者年會的 Facebook 專頁查看相關資料(演講的投影片都已上傳至 SlideShare),影音的部份可能要再過一陣子才會釋出(主辦單位還需要徵得講者同意)。 |
當創投也開始說起故事,你還在猶豫要不要用內容行銷自己的公司嗎? Posted: 01 Sep 2014 03:15 AM PDT 從服飾品牌 ASOS 到美商通用電氣,從 OREO 餅乾到職業社群 LinkedIn,這些看似八竿子打不著的企業類型,近幾年不約而同從傳統線上廣告策略,移轉到細水長流、不求立即見效的「內容行銷」上,建立客戶忠誠,鞏固品牌聲譽。 品牌無分大小,紛紛開啓部落格、經營各式各樣的社群網站,搶進內容行銷,最直接的受益者莫過於專門開發內容行銷軟體及工具的公司。 內容行銷相關產業炙手可熱它們已經成為投資人爭相撒錢的熱門領域。矽谷創投前仆後繼撒下大網,Percolate、NewsCred、Contently 都是投資者垂青的目標,總計過去四季共有 44 個關於內容行銷新創公司的投資案,累積獲得 2.92 億美金資金挹注1。 從下表中我們可以看出,這股追求內容行銷的熱潮於 2014 年第一季達到頂點。這種類型的新創公司多還處於早期階段,獲得的資金大部份都介於種子與 A 輪之間,但可想而知,隨著內容行銷成為顯學,它們的未來應當無可限量。 那麼,錢到底都到哪了呢?StrategyEye CEO Nick Gregg 列舉六種最受創投青睞的內容行銷類型2:
資金紛至沓來,創投趕上「內容行銷」的潮流,而創投這個產業,儘管有些遲了,但他們同樣以內容行銷自己。 當創投也說起故事⋯⋯根據資誠統計,2013 年美國創投總共投注了 2940 萬美金在 3995 樁交易上,創下 2001 年以來網路公司所獲投資額的記錄3。他們捧著大筆鈔票,興匆匆尋找下一個可能的 Facebook 或 Google。長久以來,創投並非直接面對普羅消費者,一般人對於創投的想像,大概只有「好多好多錢」。除了公關之外,他們並不是那麼在意其他行銷手段,然而情況在近幾年已經有所改變。 photo credit: Aaron Patterson 儘管比起其他產業有些遲了,創投生態圈也已開始進行屬於自己的內容行銷、品牌故事塑造。舊金山創投 IDG Ventures 董事總經理(managing director)Phil Sanderson 說,「在我 18 年的創投產業經歷中,最大的變化之一就是內容行銷在這個產業的崛起。」 Phil Sanderson 表示,創投也是一種服務業,服務的對象是創業家以及有限合夥投資人。「如果你是一名創業家,正在考慮與某家創投進行為期 5 年的合作計劃,你自然會去查看他們的部落格和 Twitter,觀察他們都在關心些什麼事情。」 其實許多美國知名創投如 Fred Wilson、Marc Andreessen、Chris Dixon 等人都有書寫部落格的習慣,但是直到 2013 年,他們才真正將「內容行銷」灌注到自己的投資事業之中。 創投競逐下一個 Facebook 之外,也開始搶前記者去年,Andreessen Horowitz 挖角 Wired 資深編輯 Michael Copeland 領導內容策略,共同創辦人 Marc Andreesen 接受 PandoDaily 訪問時解釋,它們運用內容加強透明度,並且勾勒出創投眼中的世界。內容更可以幫助需要資金的創業家在跟創投「聊聊」之前,就先大致了解這家創投的風格,事先做好心理建設。 就如每家創投專注的投資領域與階段不同,他們所創造的內容也各有風格。Sequoia Capital 也在去年聘請華爾街日報記者 Ben Worthen 建立「Grove」,成為創辦人與創業者分享實質建議的內容平台,範圍從產品價格設定到會議準備訣竅都有。 NextView Ventures 的「內容」範圍則更狹窄,其所架設的部落格「The View From Seed」提供公司創辦最初 18-24 個月應該考慮或避免的事情,文章主題可能類似「怎麼從 0 開始吸引到 100 個使用者」。 First Round Capital 同樣找來華爾街日報記者 Camille Ricketts,打造 First Round Review,切身訪問如 Facebook 公關、Dropbox 設計師等企業核心人物,邀請他們暢談自己的工作哲學,以及各種深度且引人入勝的創業故事,帶給正在茁壯的新創公司第一手知識與經驗。Camille Ricketts 說,為創投做內容行銷,她無需設定議題,而是設法以對話引導受訪的創業者給出實際的心得與建議。 《富比士》雜誌認為4,矽谷大型創投之所以也要「內容行銷」主要源於四個趨勢:
整體來說,內容行銷可以說是創投用以「取悅」他們所投資的公司、以及有限合夥人(limited partner)的方式之一。既然大家都開始「說故事」,焦點就將變成,哪家創投把故事說得最精彩、也最實用。 當過往不太重視行銷的創投,不只把錢砸在投資內容行銷相關的公司上,自身也得挹注資源以內容突顯自己的特色,其風行程度不言可喻。 |
You are subscribed to email updates from Inside 硬塞的網路趨勢觀察
To stop receiving these emails, you may unsubscribe now. |
Email delivery powered by Google |
Google Inc., 20 West Kinzie, Chicago IL USA 60610 |