(圖/shutterstock)
選文:孫強
翻譯:趙娟 王玨
校對:姚佳玲
新年並非僅僅是更換日曆
或是清晨起床後揉開雙眼。
新年是充滿喜悅的一個嶄新開始。
它給我們一個完美的理由養成一個新習慣,
它意味著新“希望”的到來。
如果你正在閱讀這篇文章,
我確信資料科學會讓你興奮!
你要在2016年做出改變,難道不是嗎?
如果你從今天開始致力於實現這些目標,
這是完全可能的。
你必須明白,成為一個資料科學家
需要一個過程,它不是一朝一夕的成功。
因此,你必須耐心地朝著目標而努力。
繼續看下去...
(贊助商連結...)
提示:
1. 原文中涉及了大量連結,值得收藏!
在大資料文摘後臺,回復“計畫”,
可下載doc檔,獲取文中提供的所有連結。
2.這些通用的學習計畫
是為有抱負的/有經驗的資料科學家準備的。
該文章可能不適合非資料分析領域的人員。
一個資料科學家的新年計畫
我已經將這些學習計畫
根據資料科學家的三個水準階段進行了分類。
你來決定那個階段最適合你,並進行實踐。
當你完成本階段的學習任務後,
便可進入下一個階段。
針對不同的學習主題,
我列出了可獲取的最好的課程。
為了達到最佳效果,
我建議你逐一學習這些課程。
如果你覺得課程學習困難,請與我討論,
我會給你提供一個備選方案。
方便起見,我分享了可供下載的連接。
初級水準
誰是初學者?如果資料分析和資料科學
對你來說是一個全新的領域,
你不瞭解這個行業是如何運作的,
但是,你滿懷好奇的在該領域發展你的事業,
那麼,你就是個初學者。
下面就是你的學習目標:
1.從程式設計語言開始,無論是R或Python
我曾看到有學生同時學習R和Python。
最終,他們什麼都沒學會。
這種學習方法很糟糕。
你必須保證自己深入學習R或Python。
這是兩個在公司中廣泛應用的開源工具。
Python是公認的最簡單的程式設計語言。
R仍是人們最為喜愛的統計工具。
選擇權在你。兩者都很好。
學習課程:在Codecadem完成Python的學習。
在DataCamp完成R的學習。
2.學習統計學和數學
統計學是關於假設和運算的學科。
但是,如果你不懂統計和數學,
很難在這個行業立足。
它是資料科學家的核心競爭力。
如果你的數學不好,是時候改變了。
習慣使用強大的統計技術、代數和概率學。
在可汗學院(Khan Academy)、
Udacity 等平臺上有非常棒的統計學課程。
裝上這些APP,便可馬上開始學習。
學習課程:在Udacity上完成
Inferential和Descriptive統計學習。
在 Khan Academy完成代數的學習。
3.報名參加一個大型開放式網路課程(MOOC)
大型開放式網路課程(簡稱MOOC)
可以自由訪問和學習。
但是,這是你做出的最難實現的承諾。
學生們通常一次性報名參加多個課程,
但最終一個也完成不了。
因此,你必須專注於一個課程,
完成之後,在進入下一個課程的學習。
你可以在coursera, edX,
Udacity上學習任何課程。
學習課程:
在Coursera完成資料科學專業(R)的學習。
在Dataquest完成資料科學Python的學習。
4.積極參與行業實踐,發現新事物
你需要知道這個行業正在發生哪些變化。
我們生活在一個充滿活力又瞬息萬變的世界。
今天還十分盛行的技術明天可能就過時了。
你必須與經驗豐富的專家交流,
結識“未來的自己”。
現在就開始行動吧,加入討論、參加聚會、
關注博客、參加團體活動,並閱讀專業書籍。
你可以在Facebook 上
跟進這方面的最新消息。
中等水準
誰是中等水準的資料科學家?
如果你已經完成了初級水準的學習,
並且已經嘗使用機器學習的基礎知識,
熟練掌握了建立預測模型的知識,
那麼你已經到達了資料科學家的中級水準。
達到這個水準需要巨大的決心和大量的練習。
準備好迎接這個挑戰了嗎?
1. 理解並構建機器學習技能
機器學習是資料科學與技術的未來。
所有大公司在雇傭該項技術人才方面
投入大量的資金和人力。
毫無疑問,當前這種人才的市場需求巨大。
對個人而言,也是個不可多得的好機會。
今年,你應當在機器學習方面深入拓展。
熟練掌握回歸分析(Regression)、
聚類分析( Clustering)、 CART 演算法。
打開下面的連接,你可以找到
關於機器學習方面的免費學習資源:
學習課程:在Andrew Ng
完成機器學習的課程。
2. 專注於Ensemble和Boosting
演算法的學習
一旦你對機器學習充滿自信,
那麼轉攻下一個模型吧。
使用boosting和ensemble演算法,
可以使得模型的精度遠遠高於其他演算法。
上面分享的免費學習資源
已經涵蓋了這個主題。
但是,要讓自己更深入的理解這個主題。
學習課程:
閱讀 Kaggle的Ensembling 指南(Guide)。
在MIT Lecture完成Boosting的學習。
3. 探索使用Spark, NoSQL
以及其他大資料處理工具
本年,你將開啟自己的大資料之旅。
鑒於大資料人才需求的蓬勃發展,
你必須學會Spark軟體。
最近它非常流行。
大資料的未來依賴於Spark,
它被廣泛應用於大資料的操作和處理。
通過學習Spark,
你還可以拓展自己的專業知識
到NoSQL , Hadoop上。
學習課程:首先學習Spark.
4. 教育社區同伴
還有什麼比知識分享更棒!
從今年開始,同那些努力學習資料科學的人
分享你的知識。
你可以加入活躍的資料科學論壇(forums),
幫他們解疑答惑,
教會他們有用的技巧和竅門。
你也可以舉辦類似的聚會。
行動指南:追隨我們Facebook。
5. 參加資料科學競賽
是時候檢驗你的學習效果了。
今年你必須參一些競賽,
它能幫你認清自己的長處和短板。
此外,你會對已掌握的知識更加自信。
我希望你能榮登Kaggle Top500排名榜。
從現在開始,
你的目標是成為Last Man Standing
(點擊打開連接,
這是一個資料科學領域的競賽)。
提示:比賽可能有點兒難。
你可以通過查看這些實際問題
來檢查自己的技能和知識。
他們一點兒不難,但非常有趣!
高級水準
我無需定義這類人群。
大部分人都非常害怕去嘗試資料科學,
但他們卻十分精通。
他們已經過上了輕鬆愜意的生活,
但是,他們熱愛挑戰。
他們是經驗豐富的專家。
下面是一些學習計畫:
1.構建一個深度學習模型
(deep learning model)
今年,你要為立志于成為資料科學家的人
樹立榜樣。
你必須創建深度學習(deeplearning)的模型。
在世界各地,
已經有人使用這些模型進行預測了。
這是機器學習的高級階段。
其準確性已明顯優於一般的機器學習模型。
學習課程:完成Tutorial的深度學習。
2. 回饋社群
我相信知識是用於分享而不是用於存儲的。
分享得越多,學到的越多。
換種方法解釋,
“你學到一個新概念,
然後解釋給你的兩個朋友聽,
你對這個概念的記憶可能會更久。“
今年,你制定一個計畫,
利用你的知識和經驗
説明資料分析社區的成員。
這會説明那些在資料分析領域
苦苦掙扎的人們找到勝利的彼岸。
行動計畫:在Discuss 上分享你的知識。
3.探索強化學習(Reinforcement Learning)
強化學習是(Reinforcement Learning)
機器學習中最強大的,
然而少有人開發的一個分支。
今年,在這一領域做些研究。
雖然很有挑戰性,但值得一試。
無人駕駛、間諜無人機就是強化學習的成果。
一旦你開始涉足該領域,
你就自動進入人工智慧領域。
學習課程:完成Andrew Moore的tutorial。
4. 進入Kaggle前50名
今年,你必須保持住在Kaggle上的“大師”地位,
準確的講,確保自己在Kaggle排名進入前50。
參加適合自己領域的相關競賽,
與其他kagglers組隊。
參與這個水準的競賽,
你會學習到一些在其他地方學不到的理念。
行動計畫:加入Kaggle
追蹤你的進程。
2016年新年學習計畫表 Download
結束語
我理解,這些學習計畫對你具有挑戰性,
但值的一試。
根據你當前的情況,
自由選擇適合自己的學習計畫。
我只是羅列了有抱負的資料科學家
必須要知道的重要知識和技能。
在上周我意識到,
人們並沒有足夠的勇氣制定新年計畫。
這個問題也曾困擾著我。
因此,我決定寫下這篇文章。
我希望,在2016年結束之前,
你會完成初級水準的學習
(假設你是一個新手)。
這篇文章已經為你制定新年計畫掃除了障礙。
作為一個有野心的資料科學家,
我已經為你提供了“硬骨頭”,
就等著你去啃下它了。
在學習的過程中如果遇到任何困難,
請在下面的評論分享你的想法。
本文獲《大數據文摘》授權轉載,原文於此
未經授權請勿轉載!