精選文章

一年內由5億到650億的2326 百靈達國際控股

由 2015 年 1 月至 2015 年 6 月 8 日,即未 1 拆 10 之前的走勢。在三月尾前,股價維持在 0.3 附近,但在三月最後一個星期,股價突破 0.3 水平,之後股價一飛衝天。分拆前,股價最高去到 15.8 ,升幅超過 50 倍,當時市值為 320 億。 ...

2016年9月5日 星期一

如何用大資料炒股(轉載)

http://yd.sina.cn/article/detail-icczmvun4522799.d.html

2014-12-30 11:51

  記者:李小曉
  我們如今生活在一個資料爆炸的世界裡。百度每天回應超過60億次的搜索請求,日處理資料超過100PB,相當於6000多座中國國家圖書館的書籍信息量總和。新浪微博每天都會發佈上億條微博。在荒無人煙的郊外,暗藏著無數大公司的資訊存儲中心,24小時夜以繼日地運轉著。
  克托·邁爾-舍恩伯格在《大資料時代》一書中認為,大資料的核心就是預測,即只要資料豐富到一定程度,就可預測事情發生的可能性。例如,“從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性”,或者通過一個人穿過馬路的速度,預測車子何時應該減速從而讓他及時穿過馬路。
  那麼,如果把這種預測能力應用在股票投資上,又會如何?
  目前,美國已經有許多對沖基金採用大資料技術進行投資,並且收穫甚豐。中國的中證廣發百度百發100指數基金(下稱百發100),上線四個多月以來已上漲68%
  和傳統量化投資類似,大資料投資也是依靠模型,但模型裡的資料變數幾何倍地增加了,在原有的金融結構化資料基礎上,增加了社交言論、地理資訊、衛星監測等非結構化資料,並且將這些非結構化資料進行量化,從而讓模型可以吸收。
  由於大資料模型對成本要求極高,業內人士認為,大資料將成為共用平臺化的服務,資料和技術相當於食材和鍋,基金經理和分析師可以通過平臺製作自己的策略。
  量化非結構資料
  不要小看大資料的本領,正是這項剛剛興起的技術已經創造了無數“未卜先知”的奇跡。
  2014年,百度用大資料技術預測命中了全國18卷中12卷高考作文題目,被網友稱為“神預測”。百度公司人士表示,在這個大資料池中,包含互聯網積累的使用者資料、歷年的命題資料以及教育機構對出題方向作出的判斷。
  在2014年巴西世界盃比賽中,Google亦通過大資料技術成功預測了16強和8強名單。
  從當年英格蘭報社的信鴿、費城股票交易所的信號燈到報紙電話,再到如今的互聯網、雲計算、大資料,前沿技術迅速在投資領域落地。在股票策略中,大資料日益嶄露頭角。
  做股票投資策略,需要的大資料可以分為結構化資料和非結構化資料。結構化資料,簡單說就是“一堆數字”,通常包括傳統量化分析中常用的CPIPMI、市值、交易量等專業資訊;非結構化資料就是社交文字、地理位置、使用者行為等“還沒有進行量化的資訊”。
  量化非結構化就是用深度模型替代簡單線性模型的過程,其中所涉及的技術包括自然語言處理、語音辨識、圖像識別等。
  金融大資料平臺-通聯資料CEO王政表示,通聯資料採用的非結構化資料可以分為三類:第一類和人相關,包括社交言論、消費、去過的地點等;第二類與物相關,如通過正在行駛的船隻和貨車判斷物聯網情況;第三類則是衛星監測的環境資訊,包括汽車流、港口裝載量、新的建築開工等情況。
  衛星監測資訊在美國已被投入使用,2014Google斥資5億美元收購了衛星公司Skybox,從而可以獲得實施衛星監測資訊。
  結構化和非結構化資料也常常相互轉化。“結構化和非結構化資料可以形象理解成把所有資料裝在一個籃子裡,根據應用策略不同相互轉化。例如,在搜索頻率調查中,使用者搜索就是結構化資料;在金融策略分析中,使用者搜索就是非結構化資料。”百度公司人士表示。
  華爾街拿著豐厚薪水的分析師們還不知道,自己的雇主已經將大量資本投向了取代自己的機器。
  20141123日,高盛向Kensho公司投資1500萬美元,以支援該公司的大資料平臺建設。該平臺很像iPhone裡的Siri,可以快速整合海量資料進行分析,並且回答投資者提出的各種金融問題,例如“下月有颶風,將對美國建材板塊造成什麼影響?”
  在Kensho處理的資訊中,有80%是“非結構化”資料,例如政策檔、自然事件、地理環境、科技創新等。這類資訊通常是電腦和模型難以消化的。因此,KenshoCEO Daniel Nadler認為,華爾街過去是基於20%的資訊做出100%的決策。
  既然說到高盛,順便提一下,這家華爾街老牌投行如今對大資料可謂青睞有加。除了Kensho,高盛還和Fortress信貸集團在兩年前投資了8000萬美元給小額融資平臺On Deck Capital。這家公司的核心競爭力也是大資料,它利用大資料對中小企業進行分析,從而選出值得投資的企業並以很快的速度為之提供短期貸款。
  捕捉市場情緒
  上述諸多非結構化資料,歸根結底是為了獲得一個資訊:市場情緒。
  在採訪中,2013年諾貝爾經濟學獎得主羅伯特•席勒的觀點被無數採訪對象引述。可以說,大資料策略投資的創業者們無一不是席勒的信奉者。
  席勒於上世紀80年代設計的投資模型至今仍被業內稱道。在他的模型中,主要參考三個變數:投資項目計畫的現金流、公司資本的估算成本、股票市場對投資的反應(市場情緒)。他認為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產價格。
  然而,在大資料技術誕生之前,市場情緒始終無法進行量化。
  回顧人類股票投資發展史,其實就是將影響股價的因數不斷量化的過程。
  上世紀70年代以前,股票投資是一種定性的分析,沒有資料應用,而是一門主觀的藝術。隨著電腦的普及,很多人開始研究驅動股價變化的規律,把傳統基本面研究方法用模型代替,市盈率、市淨率的概念誕生,量化投資由此興起。
  量化投資技術的興起也帶動了一批華爾街大鱷的誕生。例如,巴克萊全球投資者(BGI)在上世紀70年代就以其超越同行的電腦模型成為全球最大的基金管理公司;進入80年代,另一家基金公司文藝復興(Renaissance)年均回報率在扣除管理費和投資收益分成等費用後仍高達34%,堪稱當時最佳的對沖基金,之後十多年該基金資產亦十分穩定。
  “從主觀判斷到量化投資,是從藝術轉為科學的過程。”王政表示,上世紀70年代以前一個基本面研究員只能關注20只到50檔股票,覆蓋面很有限。有了量化模型就可以覆蓋所有股票,這就是一個大的飛躍。此外,隨著電腦處理能力的發展,資訊的用量也有一個飛躍變化。過去看三個指標就夠了,現在看的指標越來越多,做出的預測越來越準確。
  隨著21世紀的到來,量化投資又遇到了新的瓶頸,就是同質化競爭。各家機構的量化模型越來越趨同,導致投資結果同漲同跌。“能否在看到報表資料之前,用更大的資料尋找規律?”這是大資料策略創業者們試圖解決的問題。
  於是,量化投資的多米諾骨牌終於觸碰到了席勒理論的第三層變數——市場情緒。
  電腦通過分析新聞、研究報告、社交資訊、搜索行為等,借助自然語言處理方法,提取有用的資訊;而借助機器學習智慧分析,過去量化投資只能覆蓋幾十個策略,大資料投資則可以覆蓋成千上萬個策略。
  基於互聯網搜索資料和社交行為的經濟預測研究,已逐漸成為一個新的學術熱點,並在經濟、社會以及健康等領域的研究中取得了一定成果。在資本市場應用上,研究發現搜索資料可有效預測未來股市活躍度(以交易量指標衡量)及股價走勢的變化。
  在美國市場上,還有多家私募對沖基金利用TwitterFacebook的社交資料作為反映投資者情緒和市場趨勢的因數,構建對沖投資策略。利用互聯網大資料進行投資策略和工具的開發已經成為世界金融投資領域的新熱點。
  保羅·霍丁管理的對沖基金Derwent成立於20115月,註冊在開曼群島,初始規模約為4000萬美元, 2013年投資收益高達23.77%。該基金的投資標的包括流動性較好的股票及股票指數產品。
  通聯資料董事長肖風在《投資革命》中寫道,Derwent的投資策略是通過即時跟蹤Twitter用戶的情緒,以此感知市場參與者的“貪婪與恐懼”,從而判斷市場漲跌來獲利。
  在Derwent的網頁上可以看到這樣一句話:“用即時的社交媒體解碼暗藏的交易機會。”保羅·霍丁在基金宣傳冊中表示:“多年以來,投資者已經普遍接受一種觀點,即恐懼和貪婪是金融市場的驅動力。但是以前人們沒有技術或資料來對人類情感進行量化。這是第四維。Derwent就是要通過即時關注Twitter中的公眾情緒,指導投資。”
  另一家位於美國加州的對沖基金MarketPsych與湯普森·路透合作提供了分佈在119個國家不低於18864項獨立指數,比如每分鐘更新的心情狀態(包括樂觀、憂鬱、快樂、害怕、生氣,甚至還包括創新、訴訟及衝突情況等),而這些指數都是通過分析Twitter的資料文本,作為股市投資的信號。
  此類基金還在不斷湧現。金融危機後,幾個臺灣年輕人在波士頓組建了一家名為FlyBerry的對沖基金,口號是“Modeling the World(把世界建模)”。它的投資理念全部依託大資料技術,通過監測市場輿論和行為,對投資做出秒速判斷。
  回到股票世界,利用社交媒體資訊做投資的公司還有StockTwits。打開這家網站,首先映入眼簾的宣傳語是“看看投資者和交易員此刻正如何討論你的股票”。正如其名,這家網站相當於“股票界的Twitter”,主要面向分析師、媒體和投資者。它通過機器和人工相結合的手段,將關於股票和市場的資訊整理為140字以內的短消息供使用者參考。
  此外,StockTwits還整合了社交功能,並作為外掛程式可以嵌入TwitterFacebookLinkedIn等主要社交平臺,讓人們可以輕易分享投資資訊。
  另一家公司Market Prophit也很有趣。這家網站的宣傳語是“從社交媒體噪音中提煉市場信號”。和StockTwits相比,Market Prophit更加注重大資料的應用。它採用了先進的語義分析法,可以將Twitter裡的金融對話量化為“-1(極度看空)”到“1(極度看多)”之間的投資建議。網站還根據語義量化,每天公佈前十名和後十名的股票熱度榜單。網站還設計了“熱度地圖”功能,根據投資者情緒和意見,按照不同板塊,將板塊內的個股按照顏色深淺進行標注,誰漲誰跌一目了然。
  中國原創大資料指數
  儘管大資料策略投資在美國貌似炙手可熱,但事實上,其應用尚僅限於中小型對沖基金和創業平臺公司。大資料策略投資第一次被大規模應用,應歸於中國的百發100
  百度金融中心相關負責人表示,與歐美等成熟資本市場主要由理性機構投資者構成相比,東亞尤其是中國的股票類證券投資市場仍以散戶為主,因此市場受投資者情緒和宏觀政策性因素影響很大。而個人投資者行為可以更多地反映在互聯網使用者行為大資料上,從而為有效地預測市場情緒和趨勢提供了可能。這也就是中國國內公募基金在應用互聯網大資料投資方面比海外市場並不落後、甚至領先的原因。
  百發100指數由百度、中證指數公司、廣發基金聯合研發推出,於201478日正式對市場發佈,實盤運行以來一路上漲,漲幅超過60%。跟蹤該指數的指數基金規模上限為30億份,2014917日正式獲批,1020日發行時一度創下26小時瘋賣18億份的“神話”。
  外界都知道百發100是依託大資料的指數基金,但其背後的細節鮮為人知。
  百發100資料層面的分析分為兩個層面,即資料工廠的資料歸集和資料處理系統的資料分析。其中資料工廠負責大資料的收集分析,例如將來源於互聯網的非結構化資料進行指標化、產品化等資料量化過程;資料處理系統,可以在資料工廠遞交的大資料中尋找相互統計關聯,提取有效資訊,最終應用於策略投資。
  “其實百發100是在傳統量化投資技術上融合了基於互聯網大資料的市場走勢和投資情緒判斷。”業內人士概括道。
  和傳統量化投資類似,百發100對樣本股的甄選要考慮財務因數、基本面因數和動量因數,包括淨資產收益率(ROE)、資產收益率(ROA)、每股收益增長率(EPS)、流動負債比率、企業價值倍數(EV/EBITDA)、淨利潤同比增長率、股權集中度、自由流通市值以及最近一個月的個股價格收益率和波動率等。
  此外,市場走勢和投資情緒是在傳統量化策略基礎上的創新產物,也是百發100的核心競爭力。接近百度的人士稱,市場情緒因數對百發100基金起決定性作用。
  百度金融中心相關負責人是羅伯特•席勒觀點的支持者。他認為,投資者行為和情緒對資產價格、市場走勢有著巨大的影響。因此“通過互聯網使用者行為大資料反映的投資市場情緒、宏觀經濟預期和走勢,成為百發100指數模型引入大資料因數的重點”。
  傳統量化投資主要著眼點在於對專業化金融市場基本面和交易資料的應用。但在百度金融中心相關業務負責人看來,無論是來源於專業金融市場的結構化資料,還是來源於互聯網的非結構化資料,都是可以利用的資料資源。因此,前文所述的市場情緒資料,包括來源於互聯網的用戶行為、搜索量、市場輿情、宏觀基本面預期等等,都被百度“變廢為寶”,從而通過互聯網找到投資者參與特徵,選出投資者關注度較高的股票。
  “與同期滬深300指數的表現相較,百發100更能在股票市場振盪時期、行業輪動劇烈時期、基本面不明朗時期抓住市場熱點、瞭解投資者情緒、抗擊投資波動風險。”百度金融中心相關負責人表示。
  百發100選取的100只樣本股更換頻率是一個月,調整時間為每月第三周的週五。
  業內人士指出,百發100指數的月收益率與中證100、滬深300、中證500的相關性依次提升,說明其投資風格偏向中小盤。
  但事實並非如此。從樣本股的構成來說,以某一期樣本股為例,樣本股總市值6700億元,占A股市值4.7%。樣本股的構成上,中小板21只,創業板4只,其餘75只樣本股均為大盤股。由此可見,百發100還是偏向大盤為主、反映主流市場走勢。
  樣本股每個月的改變比例都不同,最極端的時候曾經有60%進行了換倉。用大資料預測熱點變化,市場熱點往往更迭很快;但同時也要考慮交易成本。兩方面考慮,百度最後測算認為一個月換一次倉位為最佳。
  樣本股對百發100而言是核心機密——據說“全世界只有基金經理和指數編制機構負責人兩個人知道”——都是由機器決定後,基金經理分配給不同的交易員建倉買入。基金經理也沒有改變樣本股的權利。
  展望未來,百度金融中心相關負責人躊躇滿志,“百發100指數及基金的推出,只是我們的開端和嘗試,未來將形成多樣化、系列投資產品。”
  除了百發100,目前市場上打著大資料旗幟的基金還有20149月推出的南方-新浪I100I300指數基金。
  南方-新浪I100I300是由南方基金、新浪財經和深圳證券資訊公司三方聯合編制的。和百發100類似,也是按照財務因數和市場情緒因數進行模型打分,按照分值將前100和前300名股票構成樣本股。推出至今,這兩個指數基金分別上漲了10%左右。
  正如百發100的市場情緒因數來自百度,南方-新浪I100I300的市場情緒因數全部來自新浪平臺。其中包括用戶在新浪財經對行情的訪問熱度、對股票的搜索熱度;用戶在新浪財經對股票相關新聞的流覽熱度;股票相關微博的多空分析資料等。
  此外,阿裡巴巴旗下的天弘基金也有意在大資料策略上做文章。據瞭解,天弘基金將和阿裡巴巴合作,推出大資料基金產品,最早將於2015年初問世。
  天弘基金機構產品部總經理劉燕曾對媒體表示,“在傳統的調研上,大資料將貢獻於基礎資產的研究,而以往過度依賴線下研究報告。大資料將視野拓展至了線上的資料分析,給基金經理選股帶來新的邏輯。”
  在BAT三巨頭中,騰訊其實是最早推出指數基金的。騰訊與中證指數公司、濟安金信公司合作開發的“中證騰安價值100指數”早在20135月就發佈了,號稱是國內第一家由互聯網媒體與專業機構編制發佈的A股指數。不過,業內人士表示,有關指數並沒有真正應用大資料技術。雖然騰訊旗下的微信是目前最熱的社交平臺,蘊藏了大量的社交資料,但騰訊未來怎麼開發,目前還並不清晰。
  大資料投資平臺化
  中歐商學院副教授陳威如在其《平臺戰略》一書中提到,21世紀將成為一道分水嶺,人類商業行為將全面普及平臺模式,大資料金融也不例外。
  然而,由於大資料模型對成本要求極高,就好比不可能每家公司都搭建自己的雲計算系統一樣,讓每家機構自己建設大資料模型,從資料來源和處理技術方面看都是不現實的。業內人士認為,大資料未來必將成為平臺化的服務。
  目前,阿裡、百度等企業都表示下一步方向是平臺化。
  螞蟻金服所致力搭建的平臺,一方面包括招財寶一類的金融產品平臺,另一方面包括雲計算、大資料服務平臺。螞蟻金服人士說,“我們很清楚自己的優勢不是金融,而是包括電商、雲計算、大資料等技術。螞蟻金服希望用這些技術搭建一個基礎平臺,把這些能力開放出去,供金融機構使用。”
  百度亦是如此。接近百度的人士稱,未來是否向平臺化發展,目前還在討論中,但可以確定的是,“百度不是金融機構,目的不是發產品,百發100的意義在於打造影響力,而非經濟效益。”
  當BAT還在摸索前行時,已有嗅覺靈敏者搶佔了先機,那就是通聯資料。
  通聯資料股份公司(DataYes)由曾任博時基金副董事長肖風帶隊創建、萬向集團投資成立,總部位於上海,公司願景是“讓投資更容易,用金融服務雲平臺提升投資管理效率和投研能力”。該平臺7月上線公測,目前已擁有130多家機構客戶,逾萬名個人投資者。
  通聯資料目前有四個主要平臺,分別是通聯智慧投資研究平臺、通聯金融大資料服務平臺、通聯多資產投資管理平臺和金融移動辦公平臺。
  通聯智慧投資研究平臺包括雅典娜-智慧事件研究、策略研究、智慧研報三款產品,可以對基於自然語言的智慧事件進行策略分析,即時跟蹤市場熱點,捕捉市場情緒。可以說,和百發100類似,其核心技術在於將互聯網非結構化資料的量化使用。
  通聯金融大資料服務平臺更側重于專業金融資料的分析整理。它可以提供公司基本面資料、國內外主要證券、期貨交易所的行情資料、公司公告資料、公關經濟、行業動態的結構化資料、金融新聞和輿情的非結構化資料等。
  假如將上述兩個平臺比作“收割機”,通聯多資產投資管理平臺就是“廚房”。在這個“廚房”裡,可以進行全球跨資產的投資組合管理方案、訂單管理方案、資產證券化定價分析方案等。
  通聯資料可以按照主題熱點或者自訂關鍵字進行分析,構建知識圖譜,將相關的新聞和股票提取做成簡潔的分析框架。例如用戶對特斯拉感興趣,就可以通過主題熱點看到和特斯拉相關的公司,並判斷這個概念是否值得投資。“過去這個搜集過程要花費幾天時間,現在只需要幾分鐘就可以完成。”王政表示。
  “通聯資料就好比一家餐館,我們把所有原料搜集來、清洗好、準備好,同時準備了一個鍋,也就是大資料存儲平臺。研究員和基金經理像廚師一樣,用原料、工具去‘烹製’自己的策略。”王政形容道。
  大資料在平臺上扮演的角色,就是尋找關聯關係。人類總是習慣首先構建因果關係,繼而去倒推和佐證。機器學習則不然,它可以在海量資料中查獲超越人類想像的關聯關係。正如維克托`邁爾-舍恩伯格在《大資料時代》中所提到的,社會需要放棄它對因果關係的渴求,而僅需關注相互關係。
  例如,美國超市沃爾瑪通過大資料分析,發現颶風用品和蛋撻擺在一起可以提高銷量,並由此創造了頗大的經濟效益。如果沒有大資料技術,誰能將這毫無關聯的兩件商品聯繫在一起?
  通聯資料通過機器學習,也能找到傳統量化策略無法發現的市場聯繫。其中包括各家公司之間的資本關係、產品關係、競爭關係、上下游關係,也包括人與人之間的關係,例如管理團隊和其他公司有沒有關聯,是否牽扯合作等。
  未來量化研究員是否將成為一個被淘汰的職業?目前研究員的主要工作就是收集整理資料,變成投資決策,而之後這個工作將更多由機器完成。
  “當初醫療科技發展時,人們也認為醫生會被淘汰,但其實並不會。同理,研究員也會一直存在,但他們會更注重深入分析和調研,初級的資料搜集可以交給機器完成。”王政表示。
  但當未來大資料平臺並廣泛應用後,是否會迅速擠壓套利空間?這也是一個問題。■


沒有留言:

張貼留言