【內(nèi)容提要】
大地云游在5月21日推出了景區(qū)大數(shù)據(jù)畫像后引起很強(qiáng)的反響,但另一方面,也引出了景區(qū)管理者們的眾多疑問(wèn):“樣本具有代表性嗎?”,“能像傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)一樣實(shí)在和準(zhǔn)確嗎?”,“只統(tǒng)計(jì)百度地圖用戶數(shù)據(jù),那不用百度地圖的就不統(tǒng)計(jì)嗎?”,諸如此類,不一而足。那么,相比傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)又有什么優(yōu)勢(shì)呢?我們又該怎樣客觀地來(lái)看待旅游大數(shù)據(jù)?本文將從覆蓋維度、數(shù)據(jù)量、數(shù)據(jù)粒度等角度來(lái)系統(tǒng)分析大數(shù)據(jù)的優(yōu)勢(shì)。
1.大數(shù)據(jù)可能是非結(jié)構(gòu)化的
大數(shù)據(jù)的結(jié)構(gòu)是非常復(fù)雜的,既包括像搜索量、時(shí)間、游客量等連續(xù)型數(shù)值變量,像性別、行業(yè)、興趣等離散型變量這樣傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更增添了如文本、社會(huì)關(guān)系網(wǎng)絡(luò),乃至語(yǔ)音、圖像等大量新興的非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含的信息量往往更加巨大。
2.大數(shù)據(jù)可能是殘缺的
在現(xiàn)實(shí)的世界里,由于用戶注冊(cè)時(shí)填寫的信息不全、計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)的錯(cuò)誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。但通過(guò)不同數(shù)據(jù)維度的關(guān)聯(lián)特征,能夠準(zhǔn)確復(fù)原缺失數(shù)據(jù),并推斷產(chǎn)生新的數(shù)據(jù)指標(biāo),這就是用戶痕跡復(fù)原方法(Utra)。
3.大數(shù)據(jù)是存在異常值的
在現(xiàn)實(shí)的世界里,大數(shù)據(jù)里也會(huì)存在異常值(outlier)。比如某些連續(xù)型變量(如針對(duì)某景區(qū)某天的搜索量)的取值太大,就會(huì)被當(dāng)做異常值,對(duì)待異常值還需要考慮實(shí)際情況。大數(shù)據(jù)分析前,首先要對(duì)數(shù)據(jù)進(jìn)行清洗和去噪,以此提出異常值對(duì)分析結(jié)果的不良影響,最大程度上保證數(shù)據(jù)分析精度。
可見,大數(shù)據(jù)存在諸多弱點(diǎn),但通過(guò)一定的算法設(shè)計(jì)和數(shù)據(jù)處理流程,完全可以保證數(shù)據(jù)的質(zhì)量,加上其數(shù)據(jù)量大、抽樣范圍廣、數(shù)據(jù)維度大等優(yōu)勢(shì),使其在不同行業(yè)里得到快速應(yīng)用,毫不夸張的說(shuō),大數(shù)據(jù)已經(jīng)給全行業(yè)帶來(lái)了顛覆性的改變,互聯(lián)網(wǎng)行業(yè)首當(dāng)其沖,接著是商業(yè)智能與咨詢服務(wù)領(lǐng)域、零售行業(yè),還包括醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文……大數(shù)據(jù)催生的數(shù)據(jù)服務(wù)意識(shí)和能力,正在影響這個(gè)社會(huì)的方方面面,從旅游到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會(huì)的其他各個(gè)領(lǐng)域,并催生了了各行各業(yè)的變革力量。
二、不同數(shù)據(jù)源的優(yōu)劣比較
那么旅游大數(shù)據(jù)對(duì)比傳統(tǒng)數(shù)據(jù)到底有哪些不同呢?下表或許會(huì)帶給我們更進(jìn)一步的認(rèn)識(shí)。
三、旅游大數(shù)據(jù)的優(yōu)勢(shì)是什么?
1.大數(shù)據(jù)擁有巨大的數(shù)據(jù)量
大數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)文本數(shù)據(jù)、OTA數(shù)據(jù)、用戶注冊(cè)信息、搜索引擎數(shù)據(jù)等諸多數(shù)據(jù)源,這些互聯(lián)網(wǎng)用戶行為每天成萬(wàn)上億次的發(fā)生在互聯(lián)網(wǎng)的各個(gè)領(lǐng)域,因此積累了極為龐大的數(shù)據(jù)量,僅針對(duì)景區(qū)而言,一年時(shí)間便能夠回溯百萬(wàn)級(jí)用戶交易數(shù)據(jù),數(shù)據(jù)規(guī)模早已突破原有數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的規(guī)模,蘊(yùn)藏了極其豐富的數(shù)據(jù)價(jià)值。
2.大數(shù)據(jù)擁有豐富的數(shù)據(jù)維度
不同數(shù)據(jù)源的數(shù)據(jù)維度存在很大差異,以通信運(yùn)營(yíng)商為例,其具有十分龐大的數(shù)據(jù)量和較高的數(shù)據(jù)精度,但數(shù)據(jù)維度相對(duì)較少,僅限于用戶性別、注冊(cè)地、年齡、籍貫等信息。相比之下,搜索引擎數(shù)據(jù)、OTA數(shù)據(jù)等具有較高的數(shù)據(jù)維度,不僅包括用戶基本屬性數(shù)據(jù),還包括偏好特征和行為習(xí)慣等諸多細(xì)化指標(biāo),復(fù)合以百度地圖等LBS數(shù)據(jù),能夠進(jìn)行多維度交叉數(shù)據(jù)分析(切片分析),從而產(chǎn)生更加的數(shù)據(jù)價(jià)值。
3.大數(shù)據(jù)抽樣時(shí)間尺度大、空間范圍廣
調(diào)查問(wèn)卷通常集中于數(shù)天或數(shù)周內(nèi),且問(wèn)卷集中于某一目的地,在時(shí)間和空間維度上抽樣均存在很大的局限性。旅游行業(yè)具有時(shí)間波動(dòng)性、空間異質(zhì)性特征,不同的時(shí)段旅游消費(fèi)行為存在很大的差異,不同的旅游目的地空間也存在很大的差異,因此,調(diào)查問(wèn)卷存在抽樣范圍過(guò)小的問(wèn)題。相比之下,旅游大數(shù)據(jù)能夠回溯數(shù)天、數(shù)月甚至數(shù)年的信息,抽樣時(shí)間和空間都足夠大,從而保證數(shù)據(jù)分析具有很高的可信度。
4.大數(shù)據(jù)采集成本較低
大數(shù)據(jù)的一個(gè)典型特征是數(shù)據(jù)積累是發(fā)生在業(yè)務(wù)或交易過(guò)程當(dāng)中的,既沒有刻意查找和存儲(chǔ)數(shù)據(jù),大數(shù)據(jù)往往是平臺(tái)業(yè)務(wù)的一個(gè)附屬產(chǎn)品,因而相較于調(diào)查問(wèn)卷、普查數(shù)據(jù)等,大數(shù)據(jù)具有相對(duì)較低的采集成本。
由上可見,旅游大數(shù)據(jù)比傳統(tǒng)數(shù)據(jù)更有利用和挖掘分析的價(jià)值。百度&大地云游大數(shù)據(jù)畫像,基于已經(jīng)構(gòu)建的旅游產(chǎn)業(yè)數(shù)據(jù)庫(kù)和百度50余個(gè)在線產(chǎn)品數(shù)據(jù),通過(guò)用戶痕跡復(fù)原方法(Utra)對(duì)多維數(shù)據(jù)聚合與挖掘,最大限度上規(guī)避了各數(shù)據(jù)源的弱點(diǎn),最大程度上保留了大數(shù)據(jù)分析的優(yōu)勢(shì),從而為旅游景區(qū)管理與營(yíng)銷提供堅(jiān)持的數(shù)據(jù)基礎(chǔ)。
來(lái)源:大地云游信息開發(fā)有限公司