- 相關(guān)推薦
基于數(shù)據(jù)挖掘的社交網(wǎng)絡(luò)分析與研究論文
摘要:在計(jì)算機(jī)網(wǎng)絡(luò)越來越普及的社會(huì)中造就信息傳播的便利性提高,也讓社交網(wǎng)絡(luò)漸漸發(fā)展成為虛擬社群形態(tài),從早期的電子布告欄(BBS)到現(xiàn)在的社交網(wǎng)站(SocialNetworkSites),都可以讓人們密切討論與互動(dòng)。本文將主要探討基于數(shù)據(jù)挖掘模型的社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測分析,并對相關(guān)技術(shù)進(jìn)行闡述。
關(guān)鍵詞:數(shù)據(jù)挖掘;社交網(wǎng)絡(luò);關(guān)聯(lián)預(yù)測
在社交網(wǎng)絡(luò)上,依據(jù)先前國外學(xué)者Viswanath,Mislove,ChaandGummadi和NguyenandTran都是針對theNewOrleans地區(qū)社群使用者發(fā)布數(shù)據(jù)來研究使用者發(fā)布的關(guān)系,而臺(tái)灣地區(qū)針對使用者社群發(fā)布的分析多以問卷方法居多,故本研究欲使用直接抓取頁面數(shù)據(jù)與卷標(biāo)的方法,觀察使用者社群網(wǎng)站上發(fā)布行為,利用先前用學(xué)者所提數(shù)據(jù)呈現(xiàn)方式,結(jié)合關(guān)鍵詞標(biāo)記方式來了解使用者在社群網(wǎng)絡(luò)上的發(fā)布關(guān)系。而其中社群人數(shù)拓展最快速就是微信平臺(tái),利用了社交網(wǎng)絡(luò)的特性讓使用者能更有效率的在網(wǎng)絡(luò)上找到有關(guān)系的親朋好友,將這世界的每個(gè)人、每個(gè)群體透過各種關(guān)系快速的串連起來[1]。
1數(shù)據(jù)挖掘模型的概述
當(dāng)要對HDFS讀寫數(shù)據(jù)時(shí),檔案將被切割成小的64MBBlock,NameNode將告知每個(gè)DataNode,切割后的block是存放在哪,DataNode將負(fù)責(zé)做本地端檔案的block數(shù)據(jù)對應(yīng),并且同時(shí)DataNode將對其他DataNode進(jìn)行數(shù)據(jù)復(fù)制備份的動(dòng)作。Hadoop系統(tǒng)的容錯(cuò)率和可擴(kuò)充性來自于DataNode,當(dāng)DataNode出錯(cuò)意外關(guān)機(jī),其它節(jié)點(diǎn)上的數(shù)據(jù)將依然存在,且當(dāng)需動(dòng)態(tài)增刪系統(tǒng)的運(yùn)算量,只需增加DataNode節(jié)點(diǎn)或停止DataNode運(yùn)作。在進(jìn)行社群資料收集與前處理之前,要先了解一下信息擷取與信息過濾的不同之處。在社群網(wǎng)站上隨機(jī)尋找開放目錄上的使用者,而后進(jìn)行下載該使用者發(fā)布數(shù)據(jù)的動(dòng)作是謂信息擷取;而將使用者涂鴉墻上大筆數(shù)據(jù)寫進(jìn)本地端的HDFS系統(tǒng)后,并通過預(yù)先設(shè)定的一些篩選條件式和過濾方法,剔除雜亂的數(shù)據(jù),變成對本研究有用的信息,以利后續(xù)卷標(biāo)計(jì)算與關(guān)鍵詞計(jì)算,這個(gè)過程就叫信息過濾[2]。
2基于數(shù)據(jù)挖掘模型的社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測分析
關(guān)鍵詞分析部份則是針對個(gè)人涂鴉墻頁面和使用者自訂信息頁面進(jìn)行關(guān)鍵詞標(biāo)記,其關(guān)鍵詞來源是使用者自訂信息頁面上含的運(yùn)動(dòng)、音樂、書籍、電影、電視、游戲、宗教、政治八組關(guān)鍵詞。相關(guān)度計(jì)算是利用本研究所提相關(guān)度公式來進(jìn)行個(gè)人涂鴉墻頁面、使用者自訂信息頁面和模擬頁面間的關(guān)聯(lián)運(yùn)算,利用頁面間所含的關(guān)鍵詞,計(jì)算出仿真頁面與使用頁面間的相關(guān)度。并在相關(guān)度計(jì)算階段把社群發(fā)布分析與關(guān)鍵詞分析的結(jié)果做個(gè)交叉分析。之后對此分析結(jié)果進(jìn)行研究評(píng)估。使用者自訂信息頁面有讓使用者自己標(biāo)記自己興趣的分類項(xiàng)目,分為大四大類自訂選項(xiàng),其自訂選項(xiàng)下,包含子項(xiàng)目讓使用者自訂標(biāo)記自己的興趣,而該表的使用者自訂分類項(xiàng)目就是本研究挑選關(guān)鍵詞的依據(jù),本研究挑選運(yùn)動(dòng)、音樂、書籍、電影、電視、游戲、宗教、政治這八個(gè)字作為關(guān)鍵詞標(biāo)記投擲的項(xiàng)目,在此就不考慮同義不同字、字面背后意涵等問題,只考慮第一層的字義[3]。
3社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測的相關(guān)技術(shù)與應(yīng)用
社交網(wǎng)絡(luò)分析一直以來都是個(gè)熱門的話題,所有團(tuán)體成員彼此之間社交關(guān)系的集合就是這個(gè)團(tuán)體的社交網(wǎng)絡(luò),而透過社交網(wǎng)絡(luò)分析可以了解團(tuán)體成員之間的互動(dòng),這分析可應(yīng)用在各種與人有關(guān)的領(lǐng)域上。在學(xué)校里,學(xué)生之間小團(tuán)體的組成及班級(jí)中領(lǐng)導(dǎo)人物與被孤立者的存在,一直都是教育者相當(dāng)關(guān)心的部份。在團(tuán)體精神治療中,成員之間的交流情況是分析治療成果的指標(biāo)之一。在網(wǎng)絡(luò)社群中,了解使用者群體之間的互動(dòng)可以幫助廠商開發(fā)更人性化的網(wǎng)絡(luò)產(chǎn)品。人格特質(zhì)分析也是個(gè)熱門的話題,每個(gè)人的行為都有一套固定的行為模式,而分析這行為模式就是所謂的人格特質(zhì)分析,這分析也可應(yīng)用在各種與人有關(guān)的領(lǐng)域上。在學(xué)校里,不同類型的學(xué)生需要不同方式的教育。在公司面試上,公司透過分析應(yīng)征者的人格模式來錄取所需要的人才[4]。然而,一般心理學(xué)使用的社交網(wǎng)絡(luò)分析與人格特質(zhì)分析都是透過紙筆測驗(yàn),使用大量的人力去取得人際互動(dòng)的信息,考慮團(tuán)體成員間友好的互動(dòng)關(guān)系,并使用方向性的連結(jié)來表達(dá)人們之間的互動(dòng)關(guān)系。目前使用計(jì)算機(jī)視覺技術(shù)的社交網(wǎng)絡(luò)分析系統(tǒng),僅考慮人們同時(shí)出現(xiàn)頻率當(dāng)作親密程度的指針,而且使用無方向性的連結(jié)來表示人們之間的互動(dòng)關(guān)系。因此,我們使用擁有計(jì)算機(jī)視覺技術(shù)的多攝影機(jī)系統(tǒng),透過分析人們之間的互動(dòng)行為,互動(dòng)行為包含互動(dòng)的對象、所表達(dá)的肢體語言與情緒信息,根據(jù)分析所有的互動(dòng)得到團(tuán)體內(nèi)所有成員之間的社交態(tài)度,而這就是這團(tuán)體的社交網(wǎng)絡(luò)。除了友好的互動(dòng)關(guān)系之外,我們還考慮了厭惡的互動(dòng)關(guān)系,并且使用方向性的連結(jié)來表達(dá)人們之間的互動(dòng),這讓我們的社交網(wǎng)絡(luò)分析能更貼切現(xiàn)實(shí)的互動(dòng)情況。通過分析一個(gè)人所有的社交互動(dòng)行為,可以得知此人的行為擁有何種傾向,而這行為模式就是這個(gè)人的人格特質(zhì)。
總之,我們可以根據(jù)觀察分析人們的互動(dòng)行為,得到與人們觀察得到的結(jié)果大同小異的社交網(wǎng)絡(luò)分析,證明我們能透過計(jì)算機(jī)視覺技術(shù)取得貼近現(xiàn)實(shí)的社交網(wǎng)絡(luò)分析,并且比起一般心理學(xué)的社交網(wǎng)絡(luò)分析省下許多不必要的人力。
參考文獻(xiàn):
[1]王云馳,鄧倩妮.關(guān)聯(lián)信息在社交網(wǎng)絡(luò)中傳播的競爭模型[J].微型電腦應(yīng)用,2015,(3):22-24.
[2]魏爽,高華玲.利用數(shù)據(jù)挖掘方法進(jìn)行社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測[J].電腦知識(shí)與技術(shù),2015,(12):46-48.
[3]李陽,王曉巖,王昆,沙瀛.基于社交網(wǎng)絡(luò)的安全關(guān)系研究[J].計(jì)算機(jī)研究與發(fā)展,2012,(S2):124-130.
[4]向程冠,熊世桓,王東.基于關(guān)聯(lián)規(guī)則的社交網(wǎng)絡(luò)好友推薦算法[J].中國科技論文,2014,(1):87-91.
【基于數(shù)據(jù)挖掘的社交網(wǎng)絡(luò)分析與研究論文】相關(guān)文章:
基于仿真與數(shù)據(jù)挖掘的故障診斷方法研究04-28
數(shù)據(jù)挖掘論文04-29
基于空間特性的地形圖數(shù)據(jù)挖掘研究04-29
飛機(jī)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)挖掘方法研究04-27
基于決策樹的我國農(nóng)業(yè)數(shù)據(jù)挖掘分析05-01
地理作用和集聚演化:基于數(shù)據(jù)挖掘的分析05-02
地理作用和集聚演化:基于數(shù)據(jù)挖掘的分析04-29
基于數(shù)據(jù)挖掘技術(shù)的交通事故分析04-26
數(shù)據(jù)挖掘04-29