- 相關(guān)推薦
網(wǎng)易數(shù)據(jù)面試試題
一、問答題
a) 欠擬合和過擬合的原因分別有哪些?如何避免?
欠擬合:模型過于簡單;過擬合:模型過于復(fù)雜,且訓(xùn)練數(shù)據(jù)太少。
b) 決策樹的父節(jié)點(diǎn)和子節(jié)點(diǎn)的熵的大小?請(qǐng)解釋原因。
父節(jié)點(diǎn)的熵>子節(jié)點(diǎn)的熵
c) 衡量分類算法的準(zhǔn)確率,召回率,F(xiàn)1值。
d) 舉例序列模式挖掘算法有哪些?以及他們的應(yīng)用場(chǎng)景。
DTW(動(dòng)態(tài)事件規(guī)整算法):語音識(shí)別領(lǐng)域,判斷兩端序列是否是同一個(gè)單詞。
Holt-Winters(三次指數(shù)平滑法):對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。時(shí)間序列的趨勢(shì)、季節(jié)性。
Apriori
Generalized Sequential Pattern(廣義序貫?zāi)J?
PrefixSpan
二、計(jì)算題
1) 給你一組向量a,b
a) 計(jì)算二者歐氏距離
(a-b)(a-b)T
即:
b) 計(jì)算二者曼哈頓距離
2) 給你一組向量a,b,c,d
a) 計(jì)算a,b的Jaccard相似系數(shù)
b) 計(jì)算c,d的向量空間余弦相似度
c) 計(jì)算c、d的皮爾森相關(guān)系數(shù)
即線性相關(guān)系數(shù)。
或者
三、(題目記得不是很清楚)
一個(gè)文檔-詞矩陣,給你一個(gè)變換公式tfij’=tfij*log(m/dfi);其中tfij代表單詞i在文檔f中的頻率,m代表文檔數(shù),dfi含有單詞i的文檔頻率。
1) 只有一個(gè)單詞只存在文檔中,轉(zhuǎn)換的結(jié)果?(具體問題忘記)
2) 有多個(gè)單詞存在在多個(gè)文檔中,轉(zhuǎn)換的結(jié)果?(具體問題忘記)
3) 公式變換的目的?
四、推導(dǎo)樸素貝葉斯分類P(c|d),文檔d(由若干word組成),求該文檔屬于類別c的概率,并說明公式中哪些概率可以利用訓(xùn)練集計(jì)算得到。
五、給你五張人臉圖片。
可以抽取哪些特征?按照列出的特征,寫出第一個(gè)和最后一個(gè)用戶的特征向量。
六、考查ID3算法,根據(jù)天氣分類outlook/temperature/humidity/windy。(給你一張離散型的圖表數(shù)據(jù),一般學(xué)過ID3的應(yīng)該都知道)
a) 哪一個(gè)屬性作為第一個(gè)分類屬性?
b) 畫出二層決策樹。
七、購物籃事物(關(guān)聯(lián)規(guī)則)
一個(gè)表格:事物ID/購買項(xiàng)。
1) 提取出關(guān)聯(lián)規(guī)則的最大數(shù)量是多少?(包括0支持度的規(guī)則)
2) 提取的頻繁項(xiàng)集的最大長度(最小支持>0)
3) 找出能提取出4-項(xiàng)集的最大數(shù)量表達(dá)式
4) 找出一個(gè)具有最大支持度的項(xiàng)集(長度為2或更大)
5) 找出一對(duì)項(xiàng)a,b,使得{a}->和->{a}有相同置信度。
八、一個(gè)發(fā)布優(yōu)惠劵的網(wǎng)站,如何給用戶做出合適的推薦?有哪些方法?設(shè)計(jì)一個(gè)合適的系統(tǒng)(線下數(shù)據(jù)處理,存放,線上如何查詢?)
http://www.szmdbiao.com/【網(wǎng)易數(shù)據(jù)面試試題】相關(guān)文章:
網(wǎng)易在線筆試題目10-19
網(wǎng)易面試技巧(2)07-25
大數(shù)據(jù)技術(shù)Hadoop面試題,看看你能答對(duì)多少?08-28
網(wǎng)易游戲部門面試問題(2)06-25
面試中常見的面試試題08-21
Microsoft面試題09-04
iOS面試題07-10
Spring面試試題09-19
經(jīng)典常見的面試試題09-14