精品欧美激情精品一区,亚洲自拍的二区三区,亚洲综合精品一区二区,国产伦精品一区二区三区视频免费


學(xué)AI,好工作 就找北大青鳥
關(guān)注小青 聽課做題,輕松學(xué)習(xí)
周一至周日
4000-9696-28

一招教你使用Hive處理文本數(shù)據(jù)

來源:北大青鳥總部 2022年12月19日 13:46

摘要: 現(xiàn)在需要對招聘市場不同崗位的核心技能點做一個調(diào)研,針對性的分析崗位描述,把其中關(guān)鍵詞給取出來,出現(xiàn)次數(shù)最多的那幾個關(guān)鍵詞就是該崗位的核心技能關(guān)鍵詞。

小編在學(xué)習(xí)了幾個月的大數(shù)據(jù)之后,終于接到了老板派來的活啦?。。∮泻诵募夹g(shù)在手,感覺走路都輕快了許多呢。這個需求呢實際上非常簡單且明確。

現(xiàn)在老板需要我對招聘市場不同崗位的核心技能點做一個調(diào)研,現(xiàn)在我們手上大概有一些數(shù)據(jù),數(shù)據(jù)是一些招聘相關(guān)的數(shù)據(jù),在數(shù)據(jù)中有一個字段為崗位描述,顧名思義,找過工作的同學(xué)都能知道崗位描述是啥意思,尤其是像你們沒學(xué)大數(shù)據(jù)的同學(xué),可能已經(jīng)翻看了無數(shù)工作機會還沒有找到工作吧吼吼,小編學(xué)習(xí)完大數(shù)據(jù)之后可是立馬找到工作了呢。

崗位描述實際就是一段話,表示這個崗位需要應(yīng)聘者具備某些能力或者技能來足以勝任這份工作。有了這個數(shù)據(jù),小編初步的調(diào)研方案是這樣的:

針對性的分析這個字段的數(shù)據(jù),把其中所有的關(guān)鍵詞給取出來,然后按照每一條數(shù)據(jù)對應(yīng)的崗位,根據(jù)崗位進行分組計數(shù),那樣的話我就可以得出每一個崗位對應(yīng)的每一個關(guān)鍵詞出現(xiàn)的次數(shù)了,然后當(dāng)然出現(xiàn)次數(shù)最多的那幾個關(guān)鍵詞就是該崗位的核心技能關(guān)鍵詞啦。計劃非常完美。

現(xiàn)在的小編滿腦子都是將任務(wù)完美完成,然后得到老板賞識,升值加薪,迎娶白富美的橋段。可是萬事俱備,只欠東風(fēng)。有一個非常重要的問題就是如何將一堆文本(崗位描述)轉(zhuǎn)換成一個個的詞?也就是我們常說的分詞,今天我們就來介紹一下如何完美的完成這個任務(wù)。干貨時間到。


首先這次任務(wù)咱們使用Hive來進行數(shù)據(jù)處理和分析,通過查詢Hive文檔發(fā)現(xiàn)Hive內(nèi)置函數(shù)無法實現(xiàn)分詞,但是Hive提供UDF支持用戶自定義函數(shù)來實現(xiàn)更多的功能。開發(fā)UDF的過程大致分為(使用Java語言):

  • 創(chuàng)建一個用于編寫UDF的Maven項目

  • 導(dǎo)入相關(guān)大數(shù)據(jù)依賴,其中最重要的是hive-exec和hadoop-common

  • 創(chuàng)建一個類并且繼承自UDF類

  • 重寫類中的evaluate()方法,并且在方法中定義邏輯

  • 對Maven項目進行打包,將jar包上傳至HDFS中

  • 在Hive中添加方法關(guān)聯(lián)該jar包中的UDF類,之后就可以使用該方法實現(xiàn)想要的功能了


需要注意的是,繼承自UDF類,evaluate()方法的輸入是一條數(shù)據(jù),輸出也是一條數(shù)據(jù),可以想象一下就是在Hive中一條數(shù)據(jù)進來,經(jīng)過轉(zhuǎn)換后返回一條轉(zhuǎn)換后的數(shù)據(jù),這與我們常用的lower()/upper()函數(shù)類似。在Hive中,還有其他形式的自定義函數(shù)類,比如UDAF、UDTF,其中UDAF是多行輸入返回一行,例如聚合函數(shù)sum()/count(),UDTF是一行輸入返回多行,例如爆炸函數(shù)explode()。具體詳情同學(xué)們自行搜索學(xué)習(xí)吧。

下面開始編寫分詞的UDF,首先當(dāng)然是導(dǎo)入相關(guān)依賴了,實現(xiàn)分詞的庫有很多,小編選擇的是java常用的IK分詞器,依賴的名稱是ikanalyzer。

之后我們可以定義相關(guān)的黑名單詞和偏好詞,因為我們要最終得到我們想要的關(guān)鍵詞,那么們最好把一些沒什么用的詞去掉,例如“我的”,“崗位”,“很好”等等這一系列詞存放成黑名單,因為最后我們不想把得出來的關(guān)鍵詞是這種沒有意義的詞。當(dāng)然偏好詞也有必要,因為分詞工具都是通過一定的語料和算法來進行分詞的,它有時候也會將一些詞分錯,例如“機器學(xué)習(xí)”這個詞,可能分詞工具會將它分為“機器”“學(xué)習(xí)”這兩個詞,但是很明顯對于崗位來說,這明顯就是一個技能詞,所以我們將這種專有名詞設(shè)置成偏好詞讓分詞器下次遇到這些詞的時候不要分錯。



將停止詞放入stopword.dic中,將偏好詞放入extword.dic中,每一個詞占一行即可,然后在IKAnalyzer.cfg.xml中配置這兩個文件的路徑,之后IK分詞器就會自動的加載我們自定義的停止詞和偏好詞了。



接下來編寫主類UDF。



UDF的大致意思就是對傳入的字符串做分詞,分詞后在通過特殊符號“\001”來對每一個詞進行拼接,最終返回一個拼接好的字符串。

根據(jù)開發(fā)UDF的步驟,將UDF打成jar包并上傳到HDFS,并在Hive中創(chuàng)建方法關(guān)聯(lián)該jar包。



總之使用HiveSQL一通十三招將所有的任務(wù)完成,SQL在這就不給大伙兒解釋了,最終我們由原始數(shù)據(jù),得到了最終我們想要的數(shù)據(jù)。




從我們對數(shù)據(jù)的處理和分析結(jié)果來看,算法崗位(job_tag)對關(guān)鍵字(sub)“算法”、“c++”、“機器學(xué)習(xí)”這些技術(shù)都有相當(dāng)大的需求,因為在算法崗位描述中,“算法”這個詞出現(xiàn)6366次,“c++”出現(xiàn)3706次,“機器學(xué)習(xí)”出現(xiàn)3385次,都是出現(xiàn)次數(shù)最高的幾個關(guān)鍵詞。


標(biāo)簽: hive
熱門班型時間
人工智能就業(yè)班 即將爆滿
AI應(yīng)用線上班 即將爆滿
UI設(shè)計全能班 即將爆滿
數(shù)據(jù)分析綜合班 即將爆滿
軟件開發(fā)全能班 爆滿開班
網(wǎng)絡(luò)安全運營班 爆滿開班
報名優(yōu)惠
免費試聽
課程資料
官方微信
返回頂部
培訓(xùn)課程 熱門話題 站內(nèi)鏈接
精品欧美激情精品一区,亚洲自拍的二区三区,亚洲综合精品一区二区,国产伦精品一区二区三区视频免费
奇米影视一区二区三区| 亚洲乱码精品一二三四区日韩在线| 国产精品国产自产拍在线| 亚洲成a人v欧美综合天堂| 国产麻豆精品在线观看| 国产精品日韩一区二区三区| 一本一本a久久| 欧美sm极限捆绑bd| 一区二区三区.www| 国产精品18久久久久久久网站| 国产精品欧美久久| 欧洲人成人精品| 中文字幕av不卡| 美女视频黄频大全不卡视频在线播放| 91精品久久香蕉国产线看观看| 色综合电影网| 精品国产三级a在线观看| 夜夜嗨av一区二区三区 | 欧美午夜欧美| 91麻豆精品国产91久久久使用方法| 国产精品久久夜| 狠狠色丁香久久婷婷综合_中| 国产精品一国产精品最新章节| 在线影视一区二区三区| 欧美高清在线视频| 久久99精品国产麻豆婷婷| 国产欧美在线一区二区| 欧美日韩大陆一区二区| 亚洲色图都市小说| 成人午夜激情视频| 亚洲资源视频| 亚洲国产精品黑人久久久| 黄色日韩三级电影| 日本不卡一区二区三区视频| 日韩免费福利电影在线观看| 亚洲国产精品人人做人人爽| 91在线小视频| 欧美色综合天天久久综合精品| 日韩美女视频一区| 成人中文字幕电影| 日本精品一级二级| 国产精品国产三级国产专播品爱网| 激情亚洲综合在线| 日韩激情视频| 欧美国产精品劲爆| 国产激情视频一区二区在线观看| 日韩欧美一区二区三区四区五区| 精品噜噜噜噜久久久久久久久试看 | 伊人久久大香线蕉av一区| 欧美激情一区二区三区蜜桃视频| 国产在线日韩欧美| 亚洲欧美国产一区二区| 91精品国产麻豆| 午夜精品成人在线| 久久国产精品亚洲va麻豆| 日韩欧美精品在线| 美女视频第一区二区三区免费观看网站| 精品国产免费一区二区三区| 欧美大片一区二区三区| 蜜桃av一区二区| 日韩av在线一区二区三区| 欧美韩国日本一区| 成人精品一区二区三区中文字幕| 色八戒一区二区三区| 悠悠色在线精品| 国产精品一级久久久| 欧美成人三级电影在线| 精品无人区卡一卡二卡三乱码免费卡| 日韩wuma| 亚洲女同女同女同女同女同69| 99re8在线精品视频免费播放| 欧美人妇做爰xxxⅹ性高电影| 午夜亚洲福利老司机| 欧美精品欧美精品系列c| 日本一区二区免费在线观看视频| 成人国产精品免费观看| 欧美浪妇xxxx高跟鞋交| 日本成人在线视频网站| 亚洲国产成人不卡| 亚洲精品国产一区二区精华液| 粉嫩精品一区二区三区在线观看 | 国产福利精品导航| 欧美午夜精品一区二区三区| 三级久久三级久久| 亚洲电影一二三区| 亚洲综合丁香婷婷六月香| 久久青青草原一区二区| 国产精品美女www爽爽爽| 99在线视频播放| 久久久夜色精品亚洲| 不卡一二三区首页| 日韩精品一区二区在线观看| 国产乱人伦偷精品视频不卡| 欧美系列一区二区| 久久精品国产色蜜蜜麻豆| 欧美性欧美巨大黑白大战| 日本欧美加勒比视频| 精品一区久久久久久| 国产欧美日韩三级| 国产精品久久久久av福利动漫| 久久久91精品国产一区二区精品 | 亚欧精品在线| 亚洲国产精品一区二区久久| 日韩精品久久一区二区三区| 亚洲精选一二三| 欧美精品七区| 亚洲一区二区黄色| 亚洲高清视频一区二区| 香蕉加勒比综合久久| 亚洲免费在线精品一区| 午夜av电影一区| 色婷婷综合久久| 久久精工是国产品牌吗| 欧美日本乱大交xxxxx| 国产精品一区二区三区四区| 欧美一区二区精美| 波多野结衣欧美| 国产三级一区二区三区| 国产91aaa| 亚洲美女免费视频| 亚洲精品电影在线一区| 日韩av高清在线观看| 欧美视频自拍偷拍| 国产成人综合亚洲91猫咪| 欧美刺激脚交jootjob| 1卡2卡3卡精品视频| 国产精品毛片久久久久久久| 久久偷看各类wc女厕嘘嘘偷窃 | 日本一区二区精品| 午夜精彩视频在线观看不卡| 欧亚洲嫩模精品一区三区| 国内精品伊人久久久久av影院| 欧美一区二区三区不卡| 91视频xxxx| 亚洲人123区| 一区二区三区四区欧美| 黄一区二区三区| 精品伦理精品一区| 国产原创精品| 亚洲成人激情自拍| 欧美日韩一区二区三区在线| 国产成人日日夜夜| 亚洲国产精品国自产拍av| 欧美二区在线看| 男人操女人的视频在线观看欧美| 欧美日韩1234| 999国产在线| 亚洲一区av在线| 欧美区视频在线观看| 成人久久视频在线观看| 国产精品久久一卡二卡| 亚洲午夜在线观看| 国产精品影音先锋| 中文幕一区二区三区久久蜜桃| 日本一区视频在线播放| 久久丁香综合五月国产三级网站| 日韩欧美国产三级电影视频| 国产一区二区在线观看免费播放| 午夜电影一区二区三区| 欧美一区二区三区视频免费 | 国产精品国产三级国产a| 亚洲欧美电影在线观看| 国产精品正在播放| 国产精品成人在线观看| 色呦呦日韩精品| 99久久综合狠狠综合久久| 亚洲男人的天堂av| 欧美猛男gaygay网站| 99久久综合狠狠综合久久止| 亚洲一区二区三区四区的| 欧美丰满少妇xxxxx高潮对白| 俄罗斯精品一区二区三区| 亚洲成国产人片在线观看| 日韩一级片网站| 欧美成人免费在线| 国产一区二区三区不卡在线观看 | 欧美成人性战久久| 欧美日韩一区在线观看视频| 国内成人自拍视频| 国产精品久久久久久久蜜臀| 色综合久久中文字幕综合网| av在线不卡免费看| 亚洲午夜激情av| 精品久久久久久久一区二区蜜臀| 久久精品美女| 国产麻豆精品theporn| 成人免费在线视频| 欧美伦理电影网| 蜜桃网站成人| 国产精品白丝av| 亚洲综合激情小说| 精品国产乱码91久久久久久网站| 日产精品久久久一区二区| 盗摄精品av一区二区三区| 悠悠色在线精品| 亚洲精品在线免费播放| 一本色道久久99精品综合| 91在线观看网站| 久久成人av少妇免费| 最近中文字幕一区二区三区|