国产精品久久久久影院免费_免费一级欧美大片app_色屁屁www影院免费观看视频_久久久91精品国产一区二区

職稱論文咨詢網(wǎng),專業(yè)提供留學(xué)生論文、職稱發(fā)表論文等各類論文學(xué)術(shù)咨詢服務(wù)的論文網(wǎng)站。

當(dāng)前位置:首頁 > 論文百科

東北財經(jīng)大學(xué)圖書館用戶借閱記錄數(shù)據(jù)集-經(jīng)濟職稱論文發(fā)表范文

來源:職稱論文咨詢網(wǎng)發(fā)布時間:2022-06-05 21:22:55
摘要利用匯文文獻(xiàn)信息系統(tǒng)抓取了2011-2020年間東北財經(jīng)大學(xué)圖書館用戶借閱數(shù)據(jù),該數(shù)據(jù)包含了用戶信息、借閱信息及圖書信息。通過數(shù)據(jù)匹配和加密處理,共獲得1464729條記錄。其中對用戶信息ID進(jìn)行了UUID重新編碼處理,保證了用戶隱私。本次公開的數(shù)據(jù)集有助于高校圖書館準(zhǔn)確掌握近年來文獻(xiàn)資源利用情況、探尋用戶群體借閱行為的變化趨勢、挖掘用戶閱讀興趣;同時有助于為圖書館館藏布局調(diào)整、資源與服務(wù)的有效推廣及文獻(xiàn)資源精準(zhǔn)化服務(wù)提供決策支持。   關(guān)鍵詞借閱行為借閱記錄數(shù)據(jù)集東北財經(jīng)大學(xué)   0引言   隨著自動化信息系統(tǒng)及數(shù)據(jù)庫技術(shù)在圖書館的快速普及,圖書館存儲了大量用戶的借閱數(shù)據(jù)。通過借閱數(shù)據(jù)、用戶特征及借閱行為影響因素的深入挖掘,已經(jīng)成為圖書館提升館藏文獻(xiàn)利用率、改進(jìn)館藏建設(shè)質(zhì)量、創(chuàng)新文獻(xiàn)個性化推薦服務(wù)的重要手段。   本數(shù)據(jù)集通過東北財經(jīng)大學(xué)圖書館文獻(xiàn)信息管理系統(tǒng)采集的近十年圖書館用戶借還記錄,數(shù)據(jù)完善規(guī)范,在高校圖書館擁有一定代表性[1]。本數(shù)據(jù)集可輔助開展文獻(xiàn)資源利用評估,用戶借閱行為分析,圖書文本信息的智能發(fā)現(xiàn),為用戶提供智能化、精準(zhǔn)化的文獻(xiàn)推薦服務(wù)和知識服務(wù)具有較高的研究和實踐價值。   1數(shù)據(jù)采集和處理方法   本數(shù)據(jù)集涉及數(shù)據(jù)均采集自匯文文獻(xiàn)信息管理系統(tǒng)的后臺Oracle數(shù)據(jù)庫。用戶信息數(shù)據(jù)存儲在READER表中,圖書借還數(shù)據(jù)存儲在LEND_HIST表中,圖書相關(guān)信息數(shù)據(jù)分別存儲在MARC表、INDI_ACCT表及LOCATION表中,其均為結(jié)構(gòu)化數(shù)據(jù)。   1.1數(shù)據(jù)采集和匹配   準(zhǔn)備一臺安裝SQLServer2005關(guān)系型數(shù)據(jù)庫的服務(wù)器專門用于數(shù)據(jù)采集和數(shù)據(jù)匹配。為保證借閱數(shù)據(jù)具有利用價值,本數(shù)據(jù)集不僅采集了發(fā)生借閱行為的用戶信息,而且對借閱文獻(xiàn)的主題、摘要、作者簡介等詳細(xì)信息進(jìn)行了關(guān)聯(lián)。通過SQLServer導(dǎo)入功能將Oracle數(shù)據(jù)庫的READER表、READER_TYPE表、LEND_HIST表、MARC表、DOC_TYPE_CODE表及LOCATION_LST表同步到數(shù)據(jù)采集服務(wù)器的SQLServer2005數(shù)據(jù)庫中。   通過SQL語句關(guān)聯(lián)READER表和LEND_HIST表,關(guān)聯(lián)限制條件為READER表CERT_ID字段與LEND_HIST表CERT_ID_F字段關(guān)聯(lián);READER表關(guān)聯(lián)REDR_TYPE_CODE表,關(guān)聯(lián)限制條件均為REDR_TYPE_CODE字段;LEND_HIST表關(guān)聯(lián)MARC表,關(guān)聯(lián)限制條件為LEND_HIST表MARC_REC_NO_F字段與MARC表的MARC_REC_NO字段關(guān)聯(lián);LEND_HIST表關(guān)聯(lián)INDI_ACCT表,關(guān)聯(lián)限制條件為LEND_HIST表PROP_NO_F字段與INDI_ACCT表的PROP_NO字段關(guān)聯(lián);MARC表關(guān)聯(lián)DOC_TYPE_CODE表,關(guān)聯(lián)限制條件為均為DOC_TYPE_CODE字段;LEND_HIST表關(guān)聯(lián)LOCATION_LST表,關(guān)聯(lián)限制條件為LEND_HIST表LOCATION_F字段LOCATION_LST表的LOCATION字段。   由于文獻(xiàn)信息中關(guān)聯(lián)了主題、文摘(摘要)、作者簡介等信息,上述三部分內(nèi)容存儲在MARC表的同一字段中,不便于區(qū)分。因此在實際數(shù)據(jù)采集中,我們利用匯文文獻(xiàn)自動化的系統(tǒng)管理模塊中MARC字段導(dǎo)出功能,將606、330、314字段的相關(guān)含有主題、文摘及作者介紹等數(shù)據(jù)導(dǎo)出到文本文件中,再將文本數(shù)據(jù)導(dǎo)入至SQLServer數(shù)據(jù)庫中,最后進(jìn)行用戶信息表、借閱記錄信息表及文獻(xiàn)信息表的關(guān)聯(lián)匹配,一共匯總到1464729條記錄。   1.2數(shù)據(jù)清洗   借閱用戶的信息采集了學(xué)生用戶的學(xué)號及教工用戶的職工號,用戶的學(xué)號及職工號信息屬于學(xué)校師生個人敏感數(shù)據(jù),為了避免隱私數(shù)據(jù)泄露,對數(shù)據(jù)進(jìn)行了脫敏處理。首先給每條用戶記錄增加UUID編碼,實際上就是用UUID來代替用戶ID,保證ID的唯一性。UUID是通用唯一識別碼(UniversallyUniqueIdentifier)的縮寫[2],在任何一臺計算機或服務(wù)器上生成的數(shù)字,在所有空間和時間上被視為唯一的。對用戶記錄ID重新編碼后,可以直接抹去用戶ID,再用UUID與密鑰拼接進(jìn)行MD5加密,可完全保證使用者安全利用數(shù)據(jù)。   匯文系統(tǒng)中的用戶性別是來源于學(xué)校一卡通中心同步數(shù)據(jù),但大部分性別不準(zhǔn)確。為盡可能保證性別的準(zhǔn)確性,利用用戶信息的身份證ID字段,來修正用戶的性別信息,修正完成后抹去身份證字段。但早期注冊用戶缺失身份證ID信息或性別數(shù)據(jù)的,SEX字段統(tǒng)一置為NULL值。為了區(qū)分用戶的年齡段,根據(jù)身份證ID信息提取用戶的出生年信息存入BIRTHYEAR字段。但有個別用戶的身份證在原始數(shù)據(jù)錄入時錯誤或存入了非身份證信息(軍官證號、護(hù)照號、考號等),都會導(dǎo)致提取的值存在異常,例如出現(xiàn)“1016”、“1086”、“2886”及“2(3)”等異常值。   通過與原始數(shù)據(jù)進(jìn)行比對,將明顯錯誤的BIRTHYEWAR字段進(jìn)行了修正,但對于無法獲取用戶身份證信息的BIRTHYEAR字段賦予NULL值。年級組字段(CODE01)在數(shù)據(jù)同步時,不同年份學(xué)校一卡通中心提供的字段值有所區(qū)別,因此年級組字段根據(jù)用戶注冊年份來修正。出版年字段中含有字母和其他非數(shù)字字符的,需要將字母和非數(shù)字字符清洗掉,只保留年份。單位字段(DEPT)和專業(yè)字段(OCCUPATION)中含有括弧、空格及其他特殊字符也需要清洗。另外,對于單位或?qū)I(yè)的文字表述,有的年份是全稱,有的年份是簡稱,需要盡可能對同一單位或?qū)I(yè)的數(shù)據(jù)進(jìn)行名稱統(tǒng)一化處理。用戶字段數(shù)據(jù)均來源一卡通同步數(shù)據(jù),存在部分字段為空值的記錄。   借閱歷史表中財產(chǎn)號字段(PROP_NO_F),可以唯一識別借閱數(shù)據(jù)中每冊文獻(xiàn)。為了隱去原有系統(tǒng)的財產(chǎn)號信息,我們?nèi)匀徊捎肬UID編碼的方法生成每冊文獻(xiàn)的唯一記錄號信息。數(shù)據(jù)處理中首先對文獻(xiàn)財產(chǎn)表(INDI_ACCT)的每冊圖書信息進(jìn)行編碼存入BOOK_ID字段,再將BOOK_ID字段關(guān)聯(lián)到圖書借閱信息表中。   從匯文系統(tǒng)管理模塊導(dǎo)出的借閱文獻(xiàn)主題詞存儲在了不同的字段,為了方便數(shù)據(jù)使用,我們將每個主題詞之間用分號隔開,對主題詞中含有“①”、“-”及空格等特殊字符進(jìn)行了清洗,并合并到一個字段(SUB)。對于匯文系統(tǒng)沒有主題描述的,均賦予空值。以上數(shù)據(jù)清洗的過程在SQLServer2005數(shù)據(jù)庫查詢編輯器中完成,部分清洗語句如下:生成UUID編碼語句(去掉字符中的“-”):select*,replace(newId(),'-','')asUUIDinto用戶表1from原始用戶表;年級組字段修正語句:update用戶表1setCODE01=substring(REDR_REG_DAY,1,4);MD5加密語句(去掉字符中的”0x”):select*,replace(sys.fn_sqlvarbasetostr(HashBytes('MD5','拼接字符串1'+UUID+'拼接字符串2')),'0x','')USERIDinto清洗完成用戶表from用戶表1;性別字段修正語句:SelectUSERID,DEPT,OCCUPATION,REDR_REG_DAY,CODE01,REDR_TYPE_CODE,casewhenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=0then'女'whenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=1then'男'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=1then'男'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=1then'男'elseNULLendasSEXinto用戶表2FROM用戶表1;出版年字段修正語句UPDATE文獻(xiàn)信息表SETPUB_YEAR=replace(replace(PUB_YEAR,'c',''),'.','')wherePUB_YEARlike'c%';主題詞特殊字符處理和合并語句:update借閱歷史表setSUB=ISNULL(SUB1+';','')+ISNULL(SUB2+';','')+ISNULL(SUB3+';','');update借閱歷史表SETSUB=LEFT(SUB,len(SUB)-1)whereLEN(SUB)>0;   2數(shù)據(jù)字典、數(shù)據(jù)樣本和數(shù)據(jù)量   數(shù)據(jù)集包含用戶信息、借閱信息及文獻(xiàn)信息三大部分。   3數(shù)據(jù)質(zhì)量控制   本數(shù)據(jù)集涉及所有數(shù)據(jù)均由匯文系統(tǒng)后臺Oracle數(shù)據(jù)庫和系統(tǒng)管理模塊采集。為了保證數(shù)據(jù)質(zhì)量,通過匯文流通模塊的流通日志和統(tǒng)計模塊對近十年的用戶借閱記錄進(jìn)行了核實,流通借閱日志和統(tǒng)計模塊的借閱統(tǒng)計數(shù)據(jù)均與從后臺提取的借閱記錄條數(shù)一致,確保了數(shù)據(jù)采集準(zhǔn)確無遺漏。另外選取多個用戶(不同用戶類型),從流通管理模塊用戶個人借閱歷史記錄查詢,并與本數(shù)據(jù)集比對,數(shù)據(jù)信息內(nèi)容均一致[1]。最后通過匯文統(tǒng)計模塊的書刊信息查詢功能,對本數(shù)據(jù)集的借閱文獻(xiàn)的摘要、主題詞、作者介紹等信息進(jìn)了抽查核對,所采集信息均與MARC詳細(xì)信息借閱文獻(xiàn)信息一致,確保了數(shù)據(jù)真實可靠。   4數(shù)據(jù)價值   本數(shù)據(jù)集包含2011-2020年間東北財經(jīng)大學(xué)圖書館用戶在利用圖書館文獻(xiàn)過程中產(chǎn)生的借閱行為數(shù)據(jù),數(shù)據(jù)字段較為豐富(22個),對高校圖書館用戶的文獻(xiàn)利用評估、用戶借閱行為分析和用戶需求預(yù)測等具有重要意義。近十年用戶借閱數(shù)據(jù)是對圖書館館藏進(jìn)行評價的數(shù)據(jù)基礎(chǔ),通過對這些數(shù)據(jù)的分析,不僅可全面評估現(xiàn)有館藏結(jié)構(gòu)及文獻(xiàn)保障水平[3],而且可從借閱時間變化趨勢、不同用戶類型借閱特征、熱門借閱文獻(xiàn)、借閱文獻(xiàn)主題詞熱度等多維度出發(fā),為高校圖書館文獻(xiàn)資源建設(shè)創(chuàng)新服務(wù)、用戶多元化服務(wù)、個性化推薦服務(wù)等提供科學(xué)的決策依據(jù)。   5數(shù)據(jù)使用方法和建議   本數(shù)據(jù)集可采用Tableau、Excel、SPSS、Python語言及關(guān)系型數(shù)據(jù)庫等軟件工具進(jìn)行統(tǒng)計分析[1]。例如,針對年度熱門借閱文獻(xiàn)的特點進(jìn)行可視化分析;根據(jù)近十年年度借閱量統(tǒng)計數(shù)據(jù)分析用戶文獻(xiàn)借閱量的變化趨勢;根據(jù)用戶的年齡、性別、單位、專業(yè)等屬性來分析不同用戶的借閱特征和借閱頻率差異;通過時間序列分析借閱文獻(xiàn)主題詞詞熱度在一年中的變化趨勢。   圖書館論文范例:圖書館閱讀推廣的問題表現(xiàn)與優(yōu)化對策   根據(jù)近十年的用戶借閱記錄進(jìn)行統(tǒng)計性描述分析,選擇目標(biāo)用戶群體和某大類圖書作為研究對象,對圖書的摘要簡介和主題詞進(jìn)行分析,借助相關(guān)模型進(jìn)行主題挖掘,將主題化后的特征與用戶的借閱行為特征進(jìn)行融合分析,探索用戶的借閱關(guān)系,興趣變化趨勢,設(shè)計特征融合的推薦模型,為用戶提供更友好、更準(zhǔn)確的圖書推薦和導(dǎo)引,提高文獻(xiàn)服務(wù)的效率[4];可引入深度學(xué)習(xí)相關(guān)算法,將近十年歷史數(shù)據(jù)形成用戶借閱行為的共現(xiàn)矩陣,研究滿足用戶多樣化需求的推薦模型[5];還可結(jié)合用戶的社交媒體行為、科研行為、校內(nèi)學(xué)習(xí)行為等圖書館外部數(shù)據(jù)進(jìn)行融合分析,盡可能全面和精確地構(gòu)建用戶畫像,滿足深入研究圖書館用戶借閱行為的需求,提高數(shù)據(jù)的使用價值[6]。   5.1數(shù)據(jù)引用格式   李榮,廖映紅,李雙.東北財經(jīng)大學(xué)圖書館用戶借閱記錄數(shù)據(jù)集[DB/OL].[日期].hdl:20.500.12304/10566.V1[Version]   5.2論文引用格式李榮,廖映紅,李雙.東北財經(jīng)大學(xué)圖書館用戶借閱記錄數(shù)據(jù)集[J/OL].圖書館雜志,2020   參考文獻(xiàn)   [1]肖錚,吳至藝,林俊偉.2007-2017年廈門大學(xué)圖書館紙質(zhì)文獻(xiàn)借閱記錄數(shù)據(jù)集[J].圖書館雜志,2020,39(6):113-117.   [2]百度百科.UUID[EB/OL].[2020-11-30].https://baike.baidu.com/item/UUID/5921266?fr=aladdin.   [3]李榮,王慶石,李雙,等.基于讀者行為大數(shù)據(jù)的圖書館精準(zhǔn)服務(wù)與管理創(chuàng)新研究——以東北財經(jīng)大學(xué)圖書館為例[J].圖書館研究,2018,48(3):19-23.   [4]施國良,張瀟瀟,楊小莉.高校讀者群體差異對其借閱行為和閱讀偏好的影響研究[J].圖書館,2020(4):59-64;78.   作者:李榮廖映紅李雙
相關(guān)閱讀
學(xué)術(shù)咨詢服務(wù)
?