用CNN卷積的情況,這里面有幾個(gè)關(guān)鍵點(diǎn):
一個(gè)是文本跟圖片不一樣,圖片有長(cháng)寬,然后還有深度(RGB)。對應到文本上,假設文章總共N個(gè)詞,每個(gè)詞嵌入維度K維,那么輸入是N *
K的,N可以理解為高度,K作為長(cháng)度,深度為1。那么卷積的時(shí)候的特征抽取器(filter)高度h一般設置多大呢?
一般可以從3開(kāi)始,表示捕獲住trigram特征。
更多的是使用幾種不同的filter(比如有高度各為2,3,5的)。 特征抽取器(filter)的長(cháng)度一般設置為詞向量的維度,這樣保證每個(gè)filter抽取出來(lái)一個(gè)N-h+1個(gè)特征點(diǎn),而不是一個(gè)平面(想想為什么)。
最重要的,在文本上work的pooling層一般是max-pooling,對每個(gè)filter應用整個(gè)序列上的max-pooling得到一個(gè)特征點(diǎn)(也有用k-max-pooling得到k個(gè)點(diǎn)),組合多個(gè)filter就能得到一系列特征,最后一個(gè)全連接層做分類(lèi)。
這里為什么是max-pooling而不是min-pooling呢?一般來(lái)說(shuō),pooling后我們引入非線(xiàn)性是用Relu,relu對于小于0的直接就不激活了。
然后我們對比圖像的深度,文本一般深度只有一個(gè),如何增加深度以及為什么增加呢?
一般我們的詞向量都是先預訓練出來(lái)的,然后在一個(gè)特定任務(wù)上使用,梯度會(huì )回傳回來(lái)進(jìn)一步finetune,如果語(yǔ)料不是特別大,這個(gè)finetune過(guò)程只會(huì )對部分詞進(jìn)行更新,有些詞就一直不動(dòng),這樣在測試階段,出現那些沒(méi)finetune到的詞就會(huì )有所偏差。我們可以同時(shí)使用兩份詞向量(相當于通道數為2,深度加深為2),一份finetune一份靜態(tài)地不更新,來(lái)緩解前面提到的問(wèn)題。
二)
對于RNN做文本分類(lèi),相當于把每個(gè)詞作為一個(gè)時(shí)間節點(diǎn),把詞向量作為每個(gè)單元的輸入特征,一般會(huì )組合前向以及后向來(lái)構成雙向特征,計算后每個(gè)單元有個(gè)狀態(tài)特征以及輸出特征,文本分類(lèi)一般組合每一個(gè)單元的輸出特征求個(gè)平均喂給全連接層來(lái)做分類(lèi)。
求平均這個(gè)操作可以替換為更通用的注意力機制,復雜度更高點(diǎn),效果更好。
復雜點(diǎn)的模型會(huì )分層來(lái)做,句子界別的rnn然后attention,最后文檔級別在前一層的基礎上再rnn+attention,效果據說(shuō)能更進(jìn)一步提升。
數學(xué)基礎
如果你能夠順暢地讀懂深度學(xué)習論文中的數學(xué)公式,可以獨立地推導新方法,則表明你已經(jīng)具備了必要的數學(xué)基礎。
掌握數學(xué)分析、線(xiàn)性代數、概率論和凸優(yōu)化四門(mén)數學(xué)課程包含的數學(xué)知識,熟知機器學(xué)習的基本理論和方法,是入門(mén)深度學(xué)習技術(shù)的前提。因為無(wú)論是理解深度網(wǎng)絡(luò )中各個(gè)層的運算和梯度推導,還是進(jìn)行問(wèn)題的形式化或是推導損失函數,都離不開(kāi)扎實(shí)的數學(xué)與機器學(xué)習基礎。
數學(xué)分析
在工科專(zhuān)業(yè)所開(kāi)設的高等數學(xué)課程中,主要學(xué)習的內容為微積分。對于一般的深度學(xué)習研究和應用來(lái)說(shuō),需要重點(diǎn)溫習函數與極限、導數(特別是復合函數求導)、微分、積分、冪級數展開(kāi)、微分方程等基礎知識。在深度學(xué)習的優(yōu)化過(guò)程中,求解函數的一階導數是最為基礎的工作。當提到微分中值定理、Taylor公式和拉格朗日乘子的時(shí)候,你不應該只是感到與它們似曾相識。
線(xiàn)性代數
深度學(xué)習中的運算常常被表示成向量和矩陣運算。線(xiàn)性代數正是這樣一門(mén)以向量和矩陣作為研究對象的數學(xué)分支。需要重點(diǎn)溫習的包括向量、線(xiàn)性空間、線(xiàn)性方程組、矩陣、矩陣運算及其性質(zhì)、向量微積分。當提到Jacobian矩陣和Hessian矩陣的時(shí)候,你需要知道確切的數學(xué)形式;當給出一個(gè)矩陣形式的損失函數時(shí),你可以很輕松的求解梯度。
概率論
概率論是研究隨機現象數量規律的數學(xué)分支,隨機變量在深度學(xué)習中有很多應用,無(wú)論是隨機梯度下降、參數初始化方法(如Xavier),還是Dropout正則化算法,都離不開(kāi)概率論的理論支撐。除了掌握隨機現象的基本概念(如隨機試驗、樣本空間、概率、條件概率等)、隨機變量及其分布之外,還需要對大數定律及中心極限定理、參數估計、假設檢驗等內容有所了解,進(jìn)一步還可以深入學(xué)習一點(diǎn)隨機過(guò)程、馬爾可夫隨機鏈的內容。
凸優(yōu)化
結合以上三門(mén)基礎的數學(xué)課程,凸優(yōu)化可以說(shuō)是一門(mén)應用課程。但對于深度學(xué)習而言,由于常用的深度學(xué)習優(yōu)化方法往往只利用了一階的梯度信息進(jìn)行隨機梯度下降,因而從業(yè)者事實(shí)上并不需要多少“高深”的凸優(yōu)化知識。理解凸集、凸函數、凸優(yōu)化的基本概念,掌握對偶問(wèn)題的一般概念,掌握常見(jiàn)的無(wú)約束優(yōu)化方法如梯度下降方法、隨機梯度下降方法、Newton方法,了解一點(diǎn)等式約束優(yōu)化和不等式約束優(yōu)化方法,即可滿(mǎn)足理解深度學(xué)習中優(yōu)化方法的理論要求。
機器學(xué)習
歸根結底,深度學(xué)習只是機器學(xué)習方法的一種,而統計機器學(xué)習則是機器學(xué)習領(lǐng)域事實(shí)上的方法論。以監督學(xué)習為例,需要你掌握線(xiàn)性模型的回歸與分類(lèi)、支持向量機與核方法、隨機森林方法等具有代表性的機器學(xué)習技術(shù),并了解模型選擇與模型推理、模型正則化技術(shù)、模型集成、Bootstrap方法、概率圖模型等。深入一步的話(huà),還需要了解半監督學(xué)習、無(wú)監督學(xué)習和強化學(xué)習等專(zhuān)門(mén)技術(shù)。
第一章 數據庫基礎知識本章以概念為主,主要是了解數據庫的基本概念,數據庫技術(shù)的發(fā)展,數據模型,重點(diǎn)是關(guān)系型數據。
第一節:信息,數據與數據處理一、信息與數據:1、信息:是現實(shí)世界事物的存在方式或運動(dòng)狀態(tài)的反映。或認為,信息是一種已經(jīng)被加工為特定形式的數據。
信息的主要特征是:信息的傳遞需要物質(zhì)載體,信息的獲取和傳遞要消費能量;信息可以感知;信息可以存儲、壓縮、加工、傳遞、共享、擴散、再生和增值2、數據:數據是信息的載體和具體表現形式,信息不隨著(zhù)數據形式的變化而變化。數據有文字、數字、圖形、聲音等表現形式。
3、數據與信息的關(guān)系:一般情況下將數據與信息作為一個(gè)概念而不加區分。二、數據處理與數據管理技術(shù):1、數據處理:數據處理是對各種形式的數據進(jìn)行收集、存儲、加工和傳輸等活動(dòng)的總稱(chēng)。
2、數據管理:數據收集、分類(lèi)、組織、編碼、存儲、檢索、傳輸和維護等環(huán)節是數據處理的基本操作,稱(chēng)為數據管理。數據管理是數據處理的核心問(wèn)題。
3、數據庫技術(shù)所研究的問(wèn)題不是如何科學(xué)的進(jìn)行數據管理。4、數據管理技術(shù)的三個(gè)階段:人工管理,文件管理和數據庫系統。
第二節:數據庫技術(shù)的發(fā)展一、數據庫的發(fā)展:數據庫的發(fā)展經(jīng)歷了三個(gè)階段:1、層次型和網(wǎng)狀型: 代表產(chǎn)品是1969年IBM公司研制的層次模型數據庫管理系統IMS。2、關(guān)系型數據型庫: 目前大部分數據庫采用的是關(guān)系型數據庫。
1970年IBM公司的研究員E.F.Codd提出了關(guān)系模型。其代表產(chǎn)品為sysem R和Inges。
3、第三代數據庫將為更加豐富的數據模型和更強大的數據管理功能為特征,以提供傳統數據庫系統難以支持的新應用。它必須支持面向對象,具有開(kāi)放性,能夠在多個(gè)平臺上使用。
二、數據庫技術(shù)的發(fā)展趨勢:1、面向對象的方法和技術(shù)對數據庫發(fā)展的影響:數據庫研究人員借鑒和吸收了面向對旬的方法和技術(shù),提出了面向對象數據模型。2、數據庫技術(shù)與多學(xué)科技術(shù)的有機組合:3、面向專(zhuān)門(mén)應用領(lǐng)域的數據庫技術(shù)三、數據庫系統的組成:數據庫系統(DBS)是一個(gè)采用數據庫技術(shù),具有管理數據庫功能,由硬件、軟件、數據庫及各類(lèi)人員組成的計算機系統。
1、數據庫(DB):數據庫是以一定的組織方式存放于計算機外存儲器中相互關(guān)聯(lián)的數據集合,它是數據庫系統的核心和管理對象,其數據是集成的、共享的以及冗余最小的。2、數據庫管理系統(DBMS):數據庫管理系統是維護和管理數據庫的軟件,是數據庫與用戶(hù)之間的界面。
作為數據庫的核心軟件,提供建立、操作、維護數據庫的命令和方法。3、應用程序:對數據庫中數據進(jìn)行各種處理的程序,由用戶(hù)編寫(xiě)。
4、計算機軟件:5、計算機硬件:包括CPU、內存、磁盤(pán)等。要求有足夠大的內存來(lái)存放操作系統、數據庫管理系統的核心模塊以及數據庫緩沖;足夠大的磁盤(pán)能夠直接存取和備份數據;比較主的通道能力;支持聯(lián)網(wǎng),實(shí)現數據共享。
6、各類(lèi)人員。四、數據庫系統的特點(diǎn):1、數據共享:2、面向全組織的數據結構化:數據不再從屬于一個(gè)特定應用,而是按照某種模型組織成為一個(gè)結構化的整。
它描述數據要身的特性,也描述數據與數據之間的種種聯(lián)系。3、數據獨立性:4、可控數據冗余度:5、統一數據控制功能:數據安全性控制:指采取一定的安全保密措施確保數據庫中的數據不被非法用戶(hù)存取而造成數據的泄密和破壞;數據完整性控制:是指數據的正確性、有效性與相容性。
并發(fā)控制:多個(gè)用戶(hù)對數據進(jìn)行存取時(shí),采取必要的措施進(jìn)行數據保護;數據恢復:系統能進(jìn)行應急處理,把數據恢復到正確狀態(tài)。第三節:數據模型一、數據組織:關(guān)系型數據庫中的數據層次如下:1、數據項(field):又稱(chēng)字段,用于描述實(shí)體的一個(gè)屬性,是數據庫的基本單位。
一般用屬性名作項名;2、記錄(Record):又稱(chēng)為結點(diǎn),由若干個(gè)數據項組成,用于描述一個(gè)對象;3、文件(File):由若干個(gè)記錄組成;4、數據庫(Data Base):由邏輯相關(guān)的文件組成。二、數據模型:數據的組織形式稱(chēng)為數據模型,它決定 數據(主要是結點(diǎn))之間聯(lián)系的表達方式。
主要包括層次型、網(wǎng)狀型、關(guān)系型和面向對象型四種。層次型和網(wǎng)狀型是早期的數據模型,又稱(chēng)為格式化數據系統數模型。
以上四種模型決定了四種類(lèi)型的數據庫:層次數據庫系統,網(wǎng)狀數據庫系統,關(guān)系型數據庫系統以及面向對象數據庫系統。目前微機上使用的主要是關(guān)系型數據庫。
1、層次型:是以記錄為結點(diǎn)的有向樹(shù);圖如教材P7圖1--22、網(wǎng)狀型:樹(shù)的集合,它的表示能力以及精巧懷強于層次型,但獨立性下降。3、關(guān)系型:在關(guān)系型中,數據被組織成若干張二維表,每張表稱(chēng)為一個(gè)關(guān)系。
一張表格中的一列稱(chēng)為一個(gè)“屬性”,相當于記錄中的一個(gè)數據項(或稱(chēng)為字段),屬性的取值范圍稱(chēng)為域。表格中的一行稱(chēng)為一個(gè)“元組”,相當于記錄值。
可用一個(gè)或若干個(gè)屬性集合的值標識這些元組,稱(chēng)為“關(guān)鍵字”。每一行對應的屬性值叫做一個(gè)分量。
表格的框架相當于記錄型,一個(gè)表格數據相當于一個(gè)同質(zhì)文件。所有關(guān)系由關(guān)系的框架和若干元組構成,或者說(shuō)關(guān)系是一張二維表。
關(guān)系型。
作為一個(gè)真正的IT人員,我們不僅要懂得高級語(yǔ)言的編程使用,更要懂得電腦基礎的知識。這是我們成為杰出的IT人員的基石,只有踏上這些基礎知識我們才能走的更高。
首先我們要懂得電腦是如何工作的?電腦的工作原理就是開(kāi)和關(guān)兩種狀態(tài),這是由其中的部件只有開(kāi)和關(guān)這兩種狀態(tài)最穩定決定的。
而我們用0和1去表示他們,電腦將0和1進(jìn)行了充分的組合,也就是部件的串聯(lián),造就了豐富多變各種各樣的事物,也就是我們看電腦功能的強大。
可以通過(guò)0和1進(jìn)行編碼輸入計算機,也可以通過(guò)解碼將其還原成原來(lái)的事物。這就是電腦工作最基本的原理。
0和1編碼也就是我們說(shuō)的二進(jìn)制Binary,二進(jìn)制的出現正是伴隨著(zhù)計算機的誕生而出現的,計算機的一切工作計算都是由二進(jìn)制編碼完成的。就像十進(jìn)制Decimal正是專(zhuān)門(mén)為我們人類(lèi)使用方便而產(chǎn)生的。另外還有十六進(jìn)制Hexadecimal,由于人類(lèi)研究二進(jìn)制比較復雜,才引出了十六進(jìn)制去方便研究二進(jìn)制。
而這些簡(jiǎn)單的二進(jìn)制是如何和世界轉變的呢?這里又引出了ASCII碼,BCD碼,國標碼等這些都是幫助計算機實(shí)現其功能的必需品。
這些東西都是電腦正常工作的必備條件,只有我們把這些東西,弄明白了我們才能在計算機方面走的更高更遠。
IT 人員必學(xué)的基礎知識(二)——進(jìn)制相互轉化
二進(jìn)制是計算機處理數據的工具。單位有位(bit),字節(Byte),千字兆(KB),兆字節(MB),千兆字節(GB)。
相互轉換關(guān)系:1B=8bit,1KB=1024B,1MB=1024KB,1GB=1024MB。
二進(jìn)制,八進(jìn)制,十進(jìn)制,十六進(jìn)制之間的轉換圖:
其中二進(jìn)制可以作為這幾種之間相互轉化的基礎,通過(guò)二進(jìn)制很多可以變得很簡(jiǎn)單:
IT人員必學(xué)基礎知識(三)——編碼理解
上篇說(shuō)的二進(jìn)制等之間的轉換,而要完成這些轉換,需要人為的定制一些規則,這就是第一篇提到的ASCII碼,BCD碼和國標碼。
1、ASCII碼,即美國標準信息交換碼(American Standard Code for Information Interchanger), 包括了32個(gè)通用字符,10個(gè)十進(jìn)制數碼,52個(gè)英文大小寫(xiě)字母和34個(gè)專(zhuān)用符號。這是沒(méi)有拓展的,最常用的。圖:
2、BCD(Binary-Coded Decimal)碼,又稱(chēng)為“二-十進(jìn)制編碼”專(zhuān)門(mén)解決用二進(jìn)制數表示十進(jìn)制數的問(wèn)題。BCD制編碼的方法有很多,通常有8421碼,5421碼等等。
例:13可以寫(xiě)作8421碼0001 0011
3、國標碼(GB2312),主要是編碼漢字的,有兩個(gè)7位二進(jìn)制編碼表示,即每個(gè)編碼需要占兩個(gè)字節,是針對中國一些信息編制的一些編碼。
IT人員必學(xué)基礎知識(四)——補充總結
這是計算機計算十進(jìn)制運算時(shí)的大致過(guò)程,它將幾種進(jìn)制和幾種編碼運用到了極致。這就是計算機運用簡(jiǎn)單的事物早就不簡(jiǎn)單的事情。計算機中任何一個(gè)過(guò)程都需要運用到這些知識,另外還有原碼,反碼,補碼等等。
在計算機內,定點(diǎn)數有3種表示法:原碼、反碼和補碼。原碼(true form)就是二進(jìn)制定點(diǎn)表示法,即最高位為符號位,“0”表示正,“1”表示負,其余位表示數值的大小。
反碼表示法規定:正數的反碼與其原碼相同;負數的反碼是對其原碼逐位取反,但符號位除外。補碼(two's complement)表示法規定:正數的補碼與其原碼相同;負數的補碼是在其反碼的末位加1。
不知不覺(jué)中9周的《軟件技術(shù)基礎》 這門(mén)課課已經(jīng)結束了,雖然時(shí)間有點(diǎn)短, 但這九個(gè)星期的學(xué)習中我卻受益匪淺, 不僅讓我系統的了解了許多計算機軟件相關(guān)的基礎知識和一些常用的系統軟件, 還讓我有了更科學(xué)的方法去分析一些軟件方面的問(wèn)題,這對于我今后的學(xué)習和工作都是有很大幫助的。 下面來(lái)談?wù)勎覍W(xué)習這門(mén)課的一點(diǎn)點(diǎn)心得。 首先,我們認識到了計算機對現在社會(huì )、生活的影響之重,我們要想靈活的應對以后生活中的各種問(wèn)題,擁有一個(gè)好的計算機技術(shù)必不可少的,而要想真的學(xué)好計算機技術(shù),我們首先就得對計算機的操作、工作原理和規則等有一個(gè)清晰的認識。 如今僅僅掌握計算機語(yǔ)言并不能有效地使用計算機,我們必須掌握數據結構和算法方面的知識才能應對眾多復雜的應用課題。剛開(kāi)始學(xué)習數據結構時(shí)感覺(jué)它很抽象,而且感覺(jué)它沒(méi)多大用處,后來(lái)發(fā)現不然,我們學(xué)習的是一些方法、思維,只有學(xué)會(huì )了這些我們才能解決一些非數值運算的程序設計方面的問(wèn)題。 以前我們用過(guò)數據庫比如Access,但我們只是很基礎的應用它們,并不懂它的創(chuàng )建和工作原理,自從學(xué)習了這門(mén)課,我才初步了解了數據處理和數據管理方面的一些知識,并學(xué)到了
SQL語(yǔ)言的一些基礎知識,這對我以后更深層次的學(xué)習計算機技術(shù)打下了一個(gè)基礎。
雖然這門(mén)課程已經(jīng)結束,我們學(xué)到的也是很基礎的一部分,但它對我們影響很深,讓我們以后學(xué)習更簡(jiǎn)單了。當然我仍會(huì )繼續學(xué)習各種關(guān)于計算機技術(shù)方面的知識,讓自己有一個(gè)過(guò)硬的技術(shù),去應對各方面的問(wèn)題
群論定義:在數學(xué)和抽象代數中,群論研究名為群的代數結構。群在抽象代數中具有基本的重要地位:許多代數結構,包括環(huán)、域和模等可以看作是在群的基礎上添加新的運算和公理而形成的。群的概念在數學(xué)的許多分支都有出現,而且群論的研究方法也對抽象代數的其它分支有重要影響。群論的重要性還體現在物理學(xué)和化學(xué)的研究中,因為許多不同的物理結構,如晶體結構和氫原子結構可以用群論方法來(lái)進(jìn)行建模。于是群論和相關(guān)的群表示論在物理學(xué)和化學(xué)中有大量的應用。
群論涉及范圍較廣,需要基礎知識也較多,比如:集合相關(guān)知識,幾何學(xué),拓撲學(xué),數學(xué)分析,代數學(xué),概率論,運籌學(xué),應用統計學(xué)等。
因此,如果要學(xué)最好選擇一個(gè)方向進(jìn)行研究,不然需要知識太多反而不利于研究學(xué)習。
介紹幾本書(shū):CDMA 2000技術(shù) 電子設計原理和技巧 無(wú)線(xiàn)射頻識別技術(shù)RFID理論與應用 通信技術(shù)概論 ( 學(xué)無(wú)止境,尤其通信) 基礎知識那就得從《通信原理》開(kāi)始看了,還有幾本書(shū)就是1.信號與系統 2.通信網(wǎng)概論 3. 高頻電子線(xiàn)路 4.電子技術(shù)基礎教程 5.數字通信原理 6. 單片機原理及應用 7. 移動(dòng)通信(第二版) 8. 光纖通信 9. 現代交換技術(shù) 10. 微波通信技術(shù)
再者就是計算機類(lèi):1.c程序設計 2.匯編語(yǔ)言 3. java或c++其中一個(gè) 4. ps或cad 5. 計算機網(wǎng)絡(luò ) 6. protel dxp
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.643秒