一、文本挖掘定義
文本挖掘指的是從文本數據中獲取有價(jià)值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實(shí)現文本的分類(lèi)和聚類(lèi),前者是有監督的挖掘算法,后者是無(wú)監督的挖掘算法。
二、文本挖掘步驟
1)讀取數據庫或本地外部文本文件
2)文本分詞
2.1)自定義字典
2.2)自定義停止詞
2.3)分詞
2.4)文字云檢索哪些詞切的不準確、哪些詞沒(méi)有意義,需要循環(huán)2.1、2.2和 2.3步驟
3)構建文檔-詞條矩陣并轉換為數據框
4)對數據框建立統計、挖掘模型
5)結果反饋
三、文本挖掘所需工具
文本挖掘將使用R語(yǔ)言實(shí)現,除此還需加載幾個(gè)R包,它們是tm包、tmcn包、Rwordseg包和wordcloud包。
四、實(shí)戰
本文所用數據集來(lái)自于sougou實(shí)驗室數據。
DMC Text Filter是HYFsoft推出的純文本抽出通用程序庫,DMC Text Filter可以從各種各樣的文檔格式的數據中或從插入的OLE對象中,完全除掉特殊控制信息,快速抽出純文本數據信息。便于用戶(hù)實(shí)現對多種文檔數據資源信息進(jìn)行統一管理,編輯,檢索和瀏覽。
DMC Text Filter采用了先進(jìn)的多語(yǔ)言、多平臺、多線(xiàn)程的設計理念,支持多國語(yǔ)言(英語(yǔ),中文簡(jiǎn)體,中文繁體,日本語(yǔ),韓國語(yǔ)),多種操作系統(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多種文字集合代碼(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多種形式的API功能接口(文件格式識別函數,文本抽出函數,文件屬性抽出函數,頁(yè)抽出函數,設定User Password的PDF文件的文本抽出函數等),便于用戶(hù)方便使用。用戶(hù)可以十分便利的將本產(chǎn)品組裝到自己的應用程序中,進(jìn)行二次開(kāi)發(fā)。通過(guò)調用本產(chǎn)品的提供的API功能接口,實(shí)現從多種文檔格式的數據中快速抽出純文本數據。
數據挖掘的方法:
1.分類(lèi) (Classification)
2.估計(Estimation)
3.預測(Prediction)
4.相關(guān)性分組或關(guān)聯(lián)規則(Affinity grouping or association rules)
5.聚類(lèi)(Clustering)
6.復雜數據類(lèi)型挖掘(Text,Web ,圖形圖像,視頻,音頻等)
數據挖掘
數據挖掘(英語(yǔ):Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發(fā)現(英
語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱(chēng):KDD)中的一個(gè)步驟。數據挖掘一般是指從
大量的數據中自動(dòng)搜索隱藏于其中的有著(zhù)特殊關(guān)系性(屬于A(yíng)ssociation rule learning)的信
息的過(guò)程。數據挖掘通常與計算機科學(xué)有關(guān),并通過(guò)統計、在線(xiàn)分析處理、情報檢索、機器學(xué)
習、專(zhuān)家系統(依靠過(guò)去的經(jīng)驗法則)和模式識別等諸多方法來(lái)實(shí)現上述目標。
在word中,以word2010為例來(lái)介紹七種文本選取的方法,以便提升工作效率。
1、第一種選擇字或詞組的方法。
通常是通過(guò)拖動(dòng)鼠標來(lái)實(shí)現單詞和單詞的選擇,另外,基于單詞的強大關(guān)聯(lián)功能,還可以通過(guò)將光標移動(dòng)到短語(yǔ)的中間然后雙擊鼠標來(lái)選擇短語(yǔ),如下圖所示。
2、第二種是選擇單行和段落的方法。
可以將光標移動(dòng)到行的左端,當箭頭處于箭頭狀態(tài)時(shí)單擊鼠標,然后是文本行選中,如果雙擊鼠標,則可以選擇段落文本,相比較拖動(dòng)鼠標來(lái)選擇單行文本這種方法要快得多。
3、第三種是選擇整篇。
只需要將光標移動(dòng)到文檔的左側,顯示光標時(shí),可以通過(guò)三擊左鍵來(lái)選擇整篇文章,除此之外還可以用“Ctrl+A”來(lái)實(shí)現選擇整篇。
4、第四種是跨頁(yè)選擇文本。
如果要選擇的文本不在一頁(yè)上,用手動(dòng)發(fā)票的方式來(lái)選擇是非常不方便的,這時(shí)可以用先停止光標,然后選擇文本,然后向下滾動(dòng)選擇在文本末尾,按住shift并單擊此處的方法。
或是在選擇文本前按住光標,按F8,然后在所選文本末尾單擊鼠標,可以通過(guò)調整鼠標位置靈活選擇文本,之后,按Esc鍵結束。
5、第五種是選擇區域文本的方法。
如果選擇的劃如下圖所示的區域內的文字,用鼠標拖動(dòng)就無(wú)法實(shí)現,這時(shí)可將光標移動(dòng)到選區開(kāi)頭,按住Alt鍵將矩形區域拉出到右下方,將選擇區域中的文本,更改顏色以查看選擇效果。
6、第六種是選擇相似文本的方法。
這一方法主要是針對標題類(lèi)的文本選擇,可先選中某一級的標題,再選擇并點(diǎn)擊“選擇格式相似的文本”,就可以看到同一級的標題都被選中了。
7、第七種是間隔選擇文本的方法。
如果要在同一文本中選擇不同區域的文本,先選擇一部分文本,然后按住Ctrl鍵,再將其它部分加入,若對某一部分不想選擇了,也可以將光標移動(dòng)到此部分,后點(diǎn)擊左鍵即可取消該此部分。
一、變換視角,體會(huì )作者的情感
現代學(xué)者胡適說(shuō):“情感者,文學(xué)之靈魂。”一篇文章常常通過(guò)象征、隱喻等表現手法,表達作者的情感。因此,讀者要借助已有的知識經(jīng)驗,從不同的角度解讀文本,體會(huì )作者的情感。
著(zhù)名學(xué)者王國維說(shuō):“有我之境,以我觀(guān)物,故物皆著(zhù)我之色彩。”人教版語(yǔ)文七年級上冊課文《觀(guān)滄海》是曹操寫(xiě)的一篇文章。為了讓學(xué)生理解曹操眼中的“大海”的含義,體會(huì )其獨特的情感,筆者先從歷史角度入手,揭示文本的創(chuàng )作背景,如曹操成功北伐烏桓,即將平定中原,站在碣石山上登高望海,此時(shí)激情滿(mǎn)懷,然后引導學(xué)生思考問(wèn)題:曹操是如何將“我之色彩”“著(zhù)”之于“物”的呢?這種寫(xiě)作手法有什么作用?學(xué)生結合歷史資料以及對曹操生平的了解,認為作者眼前所見(jiàn)的大海并非實(shí)景,而是融入了作者奮發(fā)有為、躊躇滿(mǎn)志的理想之境。接著(zhù)筆者讓學(xué)生思考問(wèn)題:如果將文中的“日月之行,若出其中。星漢燦爛,若出其里”改為“日月之光,普照滄海。星漢燦爛,輝映浪濤”是否能夠表現出曹操博大的胸襟和氣魄?二者又有什么不同呢?學(xué)生經(jīng)過(guò)分析認為,曹操在三國鼎立形成之后,沒(méi)有應天命即帝位,而是說(shuō)“若天命在吾,吾為周文王矣”,由此可知,文章要體現的不僅是詩(shī)人博大的胸襟、理想抱負和雄心壯志,還有海納百川、顧全大局的人格魅力。在曹操的眼中,大境界并不是要做世人矚目的“救世主”,而是要像大海一樣,包容宇宙萬(wàn)物,吞吐日月星辰。從文化視角解讀文本,學(xué)生很容易就理解了文章采用的托物言志的寫(xiě)作手法,體會(huì )到了詩(shī)人的博大胸襟和霸主氣魄。
二、品味細節,探究文本內涵
在解讀文本過(guò)程中,教師不但要引導學(xué)生整體感知文本,還要對文中的細節描寫(xiě)進(jìn)行解讀,從平常的事物中挖掘其內涵,從平淡的描述中探究其意蘊。在此過(guò)程中,教師需要對文本中的特殊詞語(yǔ)、句子和段落進(jìn)行品讀。人教版語(yǔ)文八年級上冊課文《背影》中有一段文字描寫(xiě),如“我看見(jiàn)他戴著(zhù)黑布小帽,穿著(zhù)黑布大馬褂……我的淚很快地流下來(lái)了”。在作者描寫(xiě)的這個(gè)畫(huà)面里“蝸居”著(zhù)兩個(gè)意象,即“黑布小帽”“黑布大馬褂”。那么,如何解讀這一細節描寫(xiě)呢?學(xué)生通過(guò)分析作者的寫(xiě)作背景及相關(guān)資料,明白了作者的父親當時(shí)仕途失意,賦閑在家,經(jīng)濟拮據,而此時(shí)祖母病逝,在同時(shí)承受經(jīng)濟壓力和精神壓力之下,父親以這樣的一襲“黑”衣示人,體現了父親的貧窮、頹喪、悲苦、絕望等。在這樣的境況下,父親仍然給兒子買(mǎi)了一件紫毛大衣,爬過(guò)月臺買(mǎi)朱紅的橘子。學(xué)生通過(guò)分析文本中父親的“黑”與買(mǎi)給“我”的“朱紅橘子”“紫毛大衣”,并將這些顏色進(jìn)行對比,體會(huì )到了父親對兒子深沉的愛(ài)。深度挖掘文本,教師要從文本的語(yǔ)言文字入手,仔細推敲,認真思考,透過(guò)語(yǔ)言文字領(lǐng)會(huì )文本的深刻內涵。
三、用心體會(huì ),理解文本精神
文本解讀需要心靈的關(guān)照,因此,教師要引導學(xué)生用心體會(huì )作者的情感,進(jìn)而領(lǐng)會(huì )文本精神。人教版語(yǔ)文七年級下冊課文《貓》是鄭振鐸寫(xiě)的一篇文章。文章通過(guò)講述“我”三次養貓的過(guò)程以及三只貓不同的遭遇,生發(fā)出動(dòng)人的情感,揭示了人性的復雜,引發(fā)了對生命的思考。文中有這樣一段描寫(xiě),如“我心里十分難過(guò),真的,我的良心受傷了,我沒(méi)有判斷明白,便妄下斷語(yǔ),冤苦了一只不能說(shuō)話(huà)辯訴的動(dòng)物。想到它的無(wú)抵抗的逃避,益使我感到我的暴怒、我的虐待,都是針,刺我良心的針”,圍繞這段文字描寫(xiě),筆者引導學(xué)生思考問(wèn)題:為什么用針來(lái)表達“我”的自責?學(xué)生結合生活經(jīng)驗,明白了針扎進(jìn)皮膚里雖然不至于流血,但是傷口卻很難愈合,并且時(shí)常會(huì )感到疼痛,由此可知,作者是借此表達良心深處的不安。在這個(gè)教學(xué)案例中,筆者引導學(xué)生結合“針”扎皮膚的體驗,讓學(xué)生體會(huì )作者的心情,從而理解文本中的“貓”代表了當時(shí)的弱勢群體,在人自私卑劣的行徑之下,弱者無(wú)一能夠逃脫厄運這一精神主旨。
1. Analytic Visualizations(可視化分析)
不管是對數據分析專(zhuān)家還是普通用戶(hù),數據可視化是數據分析工具最基本的要求。可視化可以直觀(guān)的展示數據,讓數據自己說(shuō)話(huà),讓觀(guān)眾聽(tīng)到結果。
2. Data Mining Algorithms(數據挖掘算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數據內部,挖掘價(jià)值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4. Semantic Engines(語(yǔ)義引擎)
由于非結構化數據的多樣性帶來(lái)了數據分析的新的挑戰,需要一系列的工具去解析,提取,分析數據。語(yǔ)義引擎需要被設計成能夠從“文檔”中智能提取信息。
5. Data Quality and Master Data Management(數據質(zhì)量和數據管理)
數據質(zhì)量和數據管理是一些管理方面的最佳實(shí)踐。通過(guò)標準化的流程和工具對數據進(jìn)行處理可以保證一個(gè)預先定義好的高質(zhì)量的分析結果。
《文本挖掘(英文版)》是一部文本挖掘領(lǐng)域名著(zhù),作者為世界知名的權威學(xué)者。書(shū)中涵蓋了核心文本挖掘操作、文本挖掘預處理技術(shù)、分類(lèi)、聚類(lèi)、信息提取、信息提取的概率模型、預處理應用、可視化方法、鏈接分析、文本挖掘應用等內容,很好地結合了文本挖掘的理論和實(shí)踐。《文本挖掘(英文版)》非常適合文本挖掘、信息檢索領(lǐng)域的研究人員和實(shí)踐者閱讀,也適合作為高等院校計算機及相關(guān)專(zhuān)業(yè)研究生的數據挖掘和知識發(fā)現等課程的教材。
從語(yǔ)文課程的性質(zhì)來(lái)看語(yǔ)文教學(xué)重在進(jìn)行語(yǔ)言訓練。
學(xué)生對語(yǔ)言的掌握情況也是衡量課堂實(shí)效性的重要標準。可是,如今的語(yǔ)文課堂似乎變了味了。
語(yǔ)文課不是進(jìn)行語(yǔ)言本身的推敲、揣摩和品位,而是圍繞文本內容,外加了大量的補充性學(xué)習材料,加以多媒體的狂轟濫炸,或者過(guò)度的渲染和張揚人文性。如在上《太陽(yáng)》時(shí),不去推敲文中關(guān)鍵語(yǔ)句,用大量的視頻來(lái)介紹太陽(yáng)特點(diǎn)和人類(lèi)的關(guān)系;上《三顧茅廬》時(shí),不讓學(xué)生熟讀課文,竟花大量的時(shí)間讓學(xué)生觀(guān)看視頻三顧茅廬來(lái)了解課文內容;教《地震中父與子》正文草草帶過(guò),卻擴展到朱自清的《背影》及其他關(guān)于父愛(ài)的文章。
一節語(yǔ)文課儼然成了科普宣傳課、歷史課和思品課了。這些設計者們認為熱熱鬧鬧或者別出心裁的課堂就是語(yǔ)文課了,這是由于他們對語(yǔ)文課程缺少本質(zhì)的認識造成。
這樣的課上學(xué)生們除了感官的享受以及思想的進(jìn)步外,對于學(xué)生的語(yǔ)言是毫無(wú)幫助的。語(yǔ)文課要熱鬧沒(méi)有錯,語(yǔ)文課要別出心裁,也沒(méi)有錯,但是,所有的設計都不應該脫離學(xué)生對語(yǔ)言的感悟與訓練。
否則,語(yǔ)文課堂就不是語(yǔ)文課了。學(xué)生們所用的文本,作為語(yǔ)言的載體,又是前人精挑細選的篇章,其規范性毋庸置疑,對學(xué)生學(xué)習語(yǔ)言及進(jìn)行語(yǔ)言訓練有很高的利用價(jià)值的,它又是創(chuàng )作者情感的符號,字里行間總能讀出點(diǎn)情味。
我認為真正的語(yǔ)文課,無(wú)需靠大量補充性學(xué)習材料和多媒體的狂轟濫炸及過(guò)度的渲染和張揚人文性,應該從文本出發(fā),引導學(xué)生通過(guò)深入學(xué)習文本,掌握知識點(diǎn),習得語(yǔ)言的方法,獲得情感的體驗。下面我就結合實(shí)際教學(xué)談?wù)勅绾螐奈谋局袑ふ艺Z(yǔ)言訓練點(diǎn)。
一、抓住關(guān)鍵字詞進(jìn)行語(yǔ)言訓練在語(yǔ)文課堂上要讓學(xué)生的嘴巴動(dòng)起來(lái),應該要從文章的中的關(guān)鍵詞入手。緊緊圍繞關(guān)鍵詞進(jìn)行精心的設計,一定能夠喚起學(xué)生的說(shuō)話(huà)的欲望,達到課堂語(yǔ)言訓練的目的。
1、在詩(shī)歌教學(xué)中抓住關(guān)鍵字詩(shī)歌是字字含意境,字字露真情。因此,在教學(xué)詩(shī)歌時(shí),深入字面意思,再現詩(shī)人的創(chuàng )作時(shí)的情境,感悟字里透出的感情顯得特別的重要了。
《九月九日憶山東兄弟》全詩(shī)圍繞一個(gè)“憶”字展開(kāi),每句詩(shī)中都有一個(gè)關(guān)鍵的字“獨、逢、遙、少”,詩(shī)人因“獨”常常有客居他鄉的寂寞,因“逢”佳節而倍生思鄉情懷,因離家“遙”而想起了兄弟們登高望遠,卻又因此又有“少”一人的惆悵。這四個(gè)字的感悟對于突破詩(shī)歌的理解,感受作者的客居他鄉復雜的情懷有很大的作用。
因此,我就這么問(wèn)學(xué)生:“獨”字什么意思?“獨”字讓你想到的作者此時(shí)怎樣的處境?這樣的問(wèn)題,容易打開(kāi)學(xué)生們想象的翅膀,他們應該會(huì )聯(lián)系自己生活中經(jīng)歷父母外出時(shí)單獨一人在家的情景來(lái)。然后教師再讓學(xué)生閉上你們的眼睛心里不停地默念著(zhù)“獨”字,想著(zhù)自己只有一個(gè)人,(過(guò)一會(huì ))請各位同學(xué)睜開(kāi)眼睛,心理什么滋味,誰(shuí)來(lái)說(shuō)說(shuō)?這么一問(wèn)學(xué)生們積極踴躍的發(fā)言起來(lái)“我感到了十分地孤獨”“我會(huì )不停的想家人”“我看到周?chē)澎o的很,有話(huà)沒(méi)地方說(shuō)”等,他們都能說(shuō)出自己對“獨”字獨特的體驗,我想這些小孩們在生活中也確實(shí)體驗過(guò)單獨在家孤單的感覺(jué)。
對于“逢、遙、少”也一樣的,只要設計好,每個(gè)字都可能引起學(xué)生語(yǔ)言的欲望的。2、在說(shuō)明文中抓關(guān)鍵詞在以往的聽(tīng)其他老師上課的過(guò)程中,說(shuō)明文往往容易上成科普文。
問(wèn)題的關(guān)鍵就在于很多老師沒(méi)有深入的理解和挖掘文本,就采用了大量的輔助材料,以求達到學(xué)生對知識點(diǎn)的理解。這種現象重知識點(diǎn)輕語(yǔ)言訓練,就是造成把語(yǔ)文課上成科普課的原因。
《太陽(yáng)》一課中,文章在說(shuō)明太陽(yáng)的特點(diǎn)時(shí),用了較多的數字來(lái)說(shuō)明,因此,讓學(xué)生感悟這些數字顯得特別的重要了。可是很多老師卻忽略了這點(diǎn),學(xué)生能找到關(guān)鍵的數字,就很高興地急于直接從數字中總結出太陽(yáng)遠、大、熱三個(gè)特點(diǎn),然后再外加視頻加以輔助理解,以至于偏離了語(yǔ)文課的性質(zhì)了。
我想如果深入挖掘這些數字,讓學(xué)生深刻體會(huì )體驗這些數字更有語(yǔ)文味點(diǎn),比如:同學(xué)們看到“3500年”你們的第一感受是什么?告訴我。“震撼”“難以想象”。
你們?yōu)槭裁磿?huì )第一時(shí)間想到這些詞?有什么想說(shuō)的話(huà)盡管說(shuō)出來(lái)。學(xué)生們自然也會(huì )聯(lián)系人的生命,人類(lèi)的歷史來(lái)談自己的的這種感受。
如:“一個(gè)人只能活多久啊,要走多少代啊?”“人類(lèi)歷史才多久啊?”等等。經(jīng)過(guò)這樣一問(wèn),學(xué)生一聯(lián)系實(shí)際,就更能體會(huì )到了太陽(yáng)離我們的遠。
學(xué)生在這個(gè)過(guò)程中,既有了說(shuō)的訓練,又深刻的認識了數字說(shuō)明的妙用。因此,說(shuō)明文中,也應該能夠用抓關(guān)鍵詞來(lái)體會(huì )。
1、在記敘文中抓住關(guān)鍵詞在記敘文中,有時(shí)候一個(gè)詞往往能將整篇文章串聯(lián)起來(lái),創(chuàng )造學(xué)生的語(yǔ)言運用的平臺。《一個(gè)村莊的故事》中,村莊原先是很美麗的,可是由于斧頭的出現一切都改變了。
因此,在上這節課的時(shí)候應緊緊抓住“斧頭”進(jìn)行教學(xué)設計:自由讀文,然后說(shuō)說(shuō)斧頭造就了什么?別看這么一問(wèn),后面的答案是一個(gè)比一個(gè)精彩。他們將課文的語(yǔ)言充分的利用了起來(lái),從斧頭造就了應有盡有的家具和人類(lèi)美好的生活,到裸露的土地和災難。
這樣,既抓住了文本的意思,讓學(xué)生有所感悟,又能讓學(xué)生將文中學(xué)的語(yǔ)言得以運用。二、填補空白的文本進(jìn)行語(yǔ)言訓練課文中常常有。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:5.042秒