2015年9月23日 星期三

語言分析:第二周

20150924 第二周

文本分析(text analysis)在語言學裡一九五零年代就開始,但是為什麼最近這麼紅?--文本自動分析則是受到大樹具影響在開始興起。data:結構性(ex. table form);半結構性(html碼);非結構性資料(文本data,自然語言)。

基本概念:

1. text analytics(同義詞:text mining)--每個學門都在受到data影響,這需要面對、要會處理,每個人都要會coding,單看你要拿來做什麼,因為「不用可惜」。
2. NLP(interesting,natural language process)-linguistics
3. machine learning-statistics

text analytics:幾個熱門主題

1. text categorization(現在思維方式:人不用本質性想自己是誰,而是和外在環境互動產生的集合--data,比如說現在你在這,你被衛星定位、你被監視器監視;數據、文本性的資料,構成你當下的活動;想想看若是你有十年的資料,這個機器不用十年,就能很大機率性被預測;那我是誰?我是一個data,被預測的object,data collection),回到原本的,什麼是text?當我們可以用text represent你的時候,text就很可怕。(當系統對你的理解超過任何人的時候,你就要想想這是什麼東西;好處什麼?google本身就是推薦系統,若是常用google就會知道你在做什麼、去作分析,你就會覺得很方便,代價是:你被分析、預測、集合。人類面臨的抉擇:資安到底是怎麼一回事?)

2. text clustering/ similarity/ association
3. name entity extraction/ topic modlling/ event detection
4. sentiment analysis/ opinion mining
5. text summarization
6. text in the social network(把文本放回社會網絡中,比如有個人在罵一件事情,文本是如何流竄、傳播、接收、在哪個節點被講/不被講)

自動化是一件很難過的事,去想想,你若不思考,機器就能取代你。很多過程都能自動化。你要去面對的是結構性和非結構性資料的整合。

對歷史系來說,數位化的文本越來越多,如果你可以借助數位,你會有一些insight。
text mining as a research tool in humanities and socialogy(自行google)

也可以改造政府,比如dataTaipei、零政府?
外遇資料,Ashley Madison婚外情媒合專營網站被駭(被放在dark web)--人文思考:數據時代的個人隱私。

文本(text)和文件(document)有什麼不一樣?(本來與詞定義就沒有標準答案,而是單看習慣)文件比較像是物理性的,不關心內容,比如說「備份」;但是文本和裡面的語言有關。

markup 標誌/ tag 標籤/ annotation 標記?在文本裡面,這是什麼意思?可以處理的文本,像是html,markup的文本;tag,人做為文本,下一個定性的標籤;annotatio,我基於我的研究動機和目的,我對文本作的註解註記,比如說我想對這文本的情緒作裡解,我就會標記那些東西是開心的、悲傷的,這些標記能夠讓機器去學習和分類。

我們在不同領域裡的文本、關心的對象不一樣,不同領域有不同的文本格式、標記也不同。第一個要看來源,你保留什麼(結構內容),取決於你要做什麼。文本是跨形式、跨領域。

一般作text mining/ data science的誤解
一般公司小看文本,認為來源單一,但是當時代走到物聯網時代,以後感測器四處都在,來源不一定只有web。而且大家常忽略,語言層次(語言軸)、概念層次(概念軸)--我們用語言表達出來,很多是發生的事實(誰和誰處在什麼關係,ownership)、概念,該領域的知識系統。

linguistics and  data science

語言學要回答語言的習得與發展,結構與功能,神經與心理機制,社會變異和演化過程等等。(大家有沒有聽過中文斷詞系統?http://ckipsvr.iis.sinica.edu.tw/)大家,字跟語言是不一樣的!

Frederick Jelinek(1932-2010)

TED: the language of lying(值得看)
https://www.youtube.com/watch?v=H0-WkpmTPrM

文本的真實性(比如,機器產生的文本)也是最近有人在做的。
當人不一定在說真話,當機器不一定在說謊的時候,人該如何自處。
又當人在中文脈絡裡講謊話,會是什麼樣的語言模式?(想一想,自己說謊的狀況)文本分析訓練就是自己回推回去。多聽多思考人類的語言型態是怎麼一回事。

線上服務:
text analysis online

but
-coding is the new literacy
-求人不求己(沒錢但是有青春)
-open-sourced project才能跟上(改變)世界的腳步
(有錢買到什麼服務,會失去很多學習的機會,你要願意學習,看到有興趣就去學,你就會學到)

免費線上課程:DataCamp; coursera DS series(自己看,拿不懂的問題去問老師;如果你只是來聽老師上課,你就會跟不上速度)

作業1
1. 邊讀邊作Linux tutorials
2. TA作業
3. 加分題:最好的分組方法(分組、遐想皆可,可實作,不要向上帝祈禱分組之類的,我要可以work的),比如說,用KEY WORDS分群,把每個人當成key words的collection。又,跟你同一組的,不一定要和你一樣的,你希望同組的人是怎麼樣的人,你想像他們交出什麼資料?

零基礎的人:安裝好,然後看去網站看怎麼作。

作業2:放新聞,新聞時間,新聞來源,把你剛打的指令,成功的,寫在上面存檔。要存檔就去按左上角磁碟片的部分。檔名就寫學號,不用加附檔名。執行:你可以一行一行執行,或者全部選起,然後按RUN,全部執行一次。(選擇一則新聞,用jiebaR斷詞,將詞依照出現頻率由高到低排序,並輸出成CSV檔。把程式上傳CEIBA,第一行#學號 姓名 新聞時間 新聞網址)

大家要常看公告、收信。

沒有留言:

張貼留言