變形筆記: 語言分析：第二周

20150924 第二周

文本分析（text analysis）在語言學裡一九五零年代就開始，但是為什麼最近這麼紅？－－文本自動分析則是受到大樹具影響在開始興起。data：結構性（ex. table form）；半結構性（html碼）；非結構性資料（文本data，自然語言）。

基本概念：

1. text analytics（同義詞：text mining）－－每個學門都在受到data影響，這需要面對、要會處理，每個人都要會coding，單看你要拿來做什麼，因為「不用可惜」。
2. NLP（interesting，natural language process）－linguistics
3. machine learning-statistics

text analytics：幾個熱門主題

1. text categorization（現在思維方式：人不用本質性想自己是誰，而是和外在環境互動產生的集合－－data，比如說現在你在這，你被衛星定位、你被監視器監視；數據、文本性的資料，構成你當下的活動；想想看若是你有十年的資料，這個機器不用十年，就能很大機率性被預測；那我是誰？我是一個data，被預測的object，data collection），回到原本的，什麼是text？當我們可以用text represent你的時候，text就很可怕。（當系統對你的理解超過任何人的時候，你就要想想這是什麼東西；好處什麼？google本身就是推薦系統，若是常用google就會知道你在做什麼、去作分析，你就會覺得很方便，代價是：你被分析、預測、集合。人類面臨的抉擇：資安到底是怎麼一回事？）

2. text clustering/ similarity/ association
3. name entity extraction/ topic modlling/ event detection
4. sentiment analysis/ opinion mining
5. text summarization
6. text in the social network（把文本放回社會網絡中，比如有個人在罵一件事情，文本是如何流竄、傳播、接收、在哪個節點被講／不被講）

自動化是一件很難過的事，去想想，你若不思考，機器就能取代你。很多過程都能自動化。你要去面對的是結構性和非結構性資料的整合。

對歷史系來說，數位化的文本越來越多，如果你可以借助數位，你會有一些insight。
text mining as a research tool in humanities and socialogy（自行google）

也可以改造政府，比如dataTaipei、零政府？
外遇資料，Ashley Madison婚外情媒合專營網站被駭（被放在dark web）－－人文思考：數據時代的個人隱私。

文本（text）和文件（document）有什麼不一樣？（本來與詞定義就沒有標準答案，而是單看習慣）文件比較像是物理性的，不關心內容，比如說「備份」；但是文本和裡面的語言有關。

markup 標誌／ tag 標籤／ annotation 標記？在文本裡面，這是什麼意思？可以處理的文本，像是html，markup的文本；tag，人做為文本，下一個定性的標籤；annotatio，我基於我的研究動機和目的，我對文本作的註解註記，比如說我想對這文本的情緒作裡解，我就會標記那些東西是開心的、悲傷的，這些標記能夠讓機器去學習和分類。

我們在不同領域裡的文本、關心的對象不一樣，不同領域有不同的文本格式、標記也不同。第一個要看來源，你保留什麼（結構內容），取決於你要做什麼。文本是跨形式、跨領域。

一般作text mining/ data science的誤解
一般公司小看文本，認為來源單一，但是當時代走到物聯網時代，以後感測器四處都在，來源不一定只有web。而且大家常忽略，語言層次（語言軸）、概念層次（概念軸）－－我們用語言表達出來，很多是發生的事實（誰和誰處在什麼關係，ownership）、概念，該領域的知識系統。

linguistics and data science

語言學要回答語言的習得與發展，結構與功能，神經與心理機制，社會變異和演化過程等等。（大家有沒有聽過中文斷詞系統？http://ckipsvr.iis.sinica.edu.tw/）大家，字跟語言是不一樣的！

Frederick Jelinek（1932-2010）

TED: the language of lying（值得看）
https://www.youtube.com/watch?v=H0-WkpmTPrM

文本的真實性（比如，機器產生的文本）也是最近有人在做的。
當人不一定在說真話，當機器不一定在說謊的時候，人該如何自處。
又當人在中文脈絡裡講謊話，會是什麼樣的語言模式？（想一想，自己說謊的狀況）文本分析訓練就是自己回推回去。多聽多思考人類的語言型態是怎麼一回事。

線上服務：
text analysis online

but
-coding is the new literacy
-求人不求己（沒錢但是有青春）
-open-sourced project才能跟上（改變）世界的腳步
（有錢買到什麼服務，會失去很多學習的機會，你要願意學習，看到有興趣就去學，你就會學到）

免費線上課程：DataCamp; coursera DS series（自己看，拿不懂的問題去問老師；如果你只是來聽老師上課，你就會跟不上速度）

作業1
1. 邊讀邊作Linux tutorials
2. TA作業
3. 加分題：最好的分組方法（分組、遐想皆可，可實作，不要向上帝祈禱分組之類的，我要可以work的），比如說，用KEY WORDS分群，把每個人當成key words的collection。又，跟你同一組的，不一定要和你一樣的，你希望同組的人是怎麼樣的人，你想像他們交出什麼資料？

零基礎的人：安裝好，然後看去網站看怎麼作。

作業2：放新聞，新聞時間，新聞來源，把你剛打的指令，成功的，寫在上面存檔。要存檔就去按左上角磁碟片的部分。檔名就寫學號，不用加附檔名。執行：你可以一行一行執行，或者全部選起，然後按RUN，全部執行一次。（選擇一則新聞，用jiebaR斷詞，將詞依照出現頻率由高到低排序，並輸出成CSV檔。把程式上傳CEIBA，第一行#學號姓名新聞時間新聞網址）

大家要常看公告、收信。

變形筆記

2015年9月23日星期三

語言分析：第二周

沒有留言:

張貼留言

標籤

漫遊者

2015年9月23日 星期三

語言分析：第二周

沒有留言:

張貼留言

2015年9月23日星期三