跳至主要內容

一次又一次的腦力激盪

Code for Tomorrow與Etu合辦的Data Science Program(以下簡稱DSP)第一期結束後,因為個人的因素便沒有再加入第二期。第二期的步調相對於第一期而言,速度加快,而且在多災多難的三月裡,不止結束了課程,更是在三月底時將成果展現在大家眼前。
我以一個旁觀者的角度去參加了昨天的Data Fiesta,看到了許久不見的朋友。平時都在網路上閒聊,但真正見到彼此卻是在昨天。尤其是互相問候時:「最近好嗎?」「不生病都好。」到了這個年紀,似乎除了健康之外,大概就是330占領凱道活動了。
這期DSP與上期最大的不同處在於除了使用原本的政府公開的實價登錄資料之外,也因為與Pixnet舉辦Hackathon的緣故,所以五組中也有兩組使用了Pixnet所開放出來的資料,一組是針對Blog Marketing來規劃部落客銀行,一組則是做旅遊規劃。
真正讓我印象深刻的則是運用實價登錄資料及銀髮族所規劃的「尋找失傳已久的龍穴」(愛住易-infographic,請見http://go.cft.io/1e0NTaD)。由於台灣逐漸邁向高齡化的人口結構,但在許多的政策及規劃上並沒有真正在為銀髮族群來設計,甚至在許多商品及行銷規劃上,只能看到針對年輕族群的行銷案,對於銀髮族的「住」的需求,真的是少之又少。這一組針對了入選為2016世界設計之都的台北市來做分析,並將指標定義在:醫療、疾病、休閒綠地、教育、社會參與,並做了相當棒的視覺化設計,讓在場的人能透過視覺化的圖表馬上取得資訊,這組的表現真的讓我印象深刻。
愛住易:尋找失傳已久的龍穴。
愛住易:尋找失傳已久的龍穴。
另一組也運用了實價登錄資料並搭配Pixnet資料的主題:千金買房,萬金買鄰。這個主題雖然也曾在第一期出現過,但這一組反而喚起先前曾瀏覽過的Community Insight網站的印象。這一組的所運用的資料不少,由於自己也參與了Open Data Census,看了一些台灣各地方公部門所公開的資料,所以還可以再配合各地區政府所公開的教育局的資料、犯罪統計的資料、交通事故的資料、工商名錄(或商業清冊)……等,就可以做到比房仲網更清楚及實用的功能。(如果有房仲真的這麼幹了,請捐錢贊助Code for Tomorrow基金會成立。)
由於這次也使用了民間公司所開放的資料,所以我也特別留意了前面所提到的兩組使用Pixnet blog所提供資訊所規劃出來的成果。
在部落客銀行這一方面,因為自己工作性質的緣故,我覺得可以再進一步的包裝成完整的行銷公司,又或者,他們的目標是整合行銷公司。如果單就一個部落客資料庫來說,民間的整合行銷公司其實有非常熱門的部落客資料庫,從3C、飲食、旅遊、彩妝、消費型生活用品等都有相當完整的規劃,更進一步的,他們自己培養(創造)部落客,安置在不同的媒體平台中,讓他們隨時可以應付客戶需求,依據行銷預算,從不同的媒體到實體生活的體驗來做出一個較完整的行銷規劃,而不是只把行銷預算放在Blog marketing裡。但單就部落客銀行這個企畫案來說,他們著重的是在Text Mining,如何分析部落格文章內的文字,找出關鍵字、分類、讓業主在短時間內找到符合需求的部落客來搭配。現場馬上就出現了一個業者表示他有商品,但是要如何透過這樣的功能來進行Blog marketing?這就是讓我看到台灣最常發生的情況:一方是有好商品、大量的資金,一方有程式、有功能,但就少了行銷規劃。這也是台灣製造業總是落入OEM的原因之一。
另一組運用Pixnet資料的則是想運用這些資料來做旅遊建議,由於這樣功能的網站、APP非常的多,台灣的公部門更是製作了許多類似的APP,更讓我想到農委會藥毒所曾經建製了一個結合深度農村旅遊的台灣自遊網
這是活動結束後,Gene和Johnson在我旁邊討論統計、文字探勘、資料視覺化的畫面。
這是活動結束後,黑貘大大和講師Johnson在我旁邊討論統計、文字探勘、資料視覺化的畫面。
最後的Lightning talk都是與視覺化資訊、text mining有關的主題,利用自3月18日太陽花學運開始至今在不同媒體上所呈現的資料,運用文字探勘做出分析,並將分析結果視覺化,讓觀看者在當下就能取得自己需要的資訊。
由於DSP一直以來都是在鼓勵以團隊的方式來做事,在這樣的團隊合作過程裡,重點不見得是要在短時間之內產出什麼,而是在這樣的合作過程中,可以了解自己在面對大量未處理的資料時,在團隊裡扮演什麼樣的角色,是清理資料的人?找出資料的人?分析資料的人?程式設計人員?還是說故事的人?
在活動中間,與Lightning Talk的講者之一的黑貘大大稍微聊了一下,除了聊他在會中努力coding要運用在330凱道遊行的作品(捍衛民主、退回服貿、人民站出來、打卡現民意)外,也聊到了DSP參與者們在這樣短而緊湊的過程裡學到了什麼。我想在這樣的課程中,每個人都可以透過合作經驗來反視自己的能力與角色,能扮演什麼?這個社會期望你扮演什麼?自己的能力可以呈現出什麼?在參與這樣的活動後,可以帶回給自己服務單位的回饋是什麼?這是我自己參與Code for Tomorrow裡的心得。
這是活動結束時,大家聚在一起拍的合照:
DSP 第二期工作人員大合照
DSP 第二期工作人員大合照

 其他更仔細的資訊:

留言

此網誌的熱門文章

聽死神說故事--偷書賊

書名:偷書賊(THE Book Thief) 作者:Markus Zusak ISBN:9789866973420 作者網站: Markus Zusak 譯者:呂玉嬋 出版:木馬文化 封面取自博客來網路書局。 購買於小小書房。 這個夏天讀《偷書賊》和《失物之書》,會在兩本不同的故事裡看到同一個時空背景所發生的故事,同樣是發生在孩子身上的事,同樣在說文字的力量,但《偷書賊》的節奏比《失物之書》緩慢一些。我盡量不要比較這兩本書,因為這是很無聊的事,但在閱讀的過程裡總驚訝這兩個故事有那麼多巧合之處,不是情節上的相似,而是在人物角色和背景總是有相似或是對立的情況出現。 《偷書賊》的女主角是被德國夫妻領養的莉賽爾,原本也要一同被領養的莉賽爾的弟弟卻死於火車上,莉賽爾在遭受與父母分離及弟弟的死亡後,在精神上受了極大的創傷,幸運的是領養她的父母是故事書中最仁慈的角色,給了莉賽爾完整的愛,不同於此時期裡其他的孩子可能瀕臨餓死或是送入集中營或是在街頭流浪被流彈波及,莉賽爾因為養父母的照顧和周遭的朋友、躲在地下室的猶太人…還有偏愛她的死神。 這個故事的特別處之一,敘述者不是主角或是任何一個書中的角色,而是沒有時空限制,總是旁觀的第三者,特別是在二戰的年代,無所不在的死神,戰場、集中營、巷弄裡,特別的是,這個死神總是想要表現祂冷酷無情和輕蔑人類的一面,但實際上我們從書中讀到的,是祂憐憫人類、輕視、無奈、驚訝人類的個性,也像人類一樣會抱怨工作、具有詩意、幽默感,也就是具有人性的一面: 人類只有在一天的開始與結束時,才會觀察顏色的變化。 但是對我而言,一天當中,每個短暫片刻都呈現出不同的色度與調性。 光是一個小時的時間,就包含了幾千種不同的顏色:蜜蠟黃、柔絲藍、陰鬱黑。 我是做這行的,當然特別注意顏色的變化。 …她貫徹始終,只要經過三十三號的門口,從沒有忘記吐痰,還會外加一句「死豬」。我發現德國人有個特點:他們真的很愛豬。 這個具有人性的死神成了說書者,祂說著在戰時會發生在任何一個角落的故事,然而我們透過祂的眼睛,看到一個帶著色彩、煙硝味濃厚、心驚膽跳與眼淚的故事,祂不儘是旁觀者,同時也是貫穿整個故事的主要角色之一。 整個故事讀起來有對納粹主義的不滿也有對當時情況的無奈。裡面對於創傷後壓力症候群( PTSD )的描寫也很貼切,莉賽爾和猶太人麥克斯分別經歷了不同程度的打擊,也產生了同樣的症狀,

和 AI 工作三個月的感想

在 ChatGPT 在台灣開始流行後,我和它一起工作了大概 3 個月的時間。這段時間裡有許多出現如何監管、治理AI的文章、也有不少教學、像是有不少如何下關鍵字使它協助你工作。這篇文章純粹以一個使用者的立場來分享,這段時間我與 ChatGPT 一起工作的感想,而不是告訴你怎麼治理它或是如何使用它。 這 3 個月裡如何與 AI 一起工作? 因為我的工作知識涉及的領域不止在網路科技,但網路科技卻是我的所有工作範疇的基礎,網路治理是我的入門磚。 在 2 月底 3 月初時,有一份工作內容是聽 12 場研討會的錄影並摘要,原本我們擔心不了解法庭程序、法律用字、各國的法規和習慣不同,但第一個問題是,怎麼有效率的把錄音裡的話語解釋出來?。後來長官提出了一個方法,有沒有可以聽打字幕的工具?把字幕擷取出來,再翻譯成中文,然後再修改?於是我想到 ICANN 會議、IGF 會議所使用的即時字幕工具,但後來又找到了 Web Captioner 。這是許多 YouTuber 會使用的字幕工具。 也許有人會說,這目前市面上有很多錄音筆可以做到這件事了?我要說的是,如果你面對的是不同國家口音、用字習慣、法律用字、法庭程序,錄音筆能否做到同樣的能力?我沒有實際測試過,但 Web Captioner 已經協助減少初期工作的一項負擔,後續的工作完全要依賴這個第一步,不然沒有辦法接下去。 有用過 Google Translate 的人都知道,它最多就是「堪用」而已,你丟什麼給它,它也就回饋你什麼。就是照字面翻譯,沒有上下文的脈絡,當然後續還很多很好用的翻譯工具,但就便利性來說,Google Translate 的便利性還算是高的。 直到 ChatGPT 出現,我從 3 開始用,再到 3.5版,然後付費使用 GPT 4 和一些外掛工具,它開始讓我感受到身為人的限制、受到體力的限制,還有機器學習的快速,更重要的是,它讓我思考如何去問問題。 基本的翻譯工作在 GPT 3 就已經到90%的滿意程度,那個時候我還擔心 Web Captioner 的文字擷取能力會受限於講者的口音,所以我還是會聽著錄音做即時聽打,以使要翻譯的文字檔更完整。一場 90 分鐘的專家討論需要 4 個工作天全力投入才能翻譯、整理完畢,但如果是一個可以講美式或英式英語的講者的專題演講,只要速度不快,大概 1.5 個工作天就能處理完畢。 GPT

讀歐盟「數位服務法」和「數位市場法」草案心得

在 3 月 24 日時參與了 台灣網路講堂 所舉辦的 活動 ,這個活動是以在台灣較知名的美國 Parler 案為題,來討論歐盟的「數位市場法」 (Digital Market Act. 簡稱 DMA ) 對於「守門人」(Gatekeeper) 平台的管制,並邀請了從競爭法、經濟學、公平會、傳播及科技法律不同角度的講者來討論這個議題。 受限於時間,講者們只能把不同角度的重點讓參與者了解,事後再看 DMA 時,才了解並不是只有單純只對守門人做規範,而是從整個歐盟打算將會員國打造成「數位單一市場」(Digital Single Market)的整個脈絡,並從其發展資料經濟 (Data Economic)所發展不同階段的相關政策、指令與法律,而主管 (也是當天活動的引言人) 也提醒,還可以自歐盟在 2018 年 5 月正式執行的「一般資料保護規範」(General Data Protection Regulation,簡稱 GDPR) 觀察,歐盟當局不是只有外表看到的禁止、設限,更重要的,它是希望藉由明確的「法遵」 (Compliance) 要求,建立一個健全、具有發展與競爭機會的數位經濟市場。 這些法遵要求不論是對歐盟會員國境內發展數位服務的廠商、中小企業、不同規模的平台,到跨國企業進入歐盟市場發展,除了要面臨相關的市場調查外,也同樣要遵守。 如果無法看整個歐盟的數位單一市場發展,應該要了解 DMA 其實是「The Digital Services Act package」的法案之一,另一個則是「數位服務法」 (Digital Service Act. 簡稱 DSA ) ,DSA 規範了不同規模的「線上中介產業」 (online intermediary) 該做的事及責任,而 DMA 則是針對法案草案中所規範的守門人更加上了「義務」(Obligation)。由於台灣網路資訊中心已在其部落格中有整理相關的 摘要 ,且台灣網路堂也會公布當天活動的錄影,所以在這篇文章就不再解釋 DSA 和 DMA ,有興趣的人可以自己再去閱讀兩個法案的草案內容,歐盟執委會也有整理許多相關的問答在其網站中,十分好閱讀。 DSA、DMA 與歐盟其他法案的關係 在歐盟執委會網站中有提到,DSA  是一個水平的計劃,重點關注線上中介業者對第三方內容的責任,網路用戶的安全或對信息社會的不同提供者的不對稱