วารสารศาสตร์ข้อมูล – Data Journalism

เปลี่ยนข้อมูลให้เป็นข่าว

ใช้ Google Refine ทำความสะอาดข้อมูล

without comments

Google Refine เป็นเครื่องมือสำหรับทำความสะอาดข้อมูล เช่น รวมกลุ่มข้อมูลที่ชื่อหมวดอาจจะสะกดต่างกันเล็ก ๆ น้อย ๆ (เช่น มีช่องว่าง ใช้ตัวย่อ ตัวไม่ย่อ) ให้มาเป็นหมวดเดียวกัน, มองหาข้อมูลที่อาจจะผิดพลาด หรืออยู่ในหน่วยนับอื่น เพื่อให้สุดท้ายแล้ว เรามีข้อมูลที่นำไปประมวลผลได้ง่ายขึ้น มองเห็นภาพใหญ่ได้มากขึ้น

Google Refine ทำงานบนเครื่องคอมของเราเอง ผ่านหน้าจอเบราว์เซอร์ โดยไม่ได้อัปโหลดข้อมูลของเรา ซึ่งอาจจะอ่อนไหว ไปที่เซิร์ฟเวอร์ไหน

Written by bact'

July 6th, 2011 at 6:13 pm

Posted in tools

Tagged with ,

ค่าแรงขั้นต่ำ ทั่วประเทศ แยกจังหวัด

with one comment

*คอลัมน์ Visualize This! เป็นการแนะนำข้อมูลดิบที่น่าจะถูกนำเสนอต่อสาธารณะในรูปแบบที่เข้าใจง่ายและนำไปใช้ต่อได้ ผู้อ่านสามารถแนะนำข้อมูลสำหรับคอลัมน์นี้ได้ที่ admin@datajourmalism.in.th


อัตราค่าจ้างขั้นต่ำของประเทศไทย แยกตามจังหวัด – มกราคม 2554

เลือกดาวน์โหลดเป็น csv, Excel, OpenDocument ได้ที่เมนู File -> Download as

ข้อมูลจากเว็บไซต์กระทรวงแรงงาน http://www.mol.go.th/employee/interesting_information/4131
แปลงข้อมูลเป็นสเปรดชีตโดย @thanr

ข้อมูลตอนนี้ยังมีเฉพาะของปี 2554 ใครมีแหล่งข้อมูลของปีอื่น ๆ ส่งมาได้นะครับ จะได้ลองแปลงเข้าไปในตารางเดียวกัน ให้ใช้ในการเปรียบเทียบได้ :)

แถม: จากวิกิพีเดีย List of minimum wages by country ค่าแรงขั้นต่ำรายประเทศ โดยอยู่ในหน่วย “international dollars” (Geary–Khamis dollar) ซึ่งสะท้อนกำลังซื้อภายในประเทศนั้น ๆ

Written by bact'

July 6th, 2011 at 4:57 pm

Posted in visualize this

Tagged with ,

วาดรายจ่ายรัฐบาล ด้วย protovis

without comments

คุณ puri ลองเอาข้อมูลรายจ่ายรัฐบาลไทย ปีงบประมาณ 2544-2554 (แบบ machine-readable) ไปทำเป็นกราฟ ด้วยไลบรารี protovis

ดูได้ที่ url นี้ครับ: http://www.cs.sunysb.edu/~pruchikachor/budget/ (ลองคลิก ๆ ที่ชาร์ต หรือค้นหาในช่อง Search โดยใช้ regular expression ได้ เช่น ค้นคำว่า “health|defence” จะแสดงผลทั้งข้อมูลที่มีคำว่า health และคำว่า defence)

Thai government spending - a chart with protovis

protovis เป็นไลบรารี JavaScript สำหรับทำ visualization โดยใช้กราฟิกแบบ SVG ทำให้ไม่ต้องติดตั้งปลั๊กอินใด ๆ (แต่เบราว์เซอร์ต้องรุ่นใหม่หน่อย) — ปัจจุบันหยุดการพัฒนาแล้ว โดยทีมเดิมไปเริ่มโครงการใหม่ ชื่อ d3.js (Data-Driven Documents) ซึ่งจะเพิ่มความสามารถด้าน animation และ interaction เข้ามา

ขอขอบคุณคุณ puri อีกทีนะครับ ส่งของมาสนุกกัน ใครสนใจจะลอง protovis หรือ d3 ไปลองได้นะครับ มีอะไรน่าสนใจ อยากอวด ส่งมาได้เลย ;)

Written by bact'

July 3rd, 2011 at 4:34 pm

Encyclo สารานุกรมอนาคตข่าว

without comments

Encyclo site's header

‎Encyclo เป็นสารานุกรมที่รวบรวมเรื่องราวเกี่ยวกับอนาคตของข่าว จัดทำโดย Nieman Journalism Lab มหาวิทยาลัยฮาร์วาร์ด เปิดให้คนทั่วไปเสนอข้อมูลเข้าไปได้

สิ่งที่อยู่ในสารานุกรม คือประวัติและข้อมูลของหนังสือพิมพ์และเว็บไซต์ข่าว บริษัทเทคโนโลยี และโครงการต่าง ๆ ที่เกี่ยวกับงานข่าวและวารสารศาสตร์

โครงการนี้สนับสนุนโดย Knight Foundation (อ่านต่อที่หน้า About)

Written by bact'

June 26th, 2011 at 10:40 am

ขุดข่าวจากวิกิลีกส์ ด้วยโปรแกรมคอมพิวเตอร์

without comments

ในการประชุม CAR 2011 ของสถาบันแห่งชาติเพื่อการใช้คอมพิวเตอร์ช่วยในการรายงานข่าว (National Institute of Computer-Assisted Reporting) เมื่อกุมภาพันธ์ที่ผ่านมา โจนาธาน สเตรย์ (@jonathanstray) นักข่าว-โปรแกรมเมอร์ที่ Associated Press เล่าถึงวิธีขุดหาข่าวจากกองเอกสารจำนวนมหาศาล โดยอาศัยการวาดภาพจากกลุ่มข้อมูล กลุ่มข้อมูลดังกล่าวถูกแบ่งขึ้นอย่างอัตโนมัติด้วยวิธีที่เรียกกันว่า การทำเหมืองข้อความ (text mining) ซึ่งผสมวิธีทางคณิตศาสตร์เข้ากับการเลือกชุดของคำซึ่งอาศัยความรู้ทางวารสารศาสตร์ ชุดเอกสารที่โจนาธานใช้เป็นตัวอย่างคือปูมบันทึกสงครามอิรักและอัฟกานิสถาน จากวิกิลีกส์


Investigating thousands (or millions) of documents by clustering
from Jonathan Stray on Vimeo.

แหล่งข้อมูลและซอฟต์แวร์ที่โจนาธานพูดถึงในการนำเสนอดังกล่าว ได้แก่:

  • A full-text visualization of the Iraq War Logs (ภาพวาดจากข้อความทั้งหมดของปูมสงครามอิรัก) – โพสต์ที่โจนาธานเขียนอธิบายอย่างละเอียดเกี่ยวกับเทคนิคในการวาดภาพผังต่าง ๆ ที่แสดงในการนำเสนอ ในโพสต์ดังกล่าวยังอธิบายด้วยว่า เราสามารถเรียนรู้อะไรจากผังเหล่านี้ และมีอะไรที่เราไม่สามารถรู้ได้จากมัน
  • Glimmer – อัลกอริธึมสำหรับการทำ “multidimensional scaling” (MDS) หรือการหากลุ่มพื้นที่ต่าง ๆ ที่สามารถลดจำนวนมิติของข้อมูลลงมา ให้อยู่ในขนาดที่สามารถเอามาวาดภาพข้อมูลได้ เช่นลดจาก 7 มิติให้ลงมาเหลือ 2 มิติ จะได้วาดเป็นกราฟแบน ๆ ได้ (คนเขียนบล็อกก็เข้าใจได้แค่นี้ครับ ลองกดลิงก์ไปอ่านดูเองถ้าสนใจ)
  • “Quantitative Discovery from Qualitative Information: A General-Purpose Document Clustering Methodology.” Justin Grimmer, Gary King, 2009. โจนาธานบอกว่านี่เป็นบทความที่ทุกคนที่ทำงานด้านการแบ่งกลุ่มเอกสาร (document clustering) จำเป็นจะต้องอ่าน โจนาธานบอกว่าบทความนี้แสดงให้เห็นอย่างชัดเจนว่า มันไม่มีอัลกอริธึมการแบ่งกลุ่มอันไหนที่ “ดีที่สุด” จะมีก็เพียงอัลกอริธึมที่ทำได้ตรงตามกรอบคิดที่กำหนดไว้ล่วงหน้าแล้ว ซึ่งกรอบที่ว่าก็มีได้หลายแบบ ในบทความดังกล่าวยังบอกถึงวิธีการเปรียบเทียบการแบ่งกลุ่มอีกด้วย
  • บทความวิกิพีเดียเรื่อง bag of words model (ถุงคำ), tf-idf และ cosine similarity (ความคล้ายเชิงโคไซน์) ซึ่งเป็นเทคนิคการประมวลผลข้อความขั้นพื้นฐานที่ใช้ในงานนี้
  • Gephi – ซอฟต์แวร์เสรีสำหรับวาดกราฟ ซึ่งใช้วาดผังข้อมูลหนึ่งเดือนในอิรัก ซอฟต์แวร์นี้สามารถจัดการโหนดได้ประมาณสองถึงสามพันโหนด
  • ใบสมัครโครงการ Knight News Challenge ที่ทีมของโจนาธานส่งโครงการในชื่อ “Overview” ซึ่งจะเป็นซอฟต์แวร์โอเพนซอร์สที่ทำการขุดข่าวจากกองเอกสารขนาดมหึมาในลักษณะที่อธิบายไป โจนาธานชวนว่า ถ้าใครสนใจ ก็ขอให้ไปแสดงความเห็นไว้หน่อย ที่ข้อเสนอโครงการ

โจนาธาน สเตรย์ เคยเป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่อโดบี (บริษัทที่ทำโปรแกรมแต่งรูปถ่าย Photoshop และรูปแบบเอกสาร PDF) ก่อนจะย้ายมาอยู่สำนักข่าวแอสโซซิเอตเต็ดเพรส ในโพสต์ที่ DataJournalism.in.th ก่อนหน้านี้ ที่เกี่ยวกับวารสารศาสตร์เชิงคำนวณ ในส่วนของการแนะนำสาขาที่เกี่ยวข้องกับวารสารศาสตร์เชิงคำนวณและงานชิ้นสำคัญในสาขานั้น ๆ ก็เอามาจากบล็อกของโจนาธาน


เรียบเรียงจาก Investigating thousands (or millions) of documents by visualizing clusters (ผ่าน Slashdot, John Mecklin, Maria Popova)

“ประเทศไทยอยู่ตรงไหน” – การเปรียบเทียบข้อมูลด้วยแผนที่

with 2 comments

เมื่อไม่นานมานี้ไปเจอ Facebook Page อันนึงที่น่าสนใจมาก ชื่อว่า ประเทศไทยอยู่ตรงไหน เป็น Page ที่รวบรวมและเปรียบเทียบสถิติต่าง ๆ ระหว่างประเทศไทยกับทั่วโลก เช่น คนไทยต้อง/ไม่ต้องขอวีซ่าเข้าประเทศไหนบ้าง (จาก Wikipedia) หรือดัชนีเสรีภาพสื่อ (จาก Freedom House)

ก็คงเป็นเรื่องที่คิดได้ไม่ยากว่า ถ้าจะเปรียบเทียบข้อมูลระหว่างประเทศต่าง ๆ ให้มองแวบเดียว (glance) แล้วพอเข้าใจนั้น แผนที่โลกก็น่าจะเป็นสื่อนำเสนอที่ดี เพราะคนอ่านก็คงพอจะทราบว่าประเทศไทยอยู่ตรงไหน ประเทศอื่น ๆ ที่ตนสนใจนั้นอยู่ตรงไหน

แล้วเราจะทำแผนที่เองได้อย่างไรบ้าง? Wikipedia มีแผนที่แม่แบบอยู่จำนวนหนึ่ง ซึ่งหลายชิ้น (ถ้าไม่ใช่ทั้งหมด) เป็นสาธารณสมบัติ (public domain) ซึ่งสามารถดาวน์โหลดมาแก้ไขด้วยซอฟต์แวร์ด้านรูปภาพ หรือใช้ชุดคำสั่งภาษา Pythonเพื่อความสะดวกในการใช้ข้อมูลที่มีอยู่แล้ว

นอกจากนี้ Google Chart API ก็มีชุดแผนที่แบบ Flash ให้นำไปแปะตามเว็บไซต์ สำหรับการนำเสนอข้อมูลที่มี “ลูกเล่น” มากกว่าภาพนิ่งทั่วไป

ลองทำแล้วส่งมาแบ่งกันดูบ้างนะครับ

Written by tewson

June 5th, 2011 at 9:34 pm

Posted in data visualization,tools

Tagged with

กฎหมายเอกสารราชการ – จดหมายเหตุ

without comments

แหล่งข้อมูลสาธารณะขนาดใหญ่ ย่อมหนีไปพ้นเอกสารราชการ ซึ่งประชาชนทุกคนสามารถเข้าถึงได้ ตาม พ.ร.บ.ข้อมูลข่าวสารของราชการ 2540 ซึ่งเทียบเคียงได้กับกฎหมาย Freedom of Information Act ในประเทศอื่น ๆ

การจัดเก็บเอกสารราชการ มีกฎหมายและระเบียบที่เกี่ยวข้องหลายฉบับ ส่วนหนึ่งได้แก่

หน่วยงานสำคัญที่ดูแลระเบียบการจัดเก็บและทำลายเอกสารราชการ คือสำนักหอจดหมายเหตุแห่งชาติ

สำนักหอจดหมายเหตุแห่งชาติ กรมศิลปากร เป็นหน่วยงานในสังกัดกระทรวงวัฒนธรรมที่ทำหน้าที่ติดตาม รวบรวม รับมอบเอกสารประวัติศาสตร์จากหน่วยงานของรัฐเพื่อนำมาดำเนินการประเมินคุณค่า คัดเลือกเก็บรักษาไว้ตลอดไปเป็นมรดกทางวัฒนธรรมของชาติด้านจดหมายเหตุ และดำเนินการจัดระบบเอกสารจดหมายเหตุ ตามหลักวิชาจดหมายเหตุ ได้แก่ การจัดหมวดหมู่ การจัดทำเครื่องมือช่วยค้นคว้า การอนุรักษ์โดยเทคนิควิธีต่าง ๆ การจัดเก็บรักษาตามมาตรฐานจดหมายเหตุ และการให้บริการค้นคว้าวิจัยเอกสารจดหมายเหตุแก่ประชาชน

ส่วนหน่วยงานที่ดูแลนโยบายการเปิดเผยข้อมูลข่าวสาร รวมถึงรับเรื่องร้องเรียนเกี่ยวกับเรื่องดังกล่าว คือ สำนักงานคณะกรรมการข้อมูลข่าวสารของราชการ (สขร.)

Written by bact'

May 12th, 2011 at 11:50 pm

รายจ่ายรัฐบาลไทย ปีงบประมาณ 2544-2554 (แบบ machine-readable)

with 4 comments

*คอลัมน์ Visualize This! เป็นการแนะนำข้อมูลดิบที่น่าจะถูกนำเสนอต่อสาธารณะในรูปแบบที่เข้าใจง่ายและนำไปใช้ต่อได้ ผู้อ่านสามารถแนะนำข้อมูลสำหรับคอลัมน์นี้ได้ที่ admin@datajourmalism.in.th

โอเพ่นดรีมจัดการ “แปลง” ข้อมูลงบประมาณรายจ่ายประจำปีงบประมาณย้อนหลัง 10 ปี (พ.ศ. 2544-2554) เป็นรูปแบบสเปรดชีต ที่เครื่องคอมพิวเตอร์อ่านและประมวลผลได้สะดวก และโพสต์ไว้ที่บล็อกโอเพ่นดรีม — DataJournalism.in.th เอามาเผยแพร่ต่อ


บล็อก “วารสารศาสตร์ข้อมูล” DataJournalism.in.th โพสต์ชวนโพสต์ทำ visualization วาดภาพข้อมูลงบประมาณรายจ่ายประจำปีของประเทศไทย และให้ลิงก์ไปที่ PDF ของพ.ร.บ.งบประมาณรายจ่ายประจำปีงบประมาณ ซึ่งถ้าใครได้ลองก็จะพบว่า มันเป็นข้อมูลที่อยู่ในรูปแบบที่เอาไปใช้ต่อได้ยาก ส่วนหนึ่งเพราะ:

  1. อยู่ในรูปแบบ PDF ซึ่งเอาไปประมวลผลต่อได้ยาก จำเป็นต้องคัดลอกออกมาหรือแปลงให้อยู่ในรูปแบบข้อความหรือแฟ้มแบบสเปรดชีตเสียก่อน
  2. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2550) เป็นรูปภาพ (สแกนมา) ไม่ใช่ข้อความ ไม่สามารถคัดลอกข้อความมาใช้ได้
  3. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2545) แม้จะดูเป็นแบบข้อความ แต่เมื่อลองคัดลอกไปวางที่โปรแกรมอื่น จะพบว่ากลายเป็นข้อความที่อ่านไม่ได้หรือผิดเพี้ยนไป ตัวอย่างเช่น งบเบี้ยหวัด บำเหน็จ บำนาญ ที่ข้อความแสดงให้เห็นเป็น “๔๕,๐๐๐,๐๐๐,๐๐๐” เมื่อคัดลอกออกมา (copy & paste) จะกลายเป็น “Ùı,,,” ซึ่งไม่มีความหมาย ใช้งานต่อไม่ได้
  4. ในกรณีที่ดีที่สุด คือสามารถคัดลอกมาเป็นข้อความได้ไม่ผิดเพี้ยน แต่เนื่องจากเอกสารราชการไทย ใช้เลขไทย ซึ่งบางโปรแกรมอาจจะไม่รองรับ (คือพิมพ์ลงไปได้ แต่โปรแกรมไม่รับรู้ว่ามันเป็นตัวเลข/จำนวน ทำให้บวกลบคำนวณไม่ได้) — ทั้งนี้เท่าที่ทดสอบ โปรแกรมสเปรดชีตของ Google Docs ไม่รองรับเลขไทย, ส่วน OpenOffice.org/LibreOffice นั้นสามารถใส่เลขไทยลงไปได้ แล้วโปรแกรมจะแปลงให้เป็นจำนวนอัตโนมัติ

ต่าง ๆ เหล่านี้ ทำให้นึกถึงประโยคที่เกริ่นนำเอาไว้ในหน้า “อะไรคือวารสารศาสตร์ข้อมูล” ของบล็อก DataJournalism.in.th ที่ว่า:

กฎหมายกำหนดให้ข้อมูลจำนวนมากถูกเผยแพร่ต่อสาธารณะ แต่น้อยคนนักที่จะใช้ประโยชน์จากมันได้ เพราะมันไม่อยู่ในสภาพที่เข้าใจง่ายหรือเอาไปใช้ต่อได้สะดวก

การเป็น “แฟ้มอิเล็กทรอนิกส์” ไม่ได้หมายความโดยอัตโนมัติว่า มันจะ “อ่านได้ด้วยเครื่อง” (machine readable) ซึ่งเป็นคุณสมบัติสำคัญของข้อมูลที่จะถูกประมวลผลด้วยเครื่องคอมพิวเตอร์ได้

เพื่อความสะดวกสำหรับคนที่อยากจะลองวาดภาพสนุก ๆ จากข้อมูลงบประมาณเหล่านี้ เราก็เลยจัดการ “แปลง” (แปลว่าอ่าน PDF แล้วนั่งจิ้มตัวเลขทีละตัวลง Google Docs, ใช้เวลาประมาณ 50 นาทีต่อ 1 ปีงบประมาณ) ข้อมูลบางส่วนของงบประมาณปี พ.ศ. 2544-2554 มาเป็นรูปแบบสเปรดชีต (ตารางคำนวณ) จะได้ไม่ต้องเสียเวลาวุ่นวายแปลงกันอีก :)

ดาวน์โหลดสเปรดชีต “งบประมาณรายจ่ายประจำปีงบประมาณ 2544-2554″ :
รูปแบบ OpenDocument spreadsheet (.ods) | รูปแบบ Excel (.xls) (ทั้งสองรูปแบบเอาไปแปลงเป็น CSV ต่อได้)

ตัวอย่างบางส่วน (ดูทั้งหมดในแบบ HTML):

ที่มาข้อมูล: เว็บไซต์ สำนักงบประมาณ สำนักนายกรัฐมนตรี

หมายเหตุ:

  • ปีในชุดข้อมูลนี้ เป็นปีงบประมาณ ไม่ใช่ปีตามปฏิทินปกติ
  • ตัวเลขอาจจะเทียบข้ามปีตรง ๆ ไม่ได้ เพราะมีทั้งหน่วยงานเกิดใหม่ ถูกยุบรวม หรือย้ายกระทรวงสังกัด แต่ก็พอจะเห็นภาพกว้าง ๆ
  • ตั้งแต่ปีงบประมาณ 2552 งบส่วนของ “รัฐสภา” และ “ศาล” แยกออกมาเป็นหมวดต่างหาก ก่อนหน้านี้บางส่วนอยู่ใน “ส่วนราชการไม่สังกัดสำนักนายกรัฐมนตรี กระทรวง หรือทบวง”
  • งบ “จังหวัด” เพิ่มมาในปีงบประมาณ 2552 และเปลี่ยนเป็น “จังหวัดและกลุ่มจังหวัด” ในปีงบประมาณ 2553
  • งบ “สภากาชาดไทย” เพิ่มมาในปีงบประมาณ 2551
  • วิธีการคิดยอดรวม ตั้งแต่ปีงบประมาณ 2552 การคิดงบประมาณรายจ่ายรวมทั้งหมด จะรวมรายจ่าย “ชดใช้เงินคงคลัง” ด้วย — ก่อนปี 2552 จะไม่รวมรายจ่าย “ชดใช้เงินคงคลัง”
  • รายละเอียดงบประมาณ ที่แจกแจงในหมวดย่อย ไม่ได้รวมอยู่ในสเปรดชีตนี้

ประกาศ: ฐานข้อมูลเปิดภาครัฐ data.pm.go.th เปิดตัวแล้ว ไปเล่นและติชมกันได้


เผยแพร่ครั้งแรก 6 พ.ค. 2554 ที่ Opendream blog

Written by bact'

May 9th, 2011 at 10:30 am

ข้อมูลที่เชื่อใจได้ จะเป็นธุรกิจขององค์กรข่าวในอนาคต

without comments

ในงานสัมมนาเนื่องในวันเสรีภาพสื่อมวลชนโลก เมื่อวันที่ 3 พ.ค. ที่ผ่านมา ประเด็นหนึ่งที่ พิชญ์ พงษ์สวัสดิ์ พูดถึงก็คือ Trust + Tolerance หรือ ความเชื่อใจกัน + ความใจกว้างต่อกัน ซึ่งพิชญ์บอกว่า เป็นสิ่งที่จำเป็นในการจะทำให้พื้นที่อินเทอร์เน็ต เป็นพื้นที่ประชาธิปไตย (democratic space – ซึ่งเป็นวาระอันหนึ่งของ UNDP องค์กรร่วมจัด)

เว็บไซต์ของศูนย์ปฏิบัติการวารสารศาสตร์นีแมน (Nieman Journalism Lab) ได้เผยแพร่บทความ เกี่ยวกับบทบาทในอนาคตขององค์กรข่าว ในฐานะผู้จัดหาข้อมูลที่เชื่อใจได้ ซึ่งในสภาวะที่สังคมมองหาและให้คุณค่าความเชื่อใจได้ บทบาทดังกล่าวจะช่วยให้องค์กรข่าวกลับมามีความหมายกับสังคมอีกครั้ง บทความนี้เขียนโดย เจฟ แมคกี (Geoff McGhee – ผู้ทำโครงการวีดิโอ “วารสารศาสตร์ในยุคของข้อมูล”) ร่วมกับ มีร์โก ลอเรนซ์ (Mirko Lorenz – สถาปนิกสารสนเทศและนักวารสารศาสตร์ชาวเยอรมัน) และ นิโคลัส เคย์เซอร์-บริล (Nicolas Kayser-Bril – หัวหน้าทีมวารสารศาสตร์ข้อมูลที่ OWNI ฝรั่งเศส)

ทั้งสามร่วมกันเสนอว่า องค์กรข่าวควรปรับโครงสร้างตัวเองใหม่ ให้อยู่ในฐานะผู้ผลิต ผู้เสาะหารวบรวม และผู้วิเคราะห์ข้อมูล พวกเขาเชื่อว่าการขายข้อมูลที่เชื่อถือได้ จะเป็นรากฐานอันหนึ่งของรูปแบบธุรกิจใหม่ของวงการวารสารศาสตร์

ข้อถกเถียงหรือข้อเสนอจำนวนหนึ่งได้แก่:

  • องค์กรข่าวจะต้องเปลี่ยนแปลงตัวเองไปสู่ศูนย์กลางข้อมูล
  • ไม่ว่าเทคโนโลยีหรือตลาดจะเปลี่ยนไปอย่างไร แต่บทบาทที่เป็นรากฐานของวารสารศาสตร์นั้นก็จะยังไม่เปลี่ยน นั่นคือ การค้นหาความจริง และการเรียกร้องความรับผิดและตรวจสอบได้จากผู้ที่อยู่ในอำนาจ
  • ไม่ว่ามันจะอยู่ในรูปแบบบทความ วีดิโอ แอพพลิเคชัน หรือ API แต่บทบาทดังกล่าวนี้ก็ยังเหมือนเดิม — หน้าที่ของนักวารสารศาสตร์ก็คือ ใช้ทุกอย่างที่มี เพื่อจะนำเสนอเรื่องหนึ่ง ๆ ให้ได้ดีที่สุด
  • หน้าอาชญากรรมในหนังสือพิมพ์ อาจจะเปลี่ยนไปเป็นแอพพลิเคชัน ที่พล็อตจุดเกิดเหตุทั้งหมดในช่วงเวลาต่าง ๆ
  • เจฟฟ์ จาร์วิส (Jeff Jarvis – ผู้เขียนหนังสือ What Would Google Do?) เคยประกาศไว้เมื่อปี 2008 ว่า “บทความ (article) ไม่ได้เป็นองค์ประกอบแกนหลักของวารสารศาสตร์อีกต่อไปแล้ว” และเสนอว่า “หัวข้อ” (topic) ต่างหาก ที่จะเป็นแกนหลัก (ซึ่งมันมากไปกว่า “บทความ” เฉย ๆ)
  • ความน่าเชื่อถือ-เชื่อใจได้ (trust) – ไม่ใช่สารสนเทศ – เป็นทรัพยากรที่ทุกวันนี้หาได้ยาก ความน่าเชื่อถือเป็นสิ่งที่ได้มาลำบากและเสียไปได้ง่าย และมันคือสิ่งสำคัญในวารสารศาสตร์: มีอาชีพอื่น ๆ อีกไม่กี่อาชีพนักหรอก ที่จำเป็นต้องอาศัยความเชื่อใจมากถึงขนาดนี้
  • Thomson Reuters คือตัวอย่างของบริษัทที่ผลักดันตัวเองจากที่เคยให้ความสนใจกับ ข้อความ มาสู่ ข้อมูล
  • Bloomberg และ Amazon.com คือตัวอย่างของบริษัทที่รู้ว่า แม้เนื้อหาจะมีความสำคัญ แต่วิธีที่นำเสนอเนื้อหา หรือ “ประสบการณ์ของผู้ใช้” (user experience) นั้น ก็มีความสำคัญไปยิ่งหย่อนไปกว่ากัน
  • ทำสะสมไว้ แล้วเก็บเกี่ยวทีหลัง
  • ในทางหลักการ วารสารศาสตร์ข้อมูลก็คือสิ่งที่นักข่าวทำกันมานานแล้ว ไม่มีอะไรแปลกใหม่น่ากลัว นึกถึงหนังสือรวมประกาศ (gazette) ในศตวรรษที่ 17 สิ่งที่นักข่าวทำตั้งแต่ตอนนั้นก็คือ: รวบรวมข้อเท็จจริง, ตรวจสอบ, เขียนเกี่ยวกับมัน
  • สิ่งที่จะต่างไปคือ นักข่าวจะไม่ได้เป็นผู้เก็บรวบรวมข้อเท็จจริงด้วยตัวเอง แต่เป็นผู้ประสานจัดการในการรวบรวม ผู้ใช้จำนวนมากช่วยกันลงมือเก็บข้อมูล ในลักษณะฝูงชนแบ่งงานกันทำ (crowdsourcing) ในอนาคต นักข่าวจะมีหน้าที่คล้ายผู้จัดการโครงการ
  • ในการบริการข้อมูลต่าง ๆ เหล่านี้ องค์กรข่าวสามารถหารายได้จากผู้ใช้กลุ่มต่าง ๆ และคิดราคาที่ต่างกันไปตามความต้องการใช้ประโยชน์ที่ต่างกันจากข้อมูลชิ้นเดียวกัน

อ่านบทความต้นฉบับได้ที่ Media Companies Must Become Trusted Data Hubs, OWNI.eu, Feb 28, 2011 [ผ่าน Nieman Journalism Lab]

Written by bact'

May 6th, 2011 at 1:38 am

วารสารศาสตร์ข้อมูลกับภาพใหญ่

with one comment

บทความ “ความสำคัญที่เพิ่มมากขึ้นของวารสารศาสตร์ข้อมูล” โดย อเล็กซ์ โฮเวิร์ด ได้อ้างถึงโพสต์ของ แอนโธนี เดอบาร์รอส datajournalism.in.th ก็ขอแปลโพสต์ดังกล่าวต่อเลยละกัน

แปลจาก Data Journalism and the Big Picture โดย Anthony DeBarros, 26 พ.ย. 2553

ผู้คนในเว็บในสัปดาห์ที่ผ่านมาได้แสดงความคิดเห็นต่าง ๆ เกี่ยวกับคุณค่าของวารสารศาสตร์ข้อมูล และทักษะที่เกี่ยวข้อง ประเด็นสำคัญ ๆ ก็คือ

  • ทีม เบิร์นสเนอร์-ลี ผู้คิดค้นเวิลด์ไวด์เว็บ บอกกับหนังสือพิมพ์เดอะการ์เดียนว่า “นักข่าวจำเป็นต้องใช้ข้อมูลได้อย่างชำนาญ” และ “วารสารศาสตร์ข้อมูลคืออนาคตต” ข่าวดังกล่าวพูดต่อไปถึงคำถามที่ว่า การวิเคราะห์ข้อมูลจะสามารถแทนที่การรายงานข่าวแบบดั้งเดิมได้หรือไม่
  • บล็อก 10,000 Words ประกาศว่า หนึ่งใน “5 ความเชื่อเกี่ยวกับวารสารศาสตร์ดิจิทัล” คือความเชื่อที่ว่า “นักข่าวจำเป็นต้องมีทักษะในการพัฒนาฐานข้อมูล” และแนะนำว่านักข่าวส่วนใหญ่ควรจะปล่อยการแฮ็ก[1] ระดับสูงให้เป็นเรื่องของผู้เชี่ยวชาญ
  • เว็บไซต์อีกไซต์หนึ่ง คือ FleetStreetBlues[2] ได้แสดงความเห็นว่า “ท่ามกลางความตื่นเต้น ความมุ่งมั่น และความลุ่มหลงในสเปรดชีต แต่นี่คือความจริงเกี่ยวกับสิ่งที่เรียกกันว่า ‘วารสารศาสตร์ข้อมูล’ มันยังคงเกี่ยวกับการเล่าเรื่อง ก็แค่นั้นแหละ”

มีปฏิกริยาตอบต่อโพสต์เหล่านี้จำนวนหนึ่ง รวมไปถึงคนจำนวนหนึ่งที่ชี้ให้เราเห็นถึงข่าวของ Time ชิ้นหนึ่งในปี 1986 [เกี่ยวกับ ฟิล เมเยอร์ นักข่าวที่ใช้คอมพิวเตอร์เพื่อวิเคราะห์สถิติประชากรของประชากรผิวดำในการจลาจลปี 1967 ในดีทรอยต์] ซึ่งคล้ายกับเรื่องที่เราพูดถึงข้างต้นในเดอะการ์เดียนสัปดาห์นี้ และนั่นคือปัญหาของโพสต์ทั้งสามชิ้นดังกล่าว: ไม่มีชิ้นใดเลยในสามชิ้นนั้น ที่มองไปยังภาพใหญ่ มุมมองเชิงประวัติศาสตร์ของวารสารศาสตร์ข้อมูล — ไม่มีการพูดถึงว่ามันมาจากไหน ไม่มีการพูดถึงว่ามันมีการเปลี่ยนแปลงอย่างไร และยิ่งไม่มีการพูดถึงภูมิหลังอันมากมายซึ่งคำว่า “วารสารศาสตร์ข้อมูล” ได้ปิดบังเอาไว้

เราเคยเรียกมันว่า “การใช้คอมพิวเตอร์ช่วยในการรายงานข่าว” (CAR)

ย้อนกลับไปในยุคที่ซอฟต์แวร์ยังมาในแผ่นฟลอปปี้ดิสก์ 5.25 นิ้ว หรืออาจจะก่อนหน้านี้อีก แนวคิดเรื่องการใช้คอมพิวเตอร์ส่วนบุคคลเพื่อ “คิดเลข” ถูกเรียกว่า “การใช้คอมพิวเตอร์ช่วยในการรายงานข่าว” (computer-assisted reporting: CAR) ทุกวันนี้ เราเรียกมันว่าวารสารศาสตร์ข้อมูล นั่นเพราะมันชัดเจนว่า ชื่อเก่านั้นดูจะคลาดเคลื่อน เหมือนกับที่ ฟิล เมเยอร์ (Phil Meyer) เคยพูดไว้ครั้งหนึ่งว่า เราไม่เคยพูดถึงการใช้โทรศัพท์ช่วยในการรายงานข่าวใช่ไหม หรือว่าเราเคย?

ในสมัยที่ผมเข้ามาสู่วงการ — สมัยที่ Paradox นั้นเป็นซอฟต์แวร์จัดการฐานข้อมูลที่เราเลือกใช้ — ห้องข่าวของเรามีคอมพิวเตอร์ส่วนบุคคลหนึ่งเครื่องที่จัดไว้เฉพาะเพื่อเป็น “เครื่อง CAR” ในขณะที่คนอื่น ๆ ใช้เครื่องเทอร์มินัลที่ต่อกับคอมพิวเตอร์เมนเฟรม ผมก็ท่องเว็บด้วยโปรแกรม Netscape และโทรหา พอล โอแวร์แบร์ก (Paul Overberg) เพื่อขอคำปรึกษาเรื่องข้อมูลสำมะโนประชากร ในตอนนั้นผมเป็นผู้เชี่ยวชาญด้านข้อมูลของห้องข่าว คนที่บรรดานักข่าวจะเรียกหาเมื่อพวกเขามีสเปรดชีตบนแผ่นดิสก์หรือความคิดว่าอยากจะได้ข้อมูลจากส่วนราชการท้องถิ่น

ในยุคนั้น — ด้วยบริษัทเว็บตั้งใหม่ซึ่งขับเคลื่อนเว็บด้วยฐานข้อมูล อย่าง Amazon.com ซึ่งกำลังแพร่การปฏิวัติวัฒนธรรมข้อมูล — มันเป็นการง่ายมากที่จะคาดการณ์ถึงช่วงเวลาที่นักข่าวจะไม่เพียงได้รับสเปรดชีตชั่วครั้งชั่วคราว แต่จะพบกับข้อมูลอันท่วมทะลัก และนั่นก็เป็นจุดกำเนิดของการพยายามชักชวนให้ห้องข่าวมาสนใจ CAR (อย่างน้อยก็ในแวดวงของผม) เราสอนโปรแกรม Excel เราส่งคนไปเข้าค่ายอบรมของสมาคมนักข่าวและบรรณาธิการข่าวสืบสวนสอบสวน (Investigative Reporters and Editors: IRE) และเราแสดงข่าวชนิดต่าง ๆ ที่นักข่าวทำด้วยทักษะเหล่านี้ สาสน์ของ CAR นั้นคือการค้นหาข่าวและการใช้เครื่องมือง่าย ๆ ในการทำมัน นั่นคือ สเปรดชีต, ฐานข้อมูล, แผนที่, และสถิติ

ตอนนี้เราเรียกมันว่า “การแฮ็ก”

อย่างไรก็ตาม ในไม่ช้า งานชุดความชำนาญเหล่านี้ก็เปลี่ยนไป เช่นเดียวกับการพูดคุยในงานประชุมการใช้คอมพิวเตอร์ช่วยในการรายงานข่าวของ IRE โดยเฉพาะสำหรับชั้นเรียนปฏิบัติการและการแสดงตัวอย่างเทคโนโลยีต่าง ๆ ในปี 2002 ที่ฟิลาเดลเฟีย ชั้นเรียนปฏิบัติการส่วนใหญ่พูดถึง Access, Excel, SPSS, และสำหรับผู้รักความท้าทายก็มี SQL Server อีกไม่กี่ปีถัดมา ในคลีฟแลนด์และฮิวส์ตัน หัวข้อการประชุมนั้นมีเรื่องการดูดข้อมูลจากหน้าเว็บ, Perl, Python, MySQL, และ Django

การเติบโตของเว็บและความหาได้ง่ายของข้อมูล ได้ช่วยผลักดันความเปลี่ยนแปลงดังกล่าวนี้ ผมยังคิดด้วยว่าบรรดา “ผู้เชี่ยวชาญ CAR” ที่ริเริ่มวารสารศาสตร์ข้อมูลในทศวรรษ 1990 น่าจะรู้สึกอ่อนล้าเหนื่อยหน่ายกับข้อจำกัดของ Access และ Excel จึงได้หาหนทางก้าวไปสู่สิ่งใหม่ ๆ แต่ไม่ว่าจะในทางใดก็ตาม ในตอนที่ PolitiFact ได้รับรางวัลพูลิตเซอร์ ยุคของแอพพิลเคชันข่าวก็บูมอย่างเต็มที่ และความคิดเรื่องนักข่าวที่เป็นโปรแกรมเมอร์ด้วย ก็เป็นขั้นต่อไปตามวิวัฒนาการตามธรรมชาติของวารสารศาสตร์ข้อมูล สวัสดี Hacks/Hackers

แต่สารในชุมชน CAR (ในตอนนี้คือ วารสารศาสตร์ข้อมูล) ก็ยังเหมือนเดิมไม่เปลี่ยนแปลง: เราใช้เครื่องมือเหล่านี้เพื่อค้นหาและเล่าข่าว เราใช้มันเหมือนเราใช้โทรศัพท์ ข่าวยังคงเป็นสิ่งสำคัญสิ่งเดียว

มองจากข้างนอกเข้าไปข้างใน

กลับไปที่เรื่องในสัปดาห์นี้ที่เราได้พูดถึงทั้งสามชิ้น แม้จะแตกต่างกันโดยสิ้นเชิงแต่พวกมันก็ยังเกี่ยวข้องกัน หนึ่งในนั้นได้ทำให้ผู้ได้รับรางวัลพูลิตเซอร์ [แมตต์ เวต (Matt Waite) นักข่าวผู้พัฒนา PolitiFact.com] รู้สึกเดือดดาล โพสต์แต่ละชิ้นได้พลาดประเด็นสำคัญไป เนื่องจากมันได้คิดถึงบริบทดังกล่าว:

  • แม้ ทิม เบิร์สเนอส์-ลี จะเคยเป็นผู้บุกเบิกเว็บ แต่เขามาสายในขบวนนี้ ในเวลาที่เขาประกาศว่าวารสารศาสตร์ข้อมูลนั้น “เป็นอนาคต” อนาคตดังกล่าวได้ผ่านไปแล้ว ความสามารถในการรับมือกับข้อมูลไม่ได้เป็นทักษะที่นักข่าวควรจะเรียนรู้อีกต่อไป — มันเป็นทักษะในการดำรงชีวิตขั้นพื้นฐาน ที่ลูก ๆ ของผมเรียนในโรงเรียนมัธยม มากไปกว่านั้น ผมยังนึกไม่ออกว่าเคยมีไหมในช่วงสิบห้าปีที่ผ่านมา ที่ใครสักคนในชุมชน CAR ได้แนะนำว่า วารสารศาสตร์ข้อมูลเป็นสิ่งที่มาแทนที่การออกไปเดินหาข่าว ค้นเอกสาร และหาทางยืนยันความน่าเชื่อถือของข้อมูลเหล่านั้น (shoe-leather reporting) ซึ่งผู้เขียนรายงานชิ้นดังกล่าวได้บอกกับผมว่า เขาตอบโต้กับความเกินจริงในคำประกาศของเบิร์นสเนอร์-ลี และไม่ได้กำลังประเมินค่าความเป็นจริงของสิ่งที่ถูกปฏิบัติอยู่
  • ตลอดเวลาที่ผ่านมา ชุมชน CAR/วารสารศาสตร์ข้อมูล ได้มุ่งมั่นสร้างทักษะเหล่านี้ให้กับผู้คน ค่ายอบรมสำหรับผู้เริ่มต้นที่การประชุมการใช้คอมพิวเตอร์ช่วยในการรายงานข่าวของ IRE แต่ละปี ได้สอนให้คนใช้ Excel และ Access — มันเป็นจุดเริ่มต้นที่ยอดเยี่ยม แต่ผมไม่ได้บอกกับพวกเขาว่ามันมีข้อจำกัดในสิ่งที่พวกเขาสามารถทำได้ ในทางเดียวกันกับที่ศาสตร์ด้านทั้งหมดได้วิวัฒนาการ นักข่าวที่ได้เข้ามาสู่เส้นทางนี้ มักจะก้าวไปสู่ทักษะที่ซับซ้อนเพิ่มขึ้น ข้อจำกัดเพียงอย่างเดียวที่จะมีก็คือข้อจำกัดที่พวกเขาตั้งขึ้นมาเพื่อจำกัดตัวพวกเขาเอง ที่จริงแล้ว ความเชื่อเพียงอย่างเดียว ที่จำเป็นจะต้องกำจัดไป ณ ที่นี้ก็คือ ความเชื่อที่บอกว่าคุณต้องฉลาดแบบไอน์สไตน์ ถึงจะเรียนรู้สิ่งเหล่านี้ได้ หรือจำเป็นจะต้องมีสมองซีกซ้ายและขวาที่สมดุลกันอย่างวิเศษ ไม่มีเรื่องอะไรแบบนั้นเลย คุณเพียงต้องทำมันอย่างไม่ลดละเท่านั้น
  • “มันยังคงเป็นเรื่องของการเล่าข่าว” มันไม่เคยเป็นอย่างอื่น คำอธิบายโดยผู้อภิปรายในการประชุมการใช้คอมพิวเตอร์ช่วยในการรายงานข่าว โดยสมาคมนักข่าวและบรรณาธิการข่าวสืบสวนสอบสวน ในช่วงสิบปีที่ผ่านมา ได้แสดงให้เห็นอย่างชัดเจนอยู่แล้ว

ชุดของความคิดเห็นเหล่านี้ ควรจะเตือนเราว่า สาเหตุที่เราจำเป็นต้องมีองค์กรอย่าง IRE, Hacks/Hackers, และองค์กรอื่น ๆ นั้นไม่ใช่เพียงเพื่อถ่ายทอดทักษะ แต่ยังเพื่อมอบบริบทว่าทำไมทักษะเหล่านี้จึงมีความสำคัญเหลือเกิน


[1] “การแฮ็ก” (hacking) ในที่นี้ หมายถึงกิจกรรมการดัดแปลงหรือต่อเติมสิ่งของให้มีความสามารถหรือประโยชน์เพิ่มเติมไปจากเดิม และในบางครั้งก็ด้วยวิธีการแปลก ๆ ใหม่ ๆ ที่ไม่เคยมีคนทำมาก่อน หรือด้วยวิธีการที่ใช้อุปกรณ์ทั่ว ๆ ไปที่หาซื้อได้ตามท้องตลาด โดยเรียกกลุ่มคนที่มีความสนใจด้านนี้ว่า “แฮ็กเกอร์” (hackers) ^

[2] Fleet Street หรือถนนฟลีต เป็นถนนสายหนึ่งในกรุงลอนดอน ซึ่งเคยเป็นที่ตั้งของสำนักข่าวและหนังสือพิมพ์จำนวนมาก แม้ทุกวันนี้สำนักข่าวรายใหญ่จะย้ายไปอยู่ที่อื่นหมดแล้ว แต่คำว่า “ถนนฟลีต” ก็ยังเป็นคำที่ใช้หมายถึง “แวดวงสื่ออังกฤษ” อยู่ ^

Written by bact'

May 3rd, 2011 at 2:37 am