วารสารศาสตร์ข้อมูล – Data Journalism

เปลี่ยนข้อมูลให้เป็นข่าว

Archive for the ‘investigative journalism’ Category

ขุดข่าวจากวิกิลีกส์ ด้วยโปรแกรมคอมพิวเตอร์

without comments

ในการประชุม CAR 2011 ของสถาบันแห่งชาติเพื่อการใช้คอมพิวเตอร์ช่วยในการรายงานข่าว (National Institute of Computer-Assisted Reporting) เมื่อกุมภาพันธ์ที่ผ่านมา โจนาธาน สเตรย์ (@jonathanstray) นักข่าว-โปรแกรมเมอร์ที่ Associated Press เล่าถึงวิธีขุดหาข่าวจากกองเอกสารจำนวนมหาศาล โดยอาศัยการวาดภาพจากกลุ่มข้อมูล กลุ่มข้อมูลดังกล่าวถูกแบ่งขึ้นอย่างอัตโนมัติด้วยวิธีที่เรียกกันว่า การทำเหมืองข้อความ (text mining) ซึ่งผสมวิธีทางคณิตศาสตร์เข้ากับการเลือกชุดของคำซึ่งอาศัยความรู้ทางวารสารศาสตร์ ชุดเอกสารที่โจนาธานใช้เป็นตัวอย่างคือปูมบันทึกสงครามอิรักและอัฟกานิสถาน จากวิกิลีกส์


Investigating thousands (or millions) of documents by clustering
from Jonathan Stray on Vimeo.

แหล่งข้อมูลและซอฟต์แวร์ที่โจนาธานพูดถึงในการนำเสนอดังกล่าว ได้แก่:

  • A full-text visualization of the Iraq War Logs (ภาพวาดจากข้อความทั้งหมดของปูมสงครามอิรัก) – โพสต์ที่โจนาธานเขียนอธิบายอย่างละเอียดเกี่ยวกับเทคนิคในการวาดภาพผังต่าง ๆ ที่แสดงในการนำเสนอ ในโพสต์ดังกล่าวยังอธิบายด้วยว่า เราสามารถเรียนรู้อะไรจากผังเหล่านี้ และมีอะไรที่เราไม่สามารถรู้ได้จากมัน
  • Glimmer – อัลกอริธึมสำหรับการทำ “multidimensional scaling” (MDS) หรือการหากลุ่มพื้นที่ต่าง ๆ ที่สามารถลดจำนวนมิติของข้อมูลลงมา ให้อยู่ในขนาดที่สามารถเอามาวาดภาพข้อมูลได้ เช่นลดจาก 7 มิติให้ลงมาเหลือ 2 มิติ จะได้วาดเป็นกราฟแบน ๆ ได้ (คนเขียนบล็อกก็เข้าใจได้แค่นี้ครับ ลองกดลิงก์ไปอ่านดูเองถ้าสนใจ)
  • “Quantitative Discovery from Qualitative Information: A General-Purpose Document Clustering Methodology.” Justin Grimmer, Gary King, 2009. โจนาธานบอกว่านี่เป็นบทความที่ทุกคนที่ทำงานด้านการแบ่งกลุ่มเอกสาร (document clustering) จำเป็นจะต้องอ่าน โจนาธานบอกว่าบทความนี้แสดงให้เห็นอย่างชัดเจนว่า มันไม่มีอัลกอริธึมการแบ่งกลุ่มอันไหนที่ “ดีที่สุด” จะมีก็เพียงอัลกอริธึมที่ทำได้ตรงตามกรอบคิดที่กำหนดไว้ล่วงหน้าแล้ว ซึ่งกรอบที่ว่าก็มีได้หลายแบบ ในบทความดังกล่าวยังบอกถึงวิธีการเปรียบเทียบการแบ่งกลุ่มอีกด้วย
  • บทความวิกิพีเดียเรื่อง bag of words model (ถุงคำ), tf-idf และ cosine similarity (ความคล้ายเชิงโคไซน์) ซึ่งเป็นเทคนิคการประมวลผลข้อความขั้นพื้นฐานที่ใช้ในงานนี้
  • Gephi – ซอฟต์แวร์เสรีสำหรับวาดกราฟ ซึ่งใช้วาดผังข้อมูลหนึ่งเดือนในอิรัก ซอฟต์แวร์นี้สามารถจัดการโหนดได้ประมาณสองถึงสามพันโหนด
  • ใบสมัครโครงการ Knight News Challenge ที่ทีมของโจนาธานส่งโครงการในชื่อ “Overview” ซึ่งจะเป็นซอฟต์แวร์โอเพนซอร์สที่ทำการขุดข่าวจากกองเอกสารขนาดมหึมาในลักษณะที่อธิบายไป โจนาธานชวนว่า ถ้าใครสนใจ ก็ขอให้ไปแสดงความเห็นไว้หน่อย ที่ข้อเสนอโครงการ

โจนาธาน สเตรย์ เคยเป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่อโดบี (บริษัทที่ทำโปรแกรมแต่งรูปถ่าย Photoshop และรูปแบบเอกสาร PDF) ก่อนจะย้ายมาอยู่สำนักข่าวแอสโซซิเอตเต็ดเพรส ในโพสต์ที่ DataJournalism.in.th ก่อนหน้านี้ ที่เกี่ยวกับวารสารศาสตร์เชิงคำนวณ ในส่วนของการแนะนำสาขาที่เกี่ยวข้องกับวารสารศาสตร์เชิงคำนวณและงานชิ้นสำคัญในสาขานั้น ๆ ก็เอามาจากบล็อกของโจนาธาน


เรียบเรียงจาก Investigating thousands (or millions) of documents by visualizing clusters (ผ่าน Slashdot, John Mecklin, Maria Popova)

วารสารศาสตร์ข้อมูลกับภาพใหญ่

with one comment

บทความ “ความสำคัญที่เพิ่มมากขึ้นของวารสารศาสตร์ข้อมูล” โดย อเล็กซ์ โฮเวิร์ด ได้อ้างถึงโพสต์ของ แอนโธนี เดอบาร์รอส datajournalism.in.th ก็ขอแปลโพสต์ดังกล่าวต่อเลยละกัน

แปลจาก Data Journalism and the Big Picture โดย Anthony DeBarros, 26 พ.ย. 2553

ผู้คนในเว็บในสัปดาห์ที่ผ่านมาได้แสดงความคิดเห็นต่าง ๆ เกี่ยวกับคุณค่าของวารสารศาสตร์ข้อมูล และทักษะที่เกี่ยวข้อง ประเด็นสำคัญ ๆ ก็คือ

  • ทีม เบิร์นสเนอร์-ลี ผู้คิดค้นเวิลด์ไวด์เว็บ บอกกับหนังสือพิมพ์เดอะการ์เดียนว่า “นักข่าวจำเป็นต้องใช้ข้อมูลได้อย่างชำนาญ” และ “วารสารศาสตร์ข้อมูลคืออนาคตต” ข่าวดังกล่าวพูดต่อไปถึงคำถามที่ว่า การวิเคราะห์ข้อมูลจะสามารถแทนที่การรายงานข่าวแบบดั้งเดิมได้หรือไม่
  • บล็อก 10,000 Words ประกาศว่า หนึ่งใน “5 ความเชื่อเกี่ยวกับวารสารศาสตร์ดิจิทัล” คือความเชื่อที่ว่า “นักข่าวจำเป็นต้องมีทักษะในการพัฒนาฐานข้อมูล” และแนะนำว่านักข่าวส่วนใหญ่ควรจะปล่อยการแฮ็ก[1] ระดับสูงให้เป็นเรื่องของผู้เชี่ยวชาญ
  • เว็บไซต์อีกไซต์หนึ่ง คือ FleetStreetBlues[2] ได้แสดงความเห็นว่า “ท่ามกลางความตื่นเต้น ความมุ่งมั่น และความลุ่มหลงในสเปรดชีต แต่นี่คือความจริงเกี่ยวกับสิ่งที่เรียกกันว่า ‘วารสารศาสตร์ข้อมูล’ มันยังคงเกี่ยวกับการเล่าเรื่อง ก็แค่นั้นแหละ”

มีปฏิกริยาตอบต่อโพสต์เหล่านี้จำนวนหนึ่ง รวมไปถึงคนจำนวนหนึ่งที่ชี้ให้เราเห็นถึงข่าวของ Time ชิ้นหนึ่งในปี 1986 [เกี่ยวกับ ฟิล เมเยอร์ นักข่าวที่ใช้คอมพิวเตอร์เพื่อวิเคราะห์สถิติประชากรของประชากรผิวดำในการจลาจลปี 1967 ในดีทรอยต์] ซึ่งคล้ายกับเรื่องที่เราพูดถึงข้างต้นในเดอะการ์เดียนสัปดาห์นี้ และนั่นคือปัญหาของโพสต์ทั้งสามชิ้นดังกล่าว: ไม่มีชิ้นใดเลยในสามชิ้นนั้น ที่มองไปยังภาพใหญ่ มุมมองเชิงประวัติศาสตร์ของวารสารศาสตร์ข้อมูล — ไม่มีการพูดถึงว่ามันมาจากไหน ไม่มีการพูดถึงว่ามันมีการเปลี่ยนแปลงอย่างไร และยิ่งไม่มีการพูดถึงภูมิหลังอันมากมายซึ่งคำว่า “วารสารศาสตร์ข้อมูล” ได้ปิดบังเอาไว้

เราเคยเรียกมันว่า “การใช้คอมพิวเตอร์ช่วยในการรายงานข่าว” (CAR)

ย้อนกลับไปในยุคที่ซอฟต์แวร์ยังมาในแผ่นฟลอปปี้ดิสก์ 5.25 นิ้ว หรืออาจจะก่อนหน้านี้อีก แนวคิดเรื่องการใช้คอมพิวเตอร์ส่วนบุคคลเพื่อ “คิดเลข” ถูกเรียกว่า “การใช้คอมพิวเตอร์ช่วยในการรายงานข่าว” (computer-assisted reporting: CAR) ทุกวันนี้ เราเรียกมันว่าวารสารศาสตร์ข้อมูล นั่นเพราะมันชัดเจนว่า ชื่อเก่านั้นดูจะคลาดเคลื่อน เหมือนกับที่ ฟิล เมเยอร์ (Phil Meyer) เคยพูดไว้ครั้งหนึ่งว่า เราไม่เคยพูดถึงการใช้โทรศัพท์ช่วยในการรายงานข่าวใช่ไหม หรือว่าเราเคย?

ในสมัยที่ผมเข้ามาสู่วงการ — สมัยที่ Paradox นั้นเป็นซอฟต์แวร์จัดการฐานข้อมูลที่เราเลือกใช้ — ห้องข่าวของเรามีคอมพิวเตอร์ส่วนบุคคลหนึ่งเครื่องที่จัดไว้เฉพาะเพื่อเป็น “เครื่อง CAR” ในขณะที่คนอื่น ๆ ใช้เครื่องเทอร์มินัลที่ต่อกับคอมพิวเตอร์เมนเฟรม ผมก็ท่องเว็บด้วยโปรแกรม Netscape และโทรหา พอล โอแวร์แบร์ก (Paul Overberg) เพื่อขอคำปรึกษาเรื่องข้อมูลสำมะโนประชากร ในตอนนั้นผมเป็นผู้เชี่ยวชาญด้านข้อมูลของห้องข่าว คนที่บรรดานักข่าวจะเรียกหาเมื่อพวกเขามีสเปรดชีตบนแผ่นดิสก์หรือความคิดว่าอยากจะได้ข้อมูลจากส่วนราชการท้องถิ่น

ในยุคนั้น — ด้วยบริษัทเว็บตั้งใหม่ซึ่งขับเคลื่อนเว็บด้วยฐานข้อมูล อย่าง Amazon.com ซึ่งกำลังแพร่การปฏิวัติวัฒนธรรมข้อมูล — มันเป็นการง่ายมากที่จะคาดการณ์ถึงช่วงเวลาที่นักข่าวจะไม่เพียงได้รับสเปรดชีตชั่วครั้งชั่วคราว แต่จะพบกับข้อมูลอันท่วมทะลัก และนั่นก็เป็นจุดกำเนิดของการพยายามชักชวนให้ห้องข่าวมาสนใจ CAR (อย่างน้อยก็ในแวดวงของผม) เราสอนโปรแกรม Excel เราส่งคนไปเข้าค่ายอบรมของสมาคมนักข่าวและบรรณาธิการข่าวสืบสวนสอบสวน (Investigative Reporters and Editors: IRE) และเราแสดงข่าวชนิดต่าง ๆ ที่นักข่าวทำด้วยทักษะเหล่านี้ สาสน์ของ CAR นั้นคือการค้นหาข่าวและการใช้เครื่องมือง่าย ๆ ในการทำมัน นั่นคือ สเปรดชีต, ฐานข้อมูล, แผนที่, และสถิติ

ตอนนี้เราเรียกมันว่า “การแฮ็ก”

อย่างไรก็ตาม ในไม่ช้า งานชุดความชำนาญเหล่านี้ก็เปลี่ยนไป เช่นเดียวกับการพูดคุยในงานประชุมการใช้คอมพิวเตอร์ช่วยในการรายงานข่าวของ IRE โดยเฉพาะสำหรับชั้นเรียนปฏิบัติการและการแสดงตัวอย่างเทคโนโลยีต่าง ๆ ในปี 2002 ที่ฟิลาเดลเฟีย ชั้นเรียนปฏิบัติการส่วนใหญ่พูดถึง Access, Excel, SPSS, และสำหรับผู้รักความท้าทายก็มี SQL Server อีกไม่กี่ปีถัดมา ในคลีฟแลนด์และฮิวส์ตัน หัวข้อการประชุมนั้นมีเรื่องการดูดข้อมูลจากหน้าเว็บ, Perl, Python, MySQL, และ Django

การเติบโตของเว็บและความหาได้ง่ายของข้อมูล ได้ช่วยผลักดันความเปลี่ยนแปลงดังกล่าวนี้ ผมยังคิดด้วยว่าบรรดา “ผู้เชี่ยวชาญ CAR” ที่ริเริ่มวารสารศาสตร์ข้อมูลในทศวรรษ 1990 น่าจะรู้สึกอ่อนล้าเหนื่อยหน่ายกับข้อจำกัดของ Access และ Excel จึงได้หาหนทางก้าวไปสู่สิ่งใหม่ ๆ แต่ไม่ว่าจะในทางใดก็ตาม ในตอนที่ PolitiFact ได้รับรางวัลพูลิตเซอร์ ยุคของแอพพิลเคชันข่าวก็บูมอย่างเต็มที่ และความคิดเรื่องนักข่าวที่เป็นโปรแกรมเมอร์ด้วย ก็เป็นขั้นต่อไปตามวิวัฒนาการตามธรรมชาติของวารสารศาสตร์ข้อมูล สวัสดี Hacks/Hackers

แต่สารในชุมชน CAR (ในตอนนี้คือ วารสารศาสตร์ข้อมูล) ก็ยังเหมือนเดิมไม่เปลี่ยนแปลง: เราใช้เครื่องมือเหล่านี้เพื่อค้นหาและเล่าข่าว เราใช้มันเหมือนเราใช้โทรศัพท์ ข่าวยังคงเป็นสิ่งสำคัญสิ่งเดียว

มองจากข้างนอกเข้าไปข้างใน

กลับไปที่เรื่องในสัปดาห์นี้ที่เราได้พูดถึงทั้งสามชิ้น แม้จะแตกต่างกันโดยสิ้นเชิงแต่พวกมันก็ยังเกี่ยวข้องกัน หนึ่งในนั้นได้ทำให้ผู้ได้รับรางวัลพูลิตเซอร์ [แมตต์ เวต (Matt Waite) นักข่าวผู้พัฒนา PolitiFact.com] รู้สึกเดือดดาล โพสต์แต่ละชิ้นได้พลาดประเด็นสำคัญไป เนื่องจากมันได้คิดถึงบริบทดังกล่าว:

  • แม้ ทิม เบิร์สเนอส์-ลี จะเคยเป็นผู้บุกเบิกเว็บ แต่เขามาสายในขบวนนี้ ในเวลาที่เขาประกาศว่าวารสารศาสตร์ข้อมูลนั้น “เป็นอนาคต” อนาคตดังกล่าวได้ผ่านไปแล้ว ความสามารถในการรับมือกับข้อมูลไม่ได้เป็นทักษะที่นักข่าวควรจะเรียนรู้อีกต่อไป — มันเป็นทักษะในการดำรงชีวิตขั้นพื้นฐาน ที่ลูก ๆ ของผมเรียนในโรงเรียนมัธยม มากไปกว่านั้น ผมยังนึกไม่ออกว่าเคยมีไหมในช่วงสิบห้าปีที่ผ่านมา ที่ใครสักคนในชุมชน CAR ได้แนะนำว่า วารสารศาสตร์ข้อมูลเป็นสิ่งที่มาแทนที่การออกไปเดินหาข่าว ค้นเอกสาร และหาทางยืนยันความน่าเชื่อถือของข้อมูลเหล่านั้น (shoe-leather reporting) ซึ่งผู้เขียนรายงานชิ้นดังกล่าวได้บอกกับผมว่า เขาตอบโต้กับความเกินจริงในคำประกาศของเบิร์นสเนอร์-ลี และไม่ได้กำลังประเมินค่าความเป็นจริงของสิ่งที่ถูกปฏิบัติอยู่
  • ตลอดเวลาที่ผ่านมา ชุมชน CAR/วารสารศาสตร์ข้อมูล ได้มุ่งมั่นสร้างทักษะเหล่านี้ให้กับผู้คน ค่ายอบรมสำหรับผู้เริ่มต้นที่การประชุมการใช้คอมพิวเตอร์ช่วยในการรายงานข่าวของ IRE แต่ละปี ได้สอนให้คนใช้ Excel และ Access — มันเป็นจุดเริ่มต้นที่ยอดเยี่ยม แต่ผมไม่ได้บอกกับพวกเขาว่ามันมีข้อจำกัดในสิ่งที่พวกเขาสามารถทำได้ ในทางเดียวกันกับที่ศาสตร์ด้านทั้งหมดได้วิวัฒนาการ นักข่าวที่ได้เข้ามาสู่เส้นทางนี้ มักจะก้าวไปสู่ทักษะที่ซับซ้อนเพิ่มขึ้น ข้อจำกัดเพียงอย่างเดียวที่จะมีก็คือข้อจำกัดที่พวกเขาตั้งขึ้นมาเพื่อจำกัดตัวพวกเขาเอง ที่จริงแล้ว ความเชื่อเพียงอย่างเดียว ที่จำเป็นจะต้องกำจัดไป ณ ที่นี้ก็คือ ความเชื่อที่บอกว่าคุณต้องฉลาดแบบไอน์สไตน์ ถึงจะเรียนรู้สิ่งเหล่านี้ได้ หรือจำเป็นจะต้องมีสมองซีกซ้ายและขวาที่สมดุลกันอย่างวิเศษ ไม่มีเรื่องอะไรแบบนั้นเลย คุณเพียงต้องทำมันอย่างไม่ลดละเท่านั้น
  • “มันยังคงเป็นเรื่องของการเล่าข่าว” มันไม่เคยเป็นอย่างอื่น คำอธิบายโดยผู้อภิปรายในการประชุมการใช้คอมพิวเตอร์ช่วยในการรายงานข่าว โดยสมาคมนักข่าวและบรรณาธิการข่าวสืบสวนสอบสวน ในช่วงสิบปีที่ผ่านมา ได้แสดงให้เห็นอย่างชัดเจนอยู่แล้ว

ชุดของความคิดเห็นเหล่านี้ ควรจะเตือนเราว่า สาเหตุที่เราจำเป็นต้องมีองค์กรอย่าง IRE, Hacks/Hackers, และองค์กรอื่น ๆ นั้นไม่ใช่เพียงเพื่อถ่ายทอดทักษะ แต่ยังเพื่อมอบบริบทว่าทำไมทักษะเหล่านี้จึงมีความสำคัญเหลือเกิน


[1] “การแฮ็ก” (hacking) ในที่นี้ หมายถึงกิจกรรมการดัดแปลงหรือต่อเติมสิ่งของให้มีความสามารถหรือประโยชน์เพิ่มเติมไปจากเดิม และในบางครั้งก็ด้วยวิธีการแปลก ๆ ใหม่ ๆ ที่ไม่เคยมีคนทำมาก่อน หรือด้วยวิธีการที่ใช้อุปกรณ์ทั่ว ๆ ไปที่หาซื้อได้ตามท้องตลาด โดยเรียกกลุ่มคนที่มีความสนใจด้านนี้ว่า “แฮ็กเกอร์” (hackers) ^

[2] Fleet Street หรือถนนฟลีต เป็นถนนสายหนึ่งในกรุงลอนดอน ซึ่งเคยเป็นที่ตั้งของสำนักข่าวและหนังสือพิมพ์จำนวนมาก แม้ทุกวันนี้สำนักข่าวรายใหญ่จะย้ายไปอยู่ที่อื่นหมดแล้ว แต่คำว่า “ถนนฟลีต” ก็ยังเป็นคำที่ใช้หมายถึง “แวดวงสื่ออังกฤษ” อยู่ ^

Written by bact'

May 3rd, 2011 at 2:37 am

มานะ ตรีรยาภิวัฒน์: วารสารศาสตร์ ก็คือการเล่าเรื่อง

without comments

ในบทสัมภาษณ์ มานะ ตรีรยาภิวัฒน์ (@dr_mana) อาจารย์สาขาวารสารศาสตร์ คณะนิเทศศาสตร์ มหาวิทยาลัยหอการค้าไทย เมื่อปีที่แล้วโดยหนังสือพิมพ์ประชาไท มีประเด็นเรื่องวารสารศาสตร์ข้อมูลอยู่ด้วย ทั้งกรณีที่เพิ่งเกิดขึ้นและความตื่นตัวของสื่อไทย

มานะพูดถึงสิ่งที่ WikiLeaks ทำ ว่าไม่ได้ทำเพียงเปิดประเด็นบนเว็บไซต์ของตัวเองแล้วจบ แต่ทำงานร่วมกับสื่อกระแสหลัก โดยให้ข้อมูลเพื่อให้นักข่าวไปทำการบ้านต่อ เช็คต่อ ขยายประเด็นต่อ แล้วนัดเวลาในการเผยแพร่ข่าวพร้อมๆ กัน เป็นการร่วมมือกันทำข่าวสืบสวนสอบสวนของนักข่าว กับนักพัฒนาซอฟต์แวร์ที่คอยดึงและกระจายข้อมูล กับนักออกแบบกราฟิกที่ทำหน้าที่ย่อยข้อมูลยากๆ ให้เป็นเรื่องง่าย หรือที่เรียกว่าอินโฟกราฟิกส์ (infographics)

ซึ่งเมืองไทยเอง วงการสื่อก็ตื่นตัวเรื่องนี้ เช่นค่ายเนชั่น “ที่อเมริกาเพิ่งประชุมกันเมื่อเดือนกันยายนที่ผ่านมา เรียกว่า data journalism หรือ data driven journalism และที่คุณสุทธิชัย หยุ่น ไปประชุมที่เยอรมนี นั่นก็เป็นการคุยเรื่อง data journalism”

อย่างไรก็ตาม มานะก็ยังย้ำถึงแก่นของวารสารศาสตร์ข้อมูลว่า “วารสารศาสตร์ ก็คือการเล่าเรื่อง เพียงแค่คุณเล่าเรื่องผ่านอะไร เล่าเรื่องผ่านวิทยุ หนังสือพิมพ์ นิตยสาร นักข่าวก็คือนักเล่าเรื่องนั่นแหละ แล้วก็เอาข้อมูลมา บางคนเล่าแล้วใส่สีตีไข่ บางคนเล่าสั้นๆ บางคนเล่าแล้วมีอารมณ์ แล้วแต่เทคนิค ให้รู้ว่าแก่นของเรื่องมันคืออะไร”

อ่านบทสัมภาษณ์ทั้งหมด

(บทสัมภาษณ์นี้ เป็นส่วนหนึ่งของหนังสือ “สื่อออนไลน์: Born To Be Democracy” รวมบทสัมภาษณ์นักนิวมีเดีย 12 คน)

Written by bact'

April 29th, 2011 at 11:50 pm

วารสารศาสตร์เชิงคำนวณ: จะผลักข่าวไปข้างหน้า คอมพิวเตอร์ต้องเป็นมากกว่าเครื่องพิมพ์ดีด

with 3 comments

Adrian Holovaty om Everyblock.com - Han setter journalistikken på kartet

หนึ่งในสาขาวิชาที่เพิ่งเกิดใหม่ทางด้านวารสารศาสตร์ ก็คือ computational journalism หรือขอแปลเอาเองว่า วารสารศาสตร์เชิงคำนวณ (ทำนองเดียวกับฟิสิกส์เชิงคำนวณ เคมีเชิงคำนวณ ภาษาศาสตร์เชิงคำนวณ ฯลฯ)

วิกิพีเดียอธิบายเกี่ยวกับสาขานี้ไว้ว่า:

วารสารศาสตร​์เชิงคำนวณ สามารถนิยามได้ว่าเป็นการประยุกต์ใช้คอมพิวเตอร์เพื่อกิจกรรมทางวารสารศาสตร์ เช่น การรวบรวมข้อมูล การจัดระเบียบข้อมูล การทำความเข้าใจข้อมูล การสื่อสารและแพร่กระจายข้อมูลข่าวสาร โดยรักษาคุณค่าของวารสารศาสตร์ เช่น ความเป็นธรรม ความแม่นยำ และภววิสัย สาขาดังกล่าวได้ดึงเอาแง่มุมเทคนิคต่าง ๆ จากวิทยาศาสตร์คอมพิวเตอร์ ซึ่งรวมถึงปัญญาประดิษฐ์, การวิเคราะห์เนื้อหา (การประมวลผลภาษาธรรมชาติ, คอมพิวเตอร์วิทัศน์, การได้ยิน), การสร้างภาพ, การทำให้เป็นลักษณะส่วนบุคคล, และระบบแนะนำ รวมไปถึงแง่มุมจากการใช้คอมพิวเตอร์เชิงสังคมและสารสนเทศศาสตร์

ในขณะที่เว็บไซต์ Computation + Journalism ได้พูดถึงเป้าหมายของวารสารศาสตร์เชิงคำนวณไว้ว่า:

[วารสารศาสตร์เชิงคำนวณ] มองหาวิธีใหม่ ๆ ที่จะบรรลุเป้าหมายพื้นฐานของวารสารศาสตร์ ซึ่งตั้งใจจะจัดหาข้อมูลที่ถูกต้องให้กับพลเมือง เพื่อการมีส่วนร่วมและความสัมพันธ์กันของภาคพลเมือง เป้าหมายของเราในสาขาวารสารศาสตร์เชิงคำนวณนี้ คือการศึกษาความสนใจที่ทับซ้อนกันระหว่างการคำนวณและวารสารศาสตร์ เพื่อค้นหาว่าทั้งสองสิ่งนี้จะช่วยเราอย่างไร ในการรวบรวมสารสนเทศและการแพร่กระจายสารสนเทศ เพื่อและโดยพลเมือง ในการที่จะบรรลุความเป็นพลเมืองที่มีส่วนร่วมมากขึ้นและมีพลังมากขึ้น

ศูนย์เดอวิตต์ วอลเลซ เพื่อสื่อและประชาธิปไตย (DeWitt Wallace Center For Media & Democracy) ที่วิทยาลัยนโยบายสาธารณะ มหาวิทยาลัยดุ๊ก อธิบายความเป็นมาของสาขาและสิ่งที่วารสารศาสตร์เชิงคำนวณทำ ผ่านการพูดถึงงานชิ้นสำคัญ ๆ ของสาขา เช่น รายงานที่ใช้ชื่อว่า “พันธะความรับผิดชอบผ่านทางอัลกอริธึม: การพัฒนาสาขาวารสารศาสตร์เชิงคำนวณ” (Accountability Through Algorithm: Developing the Field of Computational Journalism) ซึ่งเป็นรายงานจากการแลกเปลี่ยนในการอบรมเชิงปฏิบัติการที่ศูนย์เพื่อการศึกษาขั้นสูงทางพฤติกรรมศาสตร์ (Center for Advanced Study in the Behavioral Sciences – CASBS) มหาวิทยาลัยสแตนฟอร์ด เมื่อปี 2009

ในรายงานขนาด 20 หน้า ฉบับดังกล่าว แบ่งเป็น 5 ส่วน ดังนี้

  1. Overview พูดถึงภาพกว้างโดยรวมของสาขา
  2. What Could Computational Journalism Look Like? หน้าตาของวารสารศาสตร์เชิงคำนวณจะเป็นอย่างไร เอามาทำอะไรได้บ้าง แบ่งเป็น 4 ส่วนย่อย คือเรื่อง 1) การสกัด ผสาน และสร้างภาพข้อมูล 2) เครื่องมือช่วยทำงานและติดตามข่าวสารของนักข่าว 3) การสร้างปฏิสัมพันธ์ระหว่างผู้อ่านและผู้สื่อข่าว 4) การไปช่วยทำความเข้าใจข่าวสาร ในสาขาอื่น ๆ (เช่น มนุษยศาสตร์ดิจิทัล, รัฐศาสตร์, เวชสารสนเทศศาสตร์)
  3. Some Likely Effects of Computational Journalism คาดการณ์ผลกระทบที่อาจเกิดจากวารสารศาสตร์เชิงคำนวณ เช่น คอมจะไม่แทนที่คน, จะมีผู้เล่นหน้าใหม่ ๆ ในงานข่าวจับตาสถานการณ์ (watchdog), ข้อมูลดิบจะถูกเปิดเผยกับผู้อ่าน เพื่อเพิ่มความโปร่งใส
  4. How Is The Field of Computational Journalism Evolving? Why Does This Matter? สาขานี้กำลังไปทางไหนกัน โดยดูจากกรณีศึกษาต่าง ๆ เช่น หนังสือพิมพ์เดอะการ์เดียน, เว็บไซต์โครงการแผนฟื้นฟูเศรษฐกิจของสหรัฐ Recovery.org, ความเคลื่อนไหวเปลี่ยนแปลงในการเปิดเผยข้อมูลภาครัฐทั้งในระดับประเทศและระดับท้องถิ่น
  5. Next Steps จะทำอะไรกันต่อได้บ้างต่อไป เพื่อผลักดันเป้าหมายของวารสารศาสตร์เชิงคำนวณ ที่ต้องการสร้างหนทางใหม่ ๆ ในการจะนำส่งข้อมูลข่าวสารที่ดีขึ้นสะดวกขึ้นสำหรับพลเมือง โดยแจกแจงผู้เล่นที่เป็นไปได้ และแนะนำบทบาทของผู้เล่นเหล่านั้น ซึ่งมีทั้งแหล่งทุน หน่วยงานภาครัฐ องค์กรพัฒนาเอกชน ศูนย์วิจัยในมหาวิทยาลัย ผู้อ่าน นักข่าว นักพัฒนาซอฟต์แวร์โอเพนซอร์ส

เพื่อจะให้เห็นภาพว่า หน้าตาเครื่องมืออะไรที่ว่า มันสามารถเป็นอะไรได้บ้าง หนึ่งในเว็บไซต์ที่มักถูกยกเป็นตัวอย่าง ก็คือ DocumentCloud ซึ่งเป็นเครื่องมือที่ช่วยในการทำความเข้าใจกับเอกสารที่จะกลายเป็นแหล่งข่าวได้

หมายเหตุประกอบใบแจ้งราคาสินค้า Invoices for Subcontractor Core 4 KEBAWK Group LLC

ความผิดปกติที่พบในใบแจ้งราคาสินค้า ถูกทำเครื่องหมายไว้ใน DocumentCloud

ผู้ใช้สามารถอัปโหลดเอกสารขึ้นไปที่เว็บ DocumentCloud จากนั้นมันจะถูกประมวลผลเพื่อค้นหาคำสำคัญ ชื่อบุคคล ผลิตภัณฑ์ องค์กร สถานที่ วันเวลา ฯลฯ จะถูกไฮไลต์โดยอัตโนมัติ เพื่อให้สังเกตเห็นง่าย (ใช้ API ของ OpenCalais ซึ่งพัฒนาโดยบริษัท ทอมสัน รอยเตอร์) จากนั้นผู้ใช้สามารถทำหมายเหตุประกอบเอกสาร (annotation) ได้ เพื่อเน้นส่วนที่สำคัญ ที่น่าสนใจ หรือใส่คำอธิบายว่าเนื้อความส่วนไหนน่าจะหมายถึงอะไร และสามารถแชร์เอกสารนี้กับคนอื่น ๆ เพื่อทำงานสืบสวนจากเอกสารร่วมกันได้ (อีกเครื่องมือหนึ่งที่เป็นแนวข่าวสืบสวนก็คือ Help Me Investigate ซึ่งเปิดให้ทุกคนร่วมกันสืบสวนประเด็นสาธารณะร่วมกันได้ ผ่านการช่วยกันตั้งคำถาม)

รายงานข่าวบริการสาธารณะ และรายงานข่าวระดับชาติ ที่ได้รับรางวัลพูลิตเซอร์ประจำปี 2011 นี้ ทั้งสองชิ้น ใช้ DocumentCloud ในการทำงาน (ชิ้นแรกโดย LA Times ชิ้นหลังโดย ProPublica)

สำหรับผู้สนใจว่า และมันมีสาขาอะไรบ้างหรือ ที่เข้ามาผสมข้ามไปข้ามมาในสหวิทยาการวารสารศาสตร์เชิงคำนวณ โจนาธาน สเตรย์ ได้ทำ A Computational Journalsim Reading List แนะนำสาขาที่เกี่ยวข้องและงานชิ้นสำคัญในสาขานั้น ๆ เอาไว้ โดยแบ่งเป็นหมวด วารสารศาสตร์ข้อมูล, การสร้างภาพข้อมูล, ภาษาศาสตร์เชิงคำนวณ, เทคโนโลยีการสื่อสารและการเข้ารหัส, การติดตามการกระจายของข่าวสาร, การคัดกรองและการแนะนำเนื้อหา, การวัดความรู้ของสาธารณะ, และสุดท้ายคือ การตั้งวาระการวิจัย

คณะหรือสาขาวิชานิเทศศาสตร์ วารสารศาสตร์ วิทยการคอมพิวเตอร์ วิศวกรรมคอมพิวเตอร์ บรรณารักษศาสตร์และสารนิเทศศาสตร์ รวมไปถึง ภาษาศาสตร์ รัฐศาสตร์ ที่ไหนในมหาวิทยาลัยเมืองไทย สนใจจะทำอะไรแนว ๆ นี้ ก็น่าจะลองจับมือกันดูข้ามคณะข้ามสาขา (หรือข้ามมหาลัยไปเลย) แอพพลิเคชันและเป้าหมายของงานก็มีอยู่ชัดเจน น่าจะลองเล่นกันดูหน่อย :)

จบแค่นี้ล่ะครับ

Written by bact'

April 26th, 2011 at 12:35 pm

วารสารศาสตร์ข้อมูล: เราควรจะขอบคุณวิกิลีกส์

without comments

ความน่าเชื่อถือของวิชาชีพนักข่าวนักหนังสือพิมพ์ วิกิลีกส์ และ วารสารศาสตร์ข้อมูล

(CNN) 30 ก.ค. 2553 – การโพสต์เอกสารเกี่ยวกับสงครามในอัฟกานิสถาน 92,000 ฉบับ บนวิกิลีกส์ (WikiLeaks) เป็นตัวแทนของการฉลองชัยของสิ่งที่ผมเรียกว่า “วารสารศาสตร์ข้อมูล” (data journalism)

แน่นอนว่ามันต้องมีแหล่งข่าวที่เป็นบุคคล ใครสักคนในที่ไหนสักแห่ง ส่งต่อข้อมูลเหล่านี้ไปยังเว็บไซต์วิกิลีกส์ แต่ไม่ว่าผู้แจ้งความไม่ชอบมาพากลคนนี้จะเป็นใคร มันก็ไม่ได้สำคัญเท่ากับว่า เนื้อหาของเอกสารเหล่านี้มันบอกอะไรกับเรา

ข้อมูลดิบดังกล่าว เป็นขุมทรัพย์ขนาดใหญ่สำหรับนักหนังสือพิมพ์ในสามสำนักข่าว – นิวยอร์กไทมส์ (New York Times สหรัฐอเมริกา), เดอะการ์เดียน (The Guardian สหราชอาณาจักร), และ แดร์สปีเกล (Der Spiegel เยอรมนี) – ที่จะขุดค้นหาข่าวจากมัน อย่างไรก็ตาม ไม่ได้มีเฉพาะนักข่าวเหล่านั้นเท่านั้น บันทึกประจำวันจากสงครามอัฟกานิสถานนั้นอยู่บนอินเทอร์เน็ต ที่ใครก็เข้าไปขุดค้นสมบัติหาข้อมูลได้

เรื่องเหล่านี้จริง ๆ แล้วไม่ใช่เรื่องใหม่อะไร นักหนังสือพิมพ์ทำเรื่องเหล่านี้มานานแล้ว พวกเขาอ่านกองเอกสารทีละหน้าทีละหน้า เพื่อมองหาสิ่งผิดปกติ ข้อเท็จจริงเพียงหนึ่งหรือสองชิ้น ซึ่งจะนำไปสู่สกู๊ปสำคัญ

แต่ก็นั่นล่ะ เราต้องยอมรับว่า นักหนังสือพิมพ์ที่ทำงานดังที่กล่าวมา แทบจะไม่หลงเหลืออยู่แล้ว มันทั้งใช้เวลาและแรงงาน แล้วก็ไม่มีสีสันตื่นตาตื่นใจ มันไม่มีสเน่ห์ดึงดูด ด้วยแรงกดดันในองค์กรข่าวสมัยใหม่ ที่จำเป็นต้องทำงานให้มีประสิทธิภาพคุ้มราคา มันเป็นเรื่องยากที่บรรณาธิการข่าวจะอนุญาตให้นักข่าวใช้เวลามาก ๆ ไปกับกองเอกสารท่วมหัว

ความสำเร็จของ วารสารศาสตร์ข้อมูล หรือการทำข่าวจากข้อมูลดิบนั้นมักจะถูกลืม ตัวอย่างหนึ่งโดดเด่นก็คือ กรณีข่าวสืบสวนโดยหนังสือพิมพ์ซันเดย์ไทมส์ (Sunday Times) ที่ตามติดกรณียาระงับประสาทของบริษัทยาเยอรมันที่ถูกถอนออกจากตลาดในปี 1961 หลังจากพบว่ามีผลกระทบรุนแรงต่อทารก

ระหว่างการสืบสวนดังกล่าว ซันเดย์ไทมส์จ่ายเงินเพื่อซื้อเอกสารภายในจำนวนมากของบริษัทดังกล่าว และต้องแปลมันทั้งหมดเป็นภาษาอังกฤษ ซึ่ง ฟิลลิป ไนท์ลีย์ (Phillip Knightley) หนึ่งในทีมข่าวกล่าวว่าพวกเขาใช้เวลาเกือบหนึ่งปี ทำงานอย่างหนัก เพื่อทำความเข้าใจเอกสารเหล่านั้น

ถึงในปี 1968 จะยังเป็นสมัยที่ซันเดย์ไทมส์มีกำลังคนพร้อมเพรียง และยินดีที่จะจัดสรรทรัพยากรให้กับทีมนักข่าวสืบสวน ไนท์ลีย์ก็ยังบอกกับเราว่า คนก็ยังสงสัยอยู่ดี ว่ามันจะคุ้มค่าหรือ ที่จะทำข่าวที่ต้องใช้ทั้งเงินและเวลายาวนานขนาดนี้

แม้ในที่สุดข่าวสืบสวนชิ้นนี้จะประสบความสำเร็จ และนำไปสู่การจ่ายเงินชดเชยที่ดีขึ้นแก่ผู้เสียหาย แต่ดูเหมือนว่า ความสงสัยต่อความคุ้มค่าในการลงทุนทำ “วารสารศาสตร์ข้อมูล” ก็ยังคงฝังแน่นอยู่ในองค์กรข่าวส่วนใหญ่ของสหราชอาณาจักร โดยเฉพาะสำนักพิมพ์ที่กำลังจะตัดงบประมาณของกองบรรณาธิการ

แน่นอนว่า ข่าวสืบสวนคดีวอเตอร์เกต (Watergate) ในต้นทศวรรษ 1970 โดย Bob Woodward และ Carl Bernstein ที่ได้รับการยกย่องว่าเป็นสกู๊ปข่าวที่ยิ่งใหญ่ที่สุดตลอดกาล นั้นมีความสำคัญ รายงานชิ้นดังกล่าวอาศัยแหล่งข่าวที่ปิดเป็นความลับ ที่รู้จักกันในชื่อ “Deep Throat” และตั้งแต่นั้นมา นักหนังสือพิมพ์ก็ตกเป็นทาสของแหล่งข่าวที่เปิดเผยไม่ได้เหล่านี้เสียเอง แต่ข่าวแบบนี้แหละที่มีสเน่ห์ดึงดูด

แหล่งข่าวที่เปิดเผยไม่ได้ ได้กลายเป็นวิถีชีวิตของวารสารศาสตร์สมัยใหม่ ผมเคยบอกกับนักศึกษาวารสารศาสตร์ของผมอย่างนั้นเสมอ ๆ แต่ตอนนี้ผมยอมรับแล้วว่า ผมให้ความสำคัญกับมันมากเกินไป จนให้ความสำคัญน้อยเกินไปกับการค้นหา อ่าน และวิเคราะห์ข้อมูลดิบ

ถ้าหนังสือพิมพ์นั้น เป็นร่างแรกของประวัติศาสตร์ อย่างที่เรานักหนังสือพิมพ์มักอ้างกัน เราก็ควรจะต้องทำงานให้ใกล้เคียงกับนักประวัติศาสตร์เสียหน่อย บรรดานักประวัติศาสตร์พยายามมองหาแหล่งข้อมูลชั้นต้น เพื่อที่จะสร้างความเข้าใจที่ดีขึ้นกับเหตุการณ์ในอดีต

สิ่งที่สำคัญมาก ๆ ของข้อมูลต่างๆ ในวิกิลีกส์นั้นคือ มันเป็นข้อมูลที่ทันสมัย มันทำให้นักหนังสือพิมพ์และสาธารณะเข้าใจชัดเจนขึ้น ว่าเกิดอะไรขึ้นกันแน่ในอัฟกานิสถาน ในแง่นี้ ข้อมูลเหล่านี้ที่ทุกคนเข้าไปอ่านได้ ช่วยมอบความเข้าใจที่มีค่ามหาศาลให้กับเรา

อย่างไรก็ตาม การโพสต์เอกสารขึ้นอินเทอร์เน็ตโดยตัวมันเองไม่ใช่การทำข่าว มันเป็นเพียงจุดเริ่มต้นของกระบวนการข่าว มันยังต้องการการวิเคราะห์ วางบริบท และในบางกรณี การเซ็นเซอร์ที่จำเป็นเพื่อที่จะปกป้องปัจเจกบุคคลที่ถูกระบุในเอกสารดังกล่าว

ผมทราบว่า นักข่าวอาชีพไม่ได้เป็นคนเพียงกลุ่มเดียวที่สามารถทำงานนี้ได้ แต่พวกเขาส่วนใหญ่ มีทักษะที่จำเป็นต่าง ๆ ดังกล่าว และมีความรู้ที่จะทำให้พวกเขาทำงานดังกล่าวได้ดี การรายงานโดย เดอะการ์เดียน และ นิวยอร์กไทมส์ แสดงให้เห็นอย่างชัดเจน

มันอาจจะไม่ได้นำไปสู่การเปลี่ยนแปลงอะไรโดยทันที ไม่มีประธานาธิบดีต้องออกจากตำแหน่ง เหมือนกรณีวอเตอร์เกต แต่สิ่งที่ถูกทำให้ปรากฏจากเอกสาร คือการยืนยันสิ่งที่สื่อในสหราชอาณาจักรและสหรัฐอเมริกาสงสัยมาโดยตลอด เกี่ยวกับสถานการณ์ในอัฟกานิสถาน ว่ามันเลวร้ายและมีแต่จะแย่ลง ๆ นับตั้งแต่ปี 2004 มันตบหน้ารายงานประเมินอย่างเป็นทางการที่แสนสวยงาม

ข้อมูลดิบทั้งหมดดังกล่าวมานั้น เชื่อถือได้มากกว่า เพราะมันเป็นรายงานโดยทหารในสนามรบจริง ๆ ว่าพวกเขาพบเห็นและประสบอะไรบ้าง มันไม่มีการปั่นข่าว ตัวรายงานนั้นอาจไม่ได้เป็นวัตถุวิสัย – ซึ่งก็ไม่เคยมีอะไรที่เป็นเช่นนั้น – แต่รายงานเหล่านี้ก็ไม่ได้ถูกเขียนขึ้นเพื่อจะมีอิทธิพลต่อการตัดสินใจทางการเมือง

ใช่ เราอาจพูดได้ว่า การที่วิกิลีกส์โพสต์ข้อมูลอ่อนไหวดังกล่าวในพื้นที่สาธารณะ ในตัวมันเองนั้นก็ไม่ได้เป็นวัตถุวิสัยอยู่แล้ว แต่ผมขอสนับสนุนสิ่งที่ จูเลียน อัสซานจ์ (Julian Assange) หัวหน้าบรรณาธิการของวิกิลีกส์ เรียกร้องต่อองค์กรข่าวต่าง ๆ ให้เปิดเผยข้อมูลดิบออกสู่สาธารณะให้มากขึ้น

เขาเชื่อว่าการกระทำดังกล่าว จะทำให้กิจกรรมของงานข่าวโปร่งใสมากขึ้น ในการสัมภาษณ์เมื่อไม่นานนี้ เขายืนกรานว่า “วารสารศาสตร์ควรจะเป็นเหมือนวิทยาศาสตร์มากขึ้น” และเสริมว่า: “มากที่สุดเท่าที่จะเป็นไปได้ ข้อเท็จจริงต่าง ๆ จะต้องถูกตรวจสอบยืนยันได้ ถ้านักหนังสือพิมพ์ต้องการที่จะให้วิชาชีพของพวกเขามีความน่าเชื่อถือไว้วางใจได้มากขึ้น พวกเขาจำเป็นต้องเดินไปในทิศทางนั้น เคารพคนอ่านให้มากขึ้น”

โดยธรรมชาติของตัวมันเอง การทำข่าวจากแหล่งข่าวบุคคล (source journalism) ย่อมถูกปิดบังไม่ให้สาธารณะได้เห็น การทำข่าวจากข้อมูลดิบ (data journalism) นั้นเปิดเผยมากกว่า โดยเฉพาะเมื่อข้อมูลดิบนั้นถูกโพสต์ขึ้นอินเทอร์เน็ต เพราะในกรณีที่มีการวิเคราห์ข้อมูลชุดเดียวกันในแนวทางที่ต่างกัน ข้อมูลดิบเหล่านั้นมันอนุญาตให้สาธารณะตัดสินได้ว่าการวิเคราะห์อันไหนที่น่าเชื่อถือกว่า

เรานักหนังสือพิมพ์ ควรจะต้องดีใจที่มีเว็บไซต์อย่างวิกิลีกส์อยู่ นั่นเพราะไม่ว่าจะอย่างไรก็ตาม หน้าที่ที่สำคัญที่สุดของเราก็คือการเปิดเผยข้อมูลที่เกี่ยวข้องกับประโยชน์สาธารณะ ที่คนที่มีความเชื่อเป็นอย่างอื่นต้องการจะเก็บมันเป็นความลับ

เว็บไซต์ดังกล่าวสมควรจะได้รับการสรรเสริญชื่นชมจากพวกเรา และมันจำเป็นจะต้องได้รับการปกป้องจากการคุกคามของพลังฝ่ายขวา ที่หาทางจะหลีกเลี่ยงจากการถูกเปิดโปง


เรียบเรียงจาก “We should be thankful for WikiLeaks” โดย Roy Greenslade (Twitter: @GreensladeR) ตีพิมพ์ในเว็บไซต์ CNN.com 30 ก.ค. 2553 (ลิงก์ต่าง ๆ ในเอกสารนี้แทรกโดยผู้แปล)

Roy Greenslade เป็นศาสตราจารย์ด้านวารสารศาสตร์ ที่มหาวิทยาลัยซิตี้ยูนิเวอร์ซิตี้ ลอนดอน เขาเขียนบล็อกรายวันเกี่ยวกับสื่อให้กับเว็บไซต์ The Guardian และเขียนคอลัมน์รายสัปดาห์ในหนังสือพิมพ์ London Evening Standard เขาเป็นนักวิจารณ์สื่อมา 18 ปี โดยก่อนหน้านั้นเขาเป็นบรรณาธิการของหนังสือพิมพ์ Daily Mirror ของสหราชอาณาจักร บรรณาธิการบริหารของ Sunday Times และผู้ช่วยบรรณาธิการของ The Sun

* ดาวน์โหลดบทความนี้ ในรูปแบบ PDF (Scribd)

ตีพิมพ์ครั้งแรก 2010.12.15 ที่ bact’ is a name

Written by bact'

April 11th, 2011 at 8:20 pm