W3C

כיצד לפרסם נתונים ממשלתיים לציבור

טיוטה בעבודה, 8 בספטמבר 2009 - W3C

גרסה נכוחית:‏
http://www.w3.org/TR/2009/WD-gov-data-20090908/
גרסה אחרונה:‏
http://www.w3.org/TR/gov-data/
כותבים:
דנאל באנט (Daniel Bennett)‏ <>‏ (מומחה מוזמן)
אדם הרוי (Adam Harvey)‏ (מומחה מוזמן)‏
תרגום לעברית
איגוד האינטרנט הישראלי < >‏

לצפיה במילון מונחים של מסמך זה.



תמצית

בכל יום, ממשלות וסוכנויות ממשלתיות מפרסמות יותר ויותר נתונים באינטרנט. שיתוף הנתונים האלו מאפשר דרגת שקיפות גבוהה יותר, מייעל את השירותים הציבוריים ומעודד שימוש ושימוש חוזר באופן ציבורי ומסחרי במידע הממשלתי. חלק מהממשלות אפילו יצרו קטלוגים או פורטלים (כגון data.gov) כדי להקל על הציבור לאתר ולהשתמש בנתונים.

על אף שהסיבות לשיתוף הנתונים הממשלתיים עשויות להיות שונות ממקום למקום, שיטות התכנון והביצוע זהות. במטרה לסייע לממשלות לשתף את הנתונים שלהן ולהפוך אותם לנגישים, פיתחה קבוצת העניין 'ממשל מקוון (eGov)' של ה-W3C את הקווים המנחים שלהלן. שלבים אלו מדגישים תקנים ומתודולוגיות המעודדים פרסום נתונים ממשלתיים, ומאפשרים על ידי כך לציבור להשתמש בנתונים בדרכים חדשות וחדשניות.

סטטוס מסמך זה

סעיף זה מתאר את מצבו של מסמך זה נכון ליום פרסומו. ייתכן שבעתיד מסמך זה יוחלף במסמכים אחרים. רשימה של כל הפרסומים של W3C ואת המהדורות האחרונות של דו"ח טכני זה ניתן למצוא ב מפתח הדו"חות הטכניים של ה-W3C שבכתובת http://www.w3.org/TR.

קבוצת העניין 'ממשל מקוון (eGovernment)' של ה-W3Cשמחה להגיש את טיוטת העבודה הציבורית הראשונה שלה, אשר, בהתבסס על הניסיון שאספנו, מסבירה כיצד יש לפרסם נתונים ממשלתיים ברשת. אנו מזמינים את כל מי שיש לו ניסיון נוסף בנושא להצטרף לקבוצה או לשלוח את הערותיו בכתב כדי לסייע בהכנת המהדורה הבאה.

קבוצת העניין 'ממשל מקוון (eGovernment)' של ה-W3C מתייחסת למסמך זה כמסמך מתפתח, ולכן מעוניינת לקבל משוב מהציבור על טיוטת העבודה הזו. אנא שלחו את הערותיכם אל public-egov-ig@w3.org (ארכיון). אם ניתן, הציעו שינויים ממוקדים לנוסח המסמך בנושא פנייתכם. ייתכן שתרצו לעיין גרסת הוויקי של מסמך זה כדי לבדוק אם הטקסט הרלוונטי כבר עודכן.

משמעות פרסום המסמך כטיוטת עבודה היא שהמסמך לא אומץ על-ידי קהילת W3C. זוהי טיוטת מסמך וייתכן שהיא תתעדכן או תוחלף על-ידי מסמכים אחרים בכל עת. אין לצטט, לאזכר או לתאר את המסמך בכל תיאור אחר מלבד 'מסמך בעבודה'.

מסמך זה הופק על-ידי קבוצה הפועלת תחת מדיניות הפטנטים של ה-W3C מתאריך ה-5 בפברואר 2004.הקבוצה לא מצפה שמסמך זה יהפוך להמלצה של W3C. הקהילה W3C מתחזקת רשימה ציבורית של כל מסמכי הגילוי בנושא פטנטים הקשורים לעבודת הקבוצה. דף זה מכיל גם הוראות לגילוי פטנט. אדם שיש לו ידע מבוסס על פטנט שלדעתו מכיל תביעה(ות) מהותית חייב לגלות את המידע בהתאם סעיף 6 של מדיניות הפטנטים של ה-W3C.


תוכן עניינים

השלבים לפרסום נתונים ממשלתיים

שלב 1: הדרך המהירה והקלה ביותר להפוך נתונים לזמינים באינטרנט היא לפרסם אותם בצורתם הגולמית (כגון קובץ XML המכיל את נתוני ההצבעה של כל מערכות הבחירות שנערכו בעבר). אולם, על קובץ המידע להיות בנוי היטב (well-structured).

שלב 2: צרו קטלוג מקוון של הנתונים הגולמיים (בצירוף תיעוד) כך שהציבור יוכל לדעת איזה מידע פורסם.

סדרות הנתונים הגולמיים צריכות להיות בנויות היטב ומתועדות בצורה מהימנה, אחרת התועלת שבהן תהיה זניחה. רוב הממשלות כבר הקימו מנגנונים ליצירת ואחסון מידע (כגון Excel ,Word ותבניות קבצים של תוכנות נוספות).

פרסום נתונים גולמיים באמצעות קטלוג מקוון הוא נקודת פתיחה נהדרת המייצגת את השלב הבא בהתפתחות האינטרנט - "האתר כשרת קבצים".

שלב 3: צרו את הנתונים כך שיהיו קריאים גם לאדם וגם למכונה:

השלבים הללו יעזרו לציבור לאתר, להשתמש, לצטט ולהבין את הנתונים. על קטלוג הנתונים להסביר את כל החוקים או התקנות שעל פיהם יש לפעול במהלך השימוש בסדרות הנתונים. יתר על כן, הקטלוג עצמו נחשב ל'נתונים' ולכן יש לפרסמו כנתונים מובנים כדי שצד שלישי כלשהו יוכל לחלץ מידע על סדרות הנתונים. תעדו ביסודיות את חלקי האתר באמצעות XHTML תקני ובחרו בכתובות URL קלות לגילוי ובתבנית הנכונה עבור הדפים. בנוסף, השתמשו בטכנולוגיות כגון RSS, בכדי לאפשר מעקב אחר הנתונים של הקטלוג ולהקל על פרסום סדרות נתונים.

כיצד לפרסם נתונים ממשלתיים לציבור: גם לבני אדם, גם למכונות

נתונים ממשלתיים מעניקים לציבור כוח

זהו

היכולת לזהות דברים על-פי כתובת ה-URI/URL היא אחד מהיסודות שעליהם בנויה רשת האינטרנט. הנהגים, התהליכים ושיטות העבודה המומלצים עבור 'נתונים ממשלתיים פתוחים' תלויים בשימוש בארכיטקטורה המתוארת במסמך ארכיטקטורה ל-World Wide Web, כרך 1 [WEBARCH].אם תשתמשו בכתובות URI/URL קבועות, בתבנית הנכונה ו/או ניתנות לגילוי עבור המידע שלכם, תהליכים ואנשים יוכלו למצוא ולהשתמש בנתונים ביתר קלות. בכתובת URI/URL ניתן להשתמש כמזהים אוניברסאליים ייחודיים בבסיסי-נתונים ומטה-נתונים (לדוגמה, על-ידי צירוף מספר סידורי או כל מערכת שמות פנימית אחרת לשם תחום: http://www.example.gov/objects/optional-hierarchy/serial12345678.html).

השתמשו במזהים פנימיים כדי לזהות נתונים מסוימים לשימוש חוזר על-ידי מכונה (לדוגמה,http://www.census.gov/main/www/popclock.html). באמצעות שימוש בכתובות URI והוספת קישורים פנימיים בתוך קבצים או מסמכים גדולים, אנשים יוכלו לצטט בצורה מהימנה את המידע באתר שלהם.

תעדו

ללא תיעוד, הנתונים אינם שימושיים במיוחד. השתדלו להשתמש בתקנים הנהוגים בתעשייה כגון אלו המבוססים על XML/RDF מכיוון שהם נוטים 'לתעד את עצמם'. צרו דף אינטרנט המכיל תיאור של סדרות הנתונים בשפה פשוטה כדי לעזור למנועי חיפוש למצוא את הנתונים, וכך לאפשר לאנשים להשתמש בהם. על התיאור להסביר כיצד למצוא את הדפים ו/או הקבצים ותיאור של תוכן הקבצים. לכל הפחות, תעדו את הכותרת, תיאור, תאריך הפרסום ואת המקור המוסמך לנתונים. השתמשו בשפה ברורה וקשרו אל מידע נלווה כדי להציג את הנתונים בהקשר המתאים. במידת האפשר תעדו גם את התיאור של כל נתון ואת תקן הנתונים ו/או תיקוף הנתונים (validation) (לדוגמה, אם הנתון הוא טמפרטורה, ציינו גם את התקן הקשור אליו כגון יחידות מדידה של מעלת צלזיוס, פרנהייט או קלווין). עם יצירתם של תקנים נוספים לתיאור סדרות הנתונים, השתמשו בהם. תעדו את כלי החיפוש ואת שיטות ה-ReSTful לקבלת הנתונים, כאשר ניתן לעשות זאת.

שמרו

שימור הנתונים שאנו מפרסמים הוא אחת מהדאגות הראשיות של הממשלות. כיצד נוכל להבטיח שניתן למצוא ולהפנות אל הנתונים כל עוד הציבור זקוק להם? ייתכן מצב שבו אנשים ימשיכו לצטט נתונים ישנים הנמצאים בכתובת ה-URI המקורית גם עשרות שנים לאחר שפורסם לראשונה.

במטרה לתחזק את היסטורית סדרות הנתונים, חשבו כיצד לשלב כתובות URI חדשות עבור שדרוג והוספת סדרות נתונים חדשות, ובנו את היררכיית כתובות ה-URI שלכם בהתאם. השתמשו בגירסאות של סדרות הנתונים כדי שאנשים יוכלו לצטט ולקשר גם לגירסאות עדכניות וגם לישנות. סדרות נתונים חדשות ומשודרגות יכולות להפנות אל סדרות הנתונים המקוריות. במידת הצורך, ספקו כלים לתרגום נתונים ישנים. תעדו בקפידה את השינויים בין הגירסאות, ובמידת האפשר, הטמיעו את מספר הגרסה/סימוכין בתוך הנתונים. בחרו בקפידה את הפורמט ובחרו להשתמש בתקנים פתוחים שאינם מוגבלים לשימוש בתוכנה מסוימת בלבד.

עיינו בפרק סימוכין לקבלת פרטים נוספים על הנהגים, תהליכים ושיטות העבודה המומלצים לשימור נתונים.

חישפו ממשקי תכנות (API)

, קיימים מספר תקנים של ה-W3C שיכולים לעזור לאנשים למצוא ולחקור את הנתונים שאתם מפרסמים. ניתן להפוך את הנתונים לקריאים לאדם באמצעות שימוש ב-XSLT עבור פורמטים מבוססי XML ו-RDF. הפכו את דפי הרשת לקריאים למכונה על-ידי הטמעת מידע סמנטי בקוד ה-HTML באמצעות RDF ו/או Microformat. (מנועי חיפוש יכולים להשתמש במידע הסמנטי המוטמע וכך לעזור ליותר אנשים למצוא את הנתונים). קשה מדי לצרף סגנונות XSL או CSS לנתונים, ישנים, אך ניתן לתעד כיצד להמיר את הנתונים באמצעות מנועי XSLT מסוימים או כלליים (לדוגמה, בקרו בכתובתhttp://www.xmldatasets.net).

גופים חיצוניים יכולים ליצור ממשקים חדשים ומלהיבים שייתכן שהשימוש בהם לא יהיה ברור למפרסמי הנתונים. מסיבה זו, אל תסכנו את שלמות הנתונים כדי ליצור ממשקים נוצצים. אם עליכם ליצור ממשק, פרסמו את הנתונים בנפרד מהממשק וודאו שלגופים חיצוניים יש גישה ישירה לנתונים הגולמיים כדי שיוכלו לבנות ממשק משלהם אם ירצו בכך.

בנוסף, מכיוון שכל המסמכים ברשת המשתמשים ב-(X)HTML, XML ו-RDF יכולים לשמש כבסיס-נתונים של עצמים או כממשק API מסוג ReSTful, הציבור יכול ליצור תוכנה, יישומים ברשת ושילובים ביניהם המשתמשים בסדרות הנתונים ומקשרים חזרה אל הגירסה הרשמית באתר הממשלתי. שתי שפות של ה-W3C שמאפשרות לעשות זאת הן XQuery ו-SPARQL. לאחר שהנתונים פורסמו, הממשלות עצמן יכולות ליצור ממשק ידידותי למשתמש ושקוף שמאפשר למשתמשים לעבוד עם המידע ולמקד אותו כרצונם.

צרו שמות/כתובות URI תקניות עבור כל העצמים הממשלתיים

שימוש במזהה ייחודי עבור כל חברה או מוסד לימודים רשום (עצם) הוא חשוב בדיוק כמו המידע על החברות ומוסדות הלימוד הללו. בנוסף לשימוש בתקנים תעשייתיים פתוחים, בנו קטלוג של כל הישויות, המשרדים והעצמים הממשלתיים שאליהם ניתן לקשר. לאחר מכן ניתן להשתמש בכתובות ה-URI כדי לקשר אל כל הנתונים האלו. מבנה מושכל זה מסייע ליכולת הגילוי, משפר את המטה-נתונים ומבטיח את מהימנות הנתונים.

בחירת הנתונים שיפורסם

יש לפרסם בפומבי את כל הנתונים שניתן לשתף עם הציבור. יש לפרסם את הנתונים בהתאם לחוק ולתקנות שבתוקף ורק לאחר התייחסות לסוגיות אבטחה ופרטיות.

תחילה פרסמו את הנתונים שכבר זמין בתבניות אחרות (כגון דפוס) או שכבר נאספו ונמסרו לציבור בדרכים אחרות. פרסמו גם נתונים מובנים, אם אם קיימים - גם ומסמכי טקסט. פרסמו חוקים, תקנות, קודים ומסמכים ציבוריים בנושא המטרה, החזון, הערכים והיעדים של סוכנויות ממשלתיות.

קיים מספר גדול של תקנים עבור מסמכים מסוג זה (כגון שפת תגיות אסטרטגיה [Strategy Markup Language, בראשי תיבות באנגלית StratML] של AIIM, XBRL ושפות נוספות). שימוש בתקנים מאפשר לבעלי העניין לזהות ולספק משוב על פריטים שמעניינים אותם. קל יותר ליצור ולפרסום מסמכים חדשים בפורמטים תקניים מאשר לתקן את המצב לאחר שהם כבר פורסמו.

במהלך תיעוד הנתונים, כללו והפנו לסכמות XML, הגדרות סוג מסמך (DTD) וטקסונומיה. הסבירו כיצד לגלות את כל הקבצים/מסמכים שבאוסף. השתמשו בתקני וכלי הזנה (כגון RSS) כדי לפרסם תוספות או שינויים. ספקו תיעוד מלא כדי לאפשר יצירה אוטומטית של מילוני נתונים, וספקו שירותי חיפוש שיקלו על הציבור למצוא את המסמכים וסדרות הנתונים.

בחירת פורמט פרסום

קיים מגוון גדול של פורמטים, אך מי מהם מתאים ביותר לנתונים שלכם? הפורמט העיקרי עבור מידע קריא לאדם הוא (X)HTML.

נתונים גולמיים יופקו באמצעות פורמט המותאם לנתונים אלו, הכלים שבהם נעשה שימוש או התקנים הנהוגים בתעשייה. קהילת W3C סללה את הדרך לשימוש ב-XML ו-RDF המאפשרים לבצע מגוון רחב של פעולות בנתונים ולבנות כלים מבוססי תקנים לשימוש בנתונים. ניתן לגשת לקבצי XML ו-RDF בדיוק כמו לבסיס-נתונים, באמצעות SPARQL, XQuery, JavaScript ושפות מחשב נוספות. במידת האפשר השתמשו בתקנים פתוחים קיימים ובכלים שמאפשרים לכם להפיק ולפרסם את הנתונים בקלות וביעילות. עיינו בפרק סימוכין לרשימה עדכנית של הכלים. אל תשכחו את עוצמתו של הנתונים המקושרים.

מגבלות השימוש בנתונים

לאחר שפרסמתם את הנתונים, הקפידו לתעד בבהירות כל מגבלה משפטית או רגולטורית שחלה על השימוש בהם. במקרים רבים קיימים תקנים מוגדרים להכנסת מידע בנושא זכויות יוצרים ו/או פרטי רישיון שימוש ישירות לנתונים עצמם (עיינו בתקני מטה-נתונים כגון Dublin Core). חשוב מאוד להיות ברורים בכל הנוגע לשימושים הצפויים, מתן קרדיט, מגבלות ואחריות שיש לגופים מסוימים בכל הנוגע לעבודה עם הנתונים ואספקתם.

לפרטים נוספים

יש לנו עוד הרבה מה ללמוד על הדרכים לפרסום נתונים ממשלתיים לציבור. קבוצת העניין 'ממשל מקוון (eGov)' של ה-W3C מתכננת לפרסם דוגמאות שימוש (Use Case)' כדי להציג דוגמאות עבודה של קווי המחשבה והנהגים, תהליכים ושיטות העבודה המומלצים העכשוויים. את הטכנולוגיות והגישות של ה-W3C אשר מתוארות במסמך זה ניתן להטמיע במהירות, ולרוב, בעלות נמוכה יחסית. אם אתה רוצים לקבל פרטים נוספים יש מספר קהילות שבהן תוכלו להיעזר. אם אתם נציגים של סוכנות ממשלתית, שיקלו להצטרף ל-W3C ולקחת חלק בפעילויות קבוצת העניין ממשל מקוון (e-Government). תוכלו ליצור קשר עם אנשים ממשלות אחרות אשר מתמודדים עם סוגיות דומות לשלכם ומשתפים את הניסיון שצברו. גם אם לא תצטרפו ל-W3C, עדכנו אותנו כיצד אתם מתקדמים. אנחנו יכולים לעזור.

סימוכין

[EGOV-IMPROVING]
Improving Access to Government through Better Use of the Web, S. Accar, J. Alonso, K. Novak, Editors, W3C Group Note, 12 May 2009.
[EU-PSID]
Directive 2003/98/EC on the Re-Use of Public Sector Information, European Parliament and Council, 17 November 2003.
[OGD-CIVIC]
Open Data is Civic Capital: Best Practices for "Open Government Data", J. Tauberer, 20 July 2009
[TBL-GOV]
Design Issues: Putting Government Data Online, T. Berners-Lee.
[TBL-LD]
Design Issues: Linked Data, T. Berners-Lee.
[TUT-LD]
How to Publish Linked Data on the Web, C. Bizer, R. Cyganiak, T. Heath, 27 July 2007.
[US-OBMEMO]
Memorandum for the Heads of Executive Departments and Agencies on Transparency and Open Government, B. Obama.
[US-GSATRAN]
Intergovernmental Solutions Newsletter: Transparency and Open Government, GSA Office of Citizen Services and Communications, Spring 2009 Issue.
[WEBARCH]
Architecture of the World Wide Web, Volume One, I. Jacobs, N. Walsh, Editors, W3C Recommendation, 15 December 2005.
[WEBSELF]
The Self-Describing Web, N. Walsh, Editor, W3C TAG Finding, 7 February 2009.