איפה (לא) כדאי להחנות את הרכב בארץ?
איך לוקחים מידע כללי על פשיעה ומאתרים בעזרת טכנולגיית מיקום, איפה גונבים רכבים
בפוסט הקודם על ניתוח נתוני פשיעה בישראל, הסברתי איך לוקחים טבלה, מעבירים אותה למפה ומערכת מידע גיאוגרפי (GIS) ומנתחים את כלל נתוני הפשיעה בארץ.
בפוסט הזה, החלטנו להתמקד בחתך פשע ספיציפי: לבחון ולמפות את גניבת הרכבים בישראל. לנסות ולזהות מגמות גניבת רכבים באיזורים מסוימים ולשער למה דווקא שם.
הפוסט הוא הרחבה לכתבה שביצענו עבור עיתון נדל”ן היום
נתוני פשיעה הינם מאגר מידע חשוב ביותר לציבור ומקובל מאוד שהמדינה פותחת מידע זה לציבור למטרות רבות. לדוגמא איך מחליטים על מחיר לביטוח דירה, איפה השכונות הבטוחות יותר, איפה יש פשיעה חקלאית ועוד.
משטרת ישראל, לאחר החלטת ממשלה מ-2016 ובקשות ופניות רבות של התנועה לחופש המידע, פתחה את נתוני הפשיעה בישראל 2016-2021, לציבור.
בעזרת ניתוח המידע החשוב הזה ניתן להגיע לתובנות חשובות ומעניינות על כמות, פיזור ומיפוי הפשעים לפי סוג או “איפה (לא) כדאי להחנות את הרכב?”
אם בפוסט הקודם הסברתי על מידע פשיעה פתוח באופן כללי. מהיכן מורידים את המידע, איך מכינים את המידע לעיבוד, איך מנקים אותו וטוענים אותו לבסיס מידע ומערכת מידע גיאוגרפית לתצוגה על מפה.
אזי, בפוסט זה אנחנו מתמקדים בניתוח חתך מסוים במידע: האם יש קשר בין מיקום לגניבת רכבים? האם יש שכונות מסוימות בהן יש יותר גניבות מאחרות? למה?
אחרי שניקינו וטענו את כל המידע לבסיס הנתונים (למי שלא קרא את הפוסט הקודם הנה איך) נבצע חיתוך של המידע לפי תקופה רצויה וסוג פשיעה (אפשר גם לחתוך לפי ישוב אם רוצים)
במקרה הזה, נסנן רק את נתוני שנת 2021 ( נבחר בשדה רבעון את כל הרבעונים של שנת 2021) ואת הפשעים שקשורים בגניבת רכבים. במידע פתוח בדרך כלל אין הרבה הסברים על המידע (מטה-דאטה) ואחד מהאתגרים מלבד ניקיון המידע הוא ללמוד על המידע לבד. במקרה של מידע הפשיעה, אם רוצים לבחור רק פשע מסוים, אפשר ללמוד שיש שני שדות רלוונטיים: סוג פשע וקטגוריה. אם רוצים לקבל סטטיסטיקה ופרטים אפשר להשתמ בשאילת של Group by יחד עם Count כך שנקבל רשימה של ערכים ייחודיים עם כמות לכל סוג.
העמודה “קטגוריה” היא קיבוץ של סוגי פשיעה והיא אינה תמיד מתאימה. למשל, אם רוצים פשע ספיציפי כמו גניבת רכבים. לכן, נשתמש בשדה סוג פשע ונבחר סוג פשע מתאים. ההגדרה של פשע מסוים, היא לעיתים סובייקטיבית, לדוגמא האם “גניבה מתוך רכב” נכללת? בחרנו להתמקד בסוג אחד שנראה לנו כמוחלט: “גניבת רכבים”.
את החיתוך הזה ניתן לבצע בעזרת שאילתת SQL בכלי המועדף עליכם (בסיס נתונים, ב-Qgis ו- ArcGIS או אפילו אקסל) PostgreSQL היתה הבחירה שלי.
את הנתונים שחתכנו אפשר לתשאל ב-SQL ולקבל מידע מספרי כגון סה”כ (SUM). למנות פשעים (COUNT) ולבדוק באיזה ישוב היו הכי מעט או הכי הרבה גניבות (MAX/MIN). אבל אם רוצים לראות ויזואלית ולהבין איפה זה קורה ומדוע ולא רק שאלות “יבשות” על הטבלה, אז מפה היא דרך מצוינת. במפה אפשר גם לבצע ויזואלית את השאילתות הללו עם שאילתות “מרחביות”.
לאחר שמחברים את המידע לשכבת האזורים הסטטיסטיים (התהליך לא פשוט כפי שנשמע, להסבר מפורט קיראו את הפוסט הקודם), טוענים את המידע למפה.