שאלה למומחה: האם זה נכון כי רשתות חברתיות מתבוננים בנו

דמיטרי קורקין

תשובות לשאלות של ארה"ב נהגנו לחפש באינטרנט. בסדרה החדשה של החומרים אנו שואלים שאלות כגון: צריבה, בלתי צפויה או נפוצה - לאנשי מקצוע בתחומים שונים.

מארגני הבזק של 10 שנים, שהושקו ברשתות חברתיות בתחילת השנה, לא רק הולידו תיאוריות קונספירציה שמטרתם של הקמפיין היתה לאסוף תמונות של משתמשים ולהכשיר אותם לזהות את מערכת זיהוי הפנים, אך גם גרם להם לחשוב על כמה שהם יודעים עלינו. רשתות חברתיות וצדדים שלישיים העובדים איתם (מחברות מסחריות לסוכנויות ממשלתיות).

העובדה כי ענקי הטכנולוגיה הם איסוף וניתוח מה שנקרא עקבות דיגיטליים שנותרו על ידי מיליארדי משתמשים מדי יום הוא לא סוד לאף אחד. והמודעות לכך מעוררת פחד חדש מ"האח הגדול ": רשתות חברתיות יודעות הרבה עלינו, אבל מה אם הן יודעות עלינו יותר מדי? האם ניתן להשתמש בנתונים גדולים כדי לברר את כל הקשרים, הטעמים, הרגלי האדם, עברו וההווה שלו? ואם כן, איזה נזק יכול הרצון שלנו להתחבר לרשת באופן מקוון, ולשם כך אנו משתפים מידע על עצמנו באופן וולונטרי, גורמים לנו?

שאלנו מומחים על האופן שבו נתוני המשתמשים מעובדים על ידי חברות גדולות וכיצד הסכנה הגדולה היא לרשת ברשתות חברתיות.

ליליה זמנוקהובה

חוקר במרכז לחקר המדעים והטכנולוגיה באוניברסיטת אירופה בסנט פטרבורג

טביעת רגל דיגיטלית מכילה את כל סוגי הנתונים האפשריים - טקסטים, תמונות, הקלטות שמע ווידאו, מיקום גיאוגרפי ומספר רב של מטא נתונים (לדוגמה, מודל גאדג'ט, מפעיל סלולרי, מערכת הפעלה, דינמיקה ומשך ביקורים וכו '). וזה לא רק מי לחדש את טביעת הרגל הדיגיטלית שלנו. רשתות חברתיות יוצרים אותנו כמשתמשים בעזרת שלושה מקורות נתונים: העובדה שאנו מדווחים על עצמנו; שאחרים מדווחים עלינו; ואת מה הולך לעתים קרובות ביותר ללא ידיעתנו. אטימות במיוחד לאחרונה. אנו, ככלל, איננו קוראים הסכמי משתמש ומדיניות לגבי איסוף ושימוש בנתונים אישיים. אנו רק מציינים כי "קופסה שחורה" זו משפיעה איכשהו על חוויית המשתמש שלנו: פרסום ממוקד, הצעות מחברים, המלצות למוסיקה, הליך השקת חדשות ... אנו בונים חלק קטן מהחוויה הזו בעצמנו, כאשר אנו בונים ידנית את עדכון החדשות, אך בעיקר אלגוריתמים לבצע את הפונקציות מוטבע פרופילים ברירת המחדל. לכן אנחנו לעולם לא להיפטר פרסום הקשרי או הצעות פולשניות של קבוצות או (לא) חברים. רשתות חברתיות כמו תאגידים משתמשים בנתונים על המשתמשים שלהם למטרות מסחריות, ומציעים את הפלטפורמה שלהם למכירת תוכן ממוקד. לאורך הדרך, הם ממשיכים לאסוף נתונים אודותנו: לדוגמה, אם שילמת על פרסום לפחות פעם אחת, אז את כרטיס הבנק ואת נתוני העסקה גם נשאר עם החברה. ניתן לספק נתונים גם לסוכנויות ממשלתיות כאשר יש צורך גדול: לדוגמה, פייסבוק משתפת פעולה באופן קבוע עם סוכנויות ממשלתיות בארה"ב, בהתאם למדיניות השקיפות שלה.

בנוסף למדיניות הפנימית של הרשתות החברתיות, יש פרט אחד חשוב יותר: חשבונות יכולים להיות קשורים עם מאות אלפי יישומים אחרים פונקציות. זו, למשל, היתה הסיבה לדיונים גדולים בשנה שעברה על גישה של צד שלישי לנתוני המשתמש. ניסיון חשוב להסדיר את חופש היזמים נעשה באיחוד האירופי - תקנות הגנת המידע הכלליות (GDPR) נכנסו לתוקף בשנה שעברה. הוא החליט לא להעביר בעיות נתונים, אבל משך את תשומת הלב של משתמשים לשאלה זו. זה לא מחייב אותנו לקרוא את כל הסכמי המשתמש, אבל זה גורם לנו לחשוב ולפחות להיות אחראי יותר על עקבות דיגיטליים שלנו ופעל על פי הכללים הבסיסיים של היגיינה דיגיטלית.

ולריה Karavaeva

מדען נתונים ב Spiking

לפעמים אנחנו לא חושבים על כמה שירים אנחנו משאירים באינטרנט וכמה מאוחר זה עוזר לחברות, לא רק רשתות חברתיות - למרות רשתות חברתיות גם כן. רשתות חברתיות אוספות נתונים לא רק עבור עצמן, הן יכולות למכור אותן - אני יודע על זה, כי עבדתי במשרד פרסום, וקנינו נתונים מפייסבוק. וברוב המקרים אנו, המשתמשים, נותנים הסכמה לכך מבלי לשים לב לכך. אנשים מבלים את מחצית חייהם ברשתות חברתיות ומספקים מידע רב על עצמם.

אבל אפשר היה לאסוף נתונים לפני - אז למה התחלת לדבר על נתונים גדולים רק לאחרונה? קודם כל, בגלל כוח מחשוב גדל, ולכן הופך זול יותר. הבעיה העיקרית של נתונים גדולים היא לא איך לאסוף נתונים - באופן עקרוני, כל אחד מאיתנו היום יכול לאסוף ולאחסן terabytes של מידע - אבל איך לעבוד איתם. רוב הנתונים המתקבלים מרשתות חברתיות (טקסט, קול, תמונות, וידאו) אינם מובנים בשום אופן, ולכן ללא למידה ממוחשבת הנתונים הגדולים הם חסרי תועלת. עכשיו, בשל העובדה כי כוח וזיכרון הפכו זולים יותר, הביקוש לרשתות עצביות ולמידה עמוקה גדל - סוף סוף למדנו לעבד מערכי נתונים גדולים.

קח, למשל, תמונות - וזה באמת נתונים גדולים, הם יכולים לתת הרבה מידע. יש מיליוני תמונות, אבל מה לעשות בהן? איך אתה יכול להפיק תועלת מהם? אילו דפוסים הם מאפשרים לך לדעת? הלמידה של המחשב, למעשה, לא נעלמה עד כדי כך. זה לא תהליך פשוט כמו שזה נראה: אין דבר כזה שאתה לוחץ על כפתור ובשבוע לקבל חישובים מלאים.

ללמידה ישירה של מכונה יש משימות מורכבות יותר. אותן תמונות צריכות להיות מעובדות כראוי (לדוגמה, תמונות קצוצות ומרוכזות, זה חשוב ללמידה) - זהו השלב הראשון, שבדרך כלל לוקח זמן רב. השלב השני הוא לבחור ארכיטקטורת רשת המתאימה לפתרון הבעיה. בסך הכל, אתה בונה עשר רשתות עצביות שונות, והם נותנים עשר תוצאות שונות. אז אתה צריך איכשהו להעריך את התוצאות. ואחרי זה, עם הסתברות גבוהה, לחזור לשלב הראשון. זה בלתי אפשרי לבנות רשת אוניברסלית אחת עבור כל משימה: אתה גם לבנות את זה מאפס או לשנות אחד קיים. זיהוי פנים הוא משימה אחת, ההכרה בחתולים היא אחרת.

בתהליך הלמידה במכונות אנו גם משתתפים בלי לדעת זאת. לדוגמה, הצגת captcha באתרים: באמצעות captcha, Google אימנה רשתות עצביות לספרת ספרים.

עלינו להבין שחברות שאוספות נתונים גדולים אינן מעוניינות בפרופילים האישיים שלנו. הם זקוקים לנתונים על הרבה אנשים שונים המעוניינים במשהו ספציפי. באשר לשירותים המיוחדים, אני חושב שהם יכולים לאסוף נתונים מבלי להזדקק לרשתות חברתיות. אני חושב שהחששות שלנו כי אנחנו צפויים לעבור בקרוב. זה העולם החדש: אפשר שלא לעקוב אחר האינטרנט, אבל זה קשה. קל יותר לא להופיע באינטרנט בכלל.

תמונות: antonsov85 - stock.adobe.com