-
Notifications
You must be signed in to change notification settings - Fork 1
/
index.html
1225 lines (776 loc) · 43.8 KB
/
index.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="" xml:lang="">
<head>
<title>Culture des données, données de la culture</title>
<meta charset="utf-8" />
<meta name="author" content="Joël Gombin, Datactivist" />
<script src="libs/header-attrs-2.25/header-attrs.js"></script>
<link href="libs/remark-css-0.0.1/default.css" rel="stylesheet" />
<link href="libs/remark-css-0.0.1/datactivist.css" rel="stylesheet" />
<link href="libs/remark-css-0.0.1/datactivist-fonts.css" rel="stylesheet" />
</head>
<body>
<textarea id="source">
class: center, middle, inverse, title-slide
# Culture des données, données de la culture
### Joël Gombin, Datactivist
### Sciences Po Aix, 2025-2025
---
layout: true
<div class='my-footer'><span>Sciences Po Aix</span> <center><div class=logo><img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/fond_noir_monochrome.png' width='100px'></center></span></div>
---
class: center, middle
Ces slides en ligne : http://datactivist.coop/dataculture/
Sources : https://github.com/datactivist/dataculture/
Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr).
<BR>
<BR>
![](https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-sa.png)
---
## Plan du cours
**Session 1** : culture des données. Data, big data, open data…
**Session 2** : les données de la culture - études de cas
---
class: inverse, center, middle
# .red[Culture des données]
## Data, big data, open data…
---
class:middle, center
## Échauffement :
### 5 minutes, 20 données
Vous avez 5 minutes
Vous devez trouver 20 données dans votre environnement immédiat
Pas de recours aux écrans !
.footnote[[source](http://infolabs.io/5-minutes-20-donnees)]
---
class:center,inverse, middle
# Qu'est-ce
# qu'une donnée ?
---
class:center,inverse, middle
#D'après vous ?
---
# Le censeur à Rome, ancêtre de la statistique
.center[.reduite3[![](img/asterix.png)]]
.footnote[Source : *Asterix chez les pictes*, © Albert René 2013]
---
# Le censeur à Rome, ancêtre de la statistique
.center[.reduite3[![](img/asterix1.png)]]
.footnote[*Asterix chez les pictes*, © Albert René 2013]
---
## La statistique : outil de gouvernement et de preuve
.pull-left[.middle[La statistique est à la fois :
+ **outil de gouvernement** (_Statistik_ - 18e siècle), et
+ **outil de preuve** (_statistics_ - 19e siècle)]]
.pull-right[.reduite2[![center](./img/desrosieres1.jpg)]]
---
## [Quantifier, c'est convenir puis mesurer](http://www.pressesdesmines.com/media/extrait/PourSocioHistExtr.pdf)
.pull-left[
> Le verbe quantifier est employé ici dans un sens large : **exprimer et
faire exister sous une forme numérique ce qui, auparavant, était exprimé par
des mots et non par des nombres**.]
.pull-right[.reduite2[![](img/desrosi.jpeg)]]
---
## [Quantifier, c'est convenir puis mesurer](http://www.pressesdesmines.com/media/extrait/PourSocioHistExtr.pdf)
.center[.reduite3[![](img/asterix2.png)]]
.footnote[*Asterix chez les pictes*, © Albert René 2013]
---
## Quantifier, c'est inscrire et figer une réalité sans cesse mouvante
.center[.reduite3[![](img/asterix3.png)]]
.footnote[*Asterix chez les pictes*, © Albert René 2013]
---
## Etymologie
### Latin : _dare_ (donner) > _datum_ (donné) > _data_ (donnés)
<br/><br/>
Ce qui est évident, va de soi, est accepté sans discussion
<br/><br/>
> From its first vernacular formulation, the existence of a datum has been independent of any
consideration of corresponding ontological truth. When a fact is proven false, it ceases
to be a fact. False data is data nonetheless.
.footnote[[Rosenberg, 2013](https://mitpress.mit.edu/books/raw-data-oxymoron)]
---
## Usage de "data"
Le sens moderne apparaît à la fin du 18e siècle.
Renvoie à des expériences, des collectes d'éléments.
[![](img/data.png)](https://books.google.com/ngrams/graph?content=data&year_start=1800&year_end=2000&corpus=15&smoothing=3&share=&direct_url=t1%3B%2Cdata%3B%2Cc0)
---
# "Datafication" : la mise en données du monde
> “L'immense gisement de données numériques découle de la capacité à paramétrer des aspects du monde et de la vie humaine qui n'avaient encore jamais été quantifiés. On peut qualifier ce processus de **« mise en données » (datafication)**.
> […] “La mise en données désigne autre chose que la numérisation, laquelle consiste à traduire un contenu analogique - texte, film, photographie - en une séquence de 1 et de 0 lisible par un ordinateur. Elle se réfère à une action bien plus vaste, et aux implications encore insoupçonnées : **numériser non plus des documents, mais tous les aspects de la vie**.”
.footnote[[Kenneth Cukier, “Mise en données du monde, le déluge numérique”](https://www.monde-diplomatique.fr/2013/07/CUKIER/49318)]
---
## La "nombrification" du monde
.pull-left[.reduite[![](https://cefres.hypotheses.org/files/2017/06/couv_REY.jpg)]]
.pull-right[
> La numérisation ne serait pas survenue sans une "nombrification" préalable qui consiste à quantifier de plus en plus d'aspects de notre expérience du réel.
> **Au commencement était le verbe, il semble à la fin que tout devient nombre.**
> Personne ne saurait parler sérieusement de l'état de la société et discuter politique sans se référer aux informations quantitatives.]
---
# Le nouveau positivisme des données
> *If you asked me to describe the rising philosophy of the day, I’d say it is **data-ism**.
We now have the ability to gather huge amounts of data.
This ability seems to carry with it certain cultural assumptions — that everything that can be measured should be measured; that data is a transparent and reliable lens that allows us to filter out emotionalism and ideology; that data will help us do remarkable things — like foretell the future.*
Jeff Brookes, éditorialiste du New York Times
---
## Aux sources de la mise en données du monde
.pull-left[
- Rencontre, dans la Californie des années 1960, entre la Nouvelle Gauche et les Nouveaux Communalistes sur fond de LSD et de recherche militaire
- L'inspiration de la cybernétique (N. Wiener) : objets techniques et êtres humains constituent un même système sociotechhnique, régulé par l'information
- Exemple de Steward Brand, fondateur du _Whole Earth Catalog_ puis de Wired => ["Forest Gump de l'Internet"](https://questionsdecommunication.revues.org/8619)]
.pull-right[
.reduite2[![](./img/wholeearthcatalog.jpg)]]
---
## "Raw data" is an oxymoron
.pull-left[
> Data are always already “cooked” and never entirely “raw.”
> Data need to be imagined _as_ data to exist and function as such, and the imagination of data entails an interpretive base.]
.pull-right[
![](img/rawdata.jpg)]
.footnote[[Source](https://mitpress.mit.edu/books/raw-data-oxymoron)]
---
class:inverse, middle, center
# Vers une définition des données
---
## La pyramide Data-Information-Knowledge-Wisdom
.pull-left[
[![largeur](./img/DIKW_Pyramid.svg)](https://commons.wikimedia.org/w/index.php?curid=37705247)
]
.pull-right[Attribuée à [Russell Ackoff](http://en.wikipedia.org/wiki/Russell_L._Ackoff), 1989
Les données peuvent être des :
- faits
- signal/stimulis
- symboles]
---
# Vers une définition
.pull-left[.reduite3[
![](img/kitchin.jpg)
⏺ enregistrabilité +🏗 briques de base ("*buildings blocks*")]]
.pull-right[
> *Data are commonly understood to be the raw material produced by **abstracting the world** into categories, measures and other representational forms – numbers, characters, symbols, images,sounds, electromagnetic waves, bits – that constitute the **building blocks** from which information and knowledge are created.*]
---
# Data or capta ?
> Technically, then, what we understand as data are actually **capta** (derived from the Latin capere, meaning ‘to take’); those units of data that have been selected and harvested from the sum of all potential data.
[Kitchin, 2014](https://books.google.fr/books?hl=fr&lr=&id=GfOICwAAQBAJ&oi=fnd&pg=PP1&dq=kitchin+data+revolution&ots=pcyfMTZh-V&sig=dQyPTL3AIN_4RdWvtBFw4VjdAa4#v=onepage&q=kitchin%20data%20revolution&f=false)
---
# Données ou obtenues ?
> Décidément, on ne devrait jamais parler de “données”, mais toujours d’ “obtenues”.
[Bruno Latour, 1993](http://www.bruno-latour.fr/fr/node/255)
---
class:center, middle, inverse
# Données, données... quelles données ?
---
## Données "quantitatives"
Différents types de variables :
- Dénombrement : correspond à un décompte (et donc à des valeurs entières, discontinues)
- Mesure : correspond à une valeur continue, mesurée par un instrument (température, taille...)
Mais aussi, d'un certain point de vue :
- nominale : des catégories que l’on nomme avec un nom (marié/célibataire/divorcé/veuf)
- ordinale : échelle de mesure dotant chaque élément d'une valeur qui permet leur classement par ordre de grandeur (faible, moyen, fort)
- etc.
---
## Données qualitatives
.pull-left[
Non numérique => texte, image, vidéo, son, musique...
+ peut être convertie en données quantitatives
+ risque de perdre la richesse des données originales
+ analyse qualitative de données
]
.pull-right[
![](img/text_mining_intro_2.png)
]
---
## Données structurées
.pull-left[
Des données dotées d'un modèle qui définit les relations entre les composantes de la base de données
+ Ex : base de données relationnelle SQL
+ Lisibles machine
+ Faciles à analyser, manipuler, visualiser...
]
.pull-right[
![](img/sql.jpeg)
]
---
## Données semi-structurées
.pull-left[
Pas de modèle prédéfini : structure irrégulière, implicite... mais données organisées néanmoins, ensemble raisonnable de champs
Exemple : XML, JSON
Possible de trier, ordonner et structurer les données
]
.pull-right[
![](img/OCDSjson.jpg)
]
---
## Données non structurées
.pull-left[Pas de structure commune identifiable
Parfois stockées dans des BDD NoSQL
Généralement qualitatives
Difficilement combinées ou analysées quantitativement
Les données non structurées croîtraient 15x plus que les données structurées
Machine learning / "IA" de + en + capable d'analyser ces données.]
.pull-right[
![](img/structured-vs-unstructured-data.png)
]
---
## Données capturées, échappées, transitoires
** Données capturées**
Observation, enquête, expérimentation, prise de notes, senseurs... => intention de générer des données
** Données échappées**
Sous-produit d'un engin ou d'un système dont la fonction première est autre
** Données transitoires**
Echappées qui ne sont jamais examinées, transformées ou analysées
---
## Données dérivées
Résultat d'un traitement ou une analyse supplémentaire de données capturées.
Exemple avec les [données de Google Maps](https://www.justinobeirne.com/google-maps-moat) :
![](https://static1.squarespace.com/static/54ff63f0e4b0bafce6932642/t/5a383fdb41920241ebce859d/1513635810327/3-1+-+Making+AOIs.gif?format=1500w)
---
## Données dérivées
.reduite2[![](./img/nasa.jpg)]
---
##Index, attributs, métadonnées
**Index**
Des données permettent l'identification (clé unique) et la mise en relation (clé étrangère). Essentielles pour enrichir les données. Exemple : SIRET.
**Attributs**
Des données représentent les aspects d'un phénomène, mais ne sont pas des index (pas identifiants uniques).
**Métadonnées**
Des données sur les données. Peuvent être descriptives, structurelles ou administratives. Exemple de standard : le [Dublin Core](https://fr.wikipedia.org/wiki/Dublin_Core). **Elles sont essentielles pour [les GLAM](https://archivengines.wordpress.com/2011/10/08/metadonnee-descriptive-bibliotheque-archive/), et la découvrabilité de leurs ressources !**
---
## Les données crowdsourcées
Des données produites par la multitude, des communs partagés et gouvernés par leurs producteurs
Exemple : OpenStreetMap, le wiki de la carte
[.reduite[![](img/openstreetmap2023.png)]](https://www.openstreetmap.org/#map=18/43.52941/5.43669&layers=P)
---
## Les données crowdsourcées
Exemple : OpenStreetMap, le wiki de la carte
[.reduite[![](img/OSM_EPS_mapcomplete.png)]](https://mapcomplete.osm.be/etymology.html?z=18&lat=43.53029&lon=5.436274&language=fr#way/1098891250)
---
class:inverse, middle, center
# De l'open data au big data
---
## Open data : quelques jalons historiques
![](img/chrono.png)
[(Autre version, plus détaillée)](https://cdn.knightlab.com/libs/timeline3/latest/embed/index.html?source=1V00vQN4c23p_Z0EUOsedYAs4-Z37GNskVafUYhQ_v4Q&font=Default&lang=fr&hash_bookmark=true&initial_zoom=5&height=650#event-circulaire-relative-a-la-circulation-de-la-donnee-des-algorithmes-et-des-codes)
---
## 07 Décembre 2007 : la rencontre de Sebastopol
.pull-left[
👥 **Quoi ?** Une rencontre de l'Open Governement Group à Sebastopol (Californie), siège des éditions O'Reilly
🎯 **Pourquoi ?** : Influencer le futur président des Etats Unis pour faire avancer l'open data
📜 **Comment ?** En adoptant une déclaration définissant les grands principes de l'Open Government Data
]
.pull-right[
![](img/photofamille.jpg)
]
---
class:middle, center
![](img/session.jpg)
# Revue des principes
---
class: middle, center
# 1. Des données complètes
### Toutes les données publiques doivent être rendues disponibles dans les limites légales liées à la vie privée ou la sécurité
---
class: center, middle
![](img/OPENDATA.jpg)
# BY DEFAULT
---
class: middle, center
# 2. Des données primaires
### Les données ouvertes sont telles que collectées à la source, non-agrégées avec le plus haut niveau de granularité
---
class: middle, center
# 3. Des données fraiches (*timely*)
### Les données doivent être disponibles dès qu'elles sont produites
---
class: middle, center
# 4. Des données accessibles
### Les données doivent être utilisables par le plus grand nombre d’usagers potentiels
---
class: middle, center
# 5. Des données exploitables par les machines
### Les données peuvent être traitées automatiquement par les machines
---
class: middle, center
# 6.Des données non discriminatoires
### Elles peuvent être utilisées par tous sans réclamer un enregistrement préalable
---
class: middle, center
# 7. Des données dans un format ouvert
### Ce format ne doit pas être la propriété d'une organisation en particulier (.xls) et doit être gouvernée par ses usagers
---
class: middle, center
# 8. Des données dans une licence ouverte
### Idéalement dans le domaine public sinon dans une licence conforme à l'[Open Definition](www.opendefinition.org) : Licence Ouverte (CC-BY) ou ODBL (CC-BY-SA)
---
### Que signifie .red[“Open”] dans un contexte culturel ?
* **L’Open Content** (les contenus ouverts) est la mise à disposition gratuite sur Internet des reproductions numériques des œuvres sous une licence garantissant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière.
* **L’Open Access** (le libre accès) est la mise à disposition gratuite en ligne de contenus numériques, sous licences libres (Creative commons, etc.) ou non.
* **L’Open Knowledge** (la culture libre) est un mouvement social qui promeut la liberté de distribuer et de modifier des œuvres de l’esprit sous la forme d’œuvres libres. Il puise sa philosophie dans celle du logiciel libre en l’appliquant à la culture et à l’information.
* **L’Open Data** (les données ouvertes), est la mise à disposition gratuite sur Internet de données sous une licence libre. Diverses exceptions peuvent y faire obstacle, dont des .red[droits de propriété intellectuelle détenus par des tiers].
---
## Big data
![](https://www.usine-digitale.fr/mediatheque/0/3/5/000351530/big-data.jpg)
---
## L'obsession du volume de données
.pull-left[
**Quelques chiffres omniprésents** :
- le volume de données produit double tous les 3 ans (Gantz & Reisel 2011)
- 90% des données créées dans les deux dernières années (IBM 2012)
- 40% : croissance annuelle de la production de données (Maniyka et al. 2011)
]
.pull-right[
**Problèmes de cette approche** :
- Estimations guidées par des intérêts commerciaux
- Ne définit pas ce que sont ces données
- Résume le big data au Volume
-Explique mal la mise en données du monde
]
---
## Les promesses du big data
Kitchin (2014) résume les promesses du "big data" (aka "IA") :
- **“Governing people”** : dans la continuité de la statistique, améliorer la connaissance de l’administration et prédire les crimes
- **“Managing organisations”** : améliorer le fonctionnement de toutes les composantes de l’organisation par l’exploitation des données
- **“Leveraging value and producing capital”** : micro-ciblage marketing, optimisation des magasins et des opérations, efficience de la chaine
- **“Creating Better places”** : gouverner les villes avec des données (smart city)
- **Un nouveau paradigme scientifique** : une nouvelle ère guidée par les corrélations
---
## Linked data
.pull-left[
- poussé par le W3C et Tim Berners-Lee
- sémantique / web des données
- RDF / SPARQL
- wikidata => http://projetjourdain.org/network/index.html
Un exemple : [le magasin de données de la BNF](https://data.bnf.fr/fr/semanticweb
)
]
.pull-right[
![](http://linkeddata.org/static/images/lod-datasets_2009-07-14_cropped.png)
]
---
class: middle
<iframe style="width: 80vw; height: 50vh; border: none;" src="https://query.wikidata.org/embed.html#SELECT%20DISTINCT%20%3Fitem%20%3FitemLabel%20%3FitemDescription%20%3FdateOfBirth%0AWHERE%20%7B%0A%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22fr%22.%20%7D%0A%20%20%3Fitem%20p%3AP69%20%3Fstatement0.%0A%20%20%3Fstatement0%20(ps%3AP69%2F(wdt%3AP279*))%20wd%3AQ1139065.%0A%20%20OPTIONAL%20%7B%20%3Fitem%20wdt%3AP39%20%3Ffonction.%20%7D%0A%20%20%3Fitem%20wdt%3AP569%20%3FdateOfBirth.%0A%7D%0AORDER%20BY%20DESC(%3FdateOfBirth)%0ALIMIT%20100" referrerpolicy="origin" sandbox="allow-scripts allow-same-origin allow-popups"></iframe>
---
## API
.pull-left[
- Application programming interface => un programme vu de la surface
- les machines parlent aux machines
- donnée dynamique => ouverture potentiellement limitée et contrôlée
- un exemple : [The Movie DataBase](https://www.themoviedb.org/documentation/api)
]
.pull-right[
![](https://d1avok0lzls2w.cloudfront.net/img_uploads/apis-for-marketers.png)
]
---
class:inverse, middle, center
# Cadre juridique et protection de la vie privée
### Focus sur le RGPD
---
## Répondre à la faiblesse du cadre juridique antérieur
.center.reduite2[
![](https://cdn2.nextinpact.com/images/bd/news/medium-167383.png)
]
---
## Le RGPD ?
**Règlement Général de Protection des Données** : adopté à la mi-avril 2016 après 4 années de débat, entré en vigueur le 25 mai 2018, il renforce considérablement le droit européen de protection des données personelles.
3 objectifs :
- Renforcer les droits des personnes
- Responsabiliser les acteurs traitant des données personnelles
- Crédibiliser la régulation
Le RGPD propose un **cadre unifié pour l'ensemble de l'UE** qui s'applique à chaque fois qu'un résident européen est visé par un traitement de données personnelles.
---
## Renforcer les droits des personnes
.pull-left[
![](https://www.cnil.fr/sites/default/files/styles/contenu_generique_push_2_colonnes/public/thumbnails/image/portabilite.gif?itok=Hw44RwAk)
**Droit à la portabilité des données** : Droit de recevoir ses données "dans un format structuré, couramment utilisé et lisible par machine" et de les transmettre à un autre service si possible de matière automatisée.]
.pull-right[
![](https://www.cnil.fr/sites/default/files/styles/contenu_generique_push_2_colonnes/public/thumbnails/image/transparence_0.gif?itok=__ElfCYA)
**Transparence et consentement explicite** : plus de lisibilité sur ce qui est fait de mes données (preuve de consentement explicite dans des termes clairs) et j’exerce mes droits plus facilement (droit d’accès, droit de rectification, droit à l'oubli).
]
---
## Exemple de demande de consentement explicite
.center.reduite2[
![](img/soge.jpeg)
]
---
## Renforcer les droits des personnes
.pull-left[
![](https://www.cnil.fr/sites/default/files/styles/contenu_generique_push_2_colonnes/public/thumbnails/image/protection-mineur.gif?itok=eKkC1eTx)
**Protection des mineurs** : Les services en ligne doivent obtenir le consentement des parents des mineurs de moins de 16 ans avant leur inscription.
]
.pull-right[
![](https://www.cnil.fr/sites/default/files/styles/contenu_generique_push_2_colonnes/public/thumbnails/image/guichet-unique.gif?itok=_LRvPqGJ)
**Guichet unique** : En cas de problème, je m’adresse à l’autorité de protection des données de mon pays, quelque soit le lieu d’implantation de l’entreprise qui traite mes données.
]
.footnote[Source : [CNIL](https://www.cnil.fr/fr/plus-de-droits-pour-vos-donnees)]
---
## Renforcer les droits des personnes
.pull-left[
![](https://www.cnil.fr/sites/default/files/styles/contenu_generique_push_2_colonnes/public/thumbnails/image/sanction.gif?itok=zJEPHJLr)
**Sanctions renforcées** : En cas de violation de mes droits, l’entreprise responsable encourt une sanction pouvant s’élever à 4% de son chiffre d’affaires mondial.
]
.pull-right[
![](https://www.cnil.fr/sites/default/files/styles/contenu_generique_push_2_colonnes/public/thumbnails/image/droit-oubli.gif?itok=eLolCmSf)
**Droit à l'oubli** : Je peux demander à ce qu’un lien soit déréférencé d’un moteur de recherche ou qu’une information soit supprimée s’ils portent atteinte à ma vie privée.
]
.footnote[Source : [CNIL](https://www.cnil.fr/fr/plus-de-droits-pour-vos-donnees)]
---
## Responsabiliser les acteurs
- **Privacy by design** : protection des données personnelles dès la conception du produit et par défaut
- **Minimisation** : limiter la quantité de données personnelles dès le départ
- **Accountability** : mettre en place des mesures de protection des données et démontrer cette conformité à tout moment
- Fin des obligations déclaratives sauf si risque accru pour la vie privée
---
## Les 6 étapes de la mise en conformité
.pull-left[
![](./img/rgpd-etape6.png)
ℹ DPO obligatoire uniquement pour secteur public et entreprises dont le traitement de données sensibles à grande échelle est une activité principale.
]
.pull-right[
1. **Désigner un pilote** : Délégué à la Protection des Données (Data Protection Officer) exerce une mission d’information, de conseil et de contrôle en interne.
2. **Cartographier** : élaboration d'un registre des traitements des données personelles
3. **Prioriser** : sur la base du registre, identifiez les actions à mener en priorité pour se conformer aux obligations actuelles et à venir.
]
---
## Les 6 étapes de la mise en conformité
4.**Gérer les risques** : Si identification de risques élevés, mener pour chaque traitement concerné une analyse d'impact sur la protection des données (PIA).
5.**S'organiser** : mise en place de procédures pour l’ensemble des événements qui peuvent survenir au cours de la vie d’un traitement (ex : faille de sécurité, demande de rectification, changement de prestataire…)
6.**Documenter** : prouver votre conformité au règlement, constituer et regrouper la documentation nécessaire qui doit être réexaminée régulièrement.
---
## Crédibiliser la régulation
⚖️ Les autorités de protection peuvent notamment : limiter temporairement ou définitivement un traitement, suspendre les flux de données, ordonner la rectification, la limitation ou l'effacement des données…
🔫 Amendes : jusqu'à 10 ou 20 millions d’euros, ou, dans le cas d’une entreprise, de **2% jusqu’à 4% du chiffre d'affaires annuel mondial**, le montant le plus élevé étant retenu.
🇪🇺
Sanction sera **conjointement adoptée entre l’ensemble des autorités concernées**, donc potentiellement pour le territoire de toute l’Union européenne.
---
class:inverse, middle, center
# Modèles économiques
---
## Les 3 facettes de la valeur des données
.pull-left[
- La donnée comme **matière première** : revendue (ou partagée gratuitement) par celui qui la collecte ou l’agrège.
- la donnée comme **levier** : utilisée sans marchandisation, par exemple pour réduire les coûts ou développer les revenus.
- la donnée comme **actif stratégique** : une arme pour prendre pied sur un marché, ou défendre son positionnement.]
.pull-right[.reduite2[![](https://i0.wp.com/www.fypeditions.com/wp-content/uploads/2014/10/couv-datanomics.gif?resize=404%2C601)]]
---
## Les data brokers : la vie privée comme matière première
- 👻 Des entreprises inconnues du grand public : **Acxiom, Epsilon, Experian**.
- 💰 Un marché estimé par le Congrès américain à 156 milliards de dollars en 2012.
- 🕵 "Data brokers are worse than the NSA" (Sénateur Rockefeller) : aucune transparence ni véritable régulation aux US.
- 🔍 En moyenne, 200 points de données sur chaque individu aux Etats Unis. Plus de 50 000 sources.
- 🚰 Sources : données publiques (permis de construire, registres des naissances, casiers judiciaires…), cookies, données d'achat, cartes de fidélité, données téléphoniques, recherches en ligne…
---
## Une dépossession de la vie privée
.pull-left[
> *Data brokers take public and private information, aggregate it into products and monetize it. *[…]
> *Through the combination of data possession and innovation, data brokers **claim ownership of our data.**"*
]
.pull-right[
[.reduite2[![](img/healthcarebigdata.jpeg)]](https://books.google.fr/books/about/Healthcare_and_Big_Data.html?id=yOwmDQAAQBAJ&redir_esc=y)
]
---
## La donnée comme levier
.pull-left[- Utiliser les données **pour son propre compte** sans monétisation directe auprès d'un tiers
- Données : leviers pour mieux allouer ressources ou développer le résultat
- Possibilité de compléter ou développer le modèle d'affaires]
.pull-right[
![](https://www.thedailybanner.com/wp-content/uploads/2017/10/CAMBRIDGE-ANALYTICA.png)
]
---
## La donnée comme actif stratégique
.pull-left[
Utiliser des données pour soutenir un modèle économique, acquérir ou défendre une position au sein d'un écosystème
]
.pull-right[
![](./img/gps.png)
]
---
## Pour le prochain cours
Identifiez trois exemples illustrant la manière dont la révolution des données a bouleversé le secteur de la culture, et essayez de documenter et analyser ces exemples.
---
class: inverse, center, middle
# Merci !
Contact : [[email protected]](mailto:[email protected])
---
class: inverse, center, middle
# Données de la culture : études de cas
---
class: center, middle
# Netflix : de la distribution à la production de contenus
---
## Brève histoire de Netflix
- création en 1997-1998, par Marc Randolph et Reed Hastings (déjà devenus millionnaires grâce à de précédentes entreprises)
- service initial : location de DVD par correspondance avec réservation en ligne
- modèle d'abonnement mensuel à partir de septembre 1999
- 2000 : 300k abonnés, Netflix perd de l'argent
- 2003 : pour la première fois Netflix est rentable
- 2005 : catalogue de 35k films différents, 1 million de DVD envoyés par jour (!)
- 2006 : Netflix offre 1M$ de récompense pour améliorer son algorithme de recommandation
- 2007 : Netflix lance un service de visionnage de films en streaming (YT lancé en 2005)
- 2011-2013 : Netflix commence à produire des contenus propres. 1ère série produite : *House of Cards*
- 2021 : plus de 213 millions d'abonnés dans le monde
---
## Brève histoire de Netflix
Valorisation boursière de Netflix (01/12/2021) : 284 Mds de $ (a doublé depuis le début de la crise covid) (165 Mds $ le 10/10/2023)
Walt Disney Co : 263 Mds de $ (après le rachat de la 21st Century Fox pour 71 Mds $) (155 Mds $ le 10/10/2023)
En 2021, Netflix dépense 17 milliards de $ pour acheter des contenus, dont 38% pour des contenus originaux (371 films et séries en 2019)
Soit... plus que n'importe quel studio hollywoodien (Warner Bros : 23 films en 2018). Mais Disney par exemple dépense le double en contenu.
Netflix dépense également 1,8 milliards de $ en R&D en 2020 (budget total du CNRS en 2021 : 3,7 milliards d'€) (mais attention : la définition US de R&D est plus large que celle en France.)
---
## Brève histoire de Netflix
.center[[
![](./img/contenus_netflix.png)
](https://www.statista.com/statistics/883491/netflix-original-content-titles/)
]
---
## Comment Netflix optimise la qualité du service
.pull-left[
- l'un des secrets du succès dans la nouvelle économie culturelle : .red[**une expérience utilisateur impeccable**]
- le choix, assez tôt, de se reposer sur AWS plutôt que sur des infrastructures propres
- Très grande stabilité : pour accroître l'infra, il suffit de payer plus.
- Coût marginal plutôt que fixe.
- Tout est répliqué trois fois : redondance = sécurité
]
.pull-right[
![](./img/aws.jpg)
[Source](https://www.macg.co/ailleurs/2018/03/que-se-passe-t-il-quand-vous-appuyez-sur-lecture-dans-netflix-101639)
]
---
## Comment Netflix optimise la qualité du service
- Gros travail sur l'architecture technique : "Netflix peut mobiliser jusqu’à 300.000 processeurs en même temps pour transcoder une vidéo"
- Localiser les données à servir au plus près des utilisateurs : chez les FAI
- Au final, Netflix échange de la puissance de calcul (meilleur transcodage des vidéos) contre moins de bande passante
- Absolument tout ce qui se passe côté utilisateur est loggé, stocké et utilisé pour personnaliser au maximum l'expérience.
- Bien sûr, Netflix utilise des algorithmes de recommandation pour proposer de nouveaux contenus. Mais ce n'est que la partie émergée de l'iceberg... "Tout est recommandation".
---
## Comment Netflix optimise la qualité du service
![](./img/artwork.png)
---
## Comment Netflix optimise la qualité du service
![](./img/artwork1.png)
---
## Comment Netflix optimise la qualité du service
![](./img/artwork2.png)
> To properly learn how to personalize artwork we need to collect *a lot* of data to find signals that indicate when one piece of artwork is significantly better for a member.
[Source](https://medium.com/netflix-techblog/artwork-personalization-c589f074ad76)
---
## Comment Netflix optimise la qualité du service
![](./img/homepage.png)
---
## Comment Netflix optimise la qualité du service
![](./img/algo_homepage.png)
[Source](https://medium.com/netflix-techblog/learning-a-personalized-homepage-aa8ec670359a)
---
## Comment Netflix optimise la qualité du service
L'algorithme de recommandation repose, notamment, sur :
- des notations par les membres (plusieurs milliards)
- la popularité des contenus (évaluée de multiples manières)
- la lecture des vidéos (durée, heure, matériel...)
- listes d'attente
- métadonnées (acteurs, réalisateur, genre...)
- présentation et interactions avec la présentation
- données sociales (amis)
- termes de recherche
- données externes
- autres
Des tests en permanence (offline et online) !
---
## Comment Netflix optimise la qualité du service
![](./img/tests.png)
[Source](https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5)
---
## Comment Netflix optimise les choix de production
Dans une industrie historiquement influencée par l'intuition, Netflix revendique de faire du ".red[**Data-driven Programming**]".
=> La position de distributeur donne ainsi un avantage concurrentiel unique à Netflix *en tant que producteur*.
Netflix à Kevin Spacey :
> “We believe in you. We’ve run our data and it tells us that our audience would watch this series. We don’t need you to do a pilot. How many do you wanna do?” (voir [cet article](https://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html?pagewanted=all&_r=1&))
Même si le facteur humain reste significatif, [même chez Netflix](https://www.newyorker.com/business/currency/hollywoods-big-data-big-deal?intcid=mod-most-popular).
---
## Comment Netflix change en profondeur l'industrie cinéma et audiovisuelle
- Amazon par exemple se lance dans la même logique que Netflix (distributeurs devenus producteurs) : une concurrence accrue.
- les producteurs et distributeurs historiques veulent concurrencer Netflix sur son terrain (voir [Disney+](https://fr.wikipedia.org/wiki/Disney%2B), [Hulu](https://fr.wikipedia.org/wiki/Hulu_(entreprise) aux USA ou [Salto, le "Netflix à la française"](https://www.lemonde.fr/actualite-medias/article/2019/08/13/l-arme-anti-netflix-de-france-tv-tf1-et-m6-verra-le-jour-debut-2020_5498935_3236.html))... avec le risque pour Netflix de perdre une partie de son catalogue et de son attrait.
- Face à la concurrence accrue, l'ampleur du catalogue devient un élément concurrentiel majeur, et le coût d'acquisition des clients augmente. En 2018, le coût d'acquisition net par client de Netflix était [estimé à 180$](https://innovationtactics.com/customer-acquisition-cost-and-customer-lifetime-value/). Il est essentiel que le *churn* (taux de déperdition) reste bas... d'où l'importance des nouvelles productions !
---
## Comment Netflix change en profondeur l'industrie cinéma et audiovisuelle
- Le poids de Netflix a une influence significative d'un point de vue artistique : souvent le dernier recours des réalisateurs face à des producteurs frileux, mais aussi une prise de risque artistique moindre ?
<blockquote class="twitter-tweet" data-lang="fr"><p lang="en" dir="ltr">i can&#39;t stop thinking about this quote from Cary Fukanaga&#39;s GQ profile, where he reveals the netflix algorithm caused him to can an episode. it kind of sounds like the data suggested it was too complex and would alienate audiences. <a href="https://t.co/99Sjk6xtYj">pic.twitter.com/99Sjk6xtYj</a></p>&mdash; Cynthia Gothrock (@quantum_scumbag) <a href="https://twitter.com/quantum_scumbag/status/1044440839089340416?ref_src=twsrc%5Etfw">25 septembre 2018</a></blockquote>
---
## Si on résume...
Pour une réussite comme Netflix, il faut (notamment !) :
- beaucoup de capital (Netflix a mis huit ans à gagner de l'argent)
- pas mal d'infrastructure technique (mais externalisée chez Amazon)
- **beaucoup, beaucoup de données**
- l'audace stratégique de changer de métier (distributeur => producteur)
---
class: inverse, center, middle
# Mais encore...
---
## Au musée
Analyse de http://www.club-innovation-culture.fr/expo-met-inout-oeuvres-new-york-reseau-mediatheques-agglomeration-herault/
http://www.culture.gouv.fr/Thematiques/Musees/Nos-actions/Colloques-Journees-d-etudes/Journee-professionnelle-La-strategie-numerique-dans-les-musees?fbclid=IwAR3YE2i0CXpVqHUekF9eKO8TzbmPZJPUvd2lMi7Q6jqyN2jVY3QNCVZGB3I
https://www.lemonde.fr/idees/article/2018/06/23/open-acess-les-musees-francais-a-la-traine_5320170_3232.html
OpenGLAM : https://openglam.org/