Salut tout le monde! Je voulais comparer statistiquement les notes de Stopgamov avec des Big Data, ils se rapportent? Y a-t-il une interdépendance? Est-il possible de faire ça du tout?
J’apporte à votre attention une petite étude qui n’a pas fixé de buts et d’objectifs élevés, mais qui a été fait principalement sur des blagues.
Préparation des données ou comment ne pas faire le travail du singe
Vous devez d’abord assembler une base de jeux avec lesquels nous nous amuserons davantage.
Les informations de la page avec la distribution de toutes les critiques pour les notes doivent être introduites dans une vue de table ennuyeuse. Total 73 pages, en moyenne 30 matchs sur chacun – c’est 2 190 matchs. Supposons deux minutes pour réimprimer les noms manuellement et reposer – c’est 73 heures!
Quelque chose d’autre est nécessaire. À la fin de chaque titre avec une revue, il est écrit "Review", qui a incité l’idée – vous pouvez ouvrir le code de la page, le copier sur l’exel (cela a l’air terrible, mais je ne peux rien faire d’autre) et filtrer les lignes où il s’agit de la même "revue". À peine dit que c’était fait. Quelques 40 minutes plus tard, la base des évaluations de Stopgamov est apparue.
Maintenant, vous devez trouver à quoi comparer les notes avec. À Reddte, un message a été trouvé dans lequel quelqu’un a publié un fichier énorme avec la base de données de notation des classements du jeu avant la fermeture (le site lui-même est maintenant une grève sur Metacritic). Le fichier date de décembre 2019., Donc un an et demi de nouveaux jeux devra être manqué.
En conséquence, 1 287 jeux sortis en 2010-2019 ont été gagnés.
Visualisation des données reçues. 1. Distribution des points pour l’évaluation de SG. La dépendance est visible et le score médian (lire: moyen) augmente pour chaque évaluation. 2. Distribution de pièces de jeux en points et estimations. Les critiques sont clairement favorables, la plupart des évaluations entre 70 et 80 points. 3. Statistiques de sécheresse. 4. Juste un écran de l’apparence de la base.
Visualisation des données reçues. 1. Distribution des points pour l’évaluation de SG. La dépendance est visible et le score médian (lire: moyen) augmente pour chaque évaluation. 2. Distribution de pièces de jeux en points et estimations. Les critiques sont clairement favorables, la plupart des évaluations entre 70 et 80 points. 3. Statistiques de sécheresse. 4. Juste un écran de l’apparence de la base.
Visualisation des données reçues. 1. Distribution des points pour l’évaluation de SG. La dépendance est visible et le score médian (lire: moyen) augmente pour chaque évaluation. 2. Distribution de pièces de jeux en points et estimations. Les critiques sont clairement favorables, la plupart des évaluations entre 70 et 80 points. 3. Statistiques de sécheresse. 4. Juste un écran de l’apparence de la base.
Visualisation des données reçues. 1. Distribution des points pour l’évaluation de SG. La dépendance est visible et le score médian (lire: moyen) augmente pour chaque évaluation. 2. Distribution de pièces de jeux en points et estimations. Les critiques sont clairement favorables, la plupart des évaluations entre 70 et 80 points. 3. Statistiques de sécheresse. 4. Juste un écran de l’apparence de la base.
Modélisation (pas 3D, mais statistique)
Pour une approche scientifiquement basée sur l’analyse des relations, nous utilisons la régression logistique de la multinomy.
L’analyse de régression examine le lien statistique entre une variable dépendante et (un ou plusieurs) indépendante et montre la présence ou l’absence de communication, sa force, vous permet alors de faire la prévision de l’une des variables, connaissant les autres. Par exemple, après avoir étudié la relation de l’âge du joueur et de l’horloge passée derrière le Compacter par jour, vous pouvez estimer le nombre d’heures pour tout âge en général (bien sûr, avec un tas de nuances que nous n’aurons pas) sur).
La régression la plus courante est linéaire, qui explore la relation entre les variables numériques. Dans notre cas, la dépendance entre le score du jeu et les évaluations de la SG, qui ne sont pas réparties et ne peuvent être que quatre types sont étudiés. Par conséquent, la régression linéaire ne nous convient pas, nous avons besoin de logistique, qui prend en compte.
Nous chargeons notre tableau dans une statistique et pour une sorte de 28 lignes de code, nous obtenons une régression statistiquement significative qui a effectué l’analyse de la base chargée et a révélé une interdépendance entre les estimations du SG et des jeux du jeu. Pour plus de clarté, j’ai déduit la probabilité du modèle d’une évaluation particulière du SG en fonction du score des critiques.
La probabilité de chaque évaluation SG pour chaque score de critiques. Par exemple, le secteur bleu est une évaluation des "ordures". Avec la croissance du point de jeu, la probabilité de «ordures» est réduite, car la qualité du jeu augmente. Et le jeu avec 72 points est très probable (la probabilité de 63%) recevra "louable".
Conclusions
Il existe une relation positive entre l’évaluation de SG et le score du jeu – plus l’évaluation est élevée, plus le score moyen est élevé (qui douterait).
En général, les critiques de la plupart des jeux attribuent des points entre 70 et 80. Dans cette gamme, la probabilité de «louable» est de 66%, «incroyable» – 19%, «Propriknika» – 12%. C’est ce que nous avons tant de jeux "louables".
Et, il me semble, le plus intéressant. Si nous supposons que les «ordures» et le «passage» sont généralement de «mauvais» jeux, et les autres sont «bons», alors la probabilité de tout jeu inconnu est «mauvais» -51% (respectivement, «bon» -49%). Équilibre presque parfait de l’objectivité de Stopheim! Mais ensuite, le jeu est favorable aux développeurs – «Bad» recevra des «ordures» avec une probabilité de 34%, et «bon» recevra «étonnamment» avec 41%.
La chose la plus importante est que les évaluations de Stopheim sont dans leur propre messe sont bonnes et que l’opinion des critiques est cohérente avec eux, presque scientifiquement prouvé 🙂
C’est peut-être tout et tout. Merci d’être avec nous, j’espère que quelqu’un était intéressé.
L’étude a utilisé Excel, Rstudio, Power BI, Chrome et Black Tea.
Les meilleurs commentaires
Le premier semble être un commentaire
C’est plus difficile avec une bonne inconnue – vous devez voir pourquoi ils ne tombent pas dans la revue.
Donc parce que inconnu)
Et vous pouvez simplement demander à Dottérien dans quelques minutes pour collecter toutes les statistiques directement dans la base de données. : D
Total 73 pages, en moyenne 30 matchs sur chacun – c’est 2 190 matchs. Supposons deux minutes pour réimprimer les noms manuellement et reposer – c’est 73 heures!
J’ai cette partie dans l’article a soulevé le plus de questions. Moi, et donc, Syak, et une manière telle essayé de l’imaginer, mais je n’ai pas compris comment radier les noms des jeux et leurs évaluations pendant une heure.
Deux minutes – c’est un jeu? O_o
(En ce moment, je vais «exprimer dans les airs» pour des plans de voix pour résoudre le problème du transfert d’informations à la table)
Premièrement, s’il y a une compétence de vitesse (ou un ami avec), vous pouvez coopérer avec l’autre et: il vous lit à haute voix le nom du jeu et une évaluation, vous écrivez. Dans ce cas, eh bien, quelques minutes pour aller à la page. De plus, si les noms des jeux, évidemment, doivent être enregistrés complètement, les estimations peuvent facilement être réduites en «raisins secs», «PhV», «ZH», «MUS» (mais il y a une telle économie dans les presses, bien sûr). Ultimatiquement – «Garbage» change en «1», «raisins secs» à «4».
Deuxièmement, s’il n’y a pas de https://sevencasinoonline.org/ compétence, ainsi que de la connaissance de l’anglais au niveau approprié (pour éviter les fautes de frappe lors de l’introduction de noms, car vous devrez les comparer davantage) – Vous pouvez simplement copier les noms des jeux. Puis réduire à nouveau les notes.
Mais même si vous écrivez complètement les noms et les évaluations, je ne pense pas que chaque jeu prenne jusqu’à deux minutes pour remplir deux colonnes "jeu – évaluation".
PS: Et après avoir passé un peu plus de temps, on pourrait encore enregistrer les auteurs et faire des statistiques sur eux, et pas seulement selon les estimations! (Mais je n’appelle pas à l’action, si vous comprenez, je comprends que même dans les régimes de Speedranner, remplir une telle base dévorera facilement quelques heures)
Scientifiquement prouvé – la cinquième note n’est pas nécessaire, merci, nous sommes déjà parfaitement objectifs!
En général, il serait intéressant d’examiner non seulement les médianes, mais aussi à une sorte de points de pointe (les jeux les plus appréciés qui ont reçu les «ordures» qui ont reçu le «proprodage» et vice versa, les jeux avec les marques les plus basses qui ont reçu «paresseux» et «raisins»)).
De plus, peut-être une petite analyse et une opinion pourquoi cela pourrait s’avérer x)
Sur l’histogramme de ces jeux dans la plage de 55 à 65 points, il n’y a pas tellement de points – le sommet du tableau à droite après 70 points. Cela vaut-il la peine d’être entré dans une nouvelle note pour un petit nombre de jeux? Maintenant, ils peuvent être divisés conditionnellement en «mauvais» et plutôt «bons», avec un minimum d’incertitude. Et si vous ajoutez de nouvelles notes, alors quand s’arrêter dans le temps?)
Mais l’observation est très intéressante
Quel genre de jeu j’ai obtenu à 50 points et en même temps Raisins?)
Il serait intéressant de regarder l’ensemble de l’échantillon, dans Google Tables par exemple.
P.S. Pour le travail accompli, mon respect, j’aime piquer en chiffres)
Il convient également de garder à l’esprit que les critiques ne vont pas à tous les jeux, mais seulement le bon ou le battage médiatique. Si bon inconnu et les ordures passent, dont personne n’a besoin. Il devrait également influencer en quelque sorte?
Il est plus facile de demander le statut pour moi: D
Vous pouvez également utiliser la version pour l’impression – il donne généralement un résultat assez simple pour bien l’analyse, ou l’ancienne bonne analyse du site par les scripts – lorsque les données doivent être assemblées 🙂
Eh bien, si en un mot – disons que nous avons une base pour 1 000 écoliers, où nous avons l’infa environ l’âge et les heures derrière l’ordinateur par jour. Nous construisons un calendrier où nous avons repoussé les points où le X est l’âge le long de l’axe X, le long de l’axe Y – Watch. Et nous voyons que plus l’âge est grand, plus il y a d’heures (c’est-à-dire que nos points sont étendus par un tel serpent). Cm. Un exemple dans une image, selon des données générées au hasard.
Une ligne pointillée est une équation de régression linéaire, c’est-à-dire une équation qui a mieux ajusté une dépendance linéaire sur la base d’un serpent de points. Y est une horloge, x est l’âge. Nous obtenons donc que y = 1 8003x – 14,926, c’est-à-dire, après avoir réglé l’âge au lieu de X, vous pouvez obtenir une succession du nombre d’heures.
Et puis les nuances sont allées:
– La régression montre simplement qu’il existe un lien entre x et y. Cet âge affecte l’horloge? Ou peut-être que nous vivons dans un univers parallèle, et plus vous vous asseyez longtemps sur l’ordinateur, plus vous (l’horloge affecte l’âge). La relation causale de la régression ne peut pas prouver
– Soudain, le nombre d’heures sur l’ordinateur en réalité ne dépend pas de l’âge, mais de la classe dans laquelle l’étudiant étudie? Ensuite, vous devez construire une nouvelle régression et regarder ce qui se passe. De la régression elle-même, cela ne peut être compris
– Tout dépend des données qui sont à l’origine chargées dans le modèle. Sur un exemple avec une montre, si vous remplacez l’âge de 30 ans, il ressortira qu’une telle personne passera 39 heures par jour dans un ordinateur. Évidemment non-sens)) donc un tel modèle peut être utilisé depuis des siècles, par exemple, jusqu’à 18 ans, et pour que d’autres puissent construire un nouveau modèle (peut-être pas linéaire)
Par conséquent, la régression réelle s’accompagne d’un tas de tests, d’inspections, d’hypothèses, de probabilités, d’analyses de signification, d’intervalles confidentiels et d’autres guirlandes, prouvant que c’est cette régression qui est bonne et que tout est pris en compte
Il est plus facile d’écrire un programme qui se déroulera lui-même sur le site et de retirer toutes les informations nécessaires à partir de là, dans n’importe quel format pratique, alors vous pouvez calmement ajouter une évaluation des utilisateurs, du genre, du développeur et essayez de créer des corrélations à partir de ces données x)
Fait à la main maintenant, à l’ère de la technologie, qui peut le simplifier considérablement, si vous n’en supprimez pas complètement le besoin, ce n’est en quelque sorte pas très x)
Après IDDQD, vous devenez un Rinat (et le monde vole avec un écran bleu, car Rinat est le même et indivisible)
En fait, si vous regardez le calendrier, vous pouvez comprendre que vous avez simplement des problèmes avec les jeux dans la fourchette de 55 à 65 points, qui sont approximativement proches de 50%, à la fois «Proproding» et «louable», malgré le fait que l’auteur des attributs «comprodants» à une mauvaise évaluation, et «louable» à bon. Alors peut-être qu’une sorte de «louange» x n’interférerait pas)
Merci) le lien vers le jeu est attaché
Je terminerai l’échantillon, réfléchissez à où disposer
La miséricorde, en effet, il s’avère que les probabilités obtenues sont applicables aux jeux qui ont réussi une certaine «sélection» pour l’observation. Il serait possible de voir ce qui affecte le (pas) de frapper le jeu dans la revue (les mêmes notes, les plates-formes, autre chose), mais c’est une ligne droite. Jusqu’à présent, il semble que si vous ajoutez une poubelle (qui est probablement une note faible), elle deviendra plus précise. C’est plus difficile avec une bonne inconnue – vous devez voir pourquoi ils ne tombent pas dans la revue.
The Great Ace Avocat Chronicles: Review
Chicary: A Colorful Tale: Review
Astalon: Tears of the Earth: Review
The Legend of Heroes: Trails of Cold Steel 4: Review
Monster Hunter Rise: Review
Kaze and the Wild Masks: Review
Atelier Ryza 2: Lost Legends & the Secret Fairy: Review
Super Mario 3d World + Bowser’s Fury: Review
Skul: The Hero Slayer: Review
03 25 février +22
Cyber Shadow: Review
07 janvier 18 +15
À la fin: révision
22 décembre 2020. 10 +5
Le dernier spectacle de M. Chardish: révision
23 novembre 2020. 9
Effet Tetris: connecté: révision
19 novembre 2020. 7
Crown Trick: Review
05 novembre 2020. 12
Salle du disque: révision
22 octobre 2020. 6 +1
Impact de Genshin: revue
12 octobre 2020. 122
05 octobre 2020. 43 +1
Star Renegades: revue
30 septembre 2020. 8
28 septembre 2020. 169 +3
13 Sentinelles: Aegis Rim: Review
27 septembre 2020. 9
Spelunky 2: revue
19 septembre 2020. 12 +11
Eternal Hope: Review
10 septembre 2020. 7 +4
10 septembre 2020. 16
Alors vous pouvez juste le gérer, vous pouvez plutôt faire un moyen juste. Soit pour lancer un script qui automatise ce processus, après quoi vous aurez une liste de jeux savoureuses avec une certaine évaluation, dans laquelle vous n’autoriserez certainement aucune fauche. En tout cas, 73 – vous vous penchez sauvagement)
Et quel genre de "ordures" est-il déjà 74 points? C’est déjà une dispersion très forte.