#70

Victor-Arica · Victor-Arica · commit 19949280820e · 2025-04-20T21:43:21.000-05:00
2 intento
diff --git a/homework/hw2/246574_hw2_2025_1/PC/246574_hw2_2025_1/246574_hw2_2025_1.ipynb b/homework/hw2/246574_hw2_2025_1/PC/246574_hw2_2025_1/246574_hw2_2025_1.ipynb
@@ -0,0 +1,243 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "9efed105",
+   "metadata": {},
+   "source": [
+    "## `contest.standings`\n",
+    "\n",
+    "Devuelve la descripción del concurso y la parte solicitada del ranking (clasificación).\n",
+    "\n",
+    "### Parámetros\n",
+    "\n",
+    "| Parámetro         | Descripción |\n",
+    "|-------------------|-------------|\n",
+    "| `contestId` *(Requerido)* | ID del concurso. No es el número de ronda. Se puede ver en la URL del concurso. Por ejemplo: `/contest/566/status`. |\n",
+    "| `asManager`       | Booleano. Si se establece como `true`, la respuesta incluirá información disponible para los organizadores del concurso. De lo contrario, solo mostrará la información accesible para los participantes. Debes ser organizador del concurso para poder usar esta opción. |\n",
+    "| `from`            | Índice (basado en 1) de la fila del ranking desde donde comenzar la lista. |\n",
+    "| `count`           | Número de filas del ranking que se desea obtener. |\n",
+    "| `handles`         | Lista de nombres de usuario (handles) separados por punto y coma. No se aceptan más de 10,000 handles. |\n",
+    "| `room`            | Si se especifica, solo se mostrarán los participantes de ese room. Si no se indica, se mostrarán todos los participantes. |\n",
+    "| `showUnofficial`  | Si se establece como `true`, se mostrarán todos los participantes (incluyendo virtuales y fuera de competencia). De lo contrario, solo se mostrarán los concursantes oficiales. |\n",
+    "| `participantTypes` | Lista separada por comas de los tipos de participantes (sin espacios). Valores posibles: `CONTESTANT`, `PRACTICE`, `VIRTUAL`, `MANAGER`, `OUT_OF_COMPETITION`. Solo se mostrarán los participantes con los tipos especificados. |\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b578b0b8",
+   "metadata": {},
+   "source": [
+    "# Extracción de datos apartir de un concurso en específico\n",
+    "\n",
+    "Usaremos la referencia de from para iniciar desde el top 1 (from 1), count se puede excluir para extraer la totalida de la lista de participantes. Sin embargo para este proyecto solo se usará un límite de 5000 participantes por concurso. Además solo los participiantes oficales del concurso. \n",
+    "\n",
+    "\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "4cf091a5",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import requests\n",
+    "import time\n",
+    "import pandas as pd\n",
+    "from datetime import datetime\n",
+    "\n",
+    "def get_contest_data_to_dataframe(contest_id,participants_limit):\n",
+    "    # Obtener información del concurso\n",
+    "    contest_url = f\"https://codeforces.com/api/contest.standings?contestId={contest_id}&from=1&count={participants_limit}&showUnofficial=false\"\n",
+    "    contest_response = requests.get(contest_url)\n",
+    "    contest_data = contest_response.json()\n",
+    "    \n",
+    "    if contest_data['status'] != 'OK':\n",
+    "        print(\"Error al obtener datos del concurso\")\n",
+    "        return None\n",
+    "    \n",
+    "    contest_info = contest_data['result']['contest'] # Información del concurso\n",
+    "    contest_name = contest_info['name']  #Se obtiene el nombre del concurso   \n",
+    "    # Obtener la fecha de inicio del concurso\n",
+    "    contest_start_time = datetime.fromtimestamp(contest_info['startTimeSeconds']).strftime('%Y-%m-%d') # Formato de fecha\n",
+    "    \n",
+    "\n",
+    "\n",
+    "    # Obtener participantes y problemas\n",
+    "    problems = contest_data['result']['problems']\n",
+    "    rows = contest_data['result']['rows'] # Cada fila representa un participante\n",
+    "    num_problems = len(problems)\n",
+    "    \n",
+    "    # Obtener todos los handles (son nombres de usuario) de los participantes\n",
+    "    handles = [row['party']['members'][0]['handle'] for row in rows] # Se obtiene el nombre de usuario por una lista de comprensión qu itera en cada fia\n",
+    "    \n",
+    "    # Obtener metadatos de usuarios\n",
+    "    users_info_url = f\"https://codeforces.com/api/user.info?handles={';'.join(handles)}\"\n",
+    "    users_response = requests.get(users_info_url)\n",
+    "    users_data = users_response.json().get('result', []) if users_response.json()['status'] == 'OK' else []\n",
+    "    \n",
+    "    # Mapear metadatos\n",
+    "    user_metadata = {user['handle']: {\n",
+    "        'country': user.get('country'),\n",
+    "        'city': user.get('city'),\n",
+    "        'rating': user.get('rating'),\n",
+    "        'maxRating': user.get('maxRating')\n",
+    "    } for user in users_data}\n",
+    "\n",
+    "    participants_data = []\n",
+    "    \n",
+    "    for row in rows:\n",
+    "        handle = row['party']['members'][0]['handle']\n",
+    "        participant_data = {\n",
+    "            \"author_handle\": handle,\n",
+    "            \"contest_name\": contest_name,\n",
+    "            \"contest_start_time\": contest_start_time,\n",
+    "            **user_metadata.get(handle, {\n",
+    "                'country': None,\n",
+    "                'city': None,\n",
+    "                'rating': None,\n",
+    "                'maxRating': None\n",
+    "            })\n",
+    "        }\n",
+    "        \n",
+    "        # Procesar problemas\n",
+    "        for i in range(num_problems):\n",
+    "            problem_index = chr(65 + i)\n",
+    "            problem_result = row['problemResults'][i]\n",
+    "            \n",
+    "            # Datos básicos\n",
+    "            participant_data.update({\n",
+    "                f\"finished_{problem_index}\": problem_result['points'] > 0,\n",
+    "                f\"rating_{problem_index}\": problems[i].get('rating')\n",
+    "            })\n",
+    "            \n",
+    "            # Inicializar campos de envío\n",
+    "            participant_data[f\"language_{problem_index}\"] = None\n",
+    "            participant_data[f\"relative_time_{problem_index}\"] = None\n",
+    "            participant_data[f\"time_to_answer_{problem_index}\"] = None\n",
+    "        \n",
+    "        # Obtener envíos\n",
+    "        status_url = f\"https://codeforces.com/api/contest.status?contestId={contest_id}&handle={handle}\"\n",
+    "        status_response = requests.get(status_url)\n",
+    "        time.sleep(1)\n",
+    "        \n",
+    "        if status_response.json()['status'] == 'OK':\n",
+    "            submissions = status_response.json()['result']\n",
+    "            prev_time = 0\n",
+    "            \n",
+    "            for submission in submissions:\n",
+    "                if submission['verdict'] == 'OK':\n",
+    "                    problem_index = submission['problem']['index']\n",
+    "                    participant_data[f\"language_{problem_index}\"] = submission['programmingLanguage']\n",
+    "                    rt = submission['relativeTimeSeconds']\n",
+    "                    participant_data[f\"relative_time_{problem_index}\"] = rt\n",
+    "                    participant_data[f\"time_to_answer_{problem_index}\"] = rt - prev_time\n",
+    "                    prev_time = rt\n",
+    "        \n",
+    "        participants_data.append(participant_data)\n",
+    "    \n",
+    "    # Crear DataFrame\n",
+    "    df = pd.DataFrame(participants_data)\n",
+    "    \n",
+    "    # Ordenar columnas\n",
+    "    ordenadito = ['author_handle']\n",
+    "    \n",
+    "    \n",
+    "    for prefix in ['finished', 'language', 'relative_time', 'time_to_answer', 'rating']:\n",
+    "        ordenadito.extend([f\"{prefix}_{chr(65 + i)}\" for i in range(num_problems)]) # A, B, C, ... el char 65 es A\n",
+    "    \n",
+    "    ordenadito = ordenadito +[\n",
+    "        'contest_name', 'contest_start_time', \n",
+    "        'country', 'city', 'rating', 'maxRating'\n",
+    "    ]\n",
+    "    return df[ordenadito]  # Retornar el DataFrame con las columnas ordenadas\n",
+    "\n",
+    "# Uso\n",
+    "contest_id = 566\n",
+    "participants_limit = 10  # Limitar a los primeros 10 participantes\n",
+    "df = get_contest_data_to_dataframe(contest_id,participants_limit)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "205830ec",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#Para obtener el CSV iterar en todos los ID de concurso que quieras"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "3d7574f1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Paso 1 filtrar concursos por fecha y nombre de concurso\n",
+    "\n",
+    "url = \"https://codeforces.com/api/contest.list\"\n",
+    "response = requests.get(url)\n",
+    "data= response.json()\n",
+    "data\n",
+    "\n",
+    "\n",
+    "# Filtrar concursos por fecha y nombre\n",
+    "filtrado = []\n",
+    "if response.status_code == 200:  \n",
+    "    data = response.json()  \n",
+    "    if data['status'] == 'OK':  \n",
+    "        for contest in data['result']['name']:  \n",
+    "            # Verifica si existe 'startTimeSeconds' en el concurso\n",
+    "            if 'startTimeSeconds' in contest:\n",
+    "                start_time = datetime.fromtimestamp(contest['startTimeSeconds'])  \n",
+    "                if datetime(2024, 7, 1) <= start_time <= datetime(2024, 12, 31):  # Límite de fechas\n",
+    "                    filtrado.append({  \n",
+    "                        'id_concurso': contest['id'],  \n",
+    "                        'nombre_concurso': contest['name'],  \n",
+    "                        'hora_inicio_concurso': start_time,  \n",
+    "                        'duracion_(segundos)': contest['durationSeconds'],  \n",
+    "                        'tipo': contest['type'],  \n",
+    "                        })\n",
+    "\n",
+    "# Convertir a DataFrame para visualizar mejor \n",
+    "df = pd.DataFrame(filtrado)\n",
+    "df_filtrado = df[df[\"nombre_concurso\"].str.contains(\"round|hello|good bye\", case=False, na=False)]\n",
+    "\n",
+    "lista_de_concursos = df_filtrado['id_concurso'].tolist()  # Obtener lista de IDs de concursos filtrados\n",
+    "#lista_de_concursos.to_csv(\"lista_de_concursos.csv\", index=False)\n",
+    "\n",
+    "for lista in lista_de_concursos:\n",
+    "    df = get_contest_data_to_dataframe(lista,participants_limit=10)\n",
+    "    if df is not None:\n",
+    "        df.to_csv(f\"codeforces_contest_{lista}_num_participantes_{participants_limit}.csv\", index=False)\n",
+    "\n",
+    "#Así obtendrás un CSV por cada concurso que cumpla con los criterios de búsqueda, con los primeros 10 participantes de cada concurso., cuyo límite se puede extender."
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "sns",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.4"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/homework/hw2/246574_hw2_2025_1/PC/246574_hw2_2025_1/requirements.txt b/homework/hw2/246574_hw2_2025_1/PC/246574_hw2_2025_1/requirements.txt
@@ -0,0 +1,10 @@
+beautifulsoup4==4.12
+html5lib==1.1
+ipykernel==6.29
+ipywidgets==8.1
+jupyter==1.1
+lxml==5.3
+openpyxl==3.1
+pandas==2.2
+selenium==4.28
+tqdm==4.67