Generalidades

Estudio de caso de clasificadores de contenido basados ​​en PNL | por Maryam amjad | agosto de 2021

Mariam Amjad

# blogpost4

0* GQs15Bzc ohvDM6

Jenny, una joven geek de la tecnología. Ella planea crear una aplicación web en la que los usuarios puedan comparar varios modelos móviles y ver reseñas de modelos móviles. Tiene un gran conjunto de datos de comentarios de varios sitios de redes sociales, incluidos los comentarios de Reddit como fuente principal. Ahora necesita un algoritmo modelo de aprendizaje automático para clasificar el contenido según el tipo de dispositivo móvil (es decir, Android y iPhone). Entonces se acercó a Mary, una científica de datos, para completar la tarea, quien luego usó el procesamiento del lenguaje natural para construir un modelo de clasificación.

En esta secciónnorte Incluya una descripción detallada de los antecedentes que llevaron a la creación del proyecto. Esta sección consta de tres partes:

Web Scripting es un método automático para obtener grandes cantidades de datos de un sitio web. La mayoría de estos datos son datos no estructurados en formato HTML, que luego se convierten en datos estructurados en una hoja de cálculo o base de datos para que puedan usarse en varias aplicaciones. Reddit tiene una API llamada Pushshift API que le permite acceder a sus datos en un formato estructurado.

Jenny no sabe cómo rastrear la web y categorizar el contenido. Entonces encontró a Mary, ella es una científica de datos para completar esta tarea. Entre ellos, Mary necesita eliminar los comentarios de las redes sociales y clasificarlos como tipos de dispositivos móviles, es decir, Android y iPhone.

● Utilice la API de eje de empuje para descartar el contenido de las publicaciones de Reddit en los últimos 75 días.

● Limpiar el conjunto de datos y prepararlo para el análisis.

● Realizar procesamiento de lenguaje natural en el conjunto de datos limpios.

● Realizar análisis de datos exploratorios.

● Implementar y evaluar modelos de regresión logística y modelos de clasificadores forestales aleatorios.

● Visualizar el desempeño de cada modelo de implementación.

En esta tarea, utilizaremos Jupyter Notebook para codificar, analizar y visualizar los datos. El trabajo de Mary comienza con la captura de los datos necesarios.

● La recuperación se realiza con la ayuda de la API push shift. Necesita obtener comentarios relacionados con «Android» y «iPhone».

● Se realiza mediante los siguientes puntos finales de API,

○ https://api.pushshift.io/reddit/search/comment?subreddit=iphone

○ https://api.pushshift.io/reddit/search/comment?subreddit=android

● Utilice parámetros como antes, después y tamaño para obtener datos de los últimos 75 días, con 100 comentarios por día para cada categoría de subreddit.

La limpieza de datos raspados es la siguiente,

● Complete el cheque vacío y elimínelo (si corresponde)

● La categoría de subreddit se asigna de la siguiente manera:

○ 0 – iPhone

○ 1 – Android

● Se completó el cambio de nombre de la columna.

● Exportar el conjunto de datos limpios.

La solución de Mary es usar el conjunto de datos para crear un modelo de clasificación para predecir el subreddit de revisiones. Ella creó dos modelos de clasificación diferentes, son,

● Modelo de regresión logística

● Modelo de clasificador de bosque aleatorio

Ambos modelos se instalaron con datos de entrenamiento y se validaron de forma cruzada. El modelo de regresión lineal tiene una mejor puntuación en la prueba de validación cruzada, lo que significa que es más adecuado que otros modelos.

A partir de la observación de varios parámetros de evaluación como la precisión, la validación cruzada y la matriz de confusión, se puede observar que existen diferencias significativas en el desempeño del modelo de regresión logística y el clasificador de bosque aleatorio. Ambos modelos funcionaron bien en los datos de prueba, con una tasa de precisión de> 70%. A veces podemos observar el desempeño similar de los dos modelos. El modelo de regresión logística tiene un rendimiento constante y una mayor precisión.

La solución se puede mejorar y utilizar en varias plataformas de redes sociales y foros para distinguir publicaciones reales de publicaciones violentas. Además, las publicaciones reales se pueden marcar como categorías apropiadas.

LEER  Google finalmente eliminó la versión de Android hace diez años

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba