The Pile (conjunto de datos)The Pile es un conjunto de datos diverso de código abierto de 886,03 GB de texto en inglés creado como un conjunto de datos de entrenamiento para modelos grandes de lenguaje (LLM). Fue construido por EleutherAI en 2020 y lanzado públicamente el 31 de diciembre de ese año. [1] Se compone de 22 conjuntos de datos más pequeños, incluidos 14 nuevos. [2] CreaciónLa formación de LLM requiere cantidades de datos suficientemente grandes como para que, antes de la introducción de Pile, la mayoría de los datos utilizados para la formación de LLM se tomaran del Common Crawl . Sin embargo, los LLM capacitados en conjuntos de datos más diversos son más capaces de manejar una gama más amplia de situaciones después de la capacitación. [3] La creación de Pile fue motivada por la necesidad de un conjunto de datos lo suficientemente grande que contuviera datos de una amplia variedad de fuentes y estilos de escritura. [4] En comparación con otros conjuntos de datos, las principales características distintivas de Pile son que es una selección curada de datos elegidos por investigadores de EleutherAI para contener información que pensaban que los modelos de lenguaje deberían aprender y que es el único conjunto de datos de este tipo que está completamente documentado por los investigadores que lo desarrollaron. [5] Contenidos y filtradoLas inteligencias artificiales no aprenden todo lo que pueden a partir de los datos en la primera pasada, por lo que es una práctica común entrenar una IA con los mismos datos más de una vez en cada pasada por todo el conjunto de datos, lo que se denomina "época" (epoch). [6] A cada uno de los 22 subconjuntos de datos que componen el Pile se le asignó un número diferente de épocas según la calidad percibida de los datos. La siguiente tabla muestra el tamaño relativo de cada uno de los 22 subconjuntos de datos antes y después de multiplicarlos por el número de épocas. Los números se han convertido a GB y se utilizan asteriscos para indicar los conjuntos de datos recién introducidos.
EleutherAI eligió los conjuntos de datos para tratar de cubrir una amplia gama de temas y estilos de escritura, incluida la escritura académica, con la que los modelos entrenados en otros conjuntos de datos tenían dificultades. Todos los datos utilizados en Pile se tomaron de fuentes de acceso público. Luego, EleutherAI filtró el conjunto de datos en su conjunto para eliminar duplicados. Algunos subconjuntos de datos también se filtraron para control de calidad. En particular, Pile-CC es una versión modificada del Common Crawl en el que los datos se filtraron para eliminar partes que no son texto, como el formato HTML y los enlaces. Algunos subconjuntos de datos potenciales se excluyeron por diversas razones, como el Registro del Congreso de EE. UU., que se excluyó debido a su contenido racista. [2] Dentro de los subconjuntos de datos que se incluyeron, los documentos individuales no se filtraron para eliminar texto que no estuviera en inglés, sesgado o profano. Tampoco se filtró sobre la base del consentimiento, lo que significa que, por ejemplo, Pile-CC tiene los mismos problemas éticos que el propio Common Crawl. Sin embargo, EleutherAI ha documentado la cantidad de prejuicios (por motivos de género, religión y raza) y malas palabras, así como el nivel de consentimiento otorgado para cada uno de los subconjuntos de datos, lo que permite a un investigador consciente de la ética utilizar solo esas partes. del Pile que cumplen con sus propios estándares. UsosPile se desarrolló originalmente para entrenar los modelos GPT-Neo de EleutherAI [7][8][9], pero se ha utilizado ampliamente para entrenar otros modelos, incluida la generación de lenguaje natural Megatron-Turing de Microsoft, [10][11]Meta AI. Open Pre-trained Transformers, [12] LLaMA, [13] y Galactica, [14] BioMedLM 2.7B de la Universidad de Stanford, [15] Chinese-Transformer-XL de la Academia de Inteligencia Artificial de Beijing, [16] y YaLM 100B de Yandex . Además de usarse como conjunto de datos de entrenamiento, Pile también se puede usar como punto de referencia para probar modelos y calificar su desempeño en una variedad de estilos de escritura. [1] [17] Eliminación de DMCAEl componente Books3 del conjunto de datos contiene material protegido por derechos de autor compilado de Bibliotik, un sitio web pirata. [18] En julio de 2023, Rights Alliance dio de baja copias de The Pile a través de avisos de DMCA. [19] [20] Referencias
Enlaces externos |