El Corpus del Nuevo diccionario histórico (CDH) consta de 409 103 465 registros, que se distribuyen en tres capas de consulta: - Corpus nuclear del NDHE, que cuenta con más de 62 millones de ocurrencias, de las cuales 38 pertenecen a textos españoles y más de 24 millones a obras americanas. También se contabilizan más de 8 000 signos de puntuación. Los textos que conforman el corpus (en buena medida, comunes al CORDE y al CREA) se han sometido a un proceso semiautomático de anotación lingüística (operación llevada a cabo por el Departamento de Tecnología de la Real Academia Española), lematización que constituye un punto de partida para el manejo de los datos en el trabajo lexicográfico. Posteriormente, en la Fundación Lapesa se desarrolló una interfaz de consulta para el CDH, aplicación que permite realizar una variada gama de consultas, motivo por el que se ha utilizado para la presentación de otros corpus de la Academia. - S. XII-1975. Conjunto de textos enmarcados entre el siglo XII y 1975, formado por una selección de obras procedentes del CORDE (Corpus diacrónico del español) de la Real Academia Española (con un total de 223 042 266 formas). Estas obras poseen una preanoanotación morfosintáctica, realizada con herramientas de software libre en el marco del proyecto del NDHE. - 1975-2000. Conjunto de obras datadas entre 1975 y 2000, con títulos procedentes del CREA (Corpus de referencia del español actual), anotados lingüísticamente por el Departamento de Tecnología de la Real Academia Española (con 123 794 031 registros).
El Corpus del Nuevo diccionario histórico (CDH) consta de 409 103 465 registros, que se distribuyen en tres capas de consulta:
- Corpus nuclear del NDHE, que cuenta con más de 62 millones de ocurrencias, de las cuales 38 pertenecen a textos españoles y más de 24 millones a obras americanas. También se contabilizan más de 8 000 signos de puntuación. Los textos que conforman el corpus (en buena medida, comunes al CORDE y al CREA) se han sometido a un proceso semiautomático de anotación lingüística (operación llevada a cabo por el Departamento de Tecnología de la Real Academia Española), lematización que constituye un punto de partida para el manejo de los datos en el trabajo lexicográfico. Posteriormente, en la Fundación Lapesa se desarrolló una interfaz de consulta para el CDH, aplicación que permite realizar una variada gama de consultas, motivo por el que se ha utilizado para la presentación de otros corpus de la Academia.
- S. XII-1975. Conjunto de textos enmarcados entre el siglo XII y 1975, formado por una selección de obras procedentes del CORDE (Corpus diacrónico del español) de la Real Academia Española (con un total de 223 042 266 formas). Estas obras poseen una preanoanotación morfosintáctica, realizada con herramientas de software libre en el marco del proyecto del NDHE.
- 1975-2000. Conjunto de obras datadas entre 1975 y 2000, con títulos procedentes del CREA (Corpus de referencia del español actual), anotados lingüísticamente por el Departamento de Tecnología de la Real Academia Española (con 123 794 031 registros).