ha demostrado que la frecuencia de palabras obedece a una ley de energía si las palabras se clasifican
desde los más a los menos frecuentes. Estadística lingüística, en su punto más bajo
nivel, puede ser ejemplificado por el exponente de Zipf, que es muy sensible a la
grado de instrucción del escritor, pero mucho menos sensibles a la lengua (la cultura ca -
características). Más allá de nivel de palabra, palabra de conectividad ha sido tratado en varias
modales. Estos tratamientos incluyen entrópicos medidas [3] y la construcción
de otras cantidades, como la distribución de documentos a través de la frecuencia de
palabras [4]. Otra interesante manera de tratar los datos es el análisis semántico latente
sis (LSA) [5], que trata de la palabra en un corpus de covarianza. BAE es uno de los principales
análisis de componentes (ACC), la técnica, es decir, la matriz de covarianza es diagonal -
ción y de los más importantes valores propios (alrededor de 300) los vectores propios
se considera que abarcan un espacio vectorial euclidiano. Una curiosa aplicación de
BAE es la clasificación automática de textos de secundaria [6]. Sin embargo, BAE ha sido
criticado como un mal enfoque semántico para la predicción de vecindario [7].
Otros estudios se han centrado en un enfoque diferente. Las palabras están vinculadas a cada
otras como eslabones de un gráfico donde las palabras son los nodos de la misma. Exhaustiva
estudios sobre tesauro [8,9] indican que las palabras se relacionan entre sí
como un pequeño mundo y libres de escala de red [10]. Esto significa que las palabras pueden ser
integrarse en un espacio de baja dimensión, pero con una pequeña fracción de larga distancia
conexiones. La existencia de las dimensiones espaciales de bajo ha sido sugerida por
la determinista "turísticos" camina [11,12] en el gráfico, que es una organización independiente
procedimiento de muestreo [13].
Un tesauro es una lista de términos. Un término puede ser una palabra, una palabra compuesta o
incluso una expresión. La lista de términos relacionados con un plazo de entrada principal (cabeza -
palabra), establece las alternativas para estas entradas. A raíz de los estudios anteriores, que
se consideran términos como "palabras" en un sentido amplio.
Como en un trabajo anterior [9], nuestro estudio se basa en el no estructurado tesauro, el
Moby Report II, que es el mayor 1 y el más amplio libre -
saurus fuente de datos disponible en Inglés [14]. Tiene 30.260 (principal), las entradas, también
llamado root palabras cabeza-2 o palabras 3 y 73.046 palabras que se refieren de
las entradas pero no las entradas. Se les llama no root palabras. Estos
añadir hasta 103.306 palabras diferentes. Cada palabra raíz puntos, en promedio, a 83
palabras 4.
El tesauro derivados red se define teniendo en cuenta cada término como un nodo.
Conexiones se establecen a partir de una entrada en su lista de términos relacionados con la formación

Firma Nuestro Libro de Visitas