ਪ੍ਰਸਨਲਾਈਜ਼ਡ ਸਰਚ ਲਈ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਮਾਡਲ
Embibe ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਸਿੱਖਣ ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਲੋੜੀਂਦੀ ਸਮੱਗਰੀ ਲੱਭਣ ਦਾ ਮੁੱਖ ਤਰੀਕਾ ਇੱਕ ਮੀਨੂ-ਸੰਚਾਲਿਤ ਨੈਵੀਗੇਸ਼ਨ ਸਿਸਟਮ ਦੀ ਬਜਾਏ Embibe ਦੇ ਵਿਅਕਤੀਗਤ ਖੋਜ ਇੰਜਣ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਹੈ। ਵੈੱਬ ਖੋਜ ਵਿੱਚ ਤਰੱਕੀ ਦੇ ਨਾਲ, ਉਪਭੋਗਤਾ ਅੱਜ ਉਮੀਦ ਕਰਦੇ ਹਨ ਕਿ ਖੋਜ ਨਤੀਜਿਆਂ ਦੇ ਪਹਿਲੇ ਪੰਨੇ ਵਿੱਚ ਉਹ ਜਾਣਕਾਰੀ ਦਾ ਸਹੀ ਹਿੱਸਾ ਸ਼ਾਮਲ ਹੋਵੇਗਾ ਜੋ ਉਹ ਲੱਭ ਰਹੇ ਹਨ।
Embibe ‘ਤੇ ਸਮੱਗਰੀ ਦੀ ਮਾਤਰਾ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ ਅਧਿਐਨ ਸਮੱਗਰੀ, ਵੀਡੀਓ, ਅਭਿਆਸ ਸਵਾਲ, ਟੈਸਟ, ਲੇਖ ਅਤੇ ਖਬਰਾਂ ਦੀਆਂ ਆਈਟਮਾਂ, ਪ੍ਰੀਖਿਆਵਾਂ, ਵਿਸ਼ਿਆਂ, ਇਕਾਈਆਂ, ਅਧਿਆਏ, ਸੰਕਲਪਾਂ ਸ਼ਾਮਲ ਹਨ। ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਾਰਵਾਈਯੋਗ ਸਮੱਗਰੀ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਲਈ, ਖੋਜ ਨਤੀਜੇ ਵਿਜੇਟ ਸੈੱਟਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਹਰੇਕ ਵਿਜੇਟ ਖੋਜ ਨਤੀਜਿਆਂ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤੇ ਨਤੀਜਿਆਂ ਦੇ ਸੰਗ੍ਰਹਿ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਸੰਬੰਧਿਤ ਕਾਰਵਾਈਯੋਗ ਲਿੰਕਾਂ ਅਤੇ ਸੰਬੰਧਿਤ ਗਿਆਨ ਗ੍ਰਾਫ਼ ਨੋਡਾਂ ਦੁਆਰਾ ਇਕੱਠੇ ਸਮੂਹ ਕੀਤਾ ਗਿਆ ਹੈ। Embibe ‘ਤੇ ਸਾਰੀਆਂ ਸਮੱਗਰੀਆਂ ਦੇ ਨਾਲ ਵੱਖ-ਵੱਖ ਵਿਜੇਟ ਕਿਸਮਾਂ ਜੁੜੀਆਂ ਹੋਈਆਂ ਹਨ, ਅਤੇ ਸਮੂਹ-ਪੱਧਰੀ ਉਪਭੋਗਤਾ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਨਾਲ, ਇਹ ਸਾਡੀ ਖੋਜ ਸਪੇਸ ਨੂੰ ~120 ਮਿਲੀਅਨ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਸੁਮੇਲ ਤੱਕ ਫੈਲਾਉਂਦਾ ਹੈ ਜਿਸ ਵਿੱਚੋਂ ਚੁਣੇ ਜਾਣ ਅਤੇ ਉਪਭੋਗਤਾ ਨੂੰ ਵਾਪਸ ਕੀਤੇ ਜਾਣ ਤੋਂ ਪਹਿਲਾਂ ਰੈਂਕ ਦਿੱਤੇ ਜਾਣ। Embibe ‘ਤੇ ਖੋਜ ਨਤੀਜਿਆਂ ਦੇ ਨਾਲ ਇਤਿਹਾਸਕ ਉਪਭੋਗਤਾ ਇੰਟਰੈਕਸ਼ਨ ਦਾ ਰੁਝਾਨ ਵਿਸ਼ਲੇਸ਼ਣ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਪਹਿਲੇ ਪੰਨੇ ‘ਤੇ ਹੀ ਚੋਟੀ ਦੇ ਵਿਜੇਟ ਸਥਿਤੀਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਢੁਕਵੀਂ ਜਾਣਕਾਰੀ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹਨ। ਇਸਲਈ, ਨਤੀਜਾ ਵਿਜੇਟਸ ਦਾ ਕ੍ਰਮ ਸਾਡੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਖੋਜ ਨੂੰ ਵਧੇਰੇ ਆਕਰਸ਼ਕ ਬਣਾਉਣ ਅਤੇ ਸਾਡੇ ਖੋਜ ਨਤੀਜਿਆਂ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਭੂਮਿਕਾ ਅਦਾ ਕਰਦਾ ਹੈ।
ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ [1] ਇੱਕ ਨਿਰੀਖਣ ਕੀਤੀ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਸਮੱਸਿਆ ਹੈ ਜੋ ਖੋਜ ਨਤੀਜਿਆਂ ਲਈ ਸਵੈਚਲਿਤ ਤੌਰ ‘ਤੇ ਇੱਕ ਰੈਂਕਿੰਗ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਹਰੇਕ ਪੁੱਛਗਿੱਛ ਲਈ, ਸਾਰੇ ਸੰਬੰਧਿਤ ਦਸਤਾਵੇਜ਼ ਇਕੱਠੇ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹਨਾਂ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਸਾਰਥਕਤਾ ਆਮ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਾਂ ਜਾਂ ਫੈਸਲਿਆਂ ਦੇ ਰੂਪ ਵਿੱਚ ਸਿਖਲਾਈ ਡੇਟਾ ਵਜੋਂ ਪ੍ਰਦਾਨ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਦਸਤਾਵੇਜ਼ ਦੀ ਸਾਰਥਕਤਾ ਦੀ ਵਰਤੋਂ ਫਿਰ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਮਾਡਲ ਨੂੰ ਸਿਖਿਅਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸਾਰੇ ਸਵਾਲਾਂ ਦੀ ਔਸਤ ਦਰਜਾਬੰਦੀ ਦੇ ਨਤੀਜਿਆਂ ਅਤੇ ਪ੍ਰਸੰਗਿਕਤਾ ਨਿਰਣੇ ਵਿਚਕਾਰ ਅੰਤਰ ਨੂੰ ਘੱਟ ਕਰਨ ਦੇ ਅਨੁਕੂਲਤਾ ਟੀਚੇ ਦੇ ਨਾਲ।
ਚਿੱਤਰ 1: Embibe ਦੇ ਵਿਅਕਤੀਗਤ ਸਮੱਗਰੀ ਖੋਜ ਇੰਜਣ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ। ਇੱਕ ਉਪਭੋਗਤਾ Embibe ‘ਤੇ ਵਿਅਕਤੀਗਤ ਸਮੱਗਰੀ ਖੋਜ ਇੰਜਣ ਲਈ ਇੱਕ ਪੁੱਛਗਿੱਛ ਕਰਦਾ ਹੈ। ਨਤੀਜੇ ਇੱਕ Elasticsearch ਕਲੱਸਟਰ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਅਤੇ ਇੱਕ ਪੋਸਟ-ਪ੍ਰੋਸੈਸਿੰਗ ਲੇਅਰ ਵਿੱਚ ਭੇਜੇ ਜਾਂਦੇ ਹਨ ਜੋ ਨਤੀਜਿਆਂ ਤੋਂ ਵਿਜੇਟ ਸੈੱਟ ਬਣਾਉਂਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਵਿਅਕਤੀਗਤਕਰਨ ਪਰਤ ਉਪਭੋਗਤਾ, ਪੁੱਛਗਿੱਛ ਅਤੇ ਵਿਜੇਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਅਧਾਰ ਤੇ ਵਿਜੇਟ ਸੈੱਟਾਂ ਨੂੰ ਮੁੜ-ਰੈਂਕ ਦੇਣ ਲਈ ਇੱਕ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਮਾਡਲ ਇੱਕ ਨਿਰੀਖਣ ਕੀਤਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਹੈ ਜੋ ਵਿਜੇਟ ਰੈਂਕਿੰਗ ਸਮੱਸਿਆ ਨੂੰ ਨਤੀਜਾ ਵਿਜੇਟਸ ‘ਤੇ ਉਪਭੋਗਤਾ ਕਲਿੱਕਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੇ ਰੂਪ ਵਿੱਚ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਨੂੰ ਉਪਭੋਗਤਾ ਦੁਆਰਾ ਕੀਤੇ ਸਵਾਲਾਂ ਦੇ ਵਿਰੁੱਧ ਵਿਜੇਟਸ ‘ਤੇ ਇਤਿਹਾਸਕ ਉਪਭੋਗਤਾ ਕਲਿੱਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।
ਕਿਉਂਕਿ Embibe ‘ਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਵਿਜੇਟਸ ਵਿੱਚ ਸਮੂਹਬੱਧ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕਿ ਪਹਿਲੇ ਕ੍ਰਮ ਦੇ ਨਤੀਜਿਆਂ ਤੋਂ ਪੁੱਛਗਿੱਛ ਤੱਕ ਵਿਸਤ੍ਰਿਤ ਕੀਤੇ ਗਏ ਹਨ, ਰੈਂਕਿੰਗ ਫੰਕਸ਼ਨ ਨੂੰ ਵਿਜੇਟਸ ‘ਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਇਸ ਲਈ, ਸਾਡੇ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਕੋਈ ਵੀ ਪਹਿਲਾਂ ਤੋਂ ਮੌਜੂਦ ਖੋਜ ਇੰਜਣ ਜੋ ਬਿਲਟ-ਇਨ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਕਾਰਜਕੁਸ਼ਲਤਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ Elasticsearch v6.0 ਉੱਪਰ ਵੱਲ, ਹੱਲ ਪ੍ਰਦਾਨ ਕਰਨ ਦੇ ਯੋਗ ਨਹੀਂ ਹੋਵੇਗਾ। ਸਾਡਾ ਵਿਅਕਤੀਗਤ ਖੋਜ ਇੰਜਣ ਜੋ ਉਪਭੋਗਤਾ ਸਵਾਲਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਸਮੱਗਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਉਪਭੋਗਤਾ ਸਮੂਹ ਅਸਾਈਨਮੈਂਟਾਂ, ਇਤਿਹਾਸਕ ਖੋਜ ਰੁਝਾਨਾਂ, ਸਮੱਗਰੀ ਦੀ ਖਪਤ ਦੇ ਪੈਟਰਨਾਂ, ਪ੍ਰੀਖਿਆ-ਅਧਾਰਿਤ ਸਮੱਗਰੀ ਮਹੱਤਤਾ ਅਤੇ ਪਿਛਲੇ ਉਪਭੋਗਤਾ ਇੰਟਰੈਕਸ਼ਨ ਦੇ ਆਧਾਰ ‘ਤੇ ਪਹਿਲੇ ਕ੍ਰਮ ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਦਰਜਾ ਦਿੰਦਾ ਹੈ, ਅਜਿਹੇ 25 ਭਾਰ ਵਾਲੇ ਕਾਰਕਾਂ ਵਿੱਚੋਂ।
ਹਾਲਾਂਕਿ ਇਹ ਪਹੁੰਚ ਖੋਜ ਨਤੀਜਿਆਂ ‘ਤੇ ਪਿਛਲੇ ਉਪਭੋਗਤਾ ਕਲਿੱਕ ਡੇਟਾ ਦੇ ਅਧਾਰ ‘ਤੇ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦੀ ਹੈ, ਇਹ ਪੁੱਛਗਿੱਛ-ਅਧਾਰਤ ਉਪਭੋਗਤਾ ਇੰਟਰੈਕਸ਼ਨ ਜਾਂ ਪੁੱਛਗਿੱਛ-ਦਸਤਾਵੇਜ਼ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਨ ਜਾਂ ਖਾਸ ਤੌਰ ‘ਤੇ ਸਾਡੇ ਵਰਤੋਂ-ਕੇਸ ਵਿੱਚ, ਪੁੱਛਗਿੱਛ-ਵਿਜੇਟ ਜੋੜਿਆਂ ਨੂੰ ਉੱਚ ਅਯਾਮੀ ਸਪੇਸ ਵਿੱਚ ਪੇਸ਼ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਦੇ ਪ੍ਰੋਜੈਕਟਿੰਗ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਨਹੀਂ ਰੱਖਦਾ। ਉਪਭੋਗਤਾ ਸਵਾਲਾਂ ਲਈ ਪ੍ਰਸੰਗਿਕਤਾ। ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਫਰੇਮਵਰਕ n-ਅਯਾਮੀ ਸਪੇਸ ਵਿੱਚ ਇੱਕ ਪੁੱਛਗਿੱਛ ਦੇ ਵਿਰੁੱਧ ਸੈੱਟ ਕੀਤੇ ਨਤੀਜੇ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਕੇ ਅਤੇ ਸਮੱਸਿਆ ਨੂੰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਮੱਸਿਆ ਜਿਵੇਂ ਕਿ ਰਿਗਰੈਸ਼ਨ ਜਾਂ ਵਰਗੀਕਰਨ ਜਾਂ ਮੁਲਾਂਕਣ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਕੇ ਰੈਂਕਿੰਗ ਨੂੰ ਸਿੱਖ ਕੇ ਇਸ ਕਮੀ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ।
ਆਮ ਤੌਰ ‘ਤੇ, ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਐਲਗੋਰਿਦਮ ਪੁੱਛਗਿੱਛ-ਦਸਤਾਵੇਜ਼ ਜੋੜਿਆਂ ਜਾਂ ਸੂਚੀਆਂ ‘ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਕਿਉਂਕਿ ਹਰੇਕ ਪੁੱਛਗਿੱਛ ਵਿਜੇਟ ਕਿਸਮਾਂ ਦੇ ਵੱਖ-ਵੱਖ ਸੈੱਟ ਪੈਦਾ ਕਰੇਗੀ ਅਤੇ ਅਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਦਰਜਾਬੰਦੀ ਨੂੰ ਵਿਅਕਤੀਗਤ ਬਣਾਉਣਾ ਵੀ ਚਾਹਾਂਗੇ, ਅਸੀਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀਆਂ ਤਿੰਨ ਸ਼੍ਰੇਣੀਆਂ ‘ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਹੈ; ਅਰਥਾਤ ਉਪਭੋਗਤਾ, ਪੁੱਛਗਿੱਛ ਅਤੇ ਵਿਜੇਟ। ਅਸੀਂ ਉਪਭੋਗਤਾ ਪ੍ਰੋਫਾਈਲ, ਪੁੱਛਗਿੱਛ ਜਾਣਕਾਰੀ ਅਤੇ ਨਤੀਜਿਆਂ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤੇ ਚੋਟੀ ਦੇ ਵਿਜੇਟਸ ਦੇ ਸੁਮੇਲ ਤੋਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਉਪਭੋਗਤਾ ਦੁਆਰਾ ਕੀਤੀ ਹਰੇਕ ਪੁੱਛਗਿੱਛ ਦੇ ਵਿਰੁੱਧ ਸਾਡੇ ਡੇਟਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਾਂ। ਵਿਜੇਟ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚ ਵਿਜੇਟ ਦੀ ਕਿਸਮ, ਵਿਜੇਟ ਲੰਬਕਾਰੀ, ਇਤਿਹਾਸਕ ਬ੍ਰਾਊਜ਼ ਪ੍ਰਸਿੱਧੀ, ਕੀ ਪੁੱਛਗਿੱਛ ਸ਼ਬਦ ਵਿਜੇਟ ਨਾਮ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਆਦਿ ਸ਼ਾਮਲ ਹਨ। ਪੁੱਛਗਿੱਛ ਲਈ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ ਕਿ ਕੀ ਖਾਸ ਇਰਾਦਾ ਖੋਜਿਆ ਗਿਆ ਸੀ, ਪੁੱਛਗਿੱਛ ਦੀ ਲੰਬਾਈ, ਮਿਆਦ ਦੀ ਬਾਰੰਬਾਰਤਾ-ਉਲਟਾ ਦਸਤਾਵੇਜ਼ ਬਾਰੰਬਾਰਤਾ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ। ਪੁੱਛਗਿੱਛ, ਆਦਿ। ਉਪਭੋਗਤਾ ਵਿਅਕਤੀਗਤਕਰਨ ਲਈ ਲੇਖਾ ਜੋਖਾ ਕਰਨ ਲਈ, ਅਸੀਂ ਉਪਭੋਗਤਾ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਿਵੇਂ ਉਪਭੋਗਤਾ ਸ਼ਮੂਲੀਅਤ ਸਮੂਹ, ਉਪਭੋਗਤਾ ਪ੍ਰਦਰਸ਼ਨ ਸਮੂਹ, ਉਪਭੋਗਤਾ ਦਾ ਪ੍ਰਾਇਮਰੀ ਟੀਚਾ, ਆਦਿ ਨੂੰ ਵੀ ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ। ਖੋਜੀ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਸਬੰਧ ਮੈਟ੍ਰਿਕਸ ਦਾ ਅਧਿਐਨ, ਆਪਸੀ ਜਾਣਕਾਰੀ ਸਕੋਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬੇਲੋੜੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਖਤਮ ਕੀਤਾ ਜਾਂਦਾ ਹੈ [2] ਅਤੇ ਅਯਾਮ ਵਿੱਚ ਕਮੀ।
ਅਸੀਂ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ਨੂੰ ਇੱਕ ਪੂਰਵ-ਅਨੁਮਾਨ ਸਮੱਸਿਆ ਤੱਕ ਘਟਾ ਦਿੱਤਾ ਹੈ ਜਿਸ ਵਿੱਚ ਅਸੀਂ ਉਪਭੋਗਤਾ, ਪੁੱਛਗਿੱਛ ਅਤੇ ਵਿਜੇਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਕਿਸੇ ਖਾਸ ਵਿਜੇਟ ‘ਤੇ ਉਪਭੋਗਤਾ ਕਲਿੱਕ ਦੀ ਸੰਭਾਵਨਾ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੇ ਹਾਂ। ਇਤਿਹਾਸਕ ਉਪਭੋਗਤਾ ਸਵਾਲਾਂ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਕਲਿੱਕ ਇੰਟਰੈਕਸ਼ਨ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਕਲਿੱਕ ਕੀਤੀ ਸਥਿਤੀ ਅਤੇ ਉੱਪਰਲੇ ਵਿਜੇਟਸ ‘ਤੇ ਵਿਚਾਰ ਕਰਦੇ ਹਾਂ। ਇਹ ਸਾਨੂੰ ਡੇਟਾ ਸੈੱਟ ਦੀ ਤੁਲਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਸੰਤੁਲਿਤ ਵੰਡ ਦਿੰਦਾ ਹੈ ਕਿਉਂਕਿ ਇਤਿਹਾਸਕ ਤੌਰ’ ਤੇ, ਉਪਭੋਗਤਾ ਉੱਚ ਵਿਜੇਟਸ ‘ਤੇ ਕਲਿੱਕ ਕਰਦੇ ਹਨ। ਇੱਕ ਵਰਗੀਕਰਨ ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਅਸੀਂ ਇੱਕ ਵਿਜੇਟ ‘ਤੇ ਇੱਕ ਕਲਿੱਕ ਦੀ ਸੰਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਇਹ ਪਹੁੰਚ ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਇੱਕ ਚੰਗੀ ਬੇਸਲਾਈਨ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜਿੱਥੇ ਨਤੀਜਿਆਂ ਨੂੰ ਹੋਰ ਦੁਹਰਾਓ ਲਈ ਆਸਾਨੀ ਨਾਲ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਅਸੀਂ, ਇਸ ਲਈ, ਇਸ ਪਹੁੰਚ ਲਈ ਸਾਡੀ ਪਹਿਲੀ ਪਸੰਦ ਵਜੋਂ ਲੌਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ [3] ਨੂੰ ਚੁਣਿਆ ਹੈ।
ਸਾਡੇ ਪ੍ਰਯੋਗਾਂ ਲਈ, ਕੰਮ ਇਹ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਸੀ ਕਿ ਕੀ ਕਿਸੇ ਦਿੱਤੀ ਸਥਿਤੀ ‘ਤੇ ਵਿਜੇਟ ਨੂੰ ਕਲਿੱਕ ਕੀਤਾ ਜਾਵੇਗਾ ਜਾਂ ਉਪਭੋਗਤਾ ਅਤੇ ਪੁੱਛਗਿੱਛ ਦੇ ਕੁਝ ਸੁਮੇਲ ਲਈ ਨਹੀਂ। ਅਸੀਂ ਸਿਰਫ ਸੰਖਿਆਤਮਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਹੈ ਜਿਵੇਂ ਕਿ ਬ੍ਰਾਊਜ਼ ਪ੍ਰਸਿੱਧੀ, ਇਮਤਿਹਾਨ ਦਾ ਭਾਰ, ਪੁੱਛਗਿੱਛ ਦੀ ਲੰਬਾਈ, ਆਦਿ ਅਤੇ ਇਸ ਨੂੰ ਬੇਸਲਾਈਨ ਪ੍ਰਦਰਸ਼ਨ ਵਜੋਂ ਵਰਤਦੇ ਹਾਂ। ਵਿਜੇਟ ਦੀ ਕਿਸਮ, ਉਪਭੋਗਤਾ ਸਮੂਹ, ਪੁੱਛਗਿੱਛ ਟੀਚਿਆਂ, ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਵਰਗੀਕਰਣ ਡੇਟਾ ਨੂੰ ਵਿਸਤ੍ਰਿਤ ਵਿਸ਼ੇਸ਼ਤਾ ਸੈੱਟ ਵਿੱਚ ਜੋੜਨ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਕਲਿੱਕ ਪੂਰਵ-ਅਨੁਮਾਨ ਕਾਰਜ ‘ਤੇ ਸ਼ੁੱਧਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੋਵਾਂ ਵਿੱਚ ~6% ਦਾ ਸੁਧਾਰ ਹੋਇਆ ਹੈ। ਅਸੀਂ ਫਿਰ ਸਵਾਲਾਂ ਤੋਂ ਐਕਸਟਰੈਕਟ ਕੀਤੀਆਂ ਚੋਟੀ ਦੀਆਂ 1,500 TF-IDF ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਜੋੜਿਆ, ਅਤੇ ਇਸ ਨਾਲ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ~ 1% ਸੁਧਾਰ ਹੋਇਆ ਹੈ ਜੋ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਪੁੱਛਗਿੱਛਾਂ ਤੋਂ ਹੋਰ ਟੈਕਸਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ। ਇਸ ਪਹੁੰਚ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ Embibe ਦੇ ਵਿਅਕਤੀਗਤ ਸਮੱਗਰੀ ਖੋਜ ਇੰਜਣ ਲਈ ਲਰਨਿੰਗ-ਟੂ-ਰੈਂਕ ‘ਤੇ ਹੋਰ ਖੋਜ ਦੁਹਰਾਓ ਲਈ ਬੇਸਲਾਈਨ ਵਜੋਂ ਵਰਤਿਆ ਜਾਵੇਗਾ।
ਹਵਾਲੇ:
- ਲਿਊ ਟੀ., “ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤੀ ਲਈ ਦਰਜਾਬੰਦੀ ਕਰਨਾ ਸਿੱਖਣਾ।”, ਸੂਚਨਾ ਪ੍ਰਾਪਤੀ 3.3 (2009): 225-331 ਵਿੱਚ ਫਾਊਂਡੇਸ਼ਨ ਅਤੇ ਰੁਝਾਨ®।
- ਕ੍ਰਾਸਕੋਵ ਏ., ਸਟੋਗਬਾਉਰ ਕੇ. ਅਤੇ ਗ੍ਰਾਸਬਰਗਰ ਪੀ., “ਆਪਸੀ ਜਾਣਕਾਰੀ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ।”, ਭੌਤਿਕ ਸਮੀਖਿਆ E 69.6 (2004): 066138
- ਕੋਕਸ ਡੀ.ਆਰ., “ਬਾਇਨਰੀ ਕ੍ਰਮਾਂ ਦਾ ਰਿਗਰੈਸ਼ਨ ਵਿਸ਼ਲੇਸ਼ਣ.”, ਰਾਇਲ ਸਟੈਟਿਸਟੀਕਲ ਸੋਸਾਇਟੀ ਦਾ ਜਰਨਲ। ਸੀਰੀਜ਼ ਬੀ (ਵਿਵਸਥਾ ਸੰਬੰਧੀ) (1958): 215-242.